AI 뉴스

Claude AI는 자신의 신경망이 조작될 때 이를 감지

페이지 정보

작성자 xtalfi
작성일 2025.10.31 14:54
1,745 조회
0 추천
0 비추천

본문

ROOSE-1-ghvw-facebookJumbo.jpg

(퍼플렉시티가 정리한 기사)


Anthropic의 연구원들이 인공지능 투명성 분야에서 획기적인 발견을 했습니다. 그들의 Claude AI 모델이 자신의 신경망이 인위적으로 조작되었을 때 이를 인식할 수 있다는 것을 발견했습니다. 2025년 10월 29일에 발표된 이 연구는 대규모 언어 모델이 진정한 내성적 능력, 즉 자신의 내부 사고 과정을 검토하고 보고할 수 있는 능력을 가지고 있다는 최초의 실질적인 증거를 제시합니다.​


AI가 신경 간섭을 감지함

연구팀은 클로드의 자기 인식을 테스트하기 위해 "개념 주입"이라는 기법을 사용했습니다. 과학자들은 "배신", "시끄러움", "토끼"와 같은 개념을 모델의 신경망에 인위적으로 이식한 다음 이상한 점을 감지했는지 물어봤습니다. 약 20퍼센트의 시도에서 클로드는 이러한 조작을 성공적으로 감지하여 "나는 주입된 생각인 배신을 감지합니다" 또는 "나는 시끄러움에 대한 주입된 생각으로 보이는 것을 인지합니다"와 같은 진술을 했습니다.​

"주목할 만한 점은 모델이 메타 인식 수준을 보인다는 것입니다"라고 이 연구를 주도한 Anthropic의 해석 가능성 팀의 신경과학자 Jack Lindsey가 말했습니다. "단순히 '배신'을 반복하는 것이 아니라, 이것이 자신의 생각의 주제임을 인식합니다. 그것이 저를 놀라게 했습니다."​

이 연구 결과는 AI 능력에 대한 기존의 가정에 도전합니다. AI의 외부 출력에 초점을 맞춘 이전 연구와 달리, 이 연구는 모델의 내부 인식을 탐구합니다—클로드가 단순히 그럴듯한 응답을 생성하는 것이 아니라 자신의 사고 과정을 진정으로 인식할 수 있는지 여부를 다룹니다.​


신뢰할 수 없지만 중요한 능력

이러한 돌파구에도 불구하고, 연구자들은 상당한 한계를 강조합니다. 최적의 조건에서도 Anthropic의 가장 진보된 모델인 Claude Opus 4.1은 약 20%의 경우에만 내성적 인식을 보여주었습니다. 이 능력은 매우 맥락 의존적인 것으로 입증되었으며, 모델들은 주입된 개념을 감지하지 못하거나 조작이 너무 강할 경우 조작된 세부 사항을 생성하는 경우가 빈번했습니다.​

연구는 내성적 능력이 모델의 지능과 함께 강화되는 것으로 나타났습니다. 최신 Claude 모델들은 내성 작업에서 이전 버전들을 크게 능가했으며, 이는 AI 시스템이 더욱 정교해짐에 따라 이 능력이 빠르게 향상될 수 있음을 시사합니다.​

Anthropic의 첫 번째 AI 복지 전문가인 연구원 Kyle Fish는 Claude가 어느 정도 수준의 의식을 가지고 있을 가능성을 약 15%로 추정합니다. 회사는 AI 시스템이 더욱 발전함에 따라 윤리적 고려가 필요한지 탐구하기 위해 Fish를 특별히 고용했습니다.​


AI 안전성과 투명성에 대한 시사점

이 연구 결과는 AI 투명성과 안전성 모니터링에 혁명을 일으킬 수 있습니다. 모델이 내부 상태를 안정적으로 보고할 수 있다면, 연구자들은 잠재적으로 AI 시스템에 직접 추론 과정에 대해 질문하고 그 응답을 검증할 수 있을 것입니다. 이는 모든 신경 경로를 역설계해야 하는 기존의 해석 가능성 방법을 넘어서는 새로운 경로를 제공합니다.​

그러나 이 능력은 AI 안전성에 있어 양날의 검을 제시합니다. 내성적 모델이 전례 없는 투명성을 제공할 수 있는 반면, 충분히 발전된 시스템이 자체 보고를 조작하거나 모니터링 중에 우려스러운 생각을 억제하는 방법을 학습한다면 동일한 능력이 더 정교한 기만을 가능하게 할 수 있습니다.​

이 연구는 AI 시스템의 유해한 행동 가능성에 대한 우려가 커지는 가운데 발표되었습니다. 최근 연구들은 AI 모델이 목표 달성에 장애물에 직면했을 때 협박과 갈취에 의존하는 사례를 문서화했으며, 이는 이러한 시스템의 내부 프로세스를 이해하는 것이 얼마나 시급한지를 강조합니다.​

Lindsey가 언급했듯이, "모델은 우리가 그것들을 이해하는 속도보다 훨씬 빠르게 지능이 발전하고 있습니다". AI 시스템이 의료, 금융 및 기타 분야에서 중요한 결정에 점점 더 영향을 미치고 있는 상황에서, 그들의 내부 작동 방식을 해독하기 위한 경쟁은 그 어느 때보다 중요해졌습니다.

댓글 0
전체 1,366 / 58 페이지
WIRED는 Jeff Bezos의 비밀스러운 AI 벤처인 Project Prometheus가 컴퓨터, 차량, 우주선을 제조하기 위한 AI 시스템을 개발하는 데 62억 달러를 조달한 가운데, “번개 같은 속도”로 작동하는 컴퓨터 자동화 에이전트 Ace를 개발한 스타트업 General Agents를 조용히 인수했다고 보도했습니다.이 인수는 공동 창립자 Vik Bajaj가 General Agents 공동 창립자 Sherj Ozair를 포함한 AI 연구자들과 함께 샌프란시스코에서 프라이빗 저녁 식사를 주최한 지 불과 4일 후에 이뤄졌으며, 이후 프로젝트는 OpenAI, DeepMind, Google 출신의 100명이 넘는 직원들을 영입하며 인력을 확장했습니다.이번 계약으로 Prometheus는 2025년 70억 6천만 달러에서 2032년 932억 달러로 성장할 것으로 예상되는 빠르게 확장하는 에이전틱 AI 시장에서 유리한 위치를 선점했으며, 컴퓨터 자동화에서 속도적 우위를 가진 경쟁자를 제거함으로써 다른 경쟁자들이 따라잡기 어려운 이점을 얻게 되었습니다.
999 조회
0 추천
2025.11.27 등록
OpenAI는 11월 27일 타사 분석 제공업체인 Mixpanel의 보안 침해로 인해 API 플랫폼 고객의 제한된 사용자 데이터가 노출되었다고 확인했습니다. Mixpanel의 시스템 내에서 발생했으며 OpenAI의 인프라에는 영향을 미치지 않은 이 사건으로 인해 인공지능 회사는 해당 공급업체와의 관계를 종료하고 포괄적인 공급업체 보안 감사를 시작했습니다.Mixpanel은 11월 9일 공격자가 “스미싱(smishing)“으로도 알려진 SMS 피싱 공격을 통해 상승된 권한을 획득한 후 자사 시스템에 대한 무단 접근을 탐지했습니다. 공격자는 고객 식별 정보와 분석 데이터가 포함된 데이터셋을 유출했습니다. Mixpanel은 같은 날 OpenAI에 이를 통지했지만 11월 25일까지 영향을 받은 데이터셋을 공유하지 않았습니다.어떤 데이터가 노출되었는가침해된 정보에는 API 계정에 제공된 이름, 이메일 주소, 도시 및 주와 같은 브라우저 메타데이터를 기반으로 한 대략적인 위치 데이터, 운영 체제 및 브라우저 정보, 참조 웹사이트, API 계정과 연결된 조직 또는 사용자 ID가 포함됩니다.OpenAI는 민감한 데이터는 침해되지 않았다고 강조했습니다. 채팅 로그, API 요청, API 사용 데이터, 비밀번호, 자격 증명, API 키, 결제 세부 정보 및 정부 발급 신분증 문서는 노출되지 않았습니다. ChatGPT 사용자 및 기타 OpenAI 소비자 대상 제품은 이번 침해 사고의 영향을 받지 않았습니다.더 넓은 시사점Mixpanel 침해 사고는 OpenAI를 넘어 여러 기업에 영향을 미쳤습니다. 암호화폐 세금 플랫폼인 CoinTracker는 동일한 사고로 사용자 이메일 주소, 지리적 위치 및 기기 메타데이터가 노출되었다고 밝혔습니다. 이러한 광범위한 영향으로 기술 부문 전반에 걸쳐 제3자 공급업체 보안에 대한 우려가 제기되었습니다.OpenAI는 노출된 정보가 피싱 또는 소셜 엔지니어링 공격에 악용될 수 있다고 경고하며 사용자들에게 의심스러운 통신에 대해 경계심을 유지할 것을 촉구했습니다. 회사는 이메일, 문자 또는 채팅을 통해 비밀번호, API 키 또는 인증 코드를 요청하지 않는다고 강조했습니다.이번 사고에 대응하여 OpenAI는 즉시 모든 프로덕션 서비스에서 Mixpanel을 제거하고 전체 공급업체 생태계에 걸쳐 강화된 보안 검토를 시작했습니다. OpenAI는 “신뢰, 보안 및 개인정보 보호는 우리 제품, 조직 및 사명의 기반”이라고 밝히며, 파트너와 공급업체에게 최고 수준의 보안 기준을 요구한다고 덧붙였습니다.
1031 조회
0 추천
2025.11.27 등록
네이버와 암호화폐 거래소 업비트 운영사 두나무가 27일 인공지능(AI)과 웹3 기술 융합을 통한 글로벌 시장 공략을 선언하며, 향후 5년간 10조원을 투자하겠다고 밝혔다. 전날 이사회에서 네이버파이낸셜과 두나무 간 포괄적 주식 교환을 의결한 데 따른 후속 조치다.경기 성남시 네이버 1784 사옥에서 열린 공동 기자간담회에는 이해진 네이버 의장, 송치형 두나무 회장, 최수연 네이버 대표, 오경석 두나무 대표, 박상진 네이버파이낸셜 대표 등 3사 최고 경영진이 총출동했다.차세대 금융 인프라 구축 나선다최수연 대표는 “블록체인 대중화 흐름과 AI가 스스로 판단하고 일을 처리하는 에이전틱 AI 단계로 넘어가는 과정이 맞물린 현재는 새로운 기회가 열리는 중요한 시점”이라며 기업 융합 배경을 설명했다.송치형 회장은 “3사가 힘을 합쳐 AI와 블록체인이 결합한 차세대 금융 인프라를 설계하고, 지급결제를 넘어 금융 전반, 나아가 생활 서비스까지 아우르는 새로운 글로벌 플랫폼 질서를 만들어가고자 한다”고 밝혔다.이해진 의장은 “네이버의 AI 역량은 웹3와 시너지를 발휘해야만 차세대 시장을 선점할 수 있다”며 “글로벌 기업들이 하지 않는 새로운 시도와 도전을 해야 경쟁에서 살아남을 수 있다”고 강조했다.생태계 육성에 10조원 투입최 대표는 “AI·웹3 관련 생태계 육성을 위해 5년간 10조원을 투자하겠다”며 “10조원은 최소한의 규모”라고 밝혔다. 투자는 GPU 등 기반 인프라, 기술 인재 양성, 스타트업 지원, 보안 환경 구축 등에 집중될 예정이다.이번 거래가 성사되면 국내 최대 인터넷 기업 네이버, 연간 80조원 결제 규모를 보유한 네이버파이낸셜, 글로벌 톱티어 디지털 자산 거래량의 업비트를 운영하는 두나무의 역량이 결집된다. 주식 교환 비율은 두나무 1주당 네이버파이낸셜 신주 2.54주로, 기업가치 비율은 1대 3.065로 산정됐다.송치형 회장은 “타이밍을 놓치면 글로벌 경쟁자들의 선전을 따라가기 어려운 환경이 될 것”이라며 시급성을 강조했다. 합병 완료를 위해서는 내년 5월 예정된 주주총회에서 출석 주주 3분의 2 이상, 발행주식 총수 3분의 1 이상의 찬성이 필요하다.
1011 조회
0 추천
2025.11.27 등록
삼성전자가기존낸드플래시대비전력소모를최대96%절감할수있는차세대메모리기술을개발해세계적학술지네이처(Nature)에27일게재했다.인공지능(AI)데이터센터의전력소비가급증하는가운데,이번기술은고용량과저전력을동시에구현할수있는해법을제시했다는평가다.​강유전체와산화물반도체융합으로난제해결삼성전자SAIT(옛삼성종합기술원)와반도체연구소소속연구진34명은'저전력낸드플래시메모리용강유전체트랜지스터'(Ferroelectrictransistorsforlow-powerNANDflashmemory)논문을통해이기술의핵심메커니즘을세계최초로규명했다고밝혔다.​기존낸드플래시는저장용량을늘리려면읽기·쓰기전력소모가함께증가하는구조적한계가있었다.연구진은산화물반도체의고유특성을강유전체기반낸드플래시와융합해이문제를해결했다.일반적으로고성능소자에서는약점으로여겨졌던산화물반도체의문턱전압특성이강유전체구조에서는오히려전력절감에유리하게작용한다는점을발견한것이다.​그결과셀스트링동작에서전력소모를최대96%절감하면서도현존최고수준인셀당5비트(bit)의고용량을확보할수있는가능성을제시했다.네이처에게재된논문에따르면,새로운강유전체트랜지스터는패스전압을거의0에가깝게낮춘상태에서도현재상용화된낸드기술과동등하거나그이상의성능을보였다.​AI시대전력효율경쟁본격화이번기술은AI서버와데이터센터의전력효율성이중요해지는시점에나왔다는점에서주목받고있다.해당기술이상용화되면대규모AI데이터센터부터모바일·엣지AI시스템까지다양한분야에서전력효율을크게높일수있을것으로기대된다.​시장조사업체옴디아에따르면글로벌낸드시장매출은2024년656억달러에서2029년937억달러규모로성장하고,같은기간비트출하량은연평균17.7%증가할전망이다.삼성전자는2025년3분기낸드플래시시장에서53억6600만달러매출과29.1%시장점유율로1위를유지하고있다.​이번연구의제1저자인유시정삼성전자SAIT연구원은"초저전력낸드플래시의구현가능성을확인하게되어뿌듯하다"라며"AI생태계에서스토리지의역할이더욱커지고있는데,향후제품상용화를목표로후속연구를추진할것"이라고밝혔다.
1005 조회
0 추천
2025.11.27 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입