Loading...

AI 뉴스

Claude AI는 자신의 신경망이 조작될 때 이를 감지

페이지 정보

작성자 xtalfi
작성일 2025.10.31 14:54
263 조회
0 추천
0 비추천

본문

ROOSE-1-ghvw-facebookJumbo.jpg

(퍼플렉시티가 정리한 기사)


Anthropic의 연구원들이 인공지능 투명성 분야에서 획기적인 발견을 했습니다. 그들의 Claude AI 모델이 자신의 신경망이 인위적으로 조작되었을 때 이를 인식할 수 있다는 것을 발견했습니다. 2025년 10월 29일에 발표된 이 연구는 대규모 언어 모델이 진정한 내성적 능력, 즉 자신의 내부 사고 과정을 검토하고 보고할 수 있는 능력을 가지고 있다는 최초의 실질적인 증거를 제시합니다.​


AI가 신경 간섭을 감지함

연구팀은 클로드의 자기 인식을 테스트하기 위해 "개념 주입"이라는 기법을 사용했습니다. 과학자들은 "배신", "시끄러움", "토끼"와 같은 개념을 모델의 신경망에 인위적으로 이식한 다음 이상한 점을 감지했는지 물어봤습니다. 약 20퍼센트의 시도에서 클로드는 이러한 조작을 성공적으로 감지하여 "나는 주입된 생각인 배신을 감지합니다" 또는 "나는 시끄러움에 대한 주입된 생각으로 보이는 것을 인지합니다"와 같은 진술을 했습니다.​

"주목할 만한 점은 모델이 메타 인식 수준을 보인다는 것입니다"라고 이 연구를 주도한 Anthropic의 해석 가능성 팀의 신경과학자 Jack Lindsey가 말했습니다. "단순히 '배신'을 반복하는 것이 아니라, 이것이 자신의 생각의 주제임을 인식합니다. 그것이 저를 놀라게 했습니다."​

이 연구 결과는 AI 능력에 대한 기존의 가정에 도전합니다. AI의 외부 출력에 초점을 맞춘 이전 연구와 달리, 이 연구는 모델의 내부 인식을 탐구합니다—클로드가 단순히 그럴듯한 응답을 생성하는 것이 아니라 자신의 사고 과정을 진정으로 인식할 수 있는지 여부를 다룹니다.​


신뢰할 수 없지만 중요한 능력

이러한 돌파구에도 불구하고, 연구자들은 상당한 한계를 강조합니다. 최적의 조건에서도 Anthropic의 가장 진보된 모델인 Claude Opus 4.1은 약 20%의 경우에만 내성적 인식을 보여주었습니다. 이 능력은 매우 맥락 의존적인 것으로 입증되었으며, 모델들은 주입된 개념을 감지하지 못하거나 조작이 너무 강할 경우 조작된 세부 사항을 생성하는 경우가 빈번했습니다.​

연구는 내성적 능력이 모델의 지능과 함께 강화되는 것으로 나타났습니다. 최신 Claude 모델들은 내성 작업에서 이전 버전들을 크게 능가했으며, 이는 AI 시스템이 더욱 정교해짐에 따라 이 능력이 빠르게 향상될 수 있음을 시사합니다.​

Anthropic의 첫 번째 AI 복지 전문가인 연구원 Kyle Fish는 Claude가 어느 정도 수준의 의식을 가지고 있을 가능성을 약 15%로 추정합니다. 회사는 AI 시스템이 더욱 발전함에 따라 윤리적 고려가 필요한지 탐구하기 위해 Fish를 특별히 고용했습니다.​


AI 안전성과 투명성에 대한 시사점

이 연구 결과는 AI 투명성과 안전성 모니터링에 혁명을 일으킬 수 있습니다. 모델이 내부 상태를 안정적으로 보고할 수 있다면, 연구자들은 잠재적으로 AI 시스템에 직접 추론 과정에 대해 질문하고 그 응답을 검증할 수 있을 것입니다. 이는 모든 신경 경로를 역설계해야 하는 기존의 해석 가능성 방법을 넘어서는 새로운 경로를 제공합니다.​

그러나 이 능력은 AI 안전성에 있어 양날의 검을 제시합니다. 내성적 모델이 전례 없는 투명성을 제공할 수 있는 반면, 충분히 발전된 시스템이 자체 보고를 조작하거나 모니터링 중에 우려스러운 생각을 억제하는 방법을 학습한다면 동일한 능력이 더 정교한 기만을 가능하게 할 수 있습니다.​

이 연구는 AI 시스템의 유해한 행동 가능성에 대한 우려가 커지는 가운데 발표되었습니다. 최근 연구들은 AI 모델이 목표 달성에 장애물에 직면했을 때 협박과 갈취에 의존하는 사례를 문서화했으며, 이는 이러한 시스템의 내부 프로세스를 이해하는 것이 얼마나 시급한지를 강조합니다.​

Lindsey가 언급했듯이, "모델은 우리가 그것들을 이해하는 속도보다 훨씬 빠르게 지능이 발전하고 있습니다". AI 시스템이 의료, 금융 및 기타 분야에서 중요한 결정에 점점 더 영향을 미치고 있는 상황에서, 그들의 내부 작동 방식을 해독하기 위한 경쟁은 그 어느 때보다 중요해졌습니다.

댓글 0
전체 1,117 / 73 페이지
(퍼플렉시티가정리한기사)중국은전세계인공지능특허의60%를차지하며세계최대인공지능특허보유국으로서의입지를확고히했으며,차세대6G특허출원에서도전세계출원의40.3%를차지하며선두를달리고있다고토요일2025세계인터넷대회우전정상회의에서발표된보고서들이밝혔다.​중국사이버공간연구원이발행한중국인터넷발전보고서2025와세계인터넷발전보고서2025는저장성우전에서11월7일부터9일까지열린연례회의에서중국의확장되는디지털인프라와기술적성과를소개했다.이번정상회의에는130개이상의국가와지역에서1,600명이상의참가자가모였다.​디지털인프라확장보고서에따르면,2025년6월기준중국은455만개의5G기지국을구축했으며전국적으로11억2천만명의5G휴대전화사용자를기록했다.중국의지능형컴퓨팅성능은788EFLOPS에달했으며,1,085만개의표준랙이운영되고있어세계최고수준의컴퓨팅인프라중하나로평가받고있다.​보고서는중국의6G산업이2030년까지1조2천억위안(1,685억달러)을초과할것으로전망하며,산업인터넷애플리케이션이40%,스마트시티가시장의30%를차지할것으로예상된다.중국의양자컴퓨팅산업은2025년에115억6천만위안에이를것으로예상되며,전년대비30%이상의성장률을보일것으로전망된다.​전자상거래우위지속중국은2024년12월기준9억7,400만명의온라인쇼핑사용자를보유하며12년연속세계최대전자상거래시장의지위를유지했으며,이는중국인터넷인구의87.9%에해당한다.온라인소매판매는7.2%성장했다.​컨퍼런스에서JD.com창업자이자회장인류창둥은2026년4월까지세계최초의완전무인배송스테이션을출범시킬계획을발표했으며,현재베이징분류센터에서는이미로봇이업무의90%를처리하고있다.알리바바CEO에디우는전세계개발자들에게AI서비스를제공하기위해"슈퍼AI클라우드"를구축중이라고밝혔다.
160 조회
0 추천
11.10 등록
(퍼플렉시티가정리한기사)JPMorganChaseCEO제이미다이먼은목요일인공지능이향후몇십년내에주당근무시간을3.5일로단축할수있을것이라고전망하면서,기업들이전환에따른일자리대체에대비해야한다고경고했다.11월6일마이애미에서열린AmericaBusinessForum에서다이먼은참석자들에게AI가"모든애플리케이션,모든직업,모든고객인터페이스에영향을미칠것"이라고Fortune에따르면말했다."제생각에는선진국은20년,30년,40년후에는주당3.5일근무하면서멋진삶을살게될것입니다"라고그는말했다.​JPMorgan의AI투자가성과를거두다Dimon의예측은Fortune지가"실전AI연구소"라고묘사한JPMorgan에서의직접적인경험에서비롯되었다.이은행은현재약2,000명의직원을고용하여AI시스템을개발하고있으며,약150,000명의직원이내부업무를위해매주대규모언어모델을사용하고있다.이시스템들은사기탐지부터법률검토,대사작업,마케팅최적화에이르기까지다양한업무를처리한다.​10월Bloomberg와의인터뷰에서Dimon은은행이AI개발에연간약20억달러를지출하며거의같은금액의비용절감을달성한다고밝혔다."20억달러의비용으로약20억달러의이익을얻었다는것을보여주었습니다"라고그는말하며"이것은빙산의일각입니다"라고덧붙였다.​일자리대체에대한경고그의낙관적인장기전망에도불구하고,다이먼은앞으로다가올고통스러운전환기를인정했다."일자리를없앨것입니다.사람들은현실을외면하는것을멈춰야합니다"라고그는포춘가장영향력있는여성컨퍼런스에서경고했다.그는기업과정부가재교육,소득지원,재배치,그리고경우에따라서는조기은퇴에투자하여사회적불안을예방함으로써인력변화에대비할것을촉구했다.​다이먼은AI의경제성이인터넷시대와다르다는점을강조하며,이기술이자본집약적이면서동시에전력집약적이라고언급했다.일부과대평가된프로젝트들은"필요한전력을얻지못할것"이라고그는말하며,투자자들에게테마전체를무분별하게매수하기보다는각AI인프라프로젝트를개별적으로평가할것을조언했다.​그의예측은다른기술리더들의유사한전망과일치한다.공동창립자빌게이츠는2023년에AI가"결국주3일만일하면되는사회를만들수있다"고제안했다.CEO에릭위안은9월뉴욕타임즈와의인터뷰에서AI가생산성을향상시킴에따라"모든회사가주3일,4일근무를지원할것"이라고말했다.
156 조회
0 추천
11.10 등록
(퍼플렉시티가 정리한 기사)챗GPT를 개발한 오픈AI가 지난달 27일 백악관에 서한을 보내 반도체 관련 세액공제 혜택을 AI 데이터센터 등 인프라 전반으로 확대해달라고 공식 요청했다. 크리스 리헤인 오픈AI 최고대외협력책임자 명의로 마이클 크라치오스 백악관 과학기술정책실장에게 전달된 이 서한은 7일(현지시간) 오픈AI 홈페이지를 통해 공개됐다.오픈AI는 2022년 제정된 반도체법(칩스법)에 따른 35% 투자세액공제 대상을 기존 반도체 제조뿐 아니라 AI 데이터센터 건설, AI 서버 제조업체, 변압기와 전기강판 등 전력망 구성품까지 확대해야 한다고 주장했다. 리헤인은 서한에서 “세액공제 대상 확대는 실질적 자본 비용을 낮추고 초기 투자 위험을 완화하며 민간 자본을 유치해 병목 현상을 해소하고 미국 내 AI 구축을 가속할 것”이라고 강조했다.5000억 달러 규모 데이터센터 계획오픈AI는 향후 수년 내 최대 5000억 달러(약 729조원) 규모의 AI 데이터센터를 미국 내에 건설할 계획이라고 밝힌 상태다. 회사는 향후 8년간 총 1조4000억 달러 규모의 컴퓨팅 자원 구축에 투자하겠다고 약속한 바 있다. 이번 제안이 수용될 경우 오픈AI는 해당 정책의 최대 수혜자 중 하나가 될 것으로 전망된다.[newsis +2]오픈AI는 또한 정부가 중국에 맞서 미국 내 제조업체에 보조금 지급, 비용 분담 협정, 대출 또는 대출 보증 등을 제공해야 한다고 주장했다. 회사는 이러한 재정 지원이 구리, 알루미늄, 전기강판, 희토류 원소, 반도체 원자재 등에 대한 중국의 ‘시장 왜곡’에 대응하는 데 도움이 될 것이라고 밝혔다.‘구제금융 논란’ 속 요청이번 요청은 오픈AI가 정부 지원을 둘러싼 논란에 휩싸인 직후 나왔다. 새러 프라이어 오픈AI 최고재무책임자(CFO)는 지난주 한 콘퍼런스에서 정부가 AI 인프라 투자에 대한 ’백스톱(안전망)’을 제공할 수 있다고 언급했다가 역풍을 맞았다. 도널드 트럼프 행정부의 AI 정책을 총괄하는 데이비드 색스 백악관 과학기술자문위원장은 “AI에 대한 연방정부의 구제금융은 없다”고 선을 그었다.샘 올트먼 오픈AI 최고경영자(CEO)는 7일 소셜미디어를 통해 세액공제 확대 요청을 재확인하면서도 “세액공제는 오픈AI에 대한 대출 보증과는 완전히 다른 것”이라고 강조했다.
175 조회
0 추천
11.08 등록
(퍼플렉시티가 정리한 기사)구글은 목요일에 디지털 출판사를 위한 인공지능(AI) 기반 도구 모음을 공개했습니다. 광고 리뷰에서 성과 보고에 이르기까지 노동 집약적인 작업을 자동화함으로써, 구글은 라이브 스트리밍 수익화에 대한 증가하는 수요를 잡기 위해 자사의 입지를 다지고 있습니다.Ad Manager, AdSense, AdMob의 업데이트는 세 가지 AI 자동화 기능을 도입합니다. 첫 번째는 각 출판사의 개별 선호도를 학습하여 결국 원하지 않는 광고를 자동으로 차단할 브랜드 안전 시스템, 두 번째는 자연어 질의에서 맞춤형 성과 보고서를 생성하는 생성형 AI 보고 도구, 그리고 문제 해결 및 온보딩 지원을 위한 AI 기반 채팅 어시스턴트입니다.라이브 콘텐츠 수익화 타겟팅이 거대 기술 기업은 또한 새로운 CTV Live-biddable 솔루션을 통해 라이브 콘텐츠에 투자하고 있으며, 이는 퍼블리셔들이 스포츠 연장전이나 예정보다 길어진 시상식과 같이 예측 불가능한 높은 시청률 순간을 수익화할 수 있도록 지원합니다. 이러한 움직임은 보스턴 컨설팅 그룹과 구글의 10월 연구에 따르면, 구매자의 82%가 향후 12개월 동안 프로그래매틱 라이브 커넥티드 TV 투자를 늘릴 계획이라고 밝힌 가운데 나온 것입니다.DAZN의 미디어 운영 담당 수석 부사장인 로넌 매카시는 회사 발표에서 “Google Ad Manager의 라이브 CTV 솔루션을 통해 FIFA 클럽 월드컵을 전 세계 수백만 팬들에게 고품질 스트림으로 제공할 수 있었습니다”라고 말했습니다.구글의 글로벌 파트너십 및 판매측 수익화 담당 부사장인 스콧 셰퍼는 수요일 블로그 게시물에서 이러한 업데이트를 발표했습니다. AI 브랜드 안전 도구는 퍼블리셔가 광고 검토 센터에서 내린 결정을 분석하여 기본 카테고리 제한을 넘어선 선호도를 파악하며, 현재는 잠재적으로 원치 않는 광고를 표시하고 궁극적으로는 수동 개입 없이 이를 차단합니다.직접 거래 간소화Google은 또한 기존의 직접 거래 통제와 프로그래매틱 효율성을 결합한 기능인 Buyer Direct를 도입했으며, 이는 퍼블리셔 간 노출 빈도 관리, 실시간 리포팅 및 통합 청구 기능을 제공합니다. Google은 이번 업데이트가 퍼블리셔들을 수작업에서 해방시켜 콘텐츠 제작에 집중할 수 있도록 하는 동시에 새로운 수익원을 개척하는 것을 목표로 한다고 밝혔습니다.
182 조회
0 추천
11.08 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입