AI 뉴스

Claude AI는 자신의 신경망이 조작될 때 이를 감지

페이지 정보

작성자 xtalfi
작성일 2025.10.31 14:54
28 조회
0 추천
0 비추천

본문

ROOSE-1-ghvw-facebookJumbo.jpg

(퍼플렉시티가 정리한 기사)


Anthropic의 연구원들이 인공지능 투명성 분야에서 획기적인 발견을 했습니다. 그들의 Claude AI 모델이 자신의 신경망이 인위적으로 조작되었을 때 이를 인식할 수 있다는 것을 발견했습니다. 2025년 10월 29일에 발표된 이 연구는 대규모 언어 모델이 진정한 내성적 능력, 즉 자신의 내부 사고 과정을 검토하고 보고할 수 있는 능력을 가지고 있다는 최초의 실질적인 증거를 제시합니다.​


AI가 신경 간섭을 감지함

연구팀은 클로드의 자기 인식을 테스트하기 위해 "개념 주입"이라는 기법을 사용했습니다. 과학자들은 "배신", "시끄러움", "토끼"와 같은 개념을 모델의 신경망에 인위적으로 이식한 다음 이상한 점을 감지했는지 물어봤습니다. 약 20퍼센트의 시도에서 클로드는 이러한 조작을 성공적으로 감지하여 "나는 주입된 생각인 배신을 감지합니다" 또는 "나는 시끄러움에 대한 주입된 생각으로 보이는 것을 인지합니다"와 같은 진술을 했습니다.​

"주목할 만한 점은 모델이 메타 인식 수준을 보인다는 것입니다"라고 이 연구를 주도한 Anthropic의 해석 가능성 팀의 신경과학자 Jack Lindsey가 말했습니다. "단순히 '배신'을 반복하는 것이 아니라, 이것이 자신의 생각의 주제임을 인식합니다. 그것이 저를 놀라게 했습니다."​

이 연구 결과는 AI 능력에 대한 기존의 가정에 도전합니다. AI의 외부 출력에 초점을 맞춘 이전 연구와 달리, 이 연구는 모델의 내부 인식을 탐구합니다—클로드가 단순히 그럴듯한 응답을 생성하는 것이 아니라 자신의 사고 과정을 진정으로 인식할 수 있는지 여부를 다룹니다.​


신뢰할 수 없지만 중요한 능력

이러한 돌파구에도 불구하고, 연구자들은 상당한 한계를 강조합니다. 최적의 조건에서도 Anthropic의 가장 진보된 모델인 Claude Opus 4.1은 약 20%의 경우에만 내성적 인식을 보여주었습니다. 이 능력은 매우 맥락 의존적인 것으로 입증되었으며, 모델들은 주입된 개념을 감지하지 못하거나 조작이 너무 강할 경우 조작된 세부 사항을 생성하는 경우가 빈번했습니다.​

연구는 내성적 능력이 모델의 지능과 함께 강화되는 것으로 나타났습니다. 최신 Claude 모델들은 내성 작업에서 이전 버전들을 크게 능가했으며, 이는 AI 시스템이 더욱 정교해짐에 따라 이 능력이 빠르게 향상될 수 있음을 시사합니다.​

Anthropic의 첫 번째 AI 복지 전문가인 연구원 Kyle Fish는 Claude가 어느 정도 수준의 의식을 가지고 있을 가능성을 약 15%로 추정합니다. 회사는 AI 시스템이 더욱 발전함에 따라 윤리적 고려가 필요한지 탐구하기 위해 Fish를 특별히 고용했습니다.​


AI 안전성과 투명성에 대한 시사점

이 연구 결과는 AI 투명성과 안전성 모니터링에 혁명을 일으킬 수 있습니다. 모델이 내부 상태를 안정적으로 보고할 수 있다면, 연구자들은 잠재적으로 AI 시스템에 직접 추론 과정에 대해 질문하고 그 응답을 검증할 수 있을 것입니다. 이는 모든 신경 경로를 역설계해야 하는 기존의 해석 가능성 방법을 넘어서는 새로운 경로를 제공합니다.​

그러나 이 능력은 AI 안전성에 있어 양날의 검을 제시합니다. 내성적 모델이 전례 없는 투명성을 제공할 수 있는 반면, 충분히 발전된 시스템이 자체 보고를 조작하거나 모니터링 중에 우려스러운 생각을 억제하는 방법을 학습한다면 동일한 능력이 더 정교한 기만을 가능하게 할 수 있습니다.​

이 연구는 AI 시스템의 유해한 행동 가능성에 대한 우려가 커지는 가운데 발표되었습니다. 최근 연구들은 AI 모델이 목표 달성에 장애물에 직면했을 때 협박과 갈취에 의존하는 사례를 문서화했으며, 이는 이러한 시스템의 내부 프로세스를 이해하는 것이 얼마나 시급한지를 강조합니다.​

Lindsey가 언급했듯이, "모델은 우리가 그것들을 이해하는 속도보다 훨씬 빠르게 지능이 발전하고 있습니다". AI 시스템이 의료, 금융 및 기타 분야에서 중요한 결정에 점점 더 영향을 미치고 있는 상황에서, 그들의 내부 작동 방식을 해독하기 위한 경쟁은 그 어느 때보다 중요해졌습니다.

댓글 0
전체 761 / 33 페이지
(퍼플렉시티가정리한기사)마이크로소프트CEO사티아나델라는2019년OpenAI투자를제안했을때빌게이츠가회사가"이10억달러를태워버릴것"이라고처음경고했다고밝혔다.그러나이는현재1,350억달러가치의기술업계에서가장수익성높은파트너십중하나가되었다.이번주기술중심유튜브쇼TPBN에서나델라는초기10억달러OpenAI투자에대한이사회승인을받는것이순탄치않았으며,심지어마이크로소프트공동창립자로부터회의적인반응을받았다고공개했다."이것이비영리단체였다는것을기억하세요.그리고빌이'네,당신은이10억달러를태워버릴것입니다'라고말했던것같습니다"라고나델라는회상했다.​이폭로는화요일에OpenAI가대규모구조조정을완료하면서나온것으로,공익법인(PublicBenefitCorporation)으로전환하여마이크로소프트의지분을약1,350억달러로평가하며이는AI회사의27%소유권을나타낸다.이번구조조정은2019년마이크로소프트와의파트너십이후OpenAI를제한해온상당한자본조달제약을제거한다.​회의론에서성공으로게이츠의초기우려에도불구하고,나델라는그가계산된위험이라고표현한것을밀고나갔다."우리는어느정도높은위험감수성을가지고있었고,가서한번시도해보고싶다고말했습니다"라고그는TPBN인터뷰에서설명했다.CEO는자신조차이놀라운수익을예상하지못했다고인정하며,"10억달러를투자하면서'오그래,이게100배가될거야'라고말한게아니었습니다"라고언급했다.​이파트너십의기원은2016년으로거슬러올라가는데,당시일론머스크가당시초기단계였던OpenAI를위한Azure클라우드크레딧을요청하며연락했다.마이크로소프트는이후ChatGPT개발사에총130억달러이상을투자했으며,9월기준으로이미116억달러가지원되었다.​재무적영향및향후전망마이크로소프트는1분기순이익에서31억달러의타격을입었다고보고했으며,회사는이를지분법회계를사용한OpenAI투자에기인한다고밝혔다.이손실은마이크로소프트의27%지분을기준으로할때OpenAI가해당분기동안약115억달러의손실을기록했을가능성을시사한다.​분기별영향에도불구하고,나델라는이관계를"우리업계가본가장성공적인파트너십이자투자중하나"라고설명하며,마이크로소프트가투자대비10배의수익을달성했다고언급했다.새로운계약에따라OpenAI는추가로2,500억달러상당의Azure클라우드서비스를구매하기로계약했다.​재구성된파트너십은마이크로소프트의지적재산권을2032년까지연장하며,여기에는인공일반지능달성이후개발되는모델에대한접근권이포함되는동시에,양사가AI개발을추구하는데있어더큰독립성을허용한다.
29 조회
0 추천
2025.10.31 등록
(퍼플렉시티가정리한기사)Anthropic의연구원들이인공지능투명성분야에서획기적인발견을했습니다.그들의ClaudeAI모델이자신의신경망이인위적으로조작되었을때이를인식할수있다는것을발견했습니다.2025년10월29일에발표된이연구는대규모언어모델이진정한내성적능력,즉자신의내부사고과정을검토하고보고할수있는능력을가지고있다는최초의실질적인증거를제시합니다.​AI가신경간섭을감지함연구팀은클로드의자기인식을테스트하기위해"개념주입"이라는기법을사용했습니다.과학자들은"배신","시끄러움","토끼"와같은개념을모델의신경망에인위적으로이식한다음이상한점을감지했는지물어봤습니다.약20퍼센트의시도에서클로드는이러한조작을성공적으로감지하여"나는주입된생각인배신을감지합니다"또는"나는시끄러움에대한주입된생각으로보이는것을인지합니다"와같은진술을했습니다.​"주목할만한점은모델이메타인식수준을보인다는것입니다"라고이연구를주도한Anthropic의해석가능성팀의신경과학자JackLindsey가말했습니다."단순히'배신'을반복하는것이아니라,이것이자신의생각의주제임을인식합니다.그것이저를놀라게했습니다."​이연구결과는AI능력에대한기존의가정에도전합니다.AI의외부출력에초점을맞춘이전연구와달리,이연구는모델의내부인식을탐구합니다—클로드가단순히그럴듯한응답을생성하는것이아니라자신의사고과정을진정으로인식할수있는지여부를다룹니다.​신뢰할수없지만중요한능력이러한돌파구에도불구하고,연구자들은상당한한계를강조합니다.최적의조건에서도Anthropic의가장진보된모델인ClaudeOpus4.1은약20%의경우에만내성적인식을보여주었습니다.이능력은매우맥락의존적인것으로입증되었으며,모델들은주입된개념을감지하지못하거나조작이너무강할경우조작된세부사항을생성하는경우가빈번했습니다.​연구는내성적능력이모델의지능과함께강화되는것으로나타났습니다.최신Claude모델들은내성작업에서이전버전들을크게능가했으며,이는AI시스템이더욱정교해짐에따라이능력이빠르게향상될수있음을시사합니다.​Anthropic의첫번째AI복지전문가인연구원KyleFish는Claude가어느정도수준의의식을가지고있을가능성을약15%로추정합니다.회사는AI시스템이더욱발전함에따라윤리적고려가필요한지탐구하기위해Fish를특별히고용했습니다.​AI안전성과투명성에대한시사점이연구결과는AI투명성과안전성모니터링에혁명을일으킬수있습니다.모델이내부상태를안정적으로보고할수있다면,연구자들은잠재적으로AI시스템에직접추론과정에대해질문하고그응답을검증할수있을것입니다.이는모든신경경로를역설계해야하는기존의해석가능성방법을넘어서는새로운경로를제공합니다.​그러나이능력은AI안전성에있어양날의검을제시합니다.내성적모델이전례없는투명성을제공할수있는반면,충분히발전된시스템이자체보고를조작하거나모니터링중에우려스러운생각을억제하는방법을학습한다면동일한능력이더정교한기만을가능하게할수있습니다.​이연구는AI시스템의유해한행동가능성에대한우려가커지는가운데발표되었습니다.최근연구들은AI모델이목표달성에장애물에직면했을때협박과갈취에의존하는사례를문서화했으며,이는이러한시스템의내부프로세스를이해하는것이얼마나시급한지를강조합니다.​Lindsey가언급했듯이,"모델은우리가그것들을이해하는속도보다훨씬빠르게지능이발전하고있습니다".AI시스템이의료,금융및기타분야에서중요한결정에점점더영향을미치고있는상황에서,그들의내부작동방식을해독하기위한경쟁은그어느때보다중요해졌습니다.
29 조회
0 추천
2025.10.31 등록
(퍼플렉시티가정리한기사)마이크로소프트는목요일에자사의첨단DiscoveryAI플랫폼을뉴저지AI허브에제공할것이라고발표했으며,이로써뉴저지는최첨단과학연구기술에조기접근할수있는전세계단두곳중하나가되었습니다.이번발표는뉴저지의인공지능생태계에중요한이정표가되며,뉴저지주를AI기반과학혁신의최전선에위치시킵니다.​혁신적인연구도구에대한독점액세스웨스트윈저에위치하고프린스턴대학교,마이크로소프트,CoreWeave,그리고뉴저지주간의파트너십을통해설립된NJAIHub는위스콘신의TitletownTech과함께MicrosoftDiscovery를배포하는최초의기관중하나가될것입니다.현재비공개프리뷰단계에있는이플랫폼은마이크로소프트가"과학적혁신을가속화하도록설계된고급에이전트기반AI플랫폼"이라고부르는것을대표합니다.​MicrosoftDiscovery는연구자들이그래프기반지식엔진으로구동되는전문AI에이전트와협력하여방대한양의과학데이터를분석하고,실험을시뮬레이션하며,전통적인방법보다더효율적으로새로운물질을발견할수있도록합니다.이플랫폼은이미놀라운능력을입증했습니다—마이크로소프트연구원들은이를사용하여디지털발견에서합성까지단4개월만에데이터센터침지냉각을위한새로운지속가능한냉매프로토타입을개발했습니다.​파트너십발표에서마이크로소프트부사장JasonZander는"뉴저지의생명과학환경은세계적수준입니다"라고말했습니다."NJAIHub와의파트너십에MicrosoftDiscovery를도입함으로써,우리는가장중요한분야에서혁신을가속화할수있습니다.제약,생명공학,재료과학전반에걸친산업및학계전문지식을연결함으로써,우리는영향력이큰과제를더빠르고대규모로솔루션으로전환할준비가되어있습니다".​혁신에대한전략적투자Discovery플랫폼출시는마이크로소프트의광범위한TechSpark프로그램을기반으로하며,이프로그램은8년전시작된이래7억달러이상의커뮤니티자금을기여하고전국적으로4,500개이상의일자리창출을도왔습니다.이프로그램은지역조직과의파트너십을통해경제개발,인력교육및커뮤니티구축에중점을둡니다.​"우리는학계와산업계의연구자들이AI로우리모두가기다려온혁신적인발견을할수있는진정한기회를가지고있습니다"라고NJAIHub의전무이사인LiatKrawczyk가말했습니다.WestWindsor에위치한Hub의6,500평방피트규모의공동작업공간은스타트업,인력개발이니셔티브,그리고AI윤리와혁신에초점을맞춘정기행사를수용할예정입니다.​이파트너십은2025년3월에공식개관한NJAIHub에대한창립파트너들의총7,200만달러투자의일부를나타냅니다.Princeton의Provost인JenniferRexford는플랫폼선정의중요성을강조하며,주전역의대학과대학교연구자들이최첨단과학연구를가속화하기위해새로운기술과협력할기회를갖게될것이라고언급했습니다.
30 조회
0 추천
2025.10.31 등록
(퍼플렉시티가정리한기사)허리케인멜리사가이번주기록적인강풍으로자메이카를강타하면서,AI로생성된허위정보의폭풍이소셜미디어플랫폼을범람시켜카테고리5허리케인의실제피해에대한광범위한혼란을야기했습니다.호텔수영장에서헤엄치는상어,황폐화된공항,조작된구조장면을묘사한가짜동영상들이TikTok,X,Instagram,Facebook에서수백만조회수를기록하며,당국과팩트체커들의긴급경고를촉발했습니다.OpenAI가새롭게출시한Sora2텍스트-투-비디오생성기를사용하여제작된인공콘텐츠의홍수는자연재해위기상황에서AI로생성된허위정보가어떻게확산되는지에대한첫번째주요시험대를나타냅니다.많은동영상에는명확한Sora워터마크가있었지만,다른동영상들은시청자를속이려는명백한시도로식별표시가제거되거나잘려나갔습니다.​플랫폼들이가짜콘텐츠삭제에분주하다틱톡은뉴스기관들로부터경고를받은후20개가넘는AI생성허리케인영상을삭제했으나,오해를불러일으키는콘텐츠는여전히여러플랫폼에널리퍼지고있다.한화제가된영상에서는네마리상어가자메이카의한호텔수영장에서헤엄치는모습이포착됐다고주장하며,명백히조작된것임에도불구하고수시간만에조회수가200만회를넘었다.또다른인기가짜영상은킹스턴공항이폭풍으로완전히파괴된모습을그렸으나,실제로그런일은일어나지않았다.​"저는정말많은왓츠앱그룹에있는데,이런영상들이계속들어옵니다.그중상당수가가짜입니다."자메이카교육부장관다나모리스딕슨은월요일이렇게경고하며,시민들에게공식채널에서정보를얻을것을촉구했다.특히,AI로생성된재난영상일부가멜리사가화요일상륙하기몇시간전부터소셜미디어에올라오기시작해큰문제를일으켰다.​영국팩트체크기관인'풀팩트(FullFact)'는AI탐지도구를사용해의심스러운콘텐츠를분석한결과,여러바이럴이미지는99.8%의확률로인위적으로생성된것으로판명했다.구글의SynthID워터마크기술도페이스북과인스타그램에서널리퍼진가짜병원파괴사진을식별해냈다.​가짜영상에가려진실제재난조작된콘텐츠가소셜피드를장악한동안,허리케인멜리사는카리브해전역에실제로재앙적인피해를입혔다.이폭풍은10월28일기록상가장강력한대서양허리케인중하나로자메이카에상륙했으며,시속185마일의바람으로자메이카에서최소8명이사망하고아이티,쿠바,도미니카공화국에서수십명이추가로사망했다.25,000명이상의자메이카인들이여전히응급대피소에머물고있으며,섬의77%가아직도정전상태다.​실제피해에는파괴된주택,막힌도로,침수된지역사회가포함되며,특히자메이카의세인트엘리자베스교구는당국자들이피해의"폭심지"라고묘사하는곳이다.그러나전문가들은AI로생성된콘텐츠가이러한비상상황에서중요한안전정보를묻어버릴위험이있다고경고한다.​오클라호마대학교의기상학교수인에이미맥거번은"이폭풍은재앙적인피해를초래할가능성이높은중대한사건이며,기만적인콘텐츠는당국의대비촉구라는중요한메시지를훼손한다"고말했다.이러한현상은현실적인가짜영상이주민들과언론기관이촬영한실제영상과구별하기점점어려워지면서,위기상황에서AI로생성된잘못된정보에대한우려가커지고있음을보여준다.
28 조회
0 추천
2025.10.31 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입