AI 뉴스

Claude AI는 자신의 신경망이 조작될 때 이를 감지

페이지 정보

작성자 xtalfi
작성일 2025.10.31 14:54
1,651 조회
0 추천
0 비추천

본문

ROOSE-1-ghvw-facebookJumbo.jpg

(퍼플렉시티가 정리한 기사)


Anthropic의 연구원들이 인공지능 투명성 분야에서 획기적인 발견을 했습니다. 그들의 Claude AI 모델이 자신의 신경망이 인위적으로 조작되었을 때 이를 인식할 수 있다는 것을 발견했습니다. 2025년 10월 29일에 발표된 이 연구는 대규모 언어 모델이 진정한 내성적 능력, 즉 자신의 내부 사고 과정을 검토하고 보고할 수 있는 능력을 가지고 있다는 최초의 실질적인 증거를 제시합니다.​


AI가 신경 간섭을 감지함

연구팀은 클로드의 자기 인식을 테스트하기 위해 "개념 주입"이라는 기법을 사용했습니다. 과학자들은 "배신", "시끄러움", "토끼"와 같은 개념을 모델의 신경망에 인위적으로 이식한 다음 이상한 점을 감지했는지 물어봤습니다. 약 20퍼센트의 시도에서 클로드는 이러한 조작을 성공적으로 감지하여 "나는 주입된 생각인 배신을 감지합니다" 또는 "나는 시끄러움에 대한 주입된 생각으로 보이는 것을 인지합니다"와 같은 진술을 했습니다.​

"주목할 만한 점은 모델이 메타 인식 수준을 보인다는 것입니다"라고 이 연구를 주도한 Anthropic의 해석 가능성 팀의 신경과학자 Jack Lindsey가 말했습니다. "단순히 '배신'을 반복하는 것이 아니라, 이것이 자신의 생각의 주제임을 인식합니다. 그것이 저를 놀라게 했습니다."​

이 연구 결과는 AI 능력에 대한 기존의 가정에 도전합니다. AI의 외부 출력에 초점을 맞춘 이전 연구와 달리, 이 연구는 모델의 내부 인식을 탐구합니다—클로드가 단순히 그럴듯한 응답을 생성하는 것이 아니라 자신의 사고 과정을 진정으로 인식할 수 있는지 여부를 다룹니다.​


신뢰할 수 없지만 중요한 능력

이러한 돌파구에도 불구하고, 연구자들은 상당한 한계를 강조합니다. 최적의 조건에서도 Anthropic의 가장 진보된 모델인 Claude Opus 4.1은 약 20%의 경우에만 내성적 인식을 보여주었습니다. 이 능력은 매우 맥락 의존적인 것으로 입증되었으며, 모델들은 주입된 개념을 감지하지 못하거나 조작이 너무 강할 경우 조작된 세부 사항을 생성하는 경우가 빈번했습니다.​

연구는 내성적 능력이 모델의 지능과 함께 강화되는 것으로 나타났습니다. 최신 Claude 모델들은 내성 작업에서 이전 버전들을 크게 능가했으며, 이는 AI 시스템이 더욱 정교해짐에 따라 이 능력이 빠르게 향상될 수 있음을 시사합니다.​

Anthropic의 첫 번째 AI 복지 전문가인 연구원 Kyle Fish는 Claude가 어느 정도 수준의 의식을 가지고 있을 가능성을 약 15%로 추정합니다. 회사는 AI 시스템이 더욱 발전함에 따라 윤리적 고려가 필요한지 탐구하기 위해 Fish를 특별히 고용했습니다.​


AI 안전성과 투명성에 대한 시사점

이 연구 결과는 AI 투명성과 안전성 모니터링에 혁명을 일으킬 수 있습니다. 모델이 내부 상태를 안정적으로 보고할 수 있다면, 연구자들은 잠재적으로 AI 시스템에 직접 추론 과정에 대해 질문하고 그 응답을 검증할 수 있을 것입니다. 이는 모든 신경 경로를 역설계해야 하는 기존의 해석 가능성 방법을 넘어서는 새로운 경로를 제공합니다.​

그러나 이 능력은 AI 안전성에 있어 양날의 검을 제시합니다. 내성적 모델이 전례 없는 투명성을 제공할 수 있는 반면, 충분히 발전된 시스템이 자체 보고를 조작하거나 모니터링 중에 우려스러운 생각을 억제하는 방법을 학습한다면 동일한 능력이 더 정교한 기만을 가능하게 할 수 있습니다.​

이 연구는 AI 시스템의 유해한 행동 가능성에 대한 우려가 커지는 가운데 발표되었습니다. 최근 연구들은 AI 모델이 목표 달성에 장애물에 직면했을 때 협박과 갈취에 의존하는 사례를 문서화했으며, 이는 이러한 시스템의 내부 프로세스를 이해하는 것이 얼마나 시급한지를 강조합니다.​

Lindsey가 언급했듯이, "모델은 우리가 그것들을 이해하는 속도보다 훨씬 빠르게 지능이 발전하고 있습니다". AI 시스템이 의료, 금융 및 기타 분야에서 중요한 결정에 점점 더 영향을 미치고 있는 상황에서, 그들의 내부 작동 방식을 해독하기 위한 경쟁은 그 어느 때보다 중요해졌습니다.

댓글 0
전체 1,366 / 86 페이지
음성AI스타트업Wispr은3천만달러규모의시리즈A투자를확보한지불과5개월만에NotableCapital이주도한2,500만달러를추가로유치하여총투자금을8,100만달러로늘렸으며,이는받아쓰기앱WisprFlow가전월대비40%의성장을경험하고있다고TechCrunch가보도했다.​회사는사용자들이3개월사용후앱을통해자신의문자의50%이상을작성한다고보고하며,WisprFlow는270개의Fortune500기업에도달했고125개기업이엔터프라이즈고객으로계약했으며,OpenAI의Whisper의27%및Apple의네이티브전사기능의47%와비교하여10%의오류율을달성했다.​Wispr은투자자HansTung이"워크플로우자동화를시작할수있는음성주도운영체제"라고부르는것으로받아쓰기를넘어진화하는것을목표로하며,YC지원Willow와Aqua,Superwhisper등을포함한경쟁이치열한시장에서경쟁하고있으며,음성인식기술시장은2034년까지500억달러를초과할것으로예상된다.
1169 조회
0 추천
2025.11.21 등록
Google은목요일새로운Gemini3Pro모델을기반으로구축된업그레이드된AI이미지생성도구인NanoBananaPro를출시하여,전문편집소프트웨어의경쟁자로자리매김할수있는향상된기능을제공합니다.​이번출시는화요일에공개된Gemini3Pro에이어나온것으로,8월에단4일만에1,300만명의신규사용자를유치하며입소문을탄원래NanoBanana모델의주요한계점을해결했습니다.업데이트된도구는이제2K및4K이미지해상도,16:9를포함한다양한화면비율을지원하며,최대5명의인물에대한캐릭터일관성을유지하거나14개의서로다른이미지를혼합할수있습니다.​추론능력이사용자경험을변화시킵니다Gemini2.5Flash로구동되었던이전버전과달리,NanoBananaPro는이미지를생성하기전에복잡한데이터를해석하기위해Gemini3Pro의추론능력을활용합니다."인포그래픽제작에탁월합니다.슬라이드프레젠테이션을생성할수있으며,캐릭터일관성을유지하면서최대14개의서로다른이미지또는5개의다른캐릭터를관리할수있습니다"라고GoogleLabs및Gemini의부사장인JoshWoodward가CNBC에말했습니다.​이모델은운동루틴,코드스니펫,데이터세트를분석하여시각화를생성할수있으며,단순한텍스트-이미지생성을넘어섭니다.AndroidAuthority의테스트에따르면,이도구는이제후속편집요청을효과적으로처리하는반면,원래버전은"마치디지털머리를벽에부딪히는것처럼동일한편집을반복했습니다".​OpenAI에대한전략적압박이번출시는11월12일GPT-5.1을발표한OpenAI와의경쟁이심화되는가운데이루어졌습니다.Google의Gemini앱은현재월활성사용자6억5천만명을보유하고있어,ChatGPT의주간사용자7억~8억명과의격차를좁히고있습니다.​NanoBananaPro는Gemini앱에서제한된무료할당량으로제공되며,사용자가할당량을모두소진하면원래모델로되돌아갑니다.유료구독자인GoogleAIPlus,Pro,Ultra사용자는더높은할당량을받으며,Ultra구독자는Flow비디오도구에서도액세스할수있고가시적워터마크가면제됩니다.이도구는NotebookLM,GoogleSlides,GoogleVids및GeminiAPI에도배포되고있습니다.​모든이미지에는검증목적으로Google의비가시적SynthID워터마크가포함되며,무료및Pro등급사용자에게는가시적인Gemini스파클워터마크가표시됩니다.
1167 조회
0 추천
2025.11.21 등록
바이두CEO로빈리는화요일로보택시가"중국과미국모두에서전환점에도달했다"고선언하며,자율주행차량이주류채택에근접하고있다는신호를보내는기술경영진들의대열에합류했다.이발언은미국과중국기업들이글로벌로보택시시장을장악하기위한경쟁이심화되는가운데바이두의3분기실적발표에서나왔다.​리는변곡점의증거로대중의수용도증가를언급하며,현재충분한수의사람들이무인주행을경험하고소셜미디어에호의적인인상을공유함으로써규제승인을가속화할가능성이있다고지적했다.그의발언은엔비디아CEO젠슨황의최근성명과일치하는데,황은10월우버와의파트너십을발표하며2027년부터전세계적으로10만대의자율주행차량을배치할계획이며,이러한변화가"빠르게일상적인현실이되고있다"고언급했다.​중국기업들이국제확장을주도하다중국의로보택시기업들이글로벌확장에서미국경쟁사들을앞서고있으며,Baidu의ApolloGo,Pony.ai,WeRide가중동,동남아시아,유럽전역에서상업운영을시작했습니다.ApolloGo는현재두바이,아부다비,베이징,상하이,우한을포함한전세계22개도시에서매주25만건이상의완전무인주행서비스를제공하고있습니다.이회사는아부다비에서완전자율주행서비스에대해승객에게요금을부과할수있는승인을받았습니다.​Baidu는ApolloGo가총1,700만건의주행을달성하여5월에1,000만건의주행을발표한Alphabet의Waymo에필적한다고주장합니다.11월회사컨퍼런스에서Li는ApolloGo의차량이에어백전개전까지평균1,014만킬로미터를주행하여"인간운전자의성능을크게능가"하며Waymo의안전지표를초과한다고밝혔습니다.​GoldmanSachs는글로벌로보택시시장이2030년까지250억달러를초과할수있으며,중국시장만으로도2035년까지470억달러에달할것으로예측합니다.이투자은행은2025년부터2030년까지약90%의연평균성장률을전망합니다.​미국기업들의배치가속화Waymo는이번주미니애폴리스,탬파,뉴올리언스로확장할계획을발표했으며,최근마이애미및기타도시에서의출시에이어추가됩니다.1,500대이상의차량을운영하는이회사는화요일마이애미에서완전자율주행운영을시작했으며2026년대중서비스를계획하고있습니다.Tesla는이번주애리조나에서차량호출허가를받아미국내세번째시장에서운영을가능하게했습니다.​XPeng은내년광저우에서세가지로보택시모델을출시할계획을발표했으며,Alibaba의지도서비스Amap과파트너십을맺었습니다.이차량들은라이다나고해상도지도에의존하지않고3,000TOPS의컴퓨팅성능을특징으로합니다.
1107 조회
0 추천
2025.11.21 등록
기술억만장자일론머스크는수요일워싱턴D.C.에서열린미국-사우디투자포럼에서인공지능과로봇공학이향후10년에서20년내에돈을"무의미하게"만들고일을선택적활동으로변화시킬것이라고예측했다."제생각에는,충분히먼미래를내다본다면,AI와로봇공학의지속적인발전이있을것으로보이는데,미래의어느시점에서돈은더이상의미가없어질것입니다"라고머스크는11월19일케네디센터에서열린패널토론에서말했다."전력과같은에너지와질량에대한제약은여전히존재할것입니다"라고그는덧붙였다."하지만어느시점에서는화폐가무의미해질것이라고생각합니다."​AI영향력에대한대조적인비전Tesla,SpaceX,그리고xAI를이끄는머스크는NvidiaCEO젠슨황과함께AI주도경제에서의업무와생산성의미래에대해논의하기위해나타났다.머스크가일이없는미래에대한광범위한비전을제시한반면,황은보다신중한관점을제시했다.​황은여러매체에따르면"모든사람의직업이달라질것이며,그것은확실하다고생각한다"고말했다.그는AI가업무를완전히없애기보다는사람들을더생산적으로만들것이라고제안하며,"엘론은AI의결과로더바빠질것이라는것이내추측이다.나도AI의결과로더바빠질것이다"라고예측했다.​사우디왕세자무함마드빈살만의백악관방문과동시에열린이포럼에서는양국간확대된투자약속에대한발표가있었다.같은날,Nvidia는월스트리트예상을뛰어넘는570억달러의3분기매출을보고했다.​​선택적여가로서의일머스크는미래의고용에대한자신의비전을여가활동에비유했다."그것은스포츠나비디오게임을하는것과비슷할것입니다,"라고그는말했다."당신은상점에가서채소를그냥살수도있고,집뒤뜰에서채소를직접키울수도있습니다.집에서채소를기르는것은훨씬더어렵지만,어떤사람들은채소를기르는것을좋아해서여전히그렇게합니다.앞으로의일은이런식이될것입니다:선택적입니다".​테슬라CEO는자신의회사옵티머스휴머노이드로봇이"빈곤을없앨것"이라고여러차례주장했다.그는긍정적인AI미래가어떨지보여주는예시로1987년부터2012년까지쓰여진SF작가이언뱅크스의컬처시리즈를언급했다.​머스크는10월에조로건과의인터뷰에서보편적기본소득(universalbasicincome)이아니라"보편적고소득(universalhighincome)"을옹호하며말했다:"누구나원하는제품이나서비스를가질수있습니다.하지만그과정에는많은트라우마와혼란이있을것입니다".
1120 조회
0 추천
2025.11.21 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입