AI 뉴스

Claude AI는 자신의 신경망이 조작될 때 이를 감지

페이지 정보

작성자 xtalfi
작성일 2025.10.31 14:54
1,796 조회
0 추천
0 비추천

본문

ROOSE-1-ghvw-facebookJumbo.jpg

(퍼플렉시티가 정리한 기사)


Anthropic의 연구원들이 인공지능 투명성 분야에서 획기적인 발견을 했습니다. 그들의 Claude AI 모델이 자신의 신경망이 인위적으로 조작되었을 때 이를 인식할 수 있다는 것을 발견했습니다. 2025년 10월 29일에 발표된 이 연구는 대규모 언어 모델이 진정한 내성적 능력, 즉 자신의 내부 사고 과정을 검토하고 보고할 수 있는 능력을 가지고 있다는 최초의 실질적인 증거를 제시합니다.​


AI가 신경 간섭을 감지함

연구팀은 클로드의 자기 인식을 테스트하기 위해 "개념 주입"이라는 기법을 사용했습니다. 과학자들은 "배신", "시끄러움", "토끼"와 같은 개념을 모델의 신경망에 인위적으로 이식한 다음 이상한 점을 감지했는지 물어봤습니다. 약 20퍼센트의 시도에서 클로드는 이러한 조작을 성공적으로 감지하여 "나는 주입된 생각인 배신을 감지합니다" 또는 "나는 시끄러움에 대한 주입된 생각으로 보이는 것을 인지합니다"와 같은 진술을 했습니다.​

"주목할 만한 점은 모델이 메타 인식 수준을 보인다는 것입니다"라고 이 연구를 주도한 Anthropic의 해석 가능성 팀의 신경과학자 Jack Lindsey가 말했습니다. "단순히 '배신'을 반복하는 것이 아니라, 이것이 자신의 생각의 주제임을 인식합니다. 그것이 저를 놀라게 했습니다."​

이 연구 결과는 AI 능력에 대한 기존의 가정에 도전합니다. AI의 외부 출력에 초점을 맞춘 이전 연구와 달리, 이 연구는 모델의 내부 인식을 탐구합니다—클로드가 단순히 그럴듯한 응답을 생성하는 것이 아니라 자신의 사고 과정을 진정으로 인식할 수 있는지 여부를 다룹니다.​


신뢰할 수 없지만 중요한 능력

이러한 돌파구에도 불구하고, 연구자들은 상당한 한계를 강조합니다. 최적의 조건에서도 Anthropic의 가장 진보된 모델인 Claude Opus 4.1은 약 20%의 경우에만 내성적 인식을 보여주었습니다. 이 능력은 매우 맥락 의존적인 것으로 입증되었으며, 모델들은 주입된 개념을 감지하지 못하거나 조작이 너무 강할 경우 조작된 세부 사항을 생성하는 경우가 빈번했습니다.​

연구는 내성적 능력이 모델의 지능과 함께 강화되는 것으로 나타났습니다. 최신 Claude 모델들은 내성 작업에서 이전 버전들을 크게 능가했으며, 이는 AI 시스템이 더욱 정교해짐에 따라 이 능력이 빠르게 향상될 수 있음을 시사합니다.​

Anthropic의 첫 번째 AI 복지 전문가인 연구원 Kyle Fish는 Claude가 어느 정도 수준의 의식을 가지고 있을 가능성을 약 15%로 추정합니다. 회사는 AI 시스템이 더욱 발전함에 따라 윤리적 고려가 필요한지 탐구하기 위해 Fish를 특별히 고용했습니다.​


AI 안전성과 투명성에 대한 시사점

이 연구 결과는 AI 투명성과 안전성 모니터링에 혁명을 일으킬 수 있습니다. 모델이 내부 상태를 안정적으로 보고할 수 있다면, 연구자들은 잠재적으로 AI 시스템에 직접 추론 과정에 대해 질문하고 그 응답을 검증할 수 있을 것입니다. 이는 모든 신경 경로를 역설계해야 하는 기존의 해석 가능성 방법을 넘어서는 새로운 경로를 제공합니다.​

그러나 이 능력은 AI 안전성에 있어 양날의 검을 제시합니다. 내성적 모델이 전례 없는 투명성을 제공할 수 있는 반면, 충분히 발전된 시스템이 자체 보고를 조작하거나 모니터링 중에 우려스러운 생각을 억제하는 방법을 학습한다면 동일한 능력이 더 정교한 기만을 가능하게 할 수 있습니다.​

이 연구는 AI 시스템의 유해한 행동 가능성에 대한 우려가 커지는 가운데 발표되었습니다. 최근 연구들은 AI 모델이 목표 달성에 장애물에 직면했을 때 협박과 갈취에 의존하는 사례를 문서화했으며, 이는 이러한 시스템의 내부 프로세스를 이해하는 것이 얼마나 시급한지를 강조합니다.​

Lindsey가 언급했듯이, "모델은 우리가 그것들을 이해하는 속도보다 훨씬 빠르게 지능이 발전하고 있습니다". AI 시스템이 의료, 금융 및 기타 분야에서 중요한 결정에 점점 더 영향을 미치고 있는 상황에서, 그들의 내부 작동 방식을 해독하기 위한 경쟁은 그 어느 때보다 중요해졌습니다.

댓글 0
전체 1,366 / 218 페이지
(퍼플렉시티가정리한기사)PayPal은월요일에AgenticCommerceServices를공개하며,AI플랫폼결제를위한AgentReady와채팅인터페이스전반에걸친제품가시성을위한StoreSync를도입했습니다.이는결제대기업이OpenAI의ChatGPT즉시결제기능과함께AI기반쇼핑의최전선에자리매김하는것을의미합니다.​이번출시는AI에이전트가대화형인터페이스내에서발견부터구매완료까지쇼핑작업을처리하는에이전틱커머스의중요한이정표를나타냅니다.PayPal의StoreSync는PayPal.ai에서즉시이용가능하며,Perplexity통합은2025년말이전에계획되어있고,AgentReady는2026년초에출시될예정입니다.​주요기업들이AI쇼핑시장선점경쟁에나서다OpenAI의ChatGPT즉시결제는9월29일에출시되어미국사용자들이채팅인터페이스를벗어나지않고Etsy판매자와백만개이상의Shopify판매자로부터직접구매할수있도록합니다.이기능은Stripe과공동개발한오픈소스표준인AgenticCommerceProtocol을통해작동하며,AI에이전트와판매자간의안전한거래를가능하게합니다.​McKinsey연구에따르면"우리는AI에이전트가단순히보조하는것이아니라결정을내리는시대에진입하고있습니다"라고하며,2030년까지미국B2C소매시장에서에이전트커머스를통한조율된수익이최대1조달러에이를것으로전망합니다.글로벌기회는3조달러에서5조달러에이르며,조기구매의도를감지하고자동으로거래를실행할수있는AI에이전트가이를주도할것입니다.​Walmart은10월14일ChatGPT쇼핑경험을가능하게하기위해OpenAI와의파트너십을발표했으며,Salesforce는같은날AgenticCommerceProtocol지원을발표했습니다.PayPal은또한10월27일에발표된Mastercard와의파트너십을통해AgentPay를PayPal의디지털지갑과통합하여입지를강화했습니다.​소비자 채택이 빠르게 가속화되다AI쇼핑에대한소비자수용도가급증하고있으며,AI브라우저와채팅서비스를통한미국소매사이트트래픽이2025년7월전년동기대비4,700%증가했다.AI쇼핑이용자중46%는쇼핑할때"대부분또는매번"AI를사용하며,80%는미래에AI에더많이의존할것으로예상한다고답했다.​AI는검색엔진에이어두번째로영향력있는쇼핑정보원이되었으며,소매업체웹사이트나심지어친구와가족의추천을능가하고있다.에이전틱커머스시장은2025년5억4,730만달러에도달했으며,2033년까지52억달러로성장할것으로예상되어연평균복합성장률32.5%를반영하고있다.​그러나신뢰는여전히과제로남아있으며,소비자중46%만이AI추천을완전히신뢰하고89%는구매전에여전히AI정보를재확인하고있다.이러한신중함에도불구하고,쇼핑객의거의90%는AI가다른방법으로는찾지못했을제품을발견하는데도움이된다고말한다.
2154 조회
0 추천
2025.10.29 등록
(퍼플렉시티가정리한기사)듀크대학교의연구원들은훈련된인간전문가와동일한정밀도로2차원재료를분석할수있는인공지능현미경시스템을개발했으며,이는자율과학연구에서중요한돌파구를의미합니다.ATOMIC(AutonomousTechnologyforOpticalMicroscopy&IntelligentCharacterization)이라고불리는이시스템은재료결함및층구조를식별하는데최대99.4%의정확도를달성했습니다.​기초모델의혁신적통합10월2일ACSNano에발표된이획기적인연구는공개적으로이용가능한AI기반모델들—특히OpenAI의ChatGPT와Meta의SegmentAnythingModel(SAM)—을자율실험실장비에성공적으로통합한최초의사례를나타냅니다.DukeUniversity전기및컴퓨터공학과의수석연구원Haozhe"Harry"Wang은이시스템이단순히지시를따르는것이아니라이해할수있는능력을갖추고있다고설명했습니다.​"ATOMIC은샘플을평가하고,스스로결정을내리며,인간전문가만큼우수한결과를생성할수있습니다"라고Wang은설명했습니다.이시스템은시판되는광학현미경을이러한AI모델들에연결하여,샘플이동,이미지초점조정,조명조절을자율적으로제어하는동시에미세한특징들을분석할수있습니다.​중요한연구병목현상해결이개발은재료과학연구의주요병목현상을해결하는데,2차원물질—원자한개또는몇개두께의결정—을특성화하는작업은전통적으로수개월또는수년간의전문교육을필요로했습니다.이러한물질들은차세대반도체,센서및양자장치에대한가능성을보여주지만,제조결함이그들의뛰어난전기적특성을손상시킬수있습니다.​연구의제1저자인박사과정학생Jingyun"Jolene"Yang은"이모델은인간이쉽게볼수없는규모에서결정립계를감지할수있었다"고언급했습니다.이시스템은과다노출,초점불량또는낮은조명을포함한최적이아닌이미징조건에서도높은정확도를유지했으며,일부경우에는인간관찰자에게보이지않는결함을식별했습니다.​광범위한과학적변혁ATOMIC시스템은AI가발견과정의모든단계에점점더참여하고있는과학연구의광범위한변화를반영합니다.KAIST,드렉셀대학교,노스웨스턴대학교팀이ACSNano에발표한최근연구는AI가이제초기발견부터최적화까지재료연구전반에걸쳐기능한다는것을보여줍니다.한편,다른최근개발사례로는LilaSciences의AI기반연구공장과같은자율실험실플랫폼의출시와완전한실험워크플로우가가능한AI시스템의도입이있습니다.​OpenAI의SamAltman이최근예측한바와같이,AI는2년내에주요과학적발견을할수있으며,이는연구에서인공지능의가속화되는역할을강조합니다.Wang의팀은AI가인간의전문성을증폭시키지만,결과를해석하고그중요성을결정하는데는연구자들이여전히필수적이라는점을강조하면서이러한광범위한추세속에그들의연구를위치시켰습니다.
1841 조회
0 추천
2025.10.29 등록
(퍼플렉시티가정리한기사)중국AI스타트업MiniMax는월요일에M2언어모델을출시하여ArtificialAnalysis의IntelligenceIndex에서오픈소스모델중최고점수를달성했으며,OpenAI와Anthropic의독점시스템에대한강력한경쟁자로자리매김했습니다.​이모델은종합벤치마크에서61점을기록하여GPT-5,Grok4,ClaudeSonnet4.5에이어전세계5위를차지했습니다.MiniMaxM2는60점을기록한GoogleDeepMind의Gemini2.5Pro를앞질렀으며,이는중국오픈소스AI생태계에있어중요한성과입니다.​효율적인아키텍처가성능을강화합니다MiniMaxM2는총2,300억개의매개변수를가진Mixture-of-Experts(MoE)아키텍처를채택하지만,추론시에는100억개만활성화하여탁월한효율성을제공합니다.ArtificialAnalysis에따르면"매개변수의일부만사용함으로써모델이대규모에서효율적으로작동할수있게되었습니다".이는370억개의활성매개변수를사용하는DeepSeek의V3.2및320억개를사용하는MoonshotAI의KimiK2와같은경쟁모델들과비교해유리합니다.​이러한희소설계는FP8정밀도로단4개의NVIDIAH100GPU만으로배포를가능하게하여중견조직들도접근할수있게합니다.컴팩트한활성풋프린트에도불구하고,M2는초당약100개의토큰이라는추론속도를제공하며—이는ClaudeSonnet4.5와같은경쟁모델의약두배에해당합니다.​코딩과에이전트작업이탁월함을이끕니다MiniMaxM2는특히에이전트워크플로우와코딩애플리케이션에서뛰어난성능을보이며,이는기업들이점점더우선시하는영역입니다.이모델은전문벤치마크에서주목할만한점수를달성했습니다:실제코딩작업을위한SWE-benchVerified에서69.4점,도구사용을위한τ²-Bench에서77.2점,웹연구능력을위한BrowseComp에서44.0점을기록했습니다.​ArtificialAnalysis는"모델의강점은도구사용과지시사항따르기를포함한다"고언급하며,M2가일반화된작업보다실용적인애플리케이션에중점을둔다는점을강조했습니다.개발자들의독립적인테스트에서M2는혼합작업에서약95%의정확도를달성한반면,GPT-4o는90%,Claude3.5는88-89%를기록했습니다.​독일트리어대학교의박사과정학생이자오픈모델전문가인FlorianBrand는"그들의진전에정말감명받았다"고언급하며,MiniMax의이전M1모델대비상당한개선을강조했습니다.​MiniMax는입력토큰백만개당$0.3,출력토큰백만개당$1.2로모델을제공하여경쟁력있는성능을유지하면서도ClaudeSonnet4.5비용의단8%에해당합니다.이모델은HuggingFace와GitHub에서MIT라이선스로제공되며,API액세스는현재제한된기간동안무료로이용할수있습니다.
2173 조회
0 추천
2025.10.29 등록
(퍼플렉시티가정리한기사)알바니아의획기적인인공지능장관디엘라(Diella)가국회의원들의개인비서역할을할83개의디지털자녀를"출산"할준비를하고있다고에디라마(EdiRama)총리가베를린글로벌대화컨퍼런스에서발표했다.​10월27일연설에서라마총리는83개의AI비서각각이사회당국회의원에게배정되어회의를기록하고,요약을제공하며,입법절차중응답을제안할것이라고밝혔다."우리는오늘디엘라와함께상당한위험을감수했고매우잘해냈습니다.그래서처음으로디엘라가임신했고83명의자녀를가지게되었습니다"라고라마총리는말했다.​혁명적인AI거버넌스실험알바니아어로"태양"을의미하는이름을가진디엘라는2025년9월세계최초로장관급정부직책을맡은AI시스템이되면서역사를만들었다.OpenAI모델을사용하여과협력하여개발된이디지털장관은부패를근절하기위해알바니아의공공조달시스템을감독하는임무를맡았다.​이AI보좌관네트워크는인공지능이입법기능으로확장된전례없는사례를보여준다.라마에따르면,각디지털자손은"의회회의에참여하고일어나는모든일의기록을보관하며국회의원들에게제안할것"이라고한다.그는이들의유용성을유머러스하게설명했다:"예를들어,커피를마시러갔다가일터로돌아오는것을잊어버리면,이자손이당신이의사당에없을때무슨말이오갔는지말해주고,누구에게반격해야하는지알려줄것입니다".​디지털비서에서정부장관으로장관임명이전,Diella는2025년1월e-Albania플랫폼에서가상비서로시작하여시민과기업이공식문서를취득하고정부서비스를이용할수있도록지원했습니다.이시스템은이미백만건이상의디지털문의를처리하고36,000건이상의문서를발급했습니다.​Diella는전통알바니아의상을입은여성으로나타나며,알바니아배우AnilaBisha가2025년12월까지유효한계약에따라외모와목소리를제공하고있습니다.9월첫의회연설에서AI장관은다음과같이말했습니다:"저는사람들을대체하기위해여기있는것이아니라그들을돕기위해있습니다.사실,저는시민권이없지만개인적인야망이나이해관계도없습니다".​AI장관시스템은알바니아가유럽연합가입노력을계속하고기술을통해거버넌스구조를현대화함에따라2026년말까지완전히가동될것으로예상됩니다.
1860 조회
0 추천
2025.10.28 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입