AI 뉴스

AI 모델, 스스로 질문하며 학습하는 새로운 방식 등장

페이지 정보

작성자 symbolika
작성일 2026.01.08 10:06
356 조회
0 추천
0 비추천

본문

AI 모델 학습 연구

• 칭화대·BIGAI 연구진, 스스로 문제를 만들고 푸는 AI 시스템 'Absolute Zero Reasoner' 개발

• 인간 데이터 없이도 학습 가능한 '셀프플레이' 방식으로 추론 능력 크게 향상

• Salesforce·Meta 등 주요 AI 기업들도 유사한 접근법 연구 착수

• 연구진 "초지능(superintelligence) 달성의 첫걸음 될 수 있어"


가장 똑똑한 AI 모델조차도 본질적으로는 모방자에 불과하다. 이들은 인간이 만든 예시를 학습하거나 인간 강사가 설정한 문제를 풀면서 배운다.

하지만 AI도 보다 인간적인 방식으로 학습할 수 있다. 스스로 흥미로운 질문을 찾아내고 정답을 찾아가는 방식이다. 칭화대학교, 베이징일반인공지능연구소(BIGAI), 펜실베이니아주립대 공동 연구 프로젝트가 AI가 컴퓨터 코드를 다루며 이런 방식으로 추론을 학습할 수 있음을 보여줬다.

연구진이 개발한 'Absolute Zero Reasoner(AZR)' 시스템은 먼저 대형언어모델(LLM)을 사용해 도전적이지만 풀 수 있는 파이썬 코딩 문제를 생성한다. 그런 다음 같은 모델이 해당 문제를 풀고, 코드를 실행해 결과를 검증한다. 마지막으로 AZR 시스템은 성공과 실패를 신호로 삼아 원래 모델을 개선하며, 더 나은 문제를 제시하고 해결하는 능력을 함께 향상시킨다.

연구팀은 이 접근법이 오픈소스 언어모델 Qwen의 70억 및 140억 파라미터 버전의 코딩과 추론 능력을 크게 향상시켰음을 발견했다. 인상적인 점은, 일부 경우 인간이 선별한 데이터를 받은 모델보다 더 나은 성능을 보였다는 것이다.

이 아이디어의 원안을 제시한 칭화대학교 박사과정 연구원 Andrew Zhao와 함께 프로젝트를 진행한 BIGAI 연구원 Zilong Zheng은 화상 인터뷰에서 이 접근법이 암기나 모방을 넘어서는 인간의 학습 방식과 유사하다고 설명했다.

Zhao는 "처음에는 부모님을 따라하고 선생님처럼 행동하지만, 결국에는 스스로 질문을 던져야 합니다. 그래야 학교에서 가르쳐준 사람들을 넘어설 수 있습니다"라고 말했다.

Zhao와 Zheng은 '셀프플레이'라고도 불리는 이런 방식의 AI 학습 아이디어가 수년 전부터 있었으며, 저명한 AI 선구자 Jürgen Schmidhuber와 프랑스 Inria의 컴퓨터 과학자 Pierre-Yves Oudeyer 등이 이전에 탐구했다고 언급했다.

Zheng에 따르면 이 프로젝트의 가장 흥미로운 요소 중 하나는 모델의 문제 제시 능력과 문제 해결 능력이 함께 성장한다는 점이다. "모델이 더 강력해질수록 난이도도 높아집니다"라고 그는 말했다.

핵심 과제는 현재 이 시스템이 수학이나 코딩처럼 쉽게 검증할 수 있는 문제에서만 작동한다는 점이다. 프로젝트가 진행됨에 따라 웹 브라우징이나 사무 작업 같은 에이전트형 AI 업무에도 적용할 수 있게 될 것이다. 여기에는 AI 모델이 에이전트의 행동이 올바른지 판단하도록 하는 방식이 포함될 수 있다.

Absolute Zero 같은 접근법의 매력적인 가능성 중 하나는 이론적으로 모델이 인간의 가르침을 넘어설 수 있다는 점이다. Zheng은 "일단 그것을 달성하면 초지능에 도달하는 방법이 됩니다"라고 말했다.

Absolute Zero 접근법이 일부 대형 AI 연구소에서 주목받고 있다는 초기 징후가 나타나고 있다. Salesforce, 스탠포드, 노스캐롤라이나대학교 채플힐 캠퍼스의 'Agent0' 프로젝트는 셀프플레이를 통해 스스로를 개선하는 소프트웨어 도구 사용 에이전트를 포함한다. Absolute Zero처럼 이 모델도 실험적 문제 해결을 통해 일반적인 추론 능력을 향상시킨다.

Meta, 일리노이대학교, 카네기멜론대학교 연구자들이 작성한 최근 논문은 소프트웨어 엔지니어링에 유사한 종류의 셀프플레이를 사용하는 시스템을 제시한다. 이 연구의 저자들은 이것이 "초지능 소프트웨어 에이전트를 위한 훈련 패러다임의 첫걸음"이라고 제안했다.

AI 학습의 새로운 방법을 찾는 것은 올해 기술 업계의 주요 테마가 될 전망이다. 기존 데이터 소스가 희소해지고 비용이 증가하며, 연구소들이 모델을 더 유능하게 만들 새로운 방법을 모색하는 가운데, Absolute Zero 같은 프로젝트가 모방자에서 인간에 더 가까운 AI 시스템으로 이어질 수 있다.

댓글 0
전체 1,366 / 61 페이지
하버드대학출신인AnhPhuNguyen과CaineArdayfio는대화를지속적으로기록하고회상하는"제2의두뇌"역할을하도록설계된AI기반스마트안경Mira개발을위해660만달러의시드펀딩을유치했습니다.최근Halo에서리브랜딩한샌프란시스코기반스타트업은GeneralCatalyst로부터투자를유치했으며,NavalRavikant,PillarVC,VillageGlobal,MorningsideVentures,SomaCapital이참여했습니다.​2026년1월출시예정인이안경은MetaRay-Ban스마트안경과같은카메라중심경쟁제품과는다른방향을제시합니다.대신Mira는개인정보보호문제를해결하면서700밀리초미만의응답시간을달성하기위해오디오전사에만의존합니다.GeneralCatalyst에따르면,이시스템은대화를지속적으로듣고전사하며,듀얼웨이브가이드디스플레이를통해관련맥락을렌즈에직접표시합니다.​바이럴프라이버시경고에서투자받은스타트업으로창업자들은2024년9월MetaRay-Ban안경과안면인식기술을사용하여낯선사람을즉시식별하고개인정보를검색하는논란의여지가있는프로젝트인I-XRAY로처음주목을받았습니다.1억회이상의조회수를기록한이시연은상용제품이아닌개인정보보호인식캠페인으로기획되었습니다.Nguyen과Ardayfio는이기술을출시하는대신사람들이공개데이터베이스에서자신의정보를삭제할수있도록돕는가이드를게시했습니다.​두사람은하버드대학교를중퇴하고Mira개발에집중했으며,이를경영진,영업팀,엔지니어를포함한전문가를위한"인지코파일럿"으로포지셔닝했습니다.회사자료에따르면이안경의무게는39그램으로경쟁제품의절반이며,배터리수명은하루종일지속될것으로예상됩니다.​성장하는시장에서의프라이버시우선접근법카메라가장착된대안제품들과달리,Mira의오디오전용디자인은음성변환후즉시녹음을삭제하며,변환된텍스트는회사서버가아닌사용자의휴대폰에로컬로저장됩니다.479달러의안경은MetaRay-Ban과동일한가격대를형성하면서도다른사용사례를목표로합니다:즉각적인기억회상,60개이상의언어에대한언어번역,그리고소셜미디어통합이아닌회의맥락파악기능입니다.​이번투자는스마트안경시장이폭발적인성장을경험하는시점에이루어졌으며,2025년상반기글로벌출하량이전년대비110%급증했는데,이는주로AI기반모델에의해주도되었습니다.GeneralCatalyst의파트너AraK.는"1초미만의AI응답시간"이반응적질의가아닌능동적이고대화형지원으로의전환을나타낸다고언급했습니다.
659 조회
0 추천
2025.11.26 등록
OpenAI는화요일에ChatGPT에서별도의음성모드가필요없어졌다고발표했으며,사용자가이제지도및이미지와같은시각적콘텐츠와함께실시간대화내용을볼수있는메인채팅인터페이스에음성대화를직접통합했습니다.​모바일및웹플랫폼의모든사용자에게배포되는이번업데이트는이전에음성상호작용이애니메이션파란색구체가표시되는격리된화면에서이루어지던오랜제한사항을해결합니다.사용자는응답을보지못한채듣기만할수있었으며,ChatGPT가말한내용을텍스트로검토하려면음성모드를종료해야했습니다.​원활한멀티모달경험새로운통합기능으로사용자들은ChatGPT의텍스트입력란옆에있는파형아이콘을탭하여음성대화를시작할수있으며,말하는동안응답이나타나는것을볼수있습니다.OpenAI의시연영상에따르면,시스템은대화내용의텍스트를표시하는동시에관련시각자료를보여줄수있습니다.회사가공유한한예시에서ChatGPT는음성대화중에인기있는제과점들의지도와샌프란시스코타르틴베이커리의페이스트리사진들을표시했습니다.​OpenAI는X에올린공지에서"대화하고,답변이나타나는것을보고,이전메시지를검토하며,이미지나지도같은시각자료를실시간으로볼수있습니다"라고밝혔습니다.사용자들은텍스트입력으로다시전환하기전에음성대화를중지하려면여전히"종료"를탭해야합니다.​사용자선택보존통합음성모드는앱업데이트시기본경험이되지만,OpenAI는오디오전용경험을선호하는사용자를위해기존인터페이스를보존했습니다.이전형식을원하는사용자는설정의음성모드에서"분리모드"를활성화할수있습니다.​이변경사항은사용자가대화맥락을잃지않고음성과텍스트사이를보다유동적으로이동할수있도록하는멀티모달AI상호작용을향한OpenAI의지속적인노력을나타냅니다.Google은음성대화중오버레이로실시간비디오의특정부분을강조표시할수있는GeminiLive를통해유사한영역을탐구했습니다.
638 조회
0 추천
2025.11.26 등록
GoogleDeepMind는생물학에혁명을일으킨인공지능시스템의5주년을기념하여11월25일AlphaFold개발과정을담은장편다큐멘터리"TheThinkingGame"을YouTube에무료로공개했습니다.약90분분량의이영화는창립자DemisHassabis와그의팀이2024년노벨화학상을수상하게한50년된단백질접힘문제를해결한런던연구소의전례없는접근을제공합니다.​2017년DeepMind의세계바둑챔피언승리를기록한다큐멘터리"AlphaGo"의수상경력이있는감독GregKohs가5년에걸쳐촬영한이다큐멘터리는무료공개전2024년트라이베카페스티벌에서초연되었습니다.GoogleDeepMind의블로그에따르면,이영화는"AlphaFold팀이생물학분야의50년된거대한난제를해결했다는것을알게된순간"을포착했습니다.​체스신동에서노벨상수상자까지이다큐멘터리는하사비스가어린시절체스신동에서AI선구자로성장한여정을추적하며,DeepMind가퐁과같은비디오게임을마스터하는시스템을만드는것부터단백질구조를정확하게예측하는AlphaFold를개발하기까지의진화과정을기록합니다.스웨덴왕립과학원은2024년10월하사비스와DeepMind이사존점퍼에게"단백질구조예측"으로노벨화학상을수여했으며,이영예를계산단백질설계자데이비드베이커와공동수상했습니다.​AlphaFold의영향력은혁신적이었습니다.GoogleDeepMind에따르면,190개국의300만명이상의연구자들이2억개이상의단백질구조예측을포함한무료로제공되는AlphaFold데이터베이스를사용했습니다.이시스템은과학자들이이전에는수개월또는수년의실험실작업이필요했던것을몇분안에예측할수있게합니다.​​과학적발견을위한AI의약속Kohs는HarvardCrimson과의인터뷰에서자신의영화가"기술뒤에있는인간"에초점을맞춘다고말하며,의도적으로AI의잠재적위험성을강조하지않기로선택했다고설명했다.이다큐멘터리는대신인간의인지능력을모든영역에서동등하게구현하는AI인범용인공지능을추구하는과정에서겪은돌파구와좌절을통해팀의헌신을부각시킨다.​"AlphaFold가과학적발견을가속화할수있는AI의놀라운잠재력을보여주는첫번째증거로기억되기를바란다"고Hassabis는노벨상수상후말했다.응용분야는항생제내성이해부터플라스틱을분해하는효소설계까지다양하다.​​이영화는암호화폐거래소Coinbase에관한"Coin"과YouTube에서무료로시청할수있는그의호평받은"AlphaGo"다큐멘터리를포함하여기술선구자들을다룬Kohs의포트폴리오에합류한다.
640 조회
0 추천
2025.11.26 등록
RobinhoodCEO블라드테네브가공동창업한인공지능스타트업Harmonic이월요일14억5천만달러기업가치로시리즈C펀딩에서1억2천만달러를유치하며,아직상용제품을출시하지않았음에도불구하고유니콘지위를달성했습니다.이번라운드는RibbitCapital이주도했으며,SequoiaCapital,KleinerPerkins,IndexVentures,그리고로렌파월잡스가설립한투자회사인신규투자자EmersonCollective가참여했습니다.​이번펀딩은팔로알토에본사를둔이회사가불과14개월만에진행한세번째자금조달로,총투자금은2억9천5백만달러에이릅니다.Harmonic은인공지능의지속적인문제인할루시네이션(AI시스템이그럴듯하지만잘못된정보를생성하는현상)에집중함으로써투자자들의열광적인관심을받고있습니다.​수학을통한AI환각제거Harmonic의주력모델인Aristotle은정확성을보장하기위해형식적수학검증을사용함으로써기존AI시스템과차별화됩니다.확률적언어예측에의존하는대신,Aristotle은Lean4프로그래밍언어로추론을생성하여각단계의정확성을수학적으로검증할수있게합니다.CEOTudorAchim은Reuters와의인터뷰에서"환각현상의제거는시스템이자연어가아닌코드로추론을출력하도록요구하는우리의요구사항에서직접비롯됩니다"라고말했습니다.​7월,Aristotle은국제수학올림피아드에서금메달수준의성과를달성하며6개문제중5개를해결했습니다.이는Google및OpenAI의시스템과어깨를나란히하는벤치마크였습니다.RibbitCapital의GeneralPartner인NickShalek에따르면,"Aristotle이수학적초지능이현실세계에서달성할수있는것을계속해서입증함에따라우리의파트너십을심화하게되어자랑스럽습니다".​안전필수산업타겟팅Harmonic은항공우주,금융,자동차산업을포함하여오류가심각한결과를초래할수있는분야에서자사의기술을상용화하는것을목표로하고있습니다.현재이회사는Aristotle에대한무료API액세스를제공하고있으며,연구자와수학자들이이도구를사용하여복잡한증명을검증하고발견을가속화하고있습니다.Achim은새로운자금의상당부분이점점더발전된모델을훈련하는데필요한컴퓨팅인프라를지원하는데사용될것이라고밝혔습니다.​형식검증은이미의료기기및항공시스템과같은고위험애플리케이션에서표준으로자리잡고있으며,Harmonic의접근방식은신뢰성우려로인해주저해온위험회피분야에서AI도입을촉진할수있습니다.
643 조회
0 추천
2025.11.26 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입