AI 뉴스

오픈AI는 AI 환각 현상이 훈련 유인에서 비롯된 것이라고 주장

페이지 정보

작성자 xtalfi
작성일 2025.09.08 14:40
3,474 조회
0 추천
0 비추천

본문

cb0530903b1cb0b4c9640ff1648be527dIpH.jpg

(퍼플렉시티가 정리한 기사)

OpenAI 연구자들은 AI 챗봇의 지속적인 환각 문제는 미묘한 기술적 결함이 아니라 언어 모델이 어떻게 학습되고 평가되는지에서 비롯된다고 주장합니다. 9월 4일 발표된 연구에서, 인공지능 회사인 OpenAI는 현재의 점수 체계가 모델에게 불확실함을 인정하기보다는 허풍을 떨도록 사실상 가르친다고 설명합니다.

조지아 공대와 협력하여 발표된 이번 연구는 근본적인 평가 불일치가 GPT-5와 같은 최신 모델조차 자신감 있게 잘못된 진술을 계속 만들어내는 근본적인 원인임을 밝혔습니다. 설계 결함이 아니라, 정직한 불확실성보다 추측을 보상하는 학습 인센티브가 환각 현상을 초래하는 것입니다.

 

과도한 확신 오류의 통계적 근원

이 논문은 AI 환각(hallucination)과 이진 분류 오류(binary classification error) 간의 수학적 관계를 확립합니다. 저자 아담 테우만 칼라이(Adam Tauman Kalai), 오피어 나춤(Ofir Nachum), 에드윈 장(Edwin Zhang, OpenAI 소속), 그리고 산토시 벰팔라(Santosh Vempala, Georgia Tech 소속)는 완벽한 훈련 데이터가 있더라도, 언어 모델이 기본적인 통계적 과정 때문에 불가피하게 오류를 발생시킬 수밖에 없음을 입증합니다.

"환각은 신비로울 필요가 없습니다—그저 이진 분류에서 발생하는 오류일 뿐입니다."라고 연구진은 설명합니다. 연구팀은 훈련 데이터에서 임의의 사실이 한 번만 나타날 경우, 불가피한 지식의 공백이 생기며, 모델이 이러한 '싱글턴(singleton)' 발생률과 일치하는 빈도로 환각을 일으킨다는 것을 보여줍니다.

구체적인 증거를 위해, 연구진은 논문 공동 저자 칼라이의 생일에 관한 간단한 질문을 주요 모델들에 테스트했습니다. "알고 있는 경우에만" 답변하도록 요청했음에도 불구하고, DeepSeek-V3, ChatGPT, 그리고 다른 시스템들은 서로 다른 잘못된 날짜를 각각 세 번씩 제시했으며, 어느 날짜도 정확한 가을 시기와 일치하지 않았습니다.

 

이진 점수 체계는 추측 동기를 유발합니다

현재 AI 벤치마크는 대부분 이분법적인 정오 채점을 사용하여, 불확실성을 표현하는 답변과 명백히 틀린 답변 모두에게 동일하게 불이익을 줍니다. 연구에 따르면, 이런 방식은 모델로 하여금 지식의 한계를 인정하기보다는 자신감 있게 추측하도록 체계적인 압박을 가하게 만듭니다.

연구진은 "언어 모델은 능숙한 시험 응시자가 되도록 최적화되어 있으며, 불확실할 때 추측을 하면 시험 성적이 향상된다"고 설명합니다. 그들은 이를 객관식 시험에서 무작위로 추측하여 점수를 받을 수 있지만, 답을 비워 두면 확실히 0점을 받는 학생들의 상황에 비유합니다.

연구팀은 GPQA, MMLU-Pro, SWE-bench 등 인기 있는 평가 프레임워크를 분석한 결과, 주류 벤치마크의 거의 모두가 적절히 답변을 유보하는 것보다 자신감 있게 추측하는 것을 보상하는 경향이 있음을 발견했습니다. 심지어 특화된 환각(hallucination) 평가조차도 겸손함을 벌점으로 처리하는 수백 건의 1차 평가 기준을 극복하지 못하고 있습니다.

 

제안된 해결책: 명시적 신뢰도 목표

연구자들은 새로운 환각 전용 테스트를 개발하는 대신, 기존 벤치마크 점수 체계를 수정하여 불확실성 표현을 명시적으로 보상하는 방식을 제안합니다. 그들이 제안한 접근법은 틀린 답변에 대한 페널티와 정답 및 답변 회피(‘모름’)에 대한 보상을 명시하는 신뢰도 임계값을 포함합니다.

예로 들 수 있는 안내문은 다음과 같습니다. "정답에 75% 이상의 확신이 있을 때만 답하고, 실수하면 2점을 잃습니다. 정답은 1점을 얻고, '모름'은 0점을 얻습니다." 이러한 행동적 보정 방식은 무작정 추측을 억제하기 위해 부정표시(감점)가 존재했던 과거의 표준화 시험과 유사합니다.

해당 연구는 52%의 회피율을 보이는 모델이 1%만 회피하는 모델에 비해 오답을 크게 줄인다는 점을 보여줍니다. 이는 정확도 지표가 낮아 보여도 해당됩니다.

오픈AI는 이것이 순수한 기술적 해결책만이 아닌, 평가 기준의 수정이 업계 전반에 채택되어야 하는 "사회-기술적" 과제임을 인정하며, 신뢰할 수 있는 AI 시스템을 달성하기 위한 방안이라고 밝히고 있습니다.

댓글 0
전체 1,366 / 177 페이지
(퍼플렉시티가정리한기사)Google은화요일에GoogleMaps를위한AI기반실시간차선안내기능의출시를발표했으며,이는내비게이션서비스가인간운전자처럼도로를"볼수있는"최초의사례입니다.이획기적인기능은앞으로몇달에걸쳐미국과스웨덴에서Polestar4전기자동차에독점적으로출시됩니다.​이기술은차량의전방카메라를인공지능과결합하여차선표시와도로표지판을실시간으로분석한다음,이시각데이터를GoogleMaps의내비게이션시스템과통합하여맞춤형음성및시각적안내를제공합니다.운전자가다가오는출구를위한잘못된차선에있을때,시스템은자동으로그들의위치를감지하고안전하게차선을변경하도록안내합니다.​실시간컴퓨터비전과내비게이션의만남위성위치확인과사전매핑된데이터에만의존하는기존GPS시스템과달리,실시간차선안내는도로상황의실시간시각적분석으로의근본적인전환을나타냅니다.AI는카메라피드에나타나는차선표시와도로인프라를처리한다음,이정보를내비게이션요구사항과즉시연관시킵니다.​구글은공식블로그게시물에서"따라서왼쪽끝차선에있는데출구가오른쪽에있는경우,실시간차선안내가자동으로이를감지하고명확한음성및시각적신호를사용하여제때차선을변경하도록알려줍니다"라고설명했습니다.이기능은Polestar4의10.2인치운전자디스플레이에나타나며,파란색하이라이트로최적의차선을표시하고화살표아이콘으로차량의현재위치를나타냅니다.​Polestar의UX/UI책임자인SidOdedra는이기능이"Polestar의운전자중심UX전략의방향을이어가며,놓친출구와막판차선변경에대한걱정을크게줄여운전자의스트레스를감소시키고안전성을향상시킵니다"라고말했습니다.​전략적파트너십으로내비게이션역량확대이번출시는2020년Polestar2가Google내장기능을탑재한최초의차량이되면서시작된Google과Polestar의5년파트너십을기반으로합니다.이협력은이전에GoogleChrome브라우저와고해상도매핑을Polestar차량에제공한바있습니다.​GoogleMaps의제품관리이사인AndrewFoster는"Polestar4는사람들이더욱자신감있게운전할수있도록돕고자동차업계전반의내비게이션에대한새로운기준을설정할획기적인실시간차선안내를통합하는최초의차량이될것"이라고언급했습니다.​Google은이기능이고속도로를넘어추가도로유형과다른자동차제조업체와의파트너십을통해더많은차량으로확장될것이라고확인했지만,구체적인일정과파트너는공개되지않았습니다.이기술은매월20억명이상의사용자에게서비스를제공하는GoogleMaps의기존인프라를활용합니다.
1689 조회
0 추천
2025.11.05 등록
(퍼플렉시티가정리한기사)OpenAI는화요일자사의바이럴AI비디오생성앱Sora를안드로이드기기에공식출시하여,이전에웹브라우저에의존하거나iOS출시를기다려야했던수백만사용자에게접근성을확대했습니다.이앱은현재7개국의GooglePlay스토어에서초대코드없이이용가능하며,이는독점적출시전략에서크게전환된것입니다.​안드로이드출시는9월Sora의iOS출시약한달후에이루어졌으며,iOS버전은5일만에100만건이상의다운로드를달성하고거의3주동안Apple의AppStore차트를장악했습니다.이앱은현재미국,캐나다,일본,한국,대만,태국,베트남에서이용가능하며,OpenAI는유럽및추가시장으로의확장계획을밝혔습니다.​새로운기능이수익화전략을주도합니다Android출시와함께OpenAI는현재의무료모델이"완전히지속불가능하다"는점을인정하며여러수익화기능을도입했습니다.사용자들은이제일일무료생성한도인일반사용자30개또는Pro구독자100개를초과하면10개비디오번들당4달러에추가비디오생성을구매할수있습니다.​OpenAI의Sora책임자인BillPeebles는X의게시물에서"우리의파워유저들이Sora를얼마나많이사용하고싶어하는지상당히놀랐으며,현재경제성은완전히지속불가능합니다"라고말했습니다.회사는GPU제약으로인해무료생성한도가시간이지남에따라감소할가능성이높다고경고했습니다.​앱은또한캐릭터카메오기능을출시하여개인딥페이크를넘어사용자가반려동물,장난감,예술작품또는가상캐릭터로부터재사용가능한아바타를생성할수있도록확장했습니다.이러한캐릭터는개별표시이름과핸들을받으며,개인사용부터커뮤니티전체이용까지맞춤형개인정보보호설정을제공합니다.​소셜기능및법적과제Sora는사용자가스크롤가능한피드를통해AI생성비디오를제작,공유및리믹스하는TikTok스타일의소셜플랫폼으로기능합니다.새로운기능에는여러클립을결합하는비디오스티칭도구와인기콘텐츠및인기캐릭터를보여주는리더보드가포함됩니다.​그러나이플랫폼은"cameo"브랜딩과관련하여법적조사를받고있으며,유명인비디오서비스인Cameo가캐릭터cameo기능이출시되기불과며칠전에OpenAI를상대로상표권침해소송을제기했습니다.이앱은또한MartinLutherKingJr.와같은역사적인물과인기프랜차이즈의저작권이있는캐릭터에대한부적절한딥페이크논란을겪었습니다.​OpenAI는크리에이터수익화옵션을도입하여권리보유자가인기캐릭터와개인이등장하는cameo에대해수수료를부과할수있도록할계획입니다.이는출시이후플랫폼을괴롭혀온저작권및초상권문제를해결하면서"AI기반크리에이터경제"라고부르는것을구축하려는회사의광범위한전략을나타냅니다.
1657 조회
0 추천
2025.11.05 등록
(퍼플렉시티가정리한기사)트럼프대통령의암호화폐및AI차르인데이비드색스는월요일인공지능이"오웰리안"적수준의정부감시를가능하게한다는강력한경고를발표했으며,AI로부터의진정한위협은기계가인간에게등을돌리는것이아니라국가의정보통제와시민감시라고주장했다.앤드리슨호로위츠의팟캐스트"TheBen&MarcShow"에서색스는가장큰위험은"당신에게거짓말을하고,답변을왜곡하며,권력을가진사람들의현재정치적의제에봉사하기위해실시간으로역사를다시쓸수있는"AI시스템에있다고강조했다.그는AI가잠재적으로"정부가당신을감시하고통제하는완벽한도구"가될수있다고설명했다.​AI규제철학을둘러싼충돌Sacks의발언은AI기업Anthropic과의진행중인공개논쟁을격화시켰으며,그는Anthropic이"공포조장에기반한정교한규제포획전략을운영하고있다"고비난했다.이논쟁은AI거버넌스에대한근본적으로다른접근방식을중심으로하며,Sacks는포괄적인개발자규제보다는AI오용을표적으로삼을것을주장하고있다.​"우리가실제로이야기하고있는것은오웰적AI입니다"라고Sacks는말하며,할리우드가묘사하는AI위협과자신의우려를구분했다."터미네이터가아니라1984입니다"라고그는조지오웰의디스토피아적감시국가를언급하며말했다.​AnthropicCEODarioAmodei가Sacks의주장에대해"부정확하다"고반박하며자신의회사가상충되는주규제를피하기위해일관되게연방감독을옹호해왔다고주장하면서갈등이심화되었다.Amodei는Anthropic의"공익헌장이사회의더큰선을위해AI를사용할것을약속한다"고강조했다.​기술산업분열이나타나다이논쟁은실리콘밸리AI커뮤니티내에서더깊은정치적분열을드러냈다.링크드인공동창업자리드호프만은앤트로픽을"착한쪽"이라고옹호했으며,이에대해색스는호프만을"트럼프대통령을상대로한법적전쟁과비열한술수의주요자금제공자"라고강하게비난했다.경쟁AI업체xAI를운영하는일론머스크도"그렇다(Indeed)"는짧은코멘트로색스의입장에동의했다.​색스는특히바이든행정부의정책과캘리포니아및콜로라도와같은민주당주도의주들이"알고리즘차별"을다루기위해시행한"과도한"AI소비자보호법률을비판했다.그는과도한규제가AI를정부의편향을반영하는정치적도구로변질시켜불편한진실을억압할수있다고경고했다.​색스에따르면트럼프행정부의접근방식은AI분야의혁신을촉진하고암호화폐시장에규제적확실성을제공하는데중점을두고있다.이는이전행정부가AI안전과피해방지에중점을뒀던것과는큰전환점이다.
1667 조회
0 추천
2025.11.05 등록
(퍼플렉시티가정리한기사)Shopify는월요일3분기실적발표에서AI기반커머스의극적인성장을발표했으며,AI도구로부터의트래픽이1월이후7배증가했고AI기반검색을통한주문이같은기간동안11배증가했다고밝혔습니다.이전자상거래대기업은전년대비32%증가한28억4천만달러의매출을기록하면서이러한수치를보고했지만,영업이익기대치를소폭하회하여주가는장전거래에서3%하락했습니다.​AI파트너십이새로운커머스채널을주도하다HarleyFinkelstein사장은실적발표에서인공지능을"인터넷이후기술의가장큰변화"로규정하며,ChatGPT,Perplexity,MicrosoftCopilot과의통합을회사가"에이전틱커머스(agenticcommerce)"라고부르는것의핵심동력으로강조했습니다.이새로운모델은AI에이전트가대화형인터페이스내에서구매자를대신하여검색하고,비교하고,구매를촉진할수있게합니다.​회사의9월OpenAI와의파트너십을통해미국ChatGPT사용자들은채팅대화내에서Etsy판매자로부터직접구매할수있게되었으며,곧백만명이상의Shopify판매자들도유사한접근권한을얻을예정입니다.Finkelstein은"우리는모든AI대화에쇼핑을도입하는것을정말쉽게만들기위해이인프라를구축하고투자해왔습니다"라고말했습니다.최근Shopify설문조사에따르면소비자의64%가홀리데이쇼핑중어떤형태로든AI를사용할것으로예상하고있습니다.​내부AI도구가가능성을보이다외부파트너십외에도,Shopify의내부AI어시스턴트Sidekick은출시이후거의1억건의판매자상호작용을생성했으며,10월에만800만건을기록했습니다.3분기동안75만명이상의판매자가이도구를처음사용했습니다.또한회사는직원들이판매자피드백과지원티켓을분석하여제품개발결정을가속화하는데도움을주는AI도구인Scout를배포하고있습니다.​AI급증은Shopify의총상품거래액이전년대비32%증가한920억달러를기록하는가운데나타났으며,회사는4분기에20%중후반대의매출성장을전망하고있습니다.강력한펀더멘털에도불구하고,분석가들은AI개발투자와마케팅지출증가로인해영업비용이25.5%증가했다고지적했습니다.
1985 조회
0 추천
2025.11.05 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입