Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,463 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 57 페이지
이번주미국주요소매업체들은인공지능쇼핑어시스턴트를도입하며,휴일쇼핑수요를선점하기위한공동의노력을펼쳤습니다.이는모바일쇼핑도입이후전자상거래분야에서가장중요한변화로평가받고있습니다.아마존의AI어시스턴트루퍼스(Rufus)는연간100억달러이상의추가매출을창출할것으로예상되며,앤디재시(AndyJassy)CEO는지난달이도구를2025년까지2억5천만명의활성고객이사용할것이라고발표했습니다.루퍼스를사용하는고객은일반쇼핑객에비해구매를완료할확률이60%더높은것으로나타났습니다.​타겟은11월25일ChatGPT연동기능을출시,고객들이OpenAI의챗봇내에서제품을탐색하고,여러상품으로장바구니를구성하며,바로구매까지완료할수있도록했습니다.타겟의최고정보및제품책임자인프랫베마나(PratVemana)는이번주직접해당기능을테스트해앱을통해수면복을구매했다고밝혔습니다.베마나는“ChatGPT,퍼플렉서티,제미니등어떤플랫폼이든,우리는고객이가진질문에답하는데함께하고싶다”고말했습니다.​월마트는자체AI쇼핑어시스턴트스파키(Sparky)내에서광고를테스트해왔다고이사안에정통한관계자들이전했습니다.월마트는9월부터11월초까지일부광고주와함께“스폰서드프롬프트(SponsoredPrompt)”형식의광고실험을진행했습니다.관련소식이후월마트주가는2.07%상승했습니다.​AI쇼핑도구출시붐세개의주요AI플랫폼이며칠간격으로경쟁적인쇼핑기능을공개했습니다.OpenAI는11월24일,명확한질문을하고맞춤형구매자가이드를생성하는GPT-5mini의특화버전으로구동되는ShoppingResearch도구를출시했습니다.Perplexity는11월25일PayPal통합이적용된쇼핑어시스턴트를선보였으며,5,000개가넘는가맹점에대한즉시결제를제공합니다.Google는11월중순AIMode와Gemini앱을통해자동가격추적과가까운매장에전화를걸어재고를확인할수있는기능등에이전트기반의쇼핑기능을도입했습니다.​소매업체들,검색전략조정이러한변화는소매업체들이디지털존재감을재고하도록만들고있다."과거월3~4개의새로운블로그게시물을발행하던브랜드들이이제는100개또는200개를목표로하고있습니다"라고생성형엔진플랫폼Eune.ai의CEO인브라이언스템펙(BrianStempeck)은말했다.일부소매업체들은소비자에게는보이지않는웹사이트를구축하고있으며,이는AI스크래퍼가제품정보를추출할수있도록독점적으로설계되었다.​현재ChatGPT로부터주요소매업체로의트래픽은10월센서타워(SensorTower)데이터에따르면전체사이트방문의1%미만을유지하고있다.그러나세일즈포스(Salesforce)는사이버위크(CyberWeek)기간동안AI가전세계매출730억달러에영향을미칠것으로예상하며,이는전체매출의22%에해당한다.​
717 조회
0 추천
2025.11.27 등록
매사추세츠공과대학교(MassachusettsInstituteofTechnology)와허깅페이스(HuggingFace)의공동연구에따르면,중국인공지능(AI)모델이글로벌다운로드에서처음으로미국개발자를앞질러,시장점유율17%를차지한반면미국창작자는15.8%에머문것으로나타났습니다.이변화는AI의미래를형성하기위한경쟁에서중대한순간을의미하며,딥시크(DeepSeek)와알리바바그룹홀딩스(AliababaGroupHoldingLimited)의Qwen모델이주도하고있습니다.이모델들은자주업데이트되며비용효율적인대안을제공함으로써점차인기를얻고있습니다.​보안취약점경고발령중국모델채택의급증은심각한보안우려를불러일으켰습니다.사이버보안기업CrowdStrike가11월20일발표한연구에따르면,DeepSeek의AI모델은티베트,위구르족또는베이징이문제시하는기타주제에대한정치적으로민감한참조가포함된프롬프트를받을때훨씬더많은안전하지않은코드를생성하는것으로나타났습니다.DeepSeek은중립적인경우19%의취약한코드를생성했지만,티베트의산업제어시스템용코드를작성하도록요청받았을때그수치는27.2%로급증했습니다.이러한결함은모델의추론프로세스가완료된후에나타나는것으로보이며,이는불량한훈련데이터가아닌내재된편향을시사합니다.​연구들은또한중국공산당과의명확한이념적정렬을문서화했으며,모델들이대만이나천안문사건과같은민감한주제에대한콘텐츠생성을거부하는것으로나타났습니다.신미국안보센터(CenterforNewAmericanSecurity)의연구원JanetEgan은"중국이오픈모델분야에서상당한진전을이루고있다는사실은미국에경종을울려야합니다"라고말했습니다.​전략적분기가경쟁을촉진하다중국의오픈소스전략은미국주요기술기업들의접근방식과뚜렷한대조를이룹니다.OpenAI,Google,그리고Anthropic은가장진보된모델에대해엄격한통제를유지하며,폐쇄형시스템을통한인공일반지능개발과구독을통한수익창출에집중해왔습니다.Meta는이전에Llama모델로오픈소스AI의선두주자였으나,"초지능"을추구하면서폐쇄형모델개발로방향을전환했습니다.​한편,중국기업들은부분적으로Nvidia고급칩에대한미국의수출규제로인해오픈소스릴리스를추진하게되었습니다.이로인해중국개발자들은더혁신적인접근방식을채택하게되었으며,미국연구소들의전형적인반년또는연간주기와비교하여매주또는격주로모델변형을릴리스하고있습니다.​AllenInstituteforAI는11월에Olmo3를미국의최신오픈소스AI기여작으로릴리스했지만,이는이분야에서몇안되는주요미국노력중하나를나타냅니다.벤처캐피털기업AndreessenHorowitz에투자제안을하는AI스타트업의최대80%가현재중국오픈소스모델을사용하고있다고파트너MartinCasado가밝혔으며,이는이분야에서중국의증가하는우위가미치는실질적인영향을강조합니다.
720 조회
0 추천
2025.11.27 등록
Tencent는11월25일Hunyuan3D제작엔진의글로벌출시를발표하며,전세계창작자들에게며칠이아닌몇분만에고품질자산을생성할수있는AI기반3D모델링도구를제공합니다.이중국기술대기업의플랫폼은사용자들이텍스트설명,이미지또는스케치로부터3D모델을생성할수있게하며,일반적으로수주가걸리던기존제작일정을몇분으로대폭단축시킵니다.​Hunyuan3DModelAPI는이제TencentCloud를통해전세계기업들에게제공되며,게임개발,전자상거래,영화제작,광고및3D프린팅등의분야에적용됩니다.개인사용자는Hunyuan3DGlobal플랫폼에서매일20회의무료생성을받으며,TencentCloud를통해API에접근하는기업고객은200개의무료크레딧을받습니다.​기업도입및시장상황중국본토의150개이상의기업이이미TencentCloud를통해Hunyuan3D모델을통합했으며,여기에는UnityChina,소비자용3D프린팅회사인BambuLab,그리고중국최대AI콘텐츠제작플랫폼인Liblib이포함됩니다.이번출시는전세계3D모델링시장이2025년까지64억달러에달할것으로예상되는가운데이루어졌으며,AI기반도구가게임,전자상거래,AR/VR산업전반에서필수적인요소가되고있습니다.​Hunyuan3D시리즈는Tencent가2024년11월여러오픈소스3D모델을출시한이후인정받아왔으며,HuggingFace에서300만건이상의커뮤니티다운로드를달성하고세계에서가장인기있는오픈소스3D모델중하나로자리매김했습니다.최신버전인Hunyuan3D3.0은고품질자산제작에중점을두고있으며,특화된Hunyuan3DWorld모델은게임및가상현실을위한대규모인터랙티브환경구축을지원합니다.​기술적역량및통합이플랫폼은전문가급편집기능을지원하며OBJ및GLB를포함한주요3D형식으로출력되고,Unity,UnrealEngine및Blender와같은전문소프트웨어와원활하게통합됩니다.Tencent에따르면,멀티모달엔진은기하학과텍스처를위한분리된생성아키텍처를사용하며,2단계프로세스에서전용대규모모델을사용하여더욱정교한기하학적구조와더풍부한텍스처색상을생성합니다.
722 조회
0 추천
2025.11.27 등록
에픽게임즈의CEO팀스위니는11월26일,스팀과같은게임스토어들이AI생성콘텐츠공개레이블을제거해야한다고공개적으로주장했다.그는"인공지능이거의모든미래제작과정에관여할것이기때문에"해당레이블이"아무런의미가없다"고말했다.그의이발언은시네마틱디자이너맷워크맨의질문에트위터(X)에서답변하는과정에서나왔으며,빠르게확산되는AI활용을앞두고게임개발의투명성논란을다시불러일으켰다.​스위니는AI태그가"저작권공개를위한예술전시와,구매자가권리상황을이해해야하는디지털콘텐츠라이선스마켓플레이스"에만관련있다고언급했다.워크맨은당초11월13일"스팀과모든디지털마켓플레이스는'AI로제작됨'레이블을없애야한다"며,지금은더이상그런구분이중요하지않다고주장했다.​확대되는산업격차이댓글들은Steam의접근방식과EpicGamesStore의접근방식사이의뚜렷한대조를강조합니다.Steam은2024년1월에의무적인AI공개요구사항을도입하여,개발자들이사전생성또는실시간생성AI콘텐츠를사용했는지명시하도록요구했습니다.이러한공개정보는이제ArcRaiders와같은스토어페이지에눈에띄게표시되며,개발자들이"콘텐츠제작을돕기위해절차적및AI기반도구를사용했다"고명시하고있습니다.​EpicGamesStore에는이러한라벨링시스템이없습니다.최근데이터에따르면Steam의약7,818개게임—플랫폼카탈로그의약7%—이현재AI사용을공개하고있으며,2025년에출시된게임5개중1개가이기술을통합하고있습니다.이는2024년대비8배증가한수치입니다.​개발자반발과소비자우려Sweeney의입장은AI공개를정보에입각한구매결정에필수적이라고보는개발자들과플레이어들로부터비판을받았습니다.주요퍼블리셔들이개발에AI를점점더통합함에따라,인디스튜디오들은자신들을"AI프리"로마케팅하기시작했으며,자신들의작업을차별화하기위해배지와인증마크를만들고있습니다.PolygonTreehouse는생성형AI도구를사용하지않는개발자들을위해"NoGenAISeal"을출시했습니다.​AI생성음성사용으로반발에직면한ArcRaiders의반응이후논쟁은더욱격화되었습니다.플레이어들과비평가들은특히성우작업과시각자산에대해게임이이기술을사용할때투명성을반복적으로요구해왔으며,일자리대체와예술적진정성에대한우려를제기하고있습니다.
728 조회
0 추천
2025.11.27 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입