AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,140 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 94 페이지
(퍼플렉시티가정리한기사)AmazonWebServices는월요일Nvidia의BlackwellUltraGPU를탑재한AmazonEC2P6-B300인스턴스의정식출시를발표했으며,이는고성능AI인프라에대한급증하는수요를충족시키기위한클라우드거대기업의최신노력을보여줍니다.​새로운인스턴스는올해초출시된AWS의이전세대P6-B200인스턴스와비교하여2배의네트워킹대역폭과1.5배더많은GPU메모리를제공합니다.각P6-B300인스턴스는2.1테라바이트의고대역폭GPU메모리,초당6.4테라비트의ElasticFabricAdapter네트워킹,그리고4테라바이트의시스템메모리를갖춘8개의NvidiaB300GPU를탑재하고있습니다.​조단위매개변수모델을위해설계됨AWS에따르면,이인스턴스들은MixtureofExperts및멀티모달처리와같은정교한기술을사용하는대규모AI모델,특히수천개의GPU에걸친분산훈련이필요한수조개의매개변수를가진모델을훈련하고배포하도록설계되었습니다.향상된메모리및네트워킹기능을통해대규모모델이단일NvidiaNVLink도메인내에상주할수있어모델샤딩및통신오버헤드가감소합니다.​P6-B300인스턴스는FSxforLustre와함께NvidiaGPUDirectStorage를지원하여빠른모델로딩을위해초당최대1.2테라비트의처리량을달성합니다.이인스턴스들은현재AmazonEC2CapacityBlocksforML및SavingsPlans를통해미국서부(오리건)리전에서사용할수있습니다.​AI인프라포트폴리오확장이번출시로AWS는경쟁사인Microsoft와Google과경쟁할수있는위치에서게되었으며,이들역시Blackwell기반인프라를출시한바있습니다.Microsoft는11월초4,600개이상의NvidiaBlackwellUltraGPU를탑재한NvidiaGB300NVL72시스템의첫번째대규모프로덕션클러스터를배포한다고발표했습니다.GoogleCloud는10월에Nvidia의RTXPRO6000BlackwellServerEditionGPU를탑재한G4가상머신을정식출시했습니다.​AWS는12월1일부터5일까지라스베이거스에서열리는re:Invent컨퍼런스에서추가적인컨테이너및AI개발사항을선보일예정입니다.
750 조회
0 추천
2025.11.20 등록
(퍼플렉시티가정리한기사)게임산업은인공지능사용을둘러싼격렬한논쟁에휩싸였으며,주요개발자들과경영진들은이기술이창의적도구인지인간예술성에대한위협인지를놓고첨예하게대립하고있다.11월18일,전스퀘어에닉스이사이자현GenvidCEO인제이콥나복은"Z세대는AI저질콘텐츠를좋아한다"고주장하며"소비자들은일반적으로게임내AI에대해신경쓰지않는다"고말해논란을일으켰다.나복은AI생성캐릭터를사용했음에도불구하고3천만명의동시접속자를달성한로블록스게임StealaBrainrot를젊은게이머들이이기술을받아들인다는증거로제시했다.그는"코드를위해Claude를사용하지않는비인디타이틀을찾기어려울것"이라고경고하며,AI도입이전환점을넘어섰음을시사했다.​업계의목소리,반발하다같은날,대히트작Dispatch의개발사인AdHocStudio는확고한반AI입장을취했다.크리에이티브디렉터NickHerman은GamesIndustry.biz에AI는"제작솔루션이지창작솔루션이아니다"라고말했으며"창의적이지않다면창작솔루션일수도있다"고덧붙였다.스튜디오는배우JeffreyWright와AaronPaul이"AI로는절대얻을수없는방식으로작품을끌어올린"연기를선보였다고강조했다.총괄프로듀서MichaelChoung은"'충분히좋은것'은우리에게적"이라며AI를AdHoc의창작비전과양립할수없는것으로거부했다.​논란의중심에는녹음된배우의연기에서AI로추가음성대사를생성한것으로비판받아온추출형슈터ARCRaiders가있다.개발사EmbarkStudios는배우들이보상을받았으며향후콘텐츠를위해AI시스템에자신의목소리를사용하는것에동의했다고주장한다.ArrowheadGameStudios의CEOShamsJorjani는이관행을"실제로게임을더좋게만드는매우흥미로운사용사례"라고옹호하며,AI반대자와찬성자사이의중간지점을주장했다.​​광범위한영향논쟁은성우연기를넘어확장되고있습니다.ElectronicArts는게임개발을위한생성형도구를개발하기위해StabilityAI와파트너십을맺었으며,"인간이스토리텔링의중심에남아있을것"이라고밝혔습니다.한편,SAG-AFTRA회원들은2025년7월AI보호조항이포함된새로운인터랙티브미디어협약을비준했으며,이는디지털복제본에대한동의와출연자를위한사용보고서를요구합니다.​Valve은Steam에AI공개요구사항을구현하여,개발자들이게임에서AI를어떻게사용하는지설명하도록의무화함으로써고객들이정보에입각한구매결정을내릴수있도록했습니다.기술이계속진화함에따라,업계는AI가효율성도구인지아니면창작노동자들에대한실존적위협인지에대해깊이분열되어있습니다.
790 조회
0 추천
2025.11.19 등록
(퍼플렉시티가정리한기사)Globant는11월18일2026년을향해가는글로벌게임산업을재편하는5가지요인을파악한포괄적인보고서를발표했으며,올해글로벌수익은1,890억달러에달할것으로예상되고개발자들사이에서인공지능도입이급증하고있다고밝혔습니다.​"GameOn"보고서는휴대용및클라우드게임으로의플랫폼전환,광범위한AI통합,레거시프랜차이즈를통한지속적인참여,크리에이터주도의발견,그리고수익화관행에대한증가하는규제감독에의해주도되는변화를겪고있는게임환경을강조합니다.​AI가개발을재편하다보고서는게임개발자의97%가생성형AI가업계를변화시키고있다고믿으며,90%가이미이기술을업무흐름에통합하고있다는GoogleCloud연구결과를인용합니다.연구에따르면,개발자들은주로플레이테스팅및밸런싱,현지화및번역,코드생성을위해AI를사용하고있습니다.​"업계통합은게임산업을형성하는가장영향력있는힘중하나로남아있습니다"라고Globant의Gaming&EdTechAIStudioCEO인KevinJanzen은말했습니다.550억달러규모의ElectronicArts인수와Scopely의35억달러규모Niantic인수를포함한2025년의대규모인수합병이경쟁환경을재정의하고있습니다.​플랫폼및발견변화게임은휴대용및클라우드플랫폼으로전환하고있으며,기존콘솔을넘어어디서나플레이할수있는접근성을제공합니다.Newzoo예측에따르면전세계플레이어기반은2025년에36억명에달할것이며,모바일이30억명의플레이어로선두를차지할것입니다.​크리에이터플랫폼은이제기존광고보다게임발견을더효과적으로주도하고있으며,TikTok,YouTube,Twitch가플레이어들이새로운게임을찾는주요채널이되고있습니다.TikTok에따르면일일사용자의거의50%가플랫폼에서게임콘텐츠를시청합니다.​규제압력심화정부는심리적,윤리적위험때문에전리품상자,가챠시스템,불투명한AI기능을점점더규제대상으로삼고있습니다.벨기에와네덜란드는제한조치를시행했으며,중국은전리품상자확률공개를요구하고있습니다.업계는이에대응하여무작위전리품상자에서배틀패스로광범위하게전환했습니다.​보고서는스튜디오가경쟁력을유지하려면AI를책임감있게통합하고,플레이어신뢰를우선시하며,클라우드우선경험을설계해야한다고강조합니다.개발비용이증가하고시장포화도가높아지면서,게임의다음시대는혁신과진실성을불가분의관계로다루는스튜디오의것이될것입니다.
750 조회
0 추천
2025.11.19 등록
(퍼플렉시티가정리한기사)최근두연구는AI로인한일자리대체에대한심각한예측과대중의우려사이에현저한괴리가있음을드러내며,자동화에대한경고가무관심속에묻히고있을가능성을시사한다.인공지능이향후수년간수백만개의일자리를없앨수있다는유력한전망에도불구하고,근로자들은그러한시나리오가현실화될것이라는점에회의적이다.이러한연구결과는기술적위협을임박한것처럼느끼게만드는것이정책개입에대한대중의요구를촉발할것이라는가정에도전한다.미국인들은일정경고에동요하지않음UCMerced의정치학자AnilMenon과SyracuseUniversity의BaobaoZhang이JournalofPolitics에발표한연구에따르면,혁신적인AI가이르면2026년에도래할수있다는말을들었을때조차도미국인들의자동화에대한기대는안정적으로유지되었습니다.​연구자들은2024년3월에2,440명의미국성인을대상으로설문조사를실시했으며,참가자들을무작위로2026년,2030년또는2060년에AI로인한일자리손실이발생할것이라는예측을읽는그룹에배정했습니다.대조군은일정정보를받지않았습니다.​어떤일정에노출되든자동화위험에대한인식은증가했지만,2060년예측만이일자리손실에대한우려를유의미하게증가시켰습니다.저자들은"이러한결과는미국인들의자동화위험에대한믿음이완고하다는것을시사합니다"라고썼습니다."사람수준의AI가불과몇년내에도래할수있다는말을들어도,사람들은자신의기대를극적으로수정하거나새로운정책을요구하지않습니다."​재교육프로그램이나보편적기본소득에대한정책선호도는모든그룹에서본질적으로변화가없었습니다.​캐나다근로자들,AI위협에대해의견분분토론토대학교가9월에2,519명의캐나다근로자를대상으로실시한설문조사에서도비슷하게엇갈린반응이나타났다.단16%만이AI로인한대규모일자리손실이"매우가능성이높다"고믿었으며,48%는그러한시나리오가"어느정도가능성이있다"고답했다.​사회학교수스콧시먼(ScottSchieman)이주도한이연구는응답자들에게AnthropicCEO다리오아모데이(DarioAmodei)의발언을평가하도록요청했다.그는5월Axios와의인터뷰에서AI가초급화이트칼라일자리의절반을없애고1~5년내에실업률을10~20%까지급증시킬수있다고말했다.​비관적인응답자들사이에서는기업의이윤동기가주요우려사항을차지했다.63세작가는연구진에게"기업들은탐욕스럽다"고말했다."그들은가능한한많은일자리를없애고싶어한다".​반면다른사람들은인간의적응력에대해낙관적으로표현했다."고용시장은필요에따라적응할것이며,과거에그랬던것처럼현재기술에맞는다른역할로전환할것이다"라고34세서비스담당자가말했다.​AI일자리대체의현실노동자들은우려하지않는것처럼보이지만,일부일자리대체는이미발생하고있다.노동시장조사기관Challenger,Gray&Christmas는2025년1월부터9월사이에AI로인해17,375개의일자리가감소했다고밝혔다.스탠포드워킹페이퍼는AI에노출된직업군의22-25세초기경력근로자들이덜노출된직업군에비해13%의고용감소를경험했다고밝혔다.​그러나2025년EconomicInnovationGroup연구에따르면,더광범위한경제데이터는AI로인한전국적인실업률증가가유의미하게나타나지않았음을보여준다.제롬파월연방준비제도의장을포함한전문가들은현재의고용둔화가자동화보다는경제적신중함에더기인한다고평가한다.​이연구는대중의인식이전문가들의경고보다뒤처질때정책입안자들이AI관련개입에대한지지를동원하는데어려움을겪는다는점을시사한다.Menon과Zhang은"[기대가]변화에그토록저항하는이유를이해하는것은사회가AI시대의노동혼란을어떻게헤쳐나갈지예측하는데매우중요하다"고결론지었다.
744 조회
0 추천
2025.11.19 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입