(퍼플렉시티가정리한기사)이번주에발표된두가지주요연구는인공지능시스템이구축되고평가되는방식의심각한약점을드러내며,AI능력이과장되어왔는지에대한의문을제기하고있다.SonyAI는11월5일컴퓨터비전모델의편향성을드러내기위해설계된데이터셋인FairHuman-CentricImageBenchmark를공개했으며,옥스퍼드인터넷연구소와영국정부의AI보안연구소연구원들은AI성능을측정하는데사용되는테스트의광범위한결함을밝히는연구를발표했다.이러한연구결과들은많은AI시스템이윤리적으로문제가있는데이터로훈련되고신뢰할수없는방법으로평가될수있음을시사한다.훈련데이터에동의와다양성이부족함SonyAI가Nature에발표한새로운벤치마크는연구자들이컴퓨터비전시스템에서"편향되고윤리적으로문제가있는학습데이터의지속적인과제"라고부르는문제를다룹니다.이데이터셋은81개국1,981명의개인이찍힌10,318장의이미지로구성되어있으며,모두사전동의와공정한보상을받아수집되었습니다—이는업계관행과크게다른방식입니다.SonyGroup의AI거버넌스글로벌책임자인AliceXiang은컴퓨터비전이객관적이지않다고강조했습니다."컴퓨터비전은학습데이터에반영된편향에따라사물을왜곡할수있습니다"라고그녀는말했습니다.데이터셋은기존AI모델중공정성테스트를완전히통과한모델이없다는것을보여주었습니다.일부모델은"she/her/hers"대명사를사용하는사람들에대해낮은정확도를보였으며,벤치마크는이를더큰헤어스타일변동성—이전에간과되었던요인—으로추적했습니다.직업에대한중립적인질문을받았을때,테스트된모델들은특정인구통계학적그룹에대해특히고정관념을강화했으며,때로는피사체를성매매종사자,마약상또는도둑으로묘사했습니다.벤치마크테스트가신뢰할수없고오해의소지가있는것으로밝혀짐옥스퍼드연구팀은445개AI벤치마크를조사한결과,거의모든벤치마크에기술기업들이주장하는결과의신뢰성을"약화시키는결함"이있음을발견했습니다.벤치마크중통계적테스트를통해신뢰성을증명한것은16%에불과했습니다.핵심적인문제는구성타당성(constructvalidity),즉테스트가실제로그들이측정한다고주장하는것을제대로측정하는지에관한것입니다.옥스퍼드인터넷연구소의수석연구원인아담마디(AdamMahdi)는NBC뉴스와의인터뷰에서,그레이드스쿨매스8K(GradeSchoolMath8K)벤치마크와같은테스트에서모델이좋은성과를거둔다고해서반드시추론능력을보여준다고할수는없다고말했습니다.그는"1학년학생에게'2더하기5가뭐야?'라고물었을때'7이에요'라고답하면,분명정답입니다.하지만이로부터5학년이수학적추론을완벽하게습득했다고결론지을수있을까요?"라고덧붙였습니다.이번연구는데이터오염(datacontamination)을주요문제로지적했는데,이는테스트문항이모델의학습데이터셋에포함되어있어모델이답을추론하는것이아니라암기해서답을내는현상입니다.Mixtral,Phi-3,Gemma를포함한여러모델은GSM8K벤치마크와유사한신규문항으로평가할때성능이최대13%까지저하되는것으로나타났습니다.옥스퍼드연구의수석저자인앤드루빈(AndrewBean)은업계에서내놓는주장들을그대로믿어서는안된다고경고했습니다."모델이박사수준의지능을가졌다는것같은이야기를볼때는한번쯤의심해볼필요가있습니다,"라고빈은NBC뉴스에말했습니다.이번연구결과는최근구글이자사의GemmaAI모델이미국상원의원에관한허위주장을생성한후에모델을철회한상황에서나왔습니다.
1028 조회
0 추천
2025.11.07 등록