AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,106 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 106 페이지
(퍼플렉시티가정리한기사)AI에이전트시스템의보안취약점을해결하는새로운스타트업이월요일1,100만달러의시드펀딩과이미계약을체결한8개의유니콘고객사를확보하며출범했습니다.세번째창업에나선앤드류버먼(AndrewBerman)이설립한Runlayer는AI에이전트가기업데이터및시스템과상호작용할수있도록하는새로운표준인모델컨텍스트프로토콜(ModelContextProtocol)에대한포괄적인보안을구축하기위해KhoslaVentures의키스라보이스(KeithRabois)와Felicis로부터투자를확보했습니다.​이회사는제품출시후불과4개월만에스텔스모드에서벗어났으며,이미Gusto,Rippling,dbtLabs,Instacart,Opendoor,Ramp를포함한수십개의고객사와계약을체결했습니다.Runlayer는또한Anthropic에서MCP의수석개발자인데이비드소리아파라(DavidSoriaParra)를엔젤투자자및고문으로영입했습니다.​보안침해가긴급한필요성을촉진하다2024년11월Anthropic이오픈소스로출시한ModelContextProtocol(MCP)은AI에이전트가인간의감독없이데이터에접근하고이동시키며변경할수있게해주는사실상의표준이되었습니다.OpenAI,Microsoft,AmazonWebServices,Google을비롯한주요모델제작사뿐만아니라수천개의기술기업들이이제이프로토콜을지원하고있습니다.​그러나MCP는본질적으로내장된보안기능이부족하여,실제배포된구현들에서여러취약점이발견되었습니다.2025년5월InvariantLabs의연구원들은MCP서버에서프롬프트인젝션취약점을발견했으며,이를통해무단으로비공개GitHub저장소에접근할수있었습니다.이듬달에는Asana가자사의MCP서버에서서로다른조직간의고객데이터가누출될수있는취약점을발견하고이를수정했습니다.​TechCrunch에따르면이러한보안문제들로인해Cloudflare,Docker,Wiz를비롯한여러회사들이다양한MCP보안제품을출시하게되었습니다.​올인원플랫폼접근방식Runlayer는단일솔루션이아닌종합적인보안을제공함으로써붐비는시장에서차별화를추구하고있습니다.이플랫폼은게이트웨이보안과모든MCP요청을분석하는위협탐지,허가된MCP서버전반의관찰성모니터링,맞춤형AI자동화를구축할수있는엔터프라이즈개발도구,그리고Okta와같은신원제공자와통합되는세분화된권한기능을결합합니다.​과거유아용모니터제조업체인Nanit와AI영상회의툴Vowel을설립했던버먼은2024년3월Vowel을매각한뒤Zapier의AI디렉터가되었습니다.그는Zapier에서최초의MCP서버중하나를구축하면서OpenAI및Anthropic과긴밀히협력했습니다.이후2025년8월,공동창업자인탈페레츠,비토르발로코와함께Zapier를떠나Runlayer를설립했습니다.
938 조회
0 추천
2025.11.18 등록
(퍼플렉시티가정리한기사)Helldivers2개발사ArrowheadGameStudios의CEO는ArcRaiders에서AI생성음성을논란의여지가있게사용한것을옹호하며,게임업계가인공지능에대해극단적인입장을취하기보다는"중간지점"을찾아야한다고주장했습니다.ShamsJorjani의이러한발언은Eurogamer가ArcRaiders에별5개중2개만부여한후나왔으며,낮은점수는주로이추출슈터게임의AI텍스트음성변환기술구현때문이었습니다.이리뷰는게임이400만장이상판매되는상업적성공을거두었음에도불구하고게임의종합Metacritic점수를떨어뜨렸습니다.​"어쩌면,그럴수도있지않을까요,현실은그중간어딘가에있지않을까요?그럴수도있지않을까요?"Jorjani는TheGameBusinessShow와의인터뷰에서말했습니다."저는사람들이극단적인견해로뛰어든다는것을알게됩니다."​성우들이보수를받은후복제됨Nexon소유의ArcRaiders개발사EmbarkStudios는추가대사를생성하는AI모델학습에자신의목소리를사용하는데동의한성우들을고용했습니다.이시스템은아이템이름,위치,나침반방향에대한음성대사를생성하며,새로운콘텐츠가추가될때마다배우들이스튜디오에돌아올필요가없습니다.​Jorjani는이접근방식을칭찬하며,자신은개인적으로멀티플레이어게임에서음성채팅을피한다고언급했습니다."이것이더많은사람들이서로소통할수있게해주며,궁극적으로게임에좋은일이라고생각합니다"라고그는말했습니다."사람들이자신의작업에대해보상받을수있도록하기만하면됩니다.분명히중간지점이있을것입니다."​ArrowheadCEO는자신의스튜디오가게임자체에는AI를사용하지않지만,관리업무를위한효율성도구로는활용한다고명확히했습니다."우리는게임에AI를넣지않지만,영수증처리를더빨리할수있게해준다면,그것은모두를위한더많은Helldivers를의미합니다"라고그는말했습니다.​업계전반의긴장이논쟁은주요퍼블리셔들이AI사용을확대함에따라더광범위한긴장을반영합니다.SquareEnix는최근2027년말까지품질보증및디버깅작업의70%를자동화하겠다는계획을발표했습니다.Krafton은10월에직원들을위한자발적사직프로그램을포함하는"AI우선"방침을시작했습니다.Microsoft소유의Activision은CallofDuty:BlackOps7에서AI로생성된콜링카드아트워크로인해반발에직면했습니다.​한편,PUBG크리에이터BrendanGreene은Eurogamer에"커뮤니티가AI관련사안에반발하는것을보고정말힘을얻었다"고말했으며,이는스튜디오들이효율성향상과창의적무결성및인력문제사이에서균형을맞추려는가운데업계의이념적분열을강조합니다.​
845 조회
0 추천
2025.11.18 등록
(퍼플렉시티가정리한기사)Xbox소유스튜디오인ObsidianEntertainment는게임개발에생성형AI를사용하지않았다고확인하며,게임업계전반에걸쳐증가하는이기술의채택에대해확고한반대입장을취했습니다.이러한선언은여러주목받는게임들이AI생성콘텐츠로인해반발에직면하고있는시점에나왔습니다.GameFile과의인터뷰에서Obsidian개발자인JoshSawyer,KateDollarhyde,LeonardBoyarsky는스튜디오가이기술을전혀사용하지않는다고명확히밝혔습니다.Obsidian이글쓰기에생성형AI를사용하는지묻는질문에Sawyer는"우리가사용한것이아니다"라고답했으며,Boyarsky는"우리는전혀사용하지않았다"고덧붙였습니다.​이러한입장은2025년Obsidian의놀라운성과를고려할때특히주목할만합니다.약285명의직원을고용하고있는이스튜디오는올해판타지RPGAvowed,서바이벌게임Grounded2,그리고SF후속작TheOuterWorlds2라는세개의주요타이틀을출시했습니다.크리에이티브디렉터를맡고있는Boyarsky는AI기반글쓰기에대해추측했던자신의2019년발언을회고하며,이제는과거의자신을"머리를한대때리고싶다"고말했고,그러한개념은빠르게"매우다루기어려워질것"이라고덧붙였습니다.​논란이주요출시작들을휩쓸다Obsidian의입장은최근업계논란과뚜렷한대조를이룬다.CallofDuty:BlackOps7은호출카드와게임내자산에AI생성아트를사용한것에대해강한비판을받았으며,플레이어들은지브리스타일아트워크에서손가락이6개인캐릭터와같은명백한오류를발견했다.이러한반발로인해미국하원의원RoKhanna는11월14일"기업이더큰이익을얻기위해일자리를없애는데AI를사용하는것을방지하는"규제를요구했다.​ArcRaiders는Eurogamer의리뷰가AI생성음성사용을비판하며게임에2/5점을부여한후유사한논쟁을불러일으켰다.EpicGamesCEOTimSweeney는소셜미디어에서이기술을옹호하며리뷰를"정치적"이라고부르고AI가성우들에게기회를창출할것이라고주장했다.NexonCEOJunghunLee는플레이어들이"이제모든게임회사가AI를사용하고있다고가정해야한다"고제안했으나,StrangeScaffold의XalavierNelsonJr.를포함한여러인디개발자들이이주장에즉각반박했으며,그는자신의스튜디오가"그런것은전혀건드리지않고연간대략3개의게임을출시한다"고언급했다.​출판사들,AI통합에박차를가하다플레이어들의저항에도불구하고,여러주요퍼블리셔들이AI도입을가속화하고있습니다.SquareEnix는2027년까지품질보증업무의70%를자동화할계획을발표했으며,ElectronicArts는직원들의AI도구사용을의무화했습니다.Ubisoft는Anno117:PaxRomana에서AI생성아트가검토과정을"통과했다"고인정하며,다가오는패치에서이를교체하겠다고약속했습니다.​Xbox책임자PhilSpencer는10월에Microsoft가자사스튜디오에AI사용을강제하지않으며,각팀이자체적으로결정을내릴수있도록허용한다고밝혔습니다.
864 조회
0 추천
2025.11.18 등록
(퍼플렉시티가정리한기사)DanceMagazine는2025년11월17일,무용커뮤니티가분야의민주화를약속하면서도일자리안정성과예술적소유권에대한우려를제기하는도구들과씨름하는가운데,새롭게부상하는AI보조모션캡처기술에대한분석을발표했다.이기사는공연자들의움직임을디지털환경으로포착하고변환하는방식을재편한혁신의물결속에서나왔으며,새로운마커리스시스템은특수슈트와센서의필요성을제거했다.​구글이AISOMA를공개하며기술이발전하다이시기는구글이11월16일에출시한AISOMA와일치하는데,이는웨인맥그리거경의25년아카이브에서400만개의포즈로훈련된AI안무도구입니다.이시스템은기기카메라를통해사용자의춤동작을분석하고맥그리거의독특한스타일에기반한독창적인안무문구를생성하며,인공지능이예술적유산을보존하고확장할수있는방식에서중요한전환점을보여줍니다."안무가이자감독으로서의제평생의작업은우리가신체를통해그리고신체와함께어떻게사고하는지에대한끝없는탐구입니다"라고맥그리거는구글의발표에서말했습니다.​AISOMA플랫폼은TensorFlow2와MediaPipe기술을사용하여2D분석에서완전한3차원포즈추출로이동하면서이전버전보다기술적도약을나타냅니다.구글아트앤컬처의디렉터아미트수드는이를"모든사람에게자신의창의성의경계를놀이하고,탐구하고,밀어붙이도록초대하는것"이라고설명했습니다.​마커리스기술이산업표준을재편하다마커리스모션캡처시스템의최근발전으로물리적마커나특수슈트의필요성이없어졌으며,AI,컴퓨터비전,생체역학을사용하여비디오영상에서직접움직임데이터를추출할수있게되었다.MoveAI와같은회사들은2025년3월런던BAFTA에서Gen2SpatialMotionModels를출시하여개발자들이광학등급품질이라고묘사하는수준을달성했다.2024년에출시된실시간솔루션인MoveLive는4~8대의카메라를사용하여10×10미터공간에서100밀리초미만의지연시간으로공연자를캡처한다.​모션캡처는수십년동안영화,텔레비전,게임분야에필수적이었으며,댄서들은디지털캐릭터작업을위한전문무버로자주고용되어왔다.그러나이기술의진화는보상과동의에대한논쟁을불러일으켰다."예술가들이자신의움직임이미래에어떻게적용되고,재결합되거나,훈련데이터에사용될수있는지에대해계약적으로명시하고,이에대한지식과통제권을갖는것이매우중요합니다"라고안무가이자아티스트-엔지니어인LaurelLawson은2023년DanceMagazine과의인터뷰에서말했다.​노조,파업중보호조치쟁취공연자에대한AI의영향에대한우려는2024-2025년SAG-AFTRA비디오게임파업으로정점에달했으며,이는2025년7월모션캡처아티스트에대한새로운보호조치와함께종료되었습니다.95.04%의찬성률로비준된인터랙티브미디어협약은AI로생성된디지털복제본에관한사전동의와투명성을요구하며,공연자는파업기간동안동의를철회할수있습니다.2024년9월에통과된캘리포니아주법안은기업이동의없이AI를사용하여공연을복제하는것을추가로금지했습니다.​"목소리뿐만아니라신체성까지이러한캐릭터에기여하며자신의안녕을위험에빠뜨리는개인들이있습니다"라고SAG-AFTRA협상가던컨크랩트리-아일랜드는언급하며,모션캡처공연자들이성우들과동등한보호를받을자격이있다고강조했습니다.
847 조회
0 추천
2025.11.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입