AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,119 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 102 페이지
(퍼플렉시티가정리한기사)이재명대통령과무함마드빈자이드알나흐얀아랍에미리트(UAE)대통령은18일(현지시간)아부다비대통령궁에서정상회담을갖고인공지능(AI)과원자력등첨단분야협력을강화하기로합의했다.양국은정상회담을계기로총7건의양해각서(MOU)를체결하며,기존방위산업과에너지협력을넘어미래첨단기술분야로협력을확대했다.​이번회담에서가장주목되는성과는한국이초기투자만30조원규모에달하는UAE의'스타게이트프로젝트'에참여하기로한것이다.이프로젝트는아부다비에최대5기가와트(GW)규모의AI데이터센터클러스터를구축하는사업으로,내년첫200메가와트(MW)급AI클러스터가동을목표로하고있다.​AI·원전·우주등7개분야MOU체결양국은이날△전략적AI협력프레임워크△AI분야협력△우주협력△바이오헬스분야포괄적협력△지식재산분야심화협력△원자력신기술·AI및글로벌시장협력파트너십△한·UAE포괄적경제동반자협정(CEPA)경제협력위원회행정및운영등7건의양해각서를체결했다.​특히한국전력공사와UAE원자력공사(ENEC)가서명한원전협력MOU는소형모듈원전(SMR)을포함한차세대원자력기술협력과제3국시장공동진출을담고있다.한국이건설한바라카원전은현재UAE전력수요의25%를공급하고있다.​재계총수들19일비즈니스라운드테이블참석이대통령은19일열리는한·UAE비즈니스라운드테이블에참석해양국경제인들과구체적인협력방안을논의할예정이다.이자리에는이재용삼성전자회장,김동관한화그룹부회장,유영상SK수펙스추구협의회AI위원회위원장등주요기업인들이참석한다.​이대통령은회담에서"양국이거래와계약을통한이익추구를넘어모두의성장과공동번영을향해거침없이나아갈수있도록미래지향적인협력구조를구축하자"고강조했다.무함마드대통령은"과학기술과혁신분야,특히우주와AI분야협력을확대하길희망한다"고화답했다.
806 조회
0 추천
2025.11.19 등록
(퍼플렉시티가정리한기사)Microsoft는Windows11테스터들에게실험적인AI에이전트기능을배포하기시작했으며,이는인공지능비서가사용자파일에접근할수있는격리된작업공간에서독립적으로작동할수있도록허용합니다.이러한움직임은사용자들사이에서기술적관심과개인정보보호우려를동시에불러일으켰습니다.Microsoft는11월16일Dev및Beta채널에Windows11InsiderPreviewBuild26220.7262를출시하며,설정앱의시스템및AI구성요소하위메뉴에새로운"실험적에이전트기능"토글을도입했습니다.이기능은기본적으로비활성화되어있으며활성화하려면관리자권한이필요하며,Microsoft가"에이전트작업공간"이라고부르는것을가능하게합니다.이는사용자가계속작업하는동안AI에이전트가백그라운드에서작업을완료할수있는별도의격리된Windows환경입니다.​에이전트워크스페이스작동방식Microsoft의공식문서에따르면,AgentWorkspace는단일PC에서여러사용자계정을사용하는것과유사하게AI에이전트를위한별도의Windows세션을생성합니다.각에이전트는개인사용자계정과분리된자체계정으로작동하며,범위가지정된권한부여와런타임격리를통해에이전트활동과사람사용자간의경계를설정합니다.​활성화되면에이전트애플리케이션은문서,다운로드,바탕화면,음악,사진,동영상등6개의특정폴더에대한액세스를요청할수있습니다.Microsoft는이시스템을"WindowsSandbox와같은완전한가상머신보다효율적이면서도보안격리,병렬실행지원을제공하고사용자가제어권을유지할수있도록합니다"라고설명합니다.​CopilotActions는이작업공간을활용하는첫번째애플리케이션으로,사용자가AI에게다운로드정리,사진분류,파일변환또는PDF에서정보추출을요청할수있습니다.이기능은MicrosoftStore업데이트를통해전세계WindowsInsider에게점진적으로출시되고있습니다.​반발과보안우려이번발표는11월10일마이크로소프트의Windows및Devices사장인PavanDavuluri가"Windows가에이전트기반OS로진화하고있다"고밝힌게시물이후상당한사용자반발이일어나는가운데나왔다.해당게시물은개발자와사용자들로부터심한비판을받았고,Davuluri는댓글을비활성화한뒤11월14일팀이"경험개선을위해해야할일이있다"고인정했다.​마이크로소프트는실험적인에이전트기능이성능에영향을미칠수있으며AI환각및교차프롬프트주입취약점을포함한보안위험을초래할수있다고경고한다.회사는에이전트활동을추적하기위한변조방지감사로그와함께부인방지,기밀성및사용자권한부여를포함한보안원칙을강조한다.사용자는언제든지접근권한을취소하고에이전트작업공간을종료할수있지만,마이크로소프트는이기능을끄면에이전트가프로필폴더에접근할수없게된다고경고한다.
852 조회
0 추천
2025.11.19 등록
(퍼플렉시티가정리한기사)AI로생성된딥페이크가현재생체인증사기시도의5건중1건을차지하고있다고195개국에걸쳐10억건이상의신원확인을분석한종합보고서가밝혔으며,이는대부분의사이버보안전문가들이대비하지못한정교한디지털사기의확대를나타낸다.11월18일발표된Entrust의2026신원사기보고서는디지털위조가문서사기사례의35%를차지할정도로급증했으며,사기범들이가짜이미지나비디오를인증시스템에직접주입하는인젝션공격이매년40%증가했다고밝혔다.이보고서는2024년9월부터2025년9월사이30개부문에걸쳐10억건이상의신원확인데이터를조사했다.​딥페이크가금융서비스를표적으로삼다암호화폐부문은가장심각한위협에직면해있으며,Entrust보고서에따르면해당산업에서딥페이크가생체인증사기시도의60%를차지하고있습니다.디지털우선은행들은22%의비율로딥페이크사기를경험하고있으며,결제및판매자부문에서는13%를기록하고있습니다.​보고서는"한때전문소프트웨어와디자인기술이필요했던것이이제는오픈소스모델과몇가지프롬프트만으로달성될수있습니다"라고밝혔습니다.사기범들은세가지주요딥페이크기술을사용합니다:실제사람과일치하지않는AI생성얼굴을사용하는합성신원,비디오에서한사람의얼굴을다른사람의얼굴로바꾸는얼굴교체,그리고정지된사진에움직임을추가하기위해AI를사용하는애니메이션셀카입니다.​딥페이크셀카사례는2025년에58%증가했으며,전체딥페이크파일수는2023년약500,000개에서2025년800만개로급증했습니다.​업계전문가들의준비부족AI기반사기의가속화에도불구하고,사기방지전문가10명중1명미만만이이러한위협에대응할준비가충분히되어있다고느끼는것으로나타났다.이는공인사기조사관협회(AssociationofCertifiedFraudExaminers)와SAS가11월16일발표한설문조사결과다.설문조사에따르면사기방지전문가의77%가지난2년간딥페이크소셜엔지니어링의명확한가속화를목격했으며,83%는추가증가를예상하고있다.​Entrust의선임사기전문가관리자인사이먼호스웰(SimonHorswell)은"탐지가개선됨에따라사기조직도진화하여더빠르고,더조직적이며,상업적으로움직이고있다"고말했다."이제신원이최전선이며,고객생애주기전반에걸쳐신뢰할수있고검증된신원으로이를보호하는것이적응형위협에앞서나가기위해필수적이다."​인젝션공격으로카메라우회보고서는가상카메라주입이가장일반적인공격방법이며,종종기기에뮬레이션기술과결합되어검증소프트웨어가사기시도를합법적인사용자로착각하도록만든다고경고했습니다.이러한주입공격은물리적카메라를완전히우회하여소프트웨어수준에서합성되거나변조된생체인증데이터를검증시스템에직접제공합니다.​물리적위조품이여전히문서사기시도의47%를차지하지만,생성형AI와현대적인편집도구의접근성향상으로디지털위조의급속한증가가촉진되었습니다.TRMLabs에따르면AI기반암호화폐사기는2024년5월부터2025년4월사이에만456%급증했습니다.​인간의탐지능력은기술에비해위험할정도로뒤처져있으며,연구에따르면사람들은고품질딥페이크를4번중1번정도만올바르게식별합니다.
816 조회
0 추천
2025.11.19 등록
(퍼플렉시티가정리한기사)해고된Subnautica2창립자들은이번주법정에제출된재판전문서에따르면,크래프톤CEO김창한이2억5천만달러의보너스지급을"회피할방법을브레인스토밍하기위해"ChatGPT를사용했다고주장하는폭발적인새로운법적소송을제기했습니다.증거개시과정에서발견된내부커뮤니케이션을기반으로한이소송서류는,한국의게임퍼블리셔가지급금재협상에실패한후개발사UnknownWorlds의인수를조작하기위한비밀태스크포스를만들었다고주장합니다.​프로젝트X와ChatGPT상담법적소송서류에따르면,크래프톤은"프로젝트X"를설립했으며,그목적은창립자인CharlieCleveland,MaxMcGuire,TedGill과성과급에대한합의를도출하거나"UnknownWorlds의'인수'를실행"하는것이었습니다.소송서류는크래프톤의글로벌기업개발책임자인MariaPark이Kim에게"정당한사유로인한해고와관계없이매출목표가달성되면성과급이여전히지급될가능성이매우높아보인다"고말했다고주장합니다.그시점에서Kim은ChatGPT에자문을구한것으로알려졌으며,ChatGPT는"성과급을취소하기는어려울것"이라고조언했습니다.​창립자들은크래프톤이ChatGPT대화내용제출을거부했으며나중에"더이상존재하지않는다"고확인했다고주장합니다.소송서류에는또한Kim과크래프톤의글로벌운영책임자인RichardYoon사이의Slack메시지일부가포함되어있으며,창립자들과광범위한개발팀모두에대한지급액을줄이는방안을논의한내용이담겨있습니다.​공동창립자들은2025년5월플레이테스트데이터가"게임이플레이어들의기대를충족시켰음을보여주었다"고주장하며,크래프톤의"자체내부전문가가2025년출시계획이최선이라고선언했다"고밝혔습니다.Park은"게임이8월출시준비가완료되었다"고작성한것으로알려졌습니다.​크래프톤,혐의부인Krafton은이러한주장을부인하며"플레이어들이최상의경험을얻을수있도록하는것보다더중요한것은없다"고밝혔다.퍼블리셔는창립자들이"서브노티카2의개발에거의관심을보이지않았다"며"이재판은원고들이자신들이하지않던일자리로복귀하기를요구하는것"이라고주장했다.​세명의임원은2025년7월에해고되었으며,Krafton은이후서브노티카2의얼리액세스출시를2026년으로연기했다.2억5천만달러의성과급은2021년Krafton의UnknownWorlds인수이후매출목표달성과연계되어있었다.이사건은델라웨어형평법원에서심리되고있다.
852 조회
0 추천
2025.11.19 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입