Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,084 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 140 페이지
(퍼플렉시티가 정리한 기사)Google는11월10일,기기내개인정보보호표준을유지하면서강력한Gemini모델기능을제공하도록설계된클라우드기반AI처리플랫폼인PrivateAICompute를공개했습니다.이시스템은인공지능분야에서점점커지는과제,즉사용자데이터보안을침해하지않으면서스마트폰처리한계를초과하는정교한AI기능을제공하는방법을해결합니다.​이플랫폼은Google의맞춤형TensorProcessingUnit과TitaniumIntelligenceEnclave를사용하는하드웨어격리환경에서실행되며,회사가설명하는"안전하고강화된공간"을생성하여민감한데이터가암호화된상태로유지되고Google자체도액세스할수없도록합니다.이아키텍처는AMD의SEV-SNP기술을사용하여서버메모리를승인된가상머신만액세스할수있는암호화된세그먼트로분할하여하이퍼바이저나운영체제의무단액세스를방지합니다.​픽셀기기에클라우드파워제공하기PrivateAICompute는초기에Pixel기기에서두가지기능을지원합니다.Pixel10시리즈의MagicCue는이제이메일과캘린더의개인정보를처리하면서클라우드기반Gemini모델을활용하여"더시의적절한제안"을제공합니다.Recorder앱은Pixel8및최신모델부터시작하여영어,중국어(만다린),힌디어,이탈리아어,프랑스어,독일어,일본어등7개언어로녹취록을요약하는기능을제공합니다.​이시스템은원격증명과종단간암호화를사용하여기기를보안된클라우드환경에연결합니다.Google에따르면,PrivateAICompute를통해처리되는데이터는즉각적인작업에만사용되며다른목적으로저장되거나액세스할수없습니다.Google은이플랫폼이사용자가기기내처리에서기대하는것과동일한개인정보보호를클라우드기반AI작업으로확장한다고강조합니다.​애플의영향력과산업에미치는영향Google의발표는2024년6월Apple의PrivateCloudCompute도입에이어진것으로,이는클라우드처리능력과엄격한개인정보보호보장을유사하게결합합니다.두시스템모두하드웨어보안엔클레이브와증명프로토콜을사용하여클라우드처리중사용자데이터를보호합니다.​Google의AI혁신및연구부사장인JayYagnik은블로그게시물에서"이것은시작에불과합니다"라고썼습니다."PrivateAICompute는가장민감한사용사례에온디바이스모델과고급클라우드모델을모두사용할수있게됨에따라유용한AI경험을위한새로운가능성을열어줍니다."​이플랫폼은2025년11월Google의PixelFeatureDrop의일부로출시되었으며,알림요약,스캠감지개선및GoogleMaps의절전모드도포함됩니다.
1087 조회
0 추천
2025.11.12 등록
(퍼플렉시티가정리한기사)토스증권이12일인공지능(AI)기술을활용한시장분석서비스'AI시그널'을출시했다고밝혔다.뉴스와공시데이터를실시간으로분석해주가변동이유를설명하는이서비스는지난5월선보인해외기업어닝콜실시간번역서비스에이어토스증권의두번째AI기반서비스다.​실시간주가변동원인분석AI시그널은투자자가보유하거나관심있는종목의주가가움직일때가격변동이유를핵심요약형태로제공한다.토스증권모바일트레이딩시스템(MTS)의'관심'탭에서확인할수있으며,현재일부사용자를대상으로베타테스트가진행중이다.토스증권은이르면이번주중서비스를정식출시할예정이다.​이서비스는검색증강생성(RAG)기술을활용해국내외기업공시와뉴스등주가변동과연관있는주요시장신호를AI가포착하고,신호가주가에어떤영향을줬을지자체추론해결론을제시한다.48시간이내에발생한뉴스와공시로데이터를제한하고,토스증권이자체개발한뉴스분류모델을활용해단순홍보성기사나불필요한정보를걸러낸다.​세가지자체개발AI기술적용토스증권은이번서비스에뉴스분류,번역,리즈닝(Reasoning)등자체개발한세가지AI기술을적용했다.뉴스분류모델은하루수천건의뉴스와공시중시장에영향을준정보를선별하고관련업종을자동으로분류한다.금융전문용어와수치처리에특화된자체번역모델은해외뉴스및공시정보를빠르고정확하게해석해제공한다.​특히리즈닝기술은다양한출처의정보를AI가비교·검증해주가변동의원인을논리적으로추론하는기능이다.예를들어특정산업이상승한이유를"공급망회복과실적개선기대"같은구체적문장으로제시하고,근거의신뢰도와수치의정확성까지함께검증한다.​토스증권관계자는"이번서비스를통해투자자가범람하는정보속에서정보탐색의피로를줄이고,시장흐름에대한이해도를높이는데도움을줄것으로기대한다"며"앞으로도지속적인AI기술고도화를통해고객이투자의주도권을가질수있는환경을만드는데집중할계획"이라고밝혔다.
967 조회
0 추천
2025.11.12 등록
(퍼플렉시티가정리한기사)카카오가AI에이전트앱서비스'카나나(Kanana)'의웹버전을출시해PC환경으로서비스접점을확대했다고12일밝혔다.​웹버전카나나는URL(mate.kanana.ai/home)을통해접속할수있으며,기존모바일앱이용자는동일한계정으로로그인해사용가능하다.신규가입자는카카오계정으로가입할수있다.​개인메이트중심기능제공카카오는웹버전출시초기개인메이트중심의기능을제공하며,그룹방기능등은단계적인업데이트를거쳐지원할예정이다.첫화면에서는개인AI메이트'나나'와다양한대화를나눌수있으며,화면왼쪽리스트에서스페셜AI메이트들도선택해이용할수있다.​스페셜AI메이트는지난달모바일앱업데이트를통해신설됐으며,타로,사주,챌린지,스터디코칭,보험상담등총5종으로구성됐다.카카오는이번웹버전에'카나나더알아보기'메뉴를추가해주제별메이트를소개하고다양한기능과새로운소식을전달할계획이다.​AI생태계구축가속화김종한카카오카나나성과리더는"더많은이용자들이카나나서비스를경험할수있도록플랫폼을확장했다"며"순차적으로기능을추가함으로써모바일중심의AI에이전트서비스를더넓은환경으로지속적으로확대해나갈것"이라고밝혔다.​카카오는올해9월연례개발자행사'if(kakao)25'에서카카오톡과결합된AI전략을공개하며,에이전틱AI생태계구현을목표로제시한바있다.향후모바일앱에서지원하는다양한기능들을웹버전에도순차적으로추가할계획이다.
1076 조회
0 추천
2025.11.12 등록
(퍼플렉시티가정리한기사)AdvancedMicroDevicesCEO리사수는화요일,이칩제조업체가AI데이터센터시장이2030년까지1조달러에달할것으로예상한다고발표했으며,뉴욕에서열린회사의금융애널리스트데이에서AMD가급성장하는인공지능인프라시장에서더큰점유율을확보하기위한야심찬성장전략을공개했습니다.​나스닥에서연설한수는향후3~5년동안회사가연간35%이상의매출성장을달성할계획을밝혔으며,데이터센터AI부문은같은기간동안연평균80%의성장률로확대될것으로예상된다고설명했습니다.이번발표는AMD가전년대비36%증가한92억달러의3분기기록적인매출을보고한지일주일후에이루어졌습니다.​엔비디아의지배력에도전하기AMD의1조달러시장전망은Nvidia의추정치와극명한대조를이루며,CEOJensenHuang은더광범위한AI인프라시장이2030년까지3조달러에서4조달러에이를것으로예측하고있습니다.Nvidia는현재90%이상의시장점유율로AI칩분야를지배하고있지만,AMD는꾸준히입지를넓혀가고있습니다.​"데이터센터가가장큰성장기회라는것은의심의여지가없으며,AMD가매우유리한위치에있습니다"라고Su는행사에서말했습니다.이회사는현재약6%로추정되는점유율에서3년에서5년내에AI데이터센터부문에서두자릿수시장점유율을확보하는것을목표로하고있습니다.​AMD의전략은2025년10월OpenAI와의획기적인파트너십을중심으로하며,이AI기업은2026년하반기부터1기가와트의MI450시리즈칩을시작으로6기가와트의AMDGPU를배치할예정입니다.최고재무책임자JeanHu는회사가2027년까지데이터센터AI매출이수백억달러에이를것으로예상한다고밝혔습니다.​AI가속기를넘어서는확장AMD의수정된1조달러시장추정치는Su가6월에언급한5,000억달러의두배로,이제CPU,네트워킹구성요소및AI가속기를포함한더광범위한포트폴리오를포괄합니다.회사는현재40%에서50%이상의서버CPU수익시장점유율달성을목표로하는동시에클라이언트PC시장의40%를목표로하고있습니다.​이칩제조업체는AI역량구축에막대한투자를해왔으며,지난5년동안연구개발에400억달러이상,인수합병에600억달러이상을지출했습니다.여기에는2025년3월에완료된49억달러규모의ZTSystems인수가포함되며,이를통해AMD의포트폴리오에랙규모시스템설계전문성이추가되었습니다.
1084 조회
0 추천
2025.11.12 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입