AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,079 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 141 페이지
(퍼플렉시티가정리한기사)Meta의인공지능경쟁에서따라잡기위한야심찬노력이중대한차질에직면했습니다.회사의수석AI과학자이자튜링상수상자인YannLeCun이자신의스타트업을설립하기위해앞으로몇달내에떠날계획이라고FinancialTimes가화요일에보도했습니다.​합성곱신경망을개척한공로로"AI의대부"중한명으로여겨지는65세의프랑스계미국인연구자는동료들에게자신의결정을알렸으며,텍스트만이아닌비디오와공간데이터를통해환경에대한이해를발전시키는AI시스템인"월드모델"에초점을맞춘벤처를위한자금조달에관한초기논의를진행중입니다.LeCun은새로운회사를추진하는동안뉴욕대학교의실버교수직을유지할예정입니다.​전략적전환이긴장을조성하다르쿤의계획된퇴진은CEO마크저커버그가6월에메타의AI운영을재구성한지5개월만에이루어졌으며,데이터라벨링기업인스케일AI의지분49%를위해143억달러를투자했고,해당기업의28세창업자알렉산더왕을새로설립된메타슈퍼지능연구소(MetaSuperintelligenceLabs)부문의리더로영입했다.이거래는스케일AI의기업가치를290억달러이상으로평가했으며,메타에게는190억달러에인수한WhatsApp이후두번째로큰거래였다.​이번조직개편으로르쿤은최고제품책임자크리스콕스에게보고하던구조에서왕에게보고하는구조로변경되었고,이는2013년에르쿤이설립한기초AI연구소(FAIR)에서장기적인연구를하던메타가빠른제품출시로방향을전환했음을보여준다.이러한변화로인해AI부서내에마찰이생겼으며,소식통에따르면8월TechCrunch와의인터뷰에서FAIR가회사가상업중심팀에우선순위를두면서"천천히죽어가고있다"고말했다.​메타는10월에AI부서에서약600명의인력을감축했으며,이는주로FAIR와인프라팀에영향을주었고,동시에대규모언어모델훈련에집중하는엘리트TBDLab에는계속해서인력을채용하고있다.BusinessInsider가입수한메모에서왕은이번감축이"의사결정을단순화하고"직원들이"더큰부담을질수있도록"만들것이라고밝혔다.​AI개발에대한상이한비전이번떠남은AI의방향성에대한LeCun과Zuckerberg간의철학적분열을부각시킨다.LeCun은대규모언어모델이인간수준의추론을달성할수있는지에대해공개적으로의문을제기해왔으며,현재시스템은진정한지능이아닌통계적패턴매칭에의존한다고주장해왔다.한편Zuckerberg는AI의가능성을강조하며,1년내에Meta의코딩작업중상당부분을자동화할수있을것이라고분석가들에게말했다.​Meta가치솟는AI지출을정당화해야한다는압박에직면하면서전략적긴장이심화되었다.회사가2025년자본지출이720억달러에달하고2026년에는"현저히더커질"수있다고발표한후,Meta의주가는10월말12%이상급락하여시가총액약2,400억달러가사라졌다.투자자들은특히Meta의Llama4모델이4월에출시되어기대에못미치는평가를받고OpenAI의ChatGPT및Google의Gemini와같은경쟁사들보다뒤처진후,투자가수익을낼수있을지의문을제기했다.​LeCun과Meta모두논평요청에응답하지않았다.
1068 조회
0 추천
2025.11.12 등록
(퍼플렉시티가정리한기사)이스라엘AI스타트업Wonderful이스텔스모드에서벗어난지불과4개월만에시리즈A라운드에서1억달러를유치하여총펀딩규모를1억3,400만달러로늘렸으며,기업들이언어와문화를넘어고객상호작용을처리할수있는AI에이전트배포경쟁을벌이는가운데회사가치는7억달러로평가되었습니다.​IndexVentures가이번라운드를주도했으며,InsightPartners,IVP,BessemerVenturePartners,VineVentures가참여했습니다.이번대규모투자유치는AI에이전트시장이급증하는가운데이루어졌으며,기업의58%가자율에이전트기능구현을적극적으로모색하고있고23%는이미조직전반에걸쳐에이전트AI시스템을확장하고있습니다.​급속한성장이공격적인확장을촉진하다2025년초CEO바윙클러와CTO로이라자르에의해설립된원더풀은7월3,400만달러의시드라운드이후이탈리아,스위스,네덜란드,그리스,폴란드,루마니아,발트3국,아랍에미리트(UAE)등을포함해10개국으로사업을확장했습니다.회사는2025년말까지연간반복매출(ARR)800만~1,000만달러에도달할것으로예상하며,현재120명의직원을고용하고있습니다.​“저희가기업들로부터목격하고있는수요수준은엄청납니다.”라고윙클러는로이터와의인터뷰에서말했으며,이번자금이현지팀채용및기술투자로확장속도를높일것이라고설명했습니다.회사는2025년에독일,오스트리아,북유럽,포르투갈에서서비스를출시할계획이며,2026년초에는아시아태평양지역까지확장할예정입니다.​원더풀의AI에이전트는음성,채팅,이메일채널전반에서하루에수만건의고객요청을관리하고있으며,80%해결률을달성하고있습니다.많은경쟁사들과달리원더풀은각시장에맞춰플랫폼을현지언어,문화적규범,규제환경에적응시키고,배치에전담팀을운영합니다.​시장상황및경쟁기업AI에이전트시장은폭발적인성장을경험하고있으며,2024년51억달러규모에서2030년까지471억달러에달할것으로예상됩니다.PwC조사에따르면고위경영진의88%가에이전틱AI로인해향후12개월동안AI관련예산을늘릴계획이며,79%는자사가이미AI에이전트를도입하고있다고보고했습니다.​Wonderful은Adept와같은스타트업및수천명의고객에게AgentForce플랫폼을배포한와같은기존기업들과경쟁하고있습니다.회사의투자자들은로컬우선접근방식을경쟁우위로보고있습니다.IndexVentures의파트너인JuriaanDuizendstraal은"그들의모델은여러국가로의신속한진입을가능하게하도록처음부터구축되었습니다"라고말하며,Wonderful이미국에서시작하기보다는비영어권시장으로먼저확장하고있다고언급했습니다.​​Winkler는이전에2021년Tipalti에매각된Approve.com을설립했으며,Lalazar는이스라엘정보기관에서엘리트보안팀을이끌었고이전에AI기반현지화플랫폼인Kaps를설립했습니다.시드라운드후불과4개월만에이루어진신속한시리즈A는팀의실행속도에대한투자자의신뢰를보여준다고Duizendstraal은말했습니다.
1086 조회
0 추천
2025.11.12 등록
(퍼플렉시티가정리한기사)CloudNativeComputingFoundation과SlashData는11월11일Q42025TechnologyLandscapeRadar보고서의연구결과를발표하며,클라우드네이티브생태계에서주목받고있는주요AI도구들을확인했습니다.애틀랜타에서열린KubeCon+CloudNativeConNorthAmerica2025에서발표된이연구는전세계300명이상의전문개발자를대상으로AI추론도구,ML오케스트레이션시스템및에이전틱AI플랫폼을평가했습니다.​NVIDIATriton,DeepSpeed,TensorFlowServing,BentoML이도입을위해평가된최고의AI추론도구로선정되었으며,NVIDIATriton은성숙도와유용성모두에서가장높은점수를받았습니다.이보고서는사용량,성숙도,유용성및추천도에대한종합점수를기반으로기술을도입(adopt),시험(trial),평가(assess),보류(hold)의네가지범주로분류했습니다.​추론도구및ML오케스트레이션리드채택AI추론의경우,NVIDIATriton은인프라집약적AI워크로드를다루는개발자들로부터강한신뢰를받았으며,50%가성숙도에대해별5개등급을,41%가유용성에대해별5개등급을부여했습니다.Adlik은덜널리사용되지만,현재또는이전사용자들사이에서92%로가장높은추천율을기록했습니다.​ML오케스트레이션카테고리에서는Airflow와Metaflow가채택(adopt)상태에도달했습니다.Metaflow는개발자의84%가별4개또는5개로평가하여성숙도에서선두를차지했으며,Airflow는유용성평가에서1위를차지했고특히유용성에대해별1개또는2개평가를받지않았습니다.BentoML은추론에대해서는채택(adopt)등급을,오케스트레이션에대해서는시험(trial)등급을받았으며,이는다중역할도구가도메인전반에걸쳐고르지않게성공할수있음을보여줍니다.​에이전틱AI플랫폼,엇갈린평가보여모델컨텍스트프로토콜(MCP)과LlamaStack은채택카테고리에도달한유일한에이전트AI도구였습니다.MCP는80%로4점과5점유용성점수를합한점수가가장높았으며,상위도구중가장광범위한개발자기반을보유하고있었습니다.Agent2Agent(A2A)는더새롭고덜성숙했지만94%로가장높은추천율을받았습니다.​CNCF의CTO인ChrisAniszczyk는"AI시스템을구축하고운영하는조직들은5년전처럼도구를다룰수없습니다"라고말했습니다."이새로운연구가확인하는것은확장가능한인프라와오케스트레이션의클라우드네이티브원칙이백엔드앱뿐만아니라추론파이프라인과에이전트AI시스템에도기초가된다는것입니다."​데이터는현재AI/ML개발자의41%가클라우드네이티브로자신을식별하며,이수치는증가할것으로예상됩니다.보고서는개발자들이스스로를클라우드네이티브라고표시하지않더라도,그들의AI/ML시스템은컨테이너화,오케스트레이션,확장성및신뢰성을포함한클라우드네이티브아키텍처에의존한다는것을발견했습니다.
968 조회
0 추천
2025.11.12 등록
(퍼플렉시티가정리한기사)바이낸스는2025년11월11일,분산형인공지능네트워크인Allora(ALLO)를HODLer에어드롭프로그램의58번째프로젝트로상장한다고발표했습니다.토큰거래는원래예정된시간에서1시간지연된후UTC14:00에시작되었으며,ALLO는USDT,USDC,BNB,TRY페어로거래가능합니다.​거래소는10월23일부터10월25일사이에SimpleEarn상품에BNB를보유한사용자들에게1,500만개의ALLO토큰을배포했으며,이는토큰의최대공급량10억개중1.5%에해당합니다.HODLer에어드롭프로그램은잔액의과거스냅샷을기반으로BNB보유자들에게소급하여보상을제공하며,적격상품에자산을예치하는것외에는별도의적극적인참여가필요하지않습니다.​다중거래소상장및시장반응Allora는11월11일현물거래를위해ALLO를상장한OKX와KuCoin을포함한여러주요거래소에서동시에출시되었습니다.OKX는변동성을관리하기위해초기5분동안시장주문을제한하고포지션을$10,000로제한하는특별거래제한을시행했습니다.CoinMarketCap에따르면,ALLO는약1억6,100만달러의시가총액과4,200만달러의24시간거래량을기록했습니다.​Binance는이토큰에"시드태그"지정을적용했는데,이는기존토큰에비해더높은변동성과위험을나타낼수있는혁신적인초기단계프로젝트를나타냅니다.시드태그가지정된토큰을거래하는사용자는90일마다위험평가퀴즈를통과하고특정이용약관에동의해야합니다.거래소는또한상장전플랫폼인BinanceAlpha에서ALLO를제공했으며,최소220AlphaPoints를보유한사용자는에어드랍으로50개의토큰을받을수있었습니다.​탈중앙화AI네트워크인프라Allora는Cosmos블록체인스택을기반으로구축되었으며,여러AI모델의예측을집계하는자가개선기계지능네트워크로작동합니다.이프로젝트는PolychainCapital,FrameworkVentures,BlockchainCapital,CoinFund를포함한투자자들로부터3,500만달러를유치했습니다.이전에Upshot으로알려졌던팀은탈중앙화된집단지능네트워크라고설명하는것을만드는데집중하기위해리브랜딩했습니다.​네트워크는참여자들에게AI예측을생성하는워커(Workers),정확도를검증하는리퓨터(Reputers),네트워크를보호하는밸리데이터(Validators)등의역할을할당합니다.플랫폼은애플리케이션이중앙화된공급자에의존하지않고탈중앙화금융,예측시장,데이터분석에걸친사용사례를위해AI기능에액세스할수있도록합니다.상장시점에ALLO는2억5십만개의토큰유통량을가졌으며,이는최대공급량의약20%입니다.
990 조회
0 추천
2025.11.12 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입