Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 11.07 14:52
79 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 857 / 12 페이지
(퍼플렉시티가정리한기사)TeslaCEO일론머스크는11월6일주주총회에서전기차제조업체가AI및로보틱스프로세서생산을위해Intel과파트너십을맺을수있다고발표했으며,이에Intel주가는시간외거래에서2.2%상승한$38.06을기록했습니다.머스크는또한Tesla가로보택시및인간형로봇사업에서증가하는반도체수요를충족하기위해"테라-팹(tera-fab)"이라고부르는대규모칩제조시설을자체적으로건설할가능성을제기했습니다.​이잠재적거래는Intel에게중요한시기에이루어졌습니다.Intel은지난3년간경쟁사인Nvidia와AMD를새로운정점으로끌어올린AI칩붐을활용하는데어려움을겪어왔습니다.Intel의파운드리사업은2024회계연도에130억달러의영업손실을기록했으며,이는2023년의70억달러에서증가한수치로,회사가AI칩개발과첨단제조분야모두에서경쟁사들에뒤처졌기때문입니다.​테슬라의칩공급망다각화테슬라는현재자사의완전자율주행시스템과로보틱스플랫폼을구동하는AI시리즈칩제조를위해TaiwanSemiconductorManufacturingCompany및Samsung과파트너십을맺고있습니다.테슬라의차세대프로세서인AI5칩은TSMC와삼성의애리조나및텍사스시설에서각각생산될예정이며,2027년에대량생산이예상됩니다.​10월테슬라의3분기실적발표에서머스크는삼성이2033년까지진행되는165억달러규모의계약의일환으로차세대AI6칩을제조할것이라고확인했습니다.인텔을잠재적인세번째제조파트너로추가하는것은업계전반에걸쳐첨단반도체에대한수요가증가함에따라테슬라의공급망을더욱다각화할것입니다.​인텔의턴어라운드노력2025년초취임한립부탄(Lip-BuTan)CEO체제하에서인텔은제조역량을회복하고AI칩시장에서경쟁하려는시도를해왔습니다.회사는2025년10월애리조나에새로운Fab52시설을열어RibbonFET및PowerVia혁신기술이적용된첨단18A공정기술을사용하여칩을생산하고있습니다.인텔은마이크로소프트,아마존을포함한주요기술기업들과의관계를유지하고있으며,최근에는AI인프라및개인용컴퓨팅제품개발을목표로엔비디아로부터50억달러투자를발표했습니다.​이러한노력에도불구하고인텔은계속해서상당한어려움에직면하고있습니다.회사는2024년에188억달러의손실을기록했으며주요파운드리고객유치에어려움을겪고있고,2025년3분기실적은공급제약과경쟁역학으로인한지속적인압박을보여주었습니다.까다로운엔지니어링기준으로알려진테슬라와의파트너십은인텔이더넓은시장에제조역량을입증하는데필요한검증을제공할수있습니다.
76 조회
0 추천
11.07 등록
(퍼플렉시티가정리한기사)이번주에발표된두가지주요연구는인공지능시스템이구축되고평가되는방식의심각한약점을드러내며,AI능력이과장되어왔는지에대한의문을제기하고있다.SonyAI는11월5일컴퓨터비전모델의편향성을드러내기위해설계된데이터셋인FairHuman-CentricImageBenchmark를공개했으며,옥스퍼드인터넷연구소와영국정부의AI보안연구소연구원들은AI성능을측정하는데사용되는테스트의광범위한결함을밝히는연구를발표했다.이러한연구결과들은많은AI시스템이윤리적으로문제가있는데이터로훈련되고신뢰할수없는방법으로평가될수있음을시사한다.​훈련데이터에동의와다양성이부족함SonyAI가Nature에발표한새로운벤치마크는연구자들이컴퓨터비전시스템에서"편향되고윤리적으로문제가있는학습데이터의지속적인과제"라고부르는문제를다룹니다.이데이터셋은81개국1,981명의개인이찍힌10,318장의이미지로구성되어있으며,모두사전동의와공정한보상을받아수집되었습니다—이는업계관행과크게다른방식입니다.​SonyGroup의AI거버넌스글로벌책임자인AliceXiang은컴퓨터비전이객관적이지않다고강조했습니다."컴퓨터비전은학습데이터에반영된편향에따라사물을왜곡할수있습니다"라고그녀는말했습니다.데이터셋은기존AI모델중공정성테스트를완전히통과한모델이없다는것을보여주었습니다.일부모델은"she/her/hers"대명사를사용하는사람들에대해낮은정확도를보였으며,벤치마크는이를더큰헤어스타일변동성—이전에간과되었던요인—으로추적했습니다.직업에대한중립적인질문을받았을때,테스트된모델들은특정인구통계학적그룹에대해특히고정관념을강화했으며,때로는피사체를성매매종사자,마약상또는도둑으로묘사했습니다.​벤치마크테스트가신뢰할수없고오해의소지가있는것으로밝혀짐옥스퍼드연구팀은445개AI벤치마크를조사한결과,거의모든벤치마크에기술기업들이주장하는결과의신뢰성을"약화시키는결함"이있음을발견했습니다.벤치마크중통계적테스트를통해신뢰성을증명한것은16%에불과했습니다.​핵심적인문제는구성타당성(constructvalidity),즉테스트가실제로그들이측정한다고주장하는것을제대로측정하는지에관한것입니다.옥스퍼드인터넷연구소의수석연구원인아담마디(AdamMahdi)는NBC뉴스와의인터뷰에서,그레이드스쿨매스8K(GradeSchoolMath8K)벤치마크와같은테스트에서모델이좋은성과를거둔다고해서반드시추론능력을보여준다고할수는없다고말했습니다.그는"1학년학생에게'2더하기5가뭐야?'라고물었을때'7이에요'라고답하면,분명정답입니다.하지만이로부터5학년이수학적추론을완벽하게습득했다고결론지을수있을까요?"라고덧붙였습니다.​이번연구는데이터오염(datacontamination)을주요문제로지적했는데,이는테스트문항이모델의학습데이터셋에포함되어있어모델이답을추론하는것이아니라암기해서답을내는현상입니다.Mixtral,Phi-3,Gemma를포함한여러모델은GSM8K벤치마크와유사한신규문항으로평가할때성능이최대13%까지저하되는것으로나타났습니다.​옥스퍼드연구의수석저자인앤드루빈(AndrewBean)은업계에서내놓는주장들을그대로믿어서는안된다고경고했습니다."모델이박사수준의지능을가졌다는것같은이야기를볼때는한번쯤의심해볼필요가있습니다,"라고빈은NBC뉴스에말했습니다.이번연구결과는최근구글이자사의GemmaAI모델이미국상원의원에관한허위주장을생성한후에모델을철회한상황에서나왔습니다.
80 조회
0 추천
11.07 등록
(퍼플렉시티가정리한기사)OpenAI는기술역사상가장야심찬재정적사업중하나에직면해있으며,CEO샘알트먼은인공일반지능(AGI)목표를추구하면서회사가1조4천억달러이상의인프라거래를약속했다고밝혔습니다.목요일발언에서알트먼은대규모확장에도불구하고OpenAI가정부구제금융을추구하지않으며2025년말까지연간매출실행률이200억달러를넘어설것으로예상하고,이수치는2030년까지수천억달러규모로확대될것으로예상된다고이해관계자들을안심시켰습니다.​1조달러규모의확장과수익목표Altman의X플랫폼발표는AI업계에중요한전환점이되었으며,이는OpenAI가데이터센터용량과칩파트너십,특히Nvidia와AMD같은거대공급업체들과수십억달러규모의계약을확보하는시점에이루어졌다.향후8년간1조4천억달러라는투자규모는실리콘밸리와월스트리트전반에경외심과회의론을동시에불러일으켰으며,이들은이제OpenAI의예상수익이비용을감당할수있을지고심하고있다."우리는AI가주도하는미래경제를위한인프라를구축하고있습니다...대규모인프라프로젝트는완성까지상당한시간이걸리므로지금시작해야합니다"라고Altman은작성하며,이러한투자를신흥AI역량에서리더십을유지하기위한필수요소로자리매김했다.​최근몇달동안OpenAI는비영리기관에서ChatGPT의폭발적인성공에힘입어세계에서가장빠르게성장하는상업용AI벤처기업중하나로전환했다.Altman은기업용AI,소비자기기—5월에인수한JonyIve의io에서비롯된손바닥크기의AI기기에대한소문을포함하여—그리고로봇공학분야의새로운비즈니스제품을통해2030년까지"수천억달러"의매출을올릴것으로예측한다.이회사는또한다른기업들에게AI컴퓨팅용량을직접판매하는것을고려하고있으며,이는주요클라우드컴퓨팅제공업체가되려는야망을시사한다.​정부구제금융거부와산업계반응정부구제금융의가능성은CFO사라프리어(SarahFriar)가WSJTechLive컨퍼런스에서OpenAI의인프라계획자금조달을돕기위한연방정부의"안전망"가능성을시사한발언이후수면위로떠올랐습니다.이발언은즉각적인반발을불러일으켰고,알트만은강력하게해명했습니다:"우리는OpenAI데이터센터에대한정부보증을받지도않고원하지도않습니다.정부는특정기업을우대해서는안되며,납세자들이잘못된결정을내리거나시장에서실패한기업을구제하는책임을져서는안됩니다"라고그는밝혔으며,이는AI기업에대한연방지원을배제한백악관AI고문데이비드색스(DavidSacks)의유사한게시물과맥을같이합니다.알트만은공공자금이개별기업이아닌전체산업,특히미국반도체제조업을강화하는데사용되어야한다고더욱강조했습니다.OpenAI가국내반도체생산을위한대출보증에관한논의에참여한것은사실이지만,알트만은어떤신청서도제출되지않았으며직접적인구제금융계획도없다고주장합니다.​재정적불확실성과앞으로의길5,000억달러에달하는인상적인기업가치에도불구하고,OpenAI는여전히수익을내지못하고있어막대한지출을정당화해야한다는압박이커지고있습니다.분석가들은회사의상당한수익창출능력이"모든사람에게드리워진주요질문"이라고지적하며,회의론자들은지분조달,부채자본,그리고새로운제품카테고리에대한계획을면밀히주시하고있습니다.​OpenAI의회장인그렉브록먼은현재1조달러규모의인프라구축을주도하고있으며,AGI가실현될경우"모든것을변화시킬것"이라고주장하면서이투자를사회발전에필수적인것으로규정하고있습니다.알트만과브록먼모두지속적인규모확대와신속한실행이OpenAI가경쟁우위를유지하는데중요하다는확고한믿음을표명하고있습니다.OpenAI가AGI,기업용AI,그리고소비자기술분야에서대담한새로운지평을추구함에따라,전세계는기술업계의가장과감한도박이성공할지,아니면재정적중력이야망을다시지상으로끌어내릴지지켜볼것입니다.
77 조회
0 추천
11.07 등록
(퍼플렉시티가정리한기사)Google은GoogleFinance에중요한인공지능업그레이드를출시하여,사용자에게몇분내에포괄적이고인용된금융조사를제공하는GeminiAI모델기반의DeepSearch기능을도입했습니다.11월5일에발표된이번개선사항에는예측시장데이터통합과고급실적추적기능도포함되어있습니다.​DeepSearch도구는Google의고급Gemini모델을활용하여"최대수백건의동시검색"을수행하고결과를전체인용이포함된상세한보고서로종합한다고GoogleSearch의제품관리이사인RobertDunnette가밝혔습니다.사용자는시장상황,경제적상관관계또는투자전략에대한복잡한금융질의를할수있으며,AI가실시간으로조사계획을구성하는과정을지켜볼수있습니다.​"우리의고급Gemini모델은최대수백건의동시검색을실행하고서로다른정보조각들을추론하여단몇분만에완전히인용된포괄적인답변을생성하는작업을수행할것입니다"라고Dunnette는Google의발표에서말했습니다.​예측시장및수익기능GoogleFinance는Polymarket과Kalshi의예측시장데이터를통합하여사용자가검색창에서직접미래시장이벤트를조회할수있도록하고있습니다.이기능은"2025년GDP성장률은어떻게될까?"와같은질의에대해현재확률과과거추세를표시합니다​이번출시시기는두플랫폼에대한상당한기관투자에이어나왔습니다.뉴욕증권거래소의소유주인IntercontinentalExchange는10월에90억달러가치평가로Polymarket에20억달러를투자했습니다.며칠후Kalshi는SequoiaCapital과AndreessenHorowitz를포함한투자자들로부터50억달러가치평가로3억달러이상을확보했습니다.​Google은또한지난주실적발표전화회의의라이브오디오스트림,실시간대본,그리고통화전후와진행중에업데이트되는AI기반"한눈에보기"요약을제공하는새로운실적발표경험을발표했습니다.이기능에는실적발표일정이포함되어있으며사용자가현재결과를과거데이터와비교할수있습니다.​출시및경쟁DeepSearch는앞으로몇주에걸쳐미국에서출시되며,GoogleAIPro및AIUltra구독자에게는더높은사용한도가제공됩니다.google.com/finance/beta에서GoogleLabs를통해조기액세스가가능합니다.업그레이드된플랫폼은이번주인도에서영어와힌디어지원과함께출시되었지만,DeepSearch와예측시장기능은초기에는미국전용으로유지됩니다.​이러한움직임은Google이BloombergTerminal및YahooFinance를포함한기존금융플랫폼과보다직접적으로경쟁할수있는위치에서게합니다.이들플랫폼역시AI기능통합을시작했습니다.YahooFinance는현재베타버전인"AnalyzewithAI"도구를제공하지만,업계관계자들은Google이AI도입에있어보다공격적인접근방식을취했다고평가합니다.
74 조회
0 추천
11.07 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입