Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 11.07 14:52
86 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 888 / 20 페이지
(퍼플렉시티가정리한기사)이번주에발표된두가지주요연구는인공지능시스템이구축되고평가되는방식의심각한약점을드러내며,AI능력이과장되어왔는지에대한의문을제기하고있다.SonyAI는11월5일컴퓨터비전모델의편향성을드러내기위해설계된데이터셋인FairHuman-CentricImageBenchmark를공개했으며,옥스퍼드인터넷연구소와영국정부의AI보안연구소연구원들은AI성능을측정하는데사용되는테스트의광범위한결함을밝히는연구를발표했다.이러한연구결과들은많은AI시스템이윤리적으로문제가있는데이터로훈련되고신뢰할수없는방법으로평가될수있음을시사한다.​훈련데이터에동의와다양성이부족함SonyAI가Nature에발표한새로운벤치마크는연구자들이컴퓨터비전시스템에서"편향되고윤리적으로문제가있는학습데이터의지속적인과제"라고부르는문제를다룹니다.이데이터셋은81개국1,981명의개인이찍힌10,318장의이미지로구성되어있으며,모두사전동의와공정한보상을받아수집되었습니다—이는업계관행과크게다른방식입니다.​SonyGroup의AI거버넌스글로벌책임자인AliceXiang은컴퓨터비전이객관적이지않다고강조했습니다."컴퓨터비전은학습데이터에반영된편향에따라사물을왜곡할수있습니다"라고그녀는말했습니다.데이터셋은기존AI모델중공정성테스트를완전히통과한모델이없다는것을보여주었습니다.일부모델은"she/her/hers"대명사를사용하는사람들에대해낮은정확도를보였으며,벤치마크는이를더큰헤어스타일변동성—이전에간과되었던요인—으로추적했습니다.직업에대한중립적인질문을받았을때,테스트된모델들은특정인구통계학적그룹에대해특히고정관념을강화했으며,때로는피사체를성매매종사자,마약상또는도둑으로묘사했습니다.​벤치마크테스트가신뢰할수없고오해의소지가있는것으로밝혀짐옥스퍼드연구팀은445개AI벤치마크를조사한결과,거의모든벤치마크에기술기업들이주장하는결과의신뢰성을"약화시키는결함"이있음을발견했습니다.벤치마크중통계적테스트를통해신뢰성을증명한것은16%에불과했습니다.​핵심적인문제는구성타당성(constructvalidity),즉테스트가실제로그들이측정한다고주장하는것을제대로측정하는지에관한것입니다.옥스퍼드인터넷연구소의수석연구원인아담마디(AdamMahdi)는NBC뉴스와의인터뷰에서,그레이드스쿨매스8K(GradeSchoolMath8K)벤치마크와같은테스트에서모델이좋은성과를거둔다고해서반드시추론능력을보여준다고할수는없다고말했습니다.그는"1학년학생에게'2더하기5가뭐야?'라고물었을때'7이에요'라고답하면,분명정답입니다.하지만이로부터5학년이수학적추론을완벽하게습득했다고결론지을수있을까요?"라고덧붙였습니다.​이번연구는데이터오염(datacontamination)을주요문제로지적했는데,이는테스트문항이모델의학습데이터셋에포함되어있어모델이답을추론하는것이아니라암기해서답을내는현상입니다.Mixtral,Phi-3,Gemma를포함한여러모델은GSM8K벤치마크와유사한신규문항으로평가할때성능이최대13%까지저하되는것으로나타났습니다.​옥스퍼드연구의수석저자인앤드루빈(AndrewBean)은업계에서내놓는주장들을그대로믿어서는안된다고경고했습니다."모델이박사수준의지능을가졌다는것같은이야기를볼때는한번쯤의심해볼필요가있습니다,"라고빈은NBC뉴스에말했습니다.이번연구결과는최근구글이자사의GemmaAI모델이미국상원의원에관한허위주장을생성한후에모델을철회한상황에서나왔습니다.
87 조회
0 추천
11.07 등록
(퍼플렉시티가정리한기사)OpenAI는기술역사상가장야심찬재정적사업중하나에직면해있으며,CEO샘알트먼은인공일반지능(AGI)목표를추구하면서회사가1조4천억달러이상의인프라거래를약속했다고밝혔습니다.목요일발언에서알트먼은대규모확장에도불구하고OpenAI가정부구제금융을추구하지않으며2025년말까지연간매출실행률이200억달러를넘어설것으로예상하고,이수치는2030년까지수천억달러규모로확대될것으로예상된다고이해관계자들을안심시켰습니다.​1조달러규모의확장과수익목표Altman의X플랫폼발표는AI업계에중요한전환점이되었으며,이는OpenAI가데이터센터용량과칩파트너십,특히Nvidia와AMD같은거대공급업체들과수십억달러규모의계약을확보하는시점에이루어졌다.향후8년간1조4천억달러라는투자규모는실리콘밸리와월스트리트전반에경외심과회의론을동시에불러일으켰으며,이들은이제OpenAI의예상수익이비용을감당할수있을지고심하고있다."우리는AI가주도하는미래경제를위한인프라를구축하고있습니다...대규모인프라프로젝트는완성까지상당한시간이걸리므로지금시작해야합니다"라고Altman은작성하며,이러한투자를신흥AI역량에서리더십을유지하기위한필수요소로자리매김했다.​최근몇달동안OpenAI는비영리기관에서ChatGPT의폭발적인성공에힘입어세계에서가장빠르게성장하는상업용AI벤처기업중하나로전환했다.Altman은기업용AI,소비자기기—5월에인수한JonyIve의io에서비롯된손바닥크기의AI기기에대한소문을포함하여—그리고로봇공학분야의새로운비즈니스제품을통해2030년까지"수천억달러"의매출을올릴것으로예측한다.이회사는또한다른기업들에게AI컴퓨팅용량을직접판매하는것을고려하고있으며,이는주요클라우드컴퓨팅제공업체가되려는야망을시사한다.​정부구제금융거부와산업계반응정부구제금융의가능성은CFO사라프리어(SarahFriar)가WSJTechLive컨퍼런스에서OpenAI의인프라계획자금조달을돕기위한연방정부의"안전망"가능성을시사한발언이후수면위로떠올랐습니다.이발언은즉각적인반발을불러일으켰고,알트만은강력하게해명했습니다:"우리는OpenAI데이터센터에대한정부보증을받지도않고원하지도않습니다.정부는특정기업을우대해서는안되며,납세자들이잘못된결정을내리거나시장에서실패한기업을구제하는책임을져서는안됩니다"라고그는밝혔으며,이는AI기업에대한연방지원을배제한백악관AI고문데이비드색스(DavidSacks)의유사한게시물과맥을같이합니다.알트만은공공자금이개별기업이아닌전체산업,특히미국반도체제조업을강화하는데사용되어야한다고더욱강조했습니다.OpenAI가국내반도체생산을위한대출보증에관한논의에참여한것은사실이지만,알트만은어떤신청서도제출되지않았으며직접적인구제금융계획도없다고주장합니다.​재정적불확실성과앞으로의길5,000억달러에달하는인상적인기업가치에도불구하고,OpenAI는여전히수익을내지못하고있어막대한지출을정당화해야한다는압박이커지고있습니다.분석가들은회사의상당한수익창출능력이"모든사람에게드리워진주요질문"이라고지적하며,회의론자들은지분조달,부채자본,그리고새로운제품카테고리에대한계획을면밀히주시하고있습니다.​OpenAI의회장인그렉브록먼은현재1조달러규모의인프라구축을주도하고있으며,AGI가실현될경우"모든것을변화시킬것"이라고주장하면서이투자를사회발전에필수적인것으로규정하고있습니다.알트만과브록먼모두지속적인규모확대와신속한실행이OpenAI가경쟁우위를유지하는데중요하다는확고한믿음을표명하고있습니다.OpenAI가AGI,기업용AI,그리고소비자기술분야에서대담한새로운지평을추구함에따라,전세계는기술업계의가장과감한도박이성공할지,아니면재정적중력이야망을다시지상으로끌어내릴지지켜볼것입니다.
89 조회
0 추천
11.07 등록
(퍼플렉시티가정리한기사)Google은GoogleFinance에중요한인공지능업그레이드를출시하여,사용자에게몇분내에포괄적이고인용된금융조사를제공하는GeminiAI모델기반의DeepSearch기능을도입했습니다.11월5일에발표된이번개선사항에는예측시장데이터통합과고급실적추적기능도포함되어있습니다.​DeepSearch도구는Google의고급Gemini모델을활용하여"최대수백건의동시검색"을수행하고결과를전체인용이포함된상세한보고서로종합한다고GoogleSearch의제품관리이사인RobertDunnette가밝혔습니다.사용자는시장상황,경제적상관관계또는투자전략에대한복잡한금융질의를할수있으며,AI가실시간으로조사계획을구성하는과정을지켜볼수있습니다.​"우리의고급Gemini모델은최대수백건의동시검색을실행하고서로다른정보조각들을추론하여단몇분만에완전히인용된포괄적인답변을생성하는작업을수행할것입니다"라고Dunnette는Google의발표에서말했습니다.​예측시장및수익기능GoogleFinance는Polymarket과Kalshi의예측시장데이터를통합하여사용자가검색창에서직접미래시장이벤트를조회할수있도록하고있습니다.이기능은"2025년GDP성장률은어떻게될까?"와같은질의에대해현재확률과과거추세를표시합니다​이번출시시기는두플랫폼에대한상당한기관투자에이어나왔습니다.뉴욕증권거래소의소유주인IntercontinentalExchange는10월에90억달러가치평가로Polymarket에20억달러를투자했습니다.며칠후Kalshi는SequoiaCapital과AndreessenHorowitz를포함한투자자들로부터50억달러가치평가로3억달러이상을확보했습니다.​Google은또한지난주실적발표전화회의의라이브오디오스트림,실시간대본,그리고통화전후와진행중에업데이트되는AI기반"한눈에보기"요약을제공하는새로운실적발표경험을발표했습니다.이기능에는실적발표일정이포함되어있으며사용자가현재결과를과거데이터와비교할수있습니다.​출시및경쟁DeepSearch는앞으로몇주에걸쳐미국에서출시되며,GoogleAIPro및AIUltra구독자에게는더높은사용한도가제공됩니다.google.com/finance/beta에서GoogleLabs를통해조기액세스가가능합니다.업그레이드된플랫폼은이번주인도에서영어와힌디어지원과함께출시되었지만,DeepSearch와예측시장기능은초기에는미국전용으로유지됩니다.​이러한움직임은Google이BloombergTerminal및YahooFinance를포함한기존금융플랫폼과보다직접적으로경쟁할수있는위치에서게합니다.이들플랫폼역시AI기능통합을시작했습니다.YahooFinance는현재베타버전인"AnalyzewithAI"도구를제공하지만,업계관계자들은Google이AI도입에있어보다공격적인접근방식을취했다고평가합니다.
84 조회
0 추천
11.07 등록
(퍼플렉시티가정리한기사)Microsoft는목요일AI책임자MustafaSuleyman이이끄는MAI초지능팀의창설을발표했으며,이는인공일반지능을향해경쟁하는거대기술기업들과경쟁하기위한회사의최신행보를의미합니다.이이니셔티브는Microsoft가OpenAI와재협상한파트너십에따른것으로,AGI연구에대한이전제한을제거하여이소프트웨어거대기업이초지능AI를향한자체경로를추구할수있게했습니다.​인간중심접근방식이마이크로소프트의전략을차별화한다Suleyman은Microsoft가"인본주의적초지능(HumanistSuperintelligence)"이라고부르는것에초점을맞춘새로운팀을이끌예정이며,이는순수한계산능력의극대화보다는인류를위해봉사하도록설계된AI시스템을강조합니다.MicrosoftAI의수석과학자이자전DeepMind연구원인KarénSimonyan도Suleyman과함께이계획을이끌것입니다.​"초지능프로젝트는인간에게복종하고인간을먹이사슬의최상위에유지하는AI를설계하는것이어야합니다"라고Suleyman은Axios에말했습니다.이러한접근방식은주로기술발전에초점을맞춘자체초지능계획을발표한Meta및OpenAI와같은경쟁사들과의도적으로대비됩니다.​Microsoft팀은초기에전문분야를목표로할계획이며,Suleyman이2~3년내에"의료초지능"달성을예상하는의료진단부터시작할예정입니다.Reuters에따르면,이회사는"사실상실존적위험이없는"특정영역에서초인간적성능을보여주는AI시스템을구축하고자합니다.​OpenAI제약으로부터해방됨이번발표는마이크로소프트와OpenAI가10월말파트너십을재조정하여,이전에마이크로소프트가독립적으로AGI를추구하는것을막았던계약상의장벽을제거한이후나온것입니다.이전합의에따르면,마이크로소프트는회사가훈련할수있는AI모델의규모를제한하는컴퓨팅임계값에의해제약을받았습니다.​"우리규모의회사에게는그것이큰제약이었습니다"라고Suleyman은Fortune에말했습니다.재협상된계약은마이크로소프트의OpenAI지적재산권접근을2032년까지연장하는동시에,회사가다른파트너들과함께초지능연구를추구할수있도록허용합니다.​경쟁환경이심화되다Microsoft는초지능을추구하는점점더붐비는기업경쟁에합류했습니다.Meta는2025년6월초지능연구소를설립하여CEOMarkZuckerberg의리더십아래AI연구를통합했습니다.OpenAICEOSamAltman은자신의회사가"이제AGI를구축하는방법을알고있다고확신한다"고밝혔으며초지능에관심을돌리고있습니다.​한편,IlyaSutskever의SafeSuperintelligenceInc.는320억달러의가치를평가받으며안전한초지능AI시스템개발에만전념하고있습니다.경쟁역학은업계관찰자들이인재전쟁이라고묘사하는상황을촉발했으며,기업들은최고의AI연구자들을영입하기위해수백만달러규모의패키지를제공하고있습니다.​이러한시기는규제제약을줄이면서미국의AI개발을가속화하는것을목표로하는트럼프행정부의AI실행계획과일치합니다.AI차르DavidSacks는미국이기술적우위를유지해야할필요성을강조하며"AI경쟁에서승리하는것은협상불가능하다"고밝혔습니다.
79 조회
0 추천
11.07 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입