Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 11.07 14:52
116 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 962 / 39 페이지
(퍼플렉시티가정리한기사)Google은GoogleFinance에중요한인공지능업그레이드를출시하여,사용자에게몇분내에포괄적이고인용된금융조사를제공하는GeminiAI모델기반의DeepSearch기능을도입했습니다.11월5일에발표된이번개선사항에는예측시장데이터통합과고급실적추적기능도포함되어있습니다.​DeepSearch도구는Google의고급Gemini모델을활용하여"최대수백건의동시검색"을수행하고결과를전체인용이포함된상세한보고서로종합한다고GoogleSearch의제품관리이사인RobertDunnette가밝혔습니다.사용자는시장상황,경제적상관관계또는투자전략에대한복잡한금융질의를할수있으며,AI가실시간으로조사계획을구성하는과정을지켜볼수있습니다.​"우리의고급Gemini모델은최대수백건의동시검색을실행하고서로다른정보조각들을추론하여단몇분만에완전히인용된포괄적인답변을생성하는작업을수행할것입니다"라고Dunnette는Google의발표에서말했습니다.​예측시장및수익기능GoogleFinance는Polymarket과Kalshi의예측시장데이터를통합하여사용자가검색창에서직접미래시장이벤트를조회할수있도록하고있습니다.이기능은"2025년GDP성장률은어떻게될까?"와같은질의에대해현재확률과과거추세를표시합니다​이번출시시기는두플랫폼에대한상당한기관투자에이어나왔습니다.뉴욕증권거래소의소유주인IntercontinentalExchange는10월에90억달러가치평가로Polymarket에20억달러를투자했습니다.며칠후Kalshi는SequoiaCapital과AndreessenHorowitz를포함한투자자들로부터50억달러가치평가로3억달러이상을확보했습니다.​Google은또한지난주실적발표전화회의의라이브오디오스트림,실시간대본,그리고통화전후와진행중에업데이트되는AI기반"한눈에보기"요약을제공하는새로운실적발표경험을발표했습니다.이기능에는실적발표일정이포함되어있으며사용자가현재결과를과거데이터와비교할수있습니다.​출시및경쟁DeepSearch는앞으로몇주에걸쳐미국에서출시되며,GoogleAIPro및AIUltra구독자에게는더높은사용한도가제공됩니다.google.com/finance/beta에서GoogleLabs를통해조기액세스가가능합니다.업그레이드된플랫폼은이번주인도에서영어와힌디어지원과함께출시되었지만,DeepSearch와예측시장기능은초기에는미국전용으로유지됩니다.​이러한움직임은Google이BloombergTerminal및YahooFinance를포함한기존금융플랫폼과보다직접적으로경쟁할수있는위치에서게합니다.이들플랫폼역시AI기능통합을시작했습니다.YahooFinance는현재베타버전인"AnalyzewithAI"도구를제공하지만,업계관계자들은Google이AI도입에있어보다공격적인접근방식을취했다고평가합니다.
107 조회
0 추천
11.07 등록
(퍼플렉시티가정리한기사)Microsoft는목요일AI책임자MustafaSuleyman이이끄는MAI초지능팀의창설을발표했으며,이는인공일반지능을향해경쟁하는거대기술기업들과경쟁하기위한회사의최신행보를의미합니다.이이니셔티브는Microsoft가OpenAI와재협상한파트너십에따른것으로,AGI연구에대한이전제한을제거하여이소프트웨어거대기업이초지능AI를향한자체경로를추구할수있게했습니다.​인간중심접근방식이마이크로소프트의전략을차별화한다Suleyman은Microsoft가"인본주의적초지능(HumanistSuperintelligence)"이라고부르는것에초점을맞춘새로운팀을이끌예정이며,이는순수한계산능력의극대화보다는인류를위해봉사하도록설계된AI시스템을강조합니다.MicrosoftAI의수석과학자이자전DeepMind연구원인KarénSimonyan도Suleyman과함께이계획을이끌것입니다.​"초지능프로젝트는인간에게복종하고인간을먹이사슬의최상위에유지하는AI를설계하는것이어야합니다"라고Suleyman은Axios에말했습니다.이러한접근방식은주로기술발전에초점을맞춘자체초지능계획을발표한Meta및OpenAI와같은경쟁사들과의도적으로대비됩니다.​Microsoft팀은초기에전문분야를목표로할계획이며,Suleyman이2~3년내에"의료초지능"달성을예상하는의료진단부터시작할예정입니다.Reuters에따르면,이회사는"사실상실존적위험이없는"특정영역에서초인간적성능을보여주는AI시스템을구축하고자합니다.​OpenAI제약으로부터해방됨이번발표는마이크로소프트와OpenAI가10월말파트너십을재조정하여,이전에마이크로소프트가독립적으로AGI를추구하는것을막았던계약상의장벽을제거한이후나온것입니다.이전합의에따르면,마이크로소프트는회사가훈련할수있는AI모델의규모를제한하는컴퓨팅임계값에의해제약을받았습니다.​"우리규모의회사에게는그것이큰제약이었습니다"라고Suleyman은Fortune에말했습니다.재협상된계약은마이크로소프트의OpenAI지적재산권접근을2032년까지연장하는동시에,회사가다른파트너들과함께초지능연구를추구할수있도록허용합니다.​경쟁환경이심화되다Microsoft는초지능을추구하는점점더붐비는기업경쟁에합류했습니다.Meta는2025년6월초지능연구소를설립하여CEOMarkZuckerberg의리더십아래AI연구를통합했습니다.OpenAICEOSamAltman은자신의회사가"이제AGI를구축하는방법을알고있다고확신한다"고밝혔으며초지능에관심을돌리고있습니다.​한편,IlyaSutskever의SafeSuperintelligenceInc.는320억달러의가치를평가받으며안전한초지능AI시스템개발에만전념하고있습니다.경쟁역학은업계관찰자들이인재전쟁이라고묘사하는상황을촉발했으며,기업들은최고의AI연구자들을영입하기위해수백만달러규모의패키지를제공하고있습니다.​이러한시기는규제제약을줄이면서미국의AI개발을가속화하는것을목표로하는트럼프행정부의AI실행계획과일치합니다.AI차르DavidSacks는미국이기술적우위를유지해야할필요성을강조하며"AI경쟁에서승리하는것은협상불가능하다"고밝혔습니다.
108 조회
0 추천
11.07 등록
(퍼플렉시티가정리한기사)Microsoft는목요일,의료진단을시작으로인간의능력을크게뛰어넘는인공지능시스템구축에전념하는새로운팀의결성을발표했습니다.AI책임자MustafaSuleyman이이끄는MAI초지능팀은"초지능"달성을위한거대기술기업들간의치열한경쟁에서최신공세를나타냅니다.​이번발표는Microsoft가오랜파트너인OpenAI로부터독립적으로경쟁하려는입장을취하면서나온것으로,Suleyman이"인본주의적초지능"이라고부르는것을목표로합니다-"무한히유능한제너럴리스트"시스템을추구하기보다는실질적인이점이있는특정문제를해결하도록설계된AI입니다."인본주의는우리에게항상다음과같은질문을요구합니다:이기술이인간의이익에부합하는가?"Suleyman은말했습니다.​의학적돌파구목표로하기마이크로소프트의접근방식은초기에의료진단에중점을두고있으며,회사는이미이분야에서놀라운진전을보여주었습니다.회사의MAI-DxO시스템은뉴잉글랜드의학저널의복잡한의료사례를85.5%정확하게진단한반면,경험많은의사들의정확도는단20%에불과했습니다."우리는향후2~3년내에의료초지능에도달할수있는전망을가지고있습니다"라고술레이만은로이터에말했습니다.​이진단시스템은실시간으로토론하고협력하는여러전문화된에이전트를사용하여AI역량의중요한도약을나타냅니다.객관식형식에의존했던이전AI도구와달리,MAI-DxO는증상을분석하고,후속질문을하며,검사를권장함으로써실제의료의사결정을모방합니다.​경쟁심화이발표는2025년6월Meta의가SuperintelligenceLabs를설립하고,CEO인마크저커버그가최고의AI인재를영입하기위해1억달러가넘는계약보너스를제시한데에이어나온것이다.OpenAI,Google등도이와유사하게자사의첨단AI노력을초지능(superintelligence)이니셔티브로브랜딩하고있다.​AI스타트업인플렉션에서2024년3월술레이먼과함께마이크로소프트에합류한카렌시모니안은새로운팀의수석과학자를맡는다.마이크로소프트는이프로젝트에"막대한자금"을투자할계획이며,다른선도적AI연구소로부터인재영입도계속할방침이다.​술레이먼은존재론적위험을초래할수있는자율적자기개선기계를피하려는마이크로소프트의의지를강조하며,그대신"존재론적위험이사실상전혀없는슈퍼휴먼(performance)의특수화모델"개발에집중할것이라고밝혔다.이는보다일반화된범용인공지능(AGI)추구를목표로하는경쟁사들과대비되는접근방식으로,슈퍼인텔리전스경쟁이가속화되는가운데마이크로소프트의노력이야심차면서도안전성을중시한다는점을부각시키고있다.
110 조회
0 추천
11.07 등록
(퍼플렉시티가정리한기사)ServiceNow와Figma는2025년11월5일,개발자들이ModelContextProtocol(MCP)로구동되는통합을통해Figma디자인을기능적인엔터프라이즈애플리케이션으로직접변환할수있도록하는전략적협력을발표했습니다.이파트너십은디자인컨셉을작동하는엔터프라이즈소프트웨어로전환하는데필요한시간을획기적으로단축하는것을목표로합니다.혁신적인디자인-투-코드자동화새로운통합을통해사용자는Figma디자인링크를ServiceNow의BuildAgent에직접프롬프트로제출할수있으며,이를통해안전하고확장가능하며완전히기능하는엔터프라이즈애플리케이션이자동으로생성됩니다.초기결과에따르면이프로세스는초기UI및데이터모델구현시간을80%이상단축할수있습니다.​ServiceNow의AmyLokey최고경험책임자(ExecutiveVicePresidentandChiefExperienceOfficer)는"Figma와ServiceNow의AI기반워크플로우를연결함으로써팀이아이디어를몇분만에엔터프라이즈수준의애플리케이션으로전환하는것을손쉽게만들고있습니다"라고말했습니다.​이통합은Figma의MCPServer를활용하며,이는ServiceNowBuildAgent에디자인구성요소,스타일및레이아웃에대한구조화된이해를제공하여단순한이미지인식을넘어엔터프라이즈급애플리케이션으로의고품질변환을보장합니다.​엔터프라이즈급보안및거버넌스이협업은핵심기업과제를해결합니다:초기단계디자인을보안및거버넌스표준을유지하면서대규모로안정적으로수행할수있는솔루션으로전환하는것입니다.이시스템은OAuth2.0인증과안전한서버간통신을사용하며,토큰은고객의ServiceNow인스턴스내에저장되어데이터프라이버시와규정준수를보장합니다.​Figma의최고기술책임자인KrisRasmussen은"AI가생성한소프트웨어의세계에서디자인은귀사의제품을돋보이게만드는차별화요소입니다"라고말했습니다."이MCP통합은중요한Figma디자인컨텍스트를ServiceNow의AI워크플로우에직접제공하여팀이고품질의차별화된엔터프라이즈제품을효율적으로구축할수있도록돕습니다".​시장상황및가용성이통합은엔터프라이즈소프트웨어시장이로우코드및AI기반개발솔루션을점점더수용함에따라이루어졌습니다.Anthropic이AI에이전트와애플리케이션을연결하기위한개방형표준으로개발한ModelContextProtocol은업계전반에서주목을받고있습니다.​새로운통합은최신BuildAgent릴리스와함께ServiceNowStore를통해고객에게제공되며,설치후요청시액세스가활성화됩니다.이번협업은Figma의최근매출전망상향조정및2025년10월에발표된GoogleCloud와의계약을포함한AI파트너십확대에이어이루어졌습니다.
102 조회
0 추천
11.07 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입