Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,535 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 52 페이지
런던에본사를둔Neuracore는로봇학습플랫폼개발을가속화하기위해300만달러의프리시드(pre-seed)자금을확보했습니다.이플랫폼은로보틱스분야에서기계학습모델을배포하는데걸리는시간을수개월에서며칠로단축하는것을목표로하고있습니다.​이번투자라운드는EarlybirdVentureCapital이주도했으며,HuggingFace의공동창업자이자CEO인ClemDelangue와학계,하드웨어,인공지능분야의자문단이참여했습니다.11월26일자금조달발표와함께Neuracore는전세계대학및연구기관에자사엔터프라이즈플랫폼을무제한으로제공하는무료학술프로그램을출시했습니다.​인프라병목현상해결임페리얼칼리지런던의로봇학습조교수인StephenJames가2024년에설립한Neuracore는로봇공학개발에서지속적인과제를다룹니다:팀들이유사한인프라를처음부터반복적으로재구축하는것.회사에따르면,이러한병목현상은현재엔지니어링시간의최대80%를소비하고있습니다.​"제가함께작업한모든로봇공학팀에서사람들은동일한인프라를처음부터재구축하고있었습니다"라고James는말했습니다."우리의사명은이러한중복을제거하고연구자와기업모두에게파이프라인유지관리가아닌진정한혁신에집중할수있는도구를제공하는것입니다."​Neuracore의클라우드기반소프트웨어스택은회사가단편적인"프랑켄슈타인"로봇공학설정이라고설명하는것을비동기데이터수집,시각화,훈련및배포를처리하는통합시스템으로대체합니다.이플랫폼은이미하드웨어제조업체와의파트너십을포함하여상업및학술로봇공학분야의50개이상의조직에서사용되고있습니다.​업계모멘텀이번자금조달은로봇산업에대한투자자들의관심이급증하는가운데이루어졌습니다.2025년11월,피지컬인텔리전스(PhysicalIntelligence)는56억달러의기업가치로6억달러를유치했으며,글로벌로봇시장매출은2025년에500억달러를초과할것으로전망되고있습니다.​얼리버드벤처캐피탈(EarlybirdVentureCapital)의 Principal인로라발덴스트롬(LauraWaldenstrom)은"로봇산업이중요한전환점을맞고있습니다.ROS1.0시대에서딥러닝이이끄는데이터중심패러다임으로이동하고있습니다"라고언급했습니다.그녀는덧붙여,"뉴라코어(Neuracore)는웹애플리케이션에AWS가제공했던것처럼,신뢰할수있고확장가능한플랫폼을제공합니다"라고말했습니다.
808 조회
0 추천
2025.11.28 등록
StreamUnlimited는오늘오디오기기제조업체들이여러AI모델을자사제품에통합할수있도록하는새로운음성비서통합시스템을CES2026에서공개할것이라고발표했으며,이는현재스마트스피커시장을지배하고있는단일공급업체음성생태계에대한대안을제공한다.​비엔나에본사를둔이회사의VoiceLLMReferenceIntegration은1월6일부터9일까지라스베이거스전시회에서공개될예정이며,브랜드들이회사의StreamSDK소프트웨어프레임워크를기반으로구축된모듈식플랫폼을통해오디오제품을Google의Gemini,OpenAI의ChatGPT또는독자적인AI모델에연결할수있게한다.이시스템은제조업체들이전체제품아키텍처를재설계하지않고도음성인식,언어모델,텍스트음성변환엔진등개별구성요소를독립적으로교체할수있도록한다.​생태계종속에서벗어나기이번발표는2025년155억7천만달러규모로평가되는스마트스피커시장이음성비서가하드웨어와통합되는방식의변화에직면하면서나왔다.Amazon의Alexa와GoogleAssistant가긴밀하게통제된생태계를통해이분야를지배해온반면,StreamUnlimited의접근방식은제조업체가자사기기를구동하는AI백엔드를선택할수있는권한을제공한다.​StreamUnlimited의CTO인MarkusRutz는"우리의목표는고객에게음성에이전트AI에서최고수준의유연성과선택권을제공하는것"이라고말했다."우리는고객이원활한통합경로를유지하면서빠르게발전하는LLM혁신에발맞춰진화할수있도록이통합을설계했습니다."​이플랫폼은StreamUnlimited가거의10년동안GoogleAssistant와AmazonAlexa를포함한클라우드음성시스템을주류및고급오디오제품에통합해온경험을기반으로한다.2005년에설립된이회사는비엔나,브라티슬라바,선전,오사카,샌프란시스코에120명이상의직원을두고있으며,가전제품및맞춤형설치시장의오디오제조업체와협력하고있다.​하드웨어및시장포지셔닝StreamUnlimited는음성LLM솔루션을사전통합패키지형태로세가지하드웨어플랫폼에서제공할예정입니다.일반기기를위한Stream210모듈,그리고고급형멀티채널스마트스피커,사운드바,맞춤형설치시스템을위한Stream1955및Stream1832모듈이그대상입니다.Stream210에는내장형Wi-Fi,LEAudio를지원하는Bluetooth,그리고무선업데이트기능이포함되어있습니다.​이플랫폼은주요기술기업들이경쟁적인음성AI서비스를앞다투어선보이고있는시점에출시됩니다.Google은10월28일부터스마트스피커와디스플레이용으로GeminiforHome을출시하기시작했으며,Amazon은10월말에새로운Echo기기에서Alexa+를출시했습니다.두서비스모두고급기능을이용하려면구독료가필요하며,Alexa+는월20달러의요금을부과합니다.​CES2026기간동안StreamUnlimited의베네치안호텔프라이빗스위트에서라이브시연이진행될예정입니다.
790 조회
0 추천
2025.11.28 등록
중국의최고경제기획기관이목요일급속히확장되고있는인간형로봇산업의잠재적거품위험에대해이례적인경고를발표했다.이는해당산업이막대한투자와정부지원을받고있는상황에서나온것이다.​국가발전개혁위원회대변인리차오(李超)는베이징에서열린브리핑에서"첨단산업들은성장속도와거품위험사이의균형을맞추는과제에직면해있으며,이는현재인간형로봇부문도직면하고있는문제"라고경고했다.이발언은베이징이미래경제성장에중요하다고규정한분야에대한공식적우려를표명한드문사례다.​과포화우려리에따르면,현재중국에서150개이상의휴머노이드로봇기업이운영되고있으며,그수는여전히증가하고있다.절반이상이스타트업이거나다른분야에서진입한기업들이다.국가발전개혁위원회(NDRC)는"매우유사한"모델들이시장을압도하고연구개발공간을잠식하는것을방지해야한다고경고했다.​리는"휴머노이드로봇은기술적경로,비즈니스모델,응용시나리오측면에서아직완전히성숙하지않았다"고말했다.이러한경고는휴머노이드로봇산업이집권공산당이2030년까지의개발계획에서새로운경제성장동력으로지정한6대산업중하나로선정되었음에도불구하고나온것이다.​시장모멘텀우려에도불구하고,업계는강한모멘텀을보이고있습니다.중국로봇회사UBTech는올해WalkerS2휴머노이드로봇에대해8억위안(약1억1,200만달러)이넘는주문을보고했으며,BYD,GeelyAuto,FAW-Volkswagen,Foxconn등주요제조업체에납품하고있습니다.SolactiveChinaHumanoidRoboticsIndex는올해약26%급등했으며,중국의휴머노이드로봇판매량은2025년에1만대를넘어설것으로예상됩니다.​Citigroup은내년중국휴머노이드로봇제조업체들의생산량이"기하급수적으로"증가할것으로예상하고있습니다.그러나가정이나공장에서휴머노이드로봇의광범위한채택은아직실현되지않았습니다.정부는시장진입및퇴출메커니즘개발을가속화하고,핵심기술연구를지원하며,전체부문에걸쳐자원통합을촉진할계획입니다.
803 조회
0 추천
2025.11.28 등록
Google는이번주발표된여러보고서에따르면,오랫동안사용되던GoogleAssistant를모든이동수단에대한대화형AI기능으로대체하는GeminiAI기반내비게이션기능을GoogleMaps에출시하기시작했습니다.​11월25일부터27일경Android및iOS기기에나타나기시작한이번업데이트는명령기반음성제어에서자연어상호작용으로의전환을의미합니다.사용자는이제기존의4색마이크를대체하는새로운Gemini스파크아이콘을탭하거나"HeyGoogle"호출어를사용하여내비게이션중에AI어시스턴트에액세스할수있습니다.​대화형탐색및다단계쿼리이통합기능을통해운전자와다른사용자들은여정을방해받지않고복잡한다단계요청을할수있습니다.11월초구글의공식블로그게시물에따르면,사용자들은"내경로를따라비건옵션이있는저렴한식당이있나요?몇마일이내에있는곳으로요.거기주차는어때요?"와같은질문을한후"좋아요,거기로가죠"라고말할수있습니다.​Gemini는또한맥락적후속질문을가능하게하고다른구글서비스와연결됩니다.사용자들은단순히"사고를봤어요"또는"앞에침수가있는것같아요"라고말함으로써도로사고를신고할수있으며,어시스턴트는내비게이션을사용하는동안캘린더이벤트를추가하거나,이메일을요약하거나,다가오는회의를확인할수있습니다.​이시스템은이제랜드마크기반길안내를제공하며,구글지도의2억5천만개장소데이터베이스를사용하여일반적인거리기반안내대신"ThaiSiamRestaurant를지나서우회전하세요"와같은지시를제공합니다.구글지도는또한내비게이션이시작되기전에사전교통경보를제공하여사용자에게앞의장애상황을경고합니다.​경쟁과가용성이번출시는AI를일상적인도구에내장하기위해경쟁하는기술기업들간의경쟁을심화시킵니다.2025년8월에출시된OpenAI의ChatGPT5와2025년4월에독립형앱으로데뷔한Meta의AI어시스턴트는모두각자의플랫폼에서대화기능을제공합니다.​Google의구현은운전,도보,자전거및대중교통모드에걸친기존인프라를활용합니다.랜드마크기반내비게이션과사전예방적교통기능은현재미국으로제한되어있으며,나중에전세계로확장될것으로예상됩니다.회사성명에따르면AndroidAuto지원도곧제공될예정입니다.​IndianExpress에따르면,이기능은로그인한Google계정에설정된동일한Gemini언어및음성기본설정을사용하며정확한위치설정을기반으로답변을제공합니다.
779 조회
0 추천
2025.11.28 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입