Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,105 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 172 페이지
(퍼플렉시티가정리한기사)아마존은오늘고급AI어시스턴트AlexaPlus를iOS및Android기기의AmazonMusic앱에출시했으며,이는대화형인공지능을주류소비자경험에통합하려는회사의가장대담한시도입니다.​현재AlexaPlusEarlyAccess프로그램사용자를위한모든AmazonMusic구독등급에서사용가능한이기능은음악발견을기본음성명령에서자연스러운대화로전환합니다.사용자는앱의오른쪽하단에있는"a"버튼을탭하고기존검색기능으로는어려운요청을하여AI어시스턴트에액세스할수있습니다.​대화를통한향상된음악발견AlexaPlus는사용자가단편적인가사를사용하여노래를식별하거나,특정연도의차트순위에대해질문하거나,"보이밴드를제외한마돈나같은아티스트의90년대팝"과같은매우구체적인플레이리스트를요청할수있게합니다.이어시스턴트는또한노래의의미를설명하고,샘플의출처를추적하며,아티스트의영향력과디스코그래피에대한상세한지식을제공할수있습니다.​아마존은AlexaPlus를사용하는고객이기존어시스턴트보다3배더많이음악을탐색하며,추천을원하는사용자는거의70%더많은음악을듣는다고보고합니다.이통합은음악스트리밍이AI기능경쟁으로변화함에따라경쟁사들과경쟁하기위한아마존의전략을나타냅니다.​산업AI추진에대한경쟁적대응이번출시는Spotify가10월에ChatGPT기능을통합하여사용자들이대화형프롬프트를통해개인맞춤형음악추천을받을수있게된지불과몇주만에이루어졌습니다.Apple이2026년봄출시예정으로향상된Siri기능을계속개발하고있는동안,Amazon은음악발견을"지식이풍부한친구와의대화"처럼느껴지도록만들어경쟁사들을뛰어넘는위치를점하고있습니다.​AlexaPlus는궁극적으로Prime회원에게무료로제공될예정이며,얼리액세스기간이종료된후Prime비가입자는월$19.99에이용할수있습니다.이통합은주요스트리밍서비스내에서생성형AI어시스턴트의첫번째주요배포중하나입니다.
1241 조회
0 추천
2025.11.05 등록
(퍼플렉시티가정리한기사)Microsoft는Azure클라우드플랫폼에서단일랙시스템으로초당110만토큰이라는전례없는성능을달성하며AI처리장벽을무너뜨렸습니다.이는백만토큰임계값을처음으로돌파한것으로,AI추론성능에대한새로운업계벤치마크를확립했습니다.​NVIDIA의최첨단GB300GPU로구동되는AzureNDGB300v6가상머신을사용하여달성한이이정표는GB200시스템으로달성한Microsoft의이전기록인초당865,000토큰대비27%향상된수치입니다.이성능테스트는업계표준인Llama270B모델을사용한80분간의벤치마크실행동안Signal65에의해독립적으로검증되었습니다.​엔터프라이즈AI를위한획기적인성능이성과는AI배포의경제성을근본적으로변화시켜,기업들이엄격한규정준수요구사항을유지하면서수천명의동시사용자를지원할수있게합니다.각NVIDIAGB300GPU는초당15,200개의토큰을처리하여이전세대H100칩보다5배의처리량을제공하며,Signal65가"엘리트AI성능"이라고부른것이이제접근가능한유틸리티로제공됨을보여줍니다.​Microsoft의이혁신은회사가대규모AI인프라투자를가속화하는시기에나왔습니다.이기술대기업은월요일에세건의별도수십억달러규모AI거래를발표했으며,여기에는추가NVIDIAGB300용량을위한IRENLimited와의97억달러규모파트너십과수만개의GPU배포를위한Lambda와의별도계약이포함됩니다.​AI군비경쟁에서의인프라리더십이기록적인성능은이전세대대비50%더많은메모리와16%높은열용량을포함한향상된사양을갖춘72개의GPU를탑재한단일NVIDIAGB300NVL72랙에걸쳐18개의가상머신을사용하여달성되었습니다.이시스템은가상머신당초당평균61,163개의토큰처리량으로놀라운일관성을보여주었습니다.​"이성능이정표는NVIDIA와의지속적인협력을보여주며프로덕션환경에서광범위한AI워크로드를관리하는Azure의능력을강조합니다"라고MicrosoftCEO사티아나델라는말하며,이성과가Azure를엔터프라이즈AI추론을위한최고의플랫폼으로자리매김하게한다고강조했습니다.이이정표는단순한기술적성과이상을의미합니다.산업규모의AI처리가클라우드에도입되었음을알리며,대규모내부인프라투자없이도주류기업들이정교한AI기능에접근할수있게되었습니다.
1112 조회
0 추천
2025.11.05 등록
(퍼플렉시티가정리한기사)Anyscale과Microsoft는오늘Azure에서새로운AI네이티브컴퓨팅서비스를출시하기위한파트너십을발표했으며,즉시비공개프리뷰에진입하고Ray의분산컴퓨팅기능을엔터프라이즈규모의클라우드서비스로대폭확장하는계기가되었습니다.​완전관리형퍼스트파티Azure서비스는Anyscale이만든오픈소스분산컴퓨팅프레임워크인Ray를기반으로하며,기업들이AI워크로드를확장할때레거시컴퓨팅시스템으로직면하는한계를해결합니다.이서비스는코드변경없이도자체관리형Ray에비해최대10배빠른성능을제공합니다.​엔터프라이즈급AI컴퓨팅솔루션"AI는모든산업을재정의하고있지만,이를확장하는것은여전히가장어려운과제중하나입니다"라고Anyscale의CEO인KeertiMelkote는말했습니다."Microsoft와함께,우리는기업들이대규모로AI를구축하고실행하는것을획기적으로더쉽게만들고있습니다—Ray를위해특별히제작된Anyscale의플랫폼과Azure의신뢰할수있는인프라를결합하여기업들이인프라관리가아닌혁신에집중할수있도록합니다".​새로운서비스는AzureKubernetesService(AKS)에서직접실행되며,AzurePortal을통한간소화된클러스터배포,대화형개발환경,그리고배치처리와저지연서빙모두를위한장애허용Ray클러스터를기업에제공합니다.Azure고객들은통합청구의혜택을받을수있으며,기존MicrosoftAzureConsumptionCommitments를이서비스에적용할수있습니다.​Ray의성장하는엔터프라이즈도입Ray는월간2,700만건이상의다운로드와39,000개의GitHub스타를기록하며AI인프라의핵심기술로부상했습니다.Uber,Spotify,Canva,Coinbase를포함한주요기업들이이미분산AI컴퓨팅을위해Ray를활용하고있습니다.이프레임워크는단일파이프라인에서CPU와GPU와같은특수가속기전반에걸쳐데이터처리,모델학습및추론을통합함으로써현대AI의복잡성을해결합니다.​Microsoft의클라우드네이티브컴퓨팅담당CorporateVicePresident이자Kubernetes공동창시자인BrendanBurns는"기업들은AI워크로드를확장할때유연성과제어권을원합니다"라고말했습니다."Azure의Anyscale을통해Ray를AzureKubernetesService에도입함으로써,우리는개발자들에게익숙한클라우드네이티브패턴을사용하여AI애플리케이션을구축하고확장할수있는능력을제공하고있습니다".​이서비스는AzurePortal을통해비공개프리뷰로유지되며,2026년에정식출시될예정입니다.
1111 조회
0 추천
2025.11.05 등록
(퍼플렉시티가정리한기사)Google는화요일에가장야심찬문샷프로젝트를발표했습니다:프로젝트선캐처(ProjectSuncatcher)는회사의인공지능칩을탑재한위성네트워크를사용하여우주에태양광발전데이터센터를구축하는연구이니셔티브입니다.이거대기술기업은지구대기권밖에서머신러닝확장가능성을테스트하기위해PlanetLabs와협력하여2027년초까지두개의프로토타입위성을발사할계획입니다.​이프로젝트는컴퓨팅수요가급증함에따라AI개발이직면한에너지제약문제를해결합니다."우리의TPU가우주로향합니다!"GoogleCEO순다르피차이(SundarPichai)는이이니셔티브를발표하며말했습니다."양자컴퓨팅에서자율주행에이르기까지우리의문샷역사에서영감을받아,프로젝트선캐처는언젠가우주에서확장가능한ML컴퓨팅시스템을구축하여태양의더많은에너지를활용할수있는방법을탐구하고있습니다".​AI인프라에대한혁신적인접근방식Google의시스템은태양광패널이지상설치보다최대8배많은전력을생성할수있고거의지속적인햇빛을받을수있는새벽-황혼태양동기저궤도에서위성군집에텐서처리장치(TPU)를배치할예정입니다.위성들은Starlink와같은기존군집보다훨씬가깝게수백미터간격으로배치되며,초당1.6테라비트를달성하는자유공간광학링크를통해연결될것입니다.​이프로젝트를이끄는Google의지능패러다임선임이사TravisBeals는"AI사용이계속증가하고이를구동하기위해더많은에너지를원하는방향으로계속진행된다면,이것은확장할수있는엄청난잠재력을가지고있습니다"라고말했습니다.회사의분석에따르면발사비용이2035년까지킬로그램당약200달러로떨어질수있으며,이는우주기반데이터센터를킬로와트당기준으로지상시설과경제적으로비교가능하게만들것입니다.​테스트및기술적과제Google은이미최신Trillium세대TPU에대해입자가속기를사용하여수년간의우주노출을시뮬레이션하는유망한방사선테스트를수행했습니다.이칩들은예상되는5년임무선량의최대15배까지손상없이견뎌냈으며,이는우주응용분야에서놀라운방사선내성을나타냅니다.Beals는"칩들이상당히잘버텼습니다"라고언급하며,프로세서가5~6년임무를쉽게처리할수있을것이라고시사했습니다.​그러나진공상태에서의열관리,고대역폭지상통신,그리고서로수킬로미터이내에서위성편대를유지하는것등상당한공학적과제가남아있습니다.이는현재의우주기술을훨씬뛰어넘는정밀도를요구합니다.Planet과의2027년프로토타입임무는이러한핵심시스템들을테스트하고위성네트워크전반에걸친분산머신러닝워크로드를검증할것입니다.
1128 조회
0 추천
2025.11.05 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입