Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,174 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 88 페이지
MIT 연구원들은 새로운 추론 AI 모델에서 가장 많은 연산 처리를 요구하는 문제 유형이 인간이 해결하는 데 가장 오래 걸리는 문제와 동일하다는 것을 발견했으며, 이는 인공지능과 생물학적 지능이 복잡한 사고에 접근하는 방식에서 예상치 못한 수렴을 시사합니다PNAS에 게재된 이 연구는 7가지 문제 유형에 걸쳐 인간의 반응 시간과 AI가 생성한 “토큰”(내부 연산 단계)을 측정했으며, 놀라운 상관관계를 발견했습니다—인간과 모델 모두 “ARC 챌린지“라고 불리는 시각적 추론 과제에 가장 오래 걸리고 기본 산술에는 가장 적은 노력을 소비했습니다추론 모델은 훈련 중 강화 학습을 통해 향상된 성능을 달성하는데, 정답에 대해서는 보상을 받고 오류에 대해서는 페널티를 받아 문제 공간을 탐색하고 인간의 문제 해결 접근 방식을 반영하는 단계별 솔루션 전략을 개발할 수 있습니다
822 조회
0 추천
2025.11.20 등록
(퍼플렉시티가정리한기사)러시아대통령블라디미르푸틴이수요일모스크바에서열린AI저니컨퍼런스에서춤추는휴머노이드로봇의환영을받았다.푸틴은이자리에서러시아가국내전문가들이완전히통제할수있는독자적인인공지능기술을개발해야한다고강조하며,AI주권이국가안보에필수적임을밝혔다.러시아스베르은행이주최한제10회연례컨퍼런스에서푸틴은"러시아는생성형인공지능분야에서독자적인기술과제품을완비해야한다."고선언했다.그는외국의AI시스템에의존하는것이국가의기술적·문화적자율성에위험을초래할수있다고경고했다.11월19일부터21일까지스베르은행본사에서진행된이번컨퍼런스에서는러시아의최신AI성과시연이펼쳐졌으며,그중에는푸틴이도착했을때맞이한스베르은행의GigaChat언어모형으로구동되는인간형로봇도있었다.​AI야망을위한원자력에너지푸틴은향후20년동안우랄,시베리아,극동지역을중심으로38기의새로운원자력발전소건설계획을발표했으며,이들의총발전용량은러시아의현재원전발전량과거의맞먹는수준이다.대통령은데이터센터의전력소비가이번10년동안3배이상증가할것으로예상됨에따라에너지인프라가매우중요하다고강조했다.​“가장중요하고근본적인과제는데이터센터에대규모의에너지를지속적이고안정적이며신뢰성있게공급하는일입니다.”라고푸틴은말했다.그는AI인프라에전력을공급할수있는소형모듈형원자로개발에서러시아의역량을언급했다.​국가인공지능태스크포스와경제목표푸틴대통령은생성적인공지능개발을감독할국가태스크포스의창설을명령하고,정부에포괄적인이행계획을수립할것을지시했다.그는AI기술이2030년까지러시아국내총생산(GDP)에11조루블(1,360억달러)이상을기여해야한다고전망했다.​대통령은언어모델이세계관에영향을미치고"전체국가의의미공간"을형성할수있는도구가되었다고강조하며,이른바"가치기반주권"을유지하기위해서는자체적인개발이필수적이라고밝혔다.​서양기술과의경쟁러시아의인공지능(AI)부문은미국과중국에뒤처져있으며,토터스미디어의글로벌AI지수에따르면전세계31위를차지하고있다.서방의마이크로칩수입제한제재는모스크바의컴퓨팅야심에차질을빚었으나,러시아는주요국산언어모델두개를개발했다:스베르방크의GigaChat과얀덱스의YandexGPT이다.​푸틴대통령과함께전시회를둘러본스베르방크의CEO게르만그레프는은행이매년약10억달러를AI개발에투자한다고밝혔다.이번컨퍼런스에서는의약품개발부터건강모니터링ATM에이르기까지다양한응용사례가선보였다.​푸틴대통령은AI규제가필요하다고강조하면서도,국가안보와정보작전을위해서는러시아가자체개발한모델만을사용해야하며,이를통해데이터가국경내에안전하게보관된다는점을분명히했다.
791 조회
0 추천
2025.11.20 등록
(퍼플렉시티가정리한기사)엔비디아가19일(현지시간)3분기매출570억1000만달러(약83조4000억원)를기록하며시장예상치를크게웃돌았다.이번실적발표로AI거품론논란이일단락되며뉴욕증시는5거래일만에반등에성공했다.​엔비디아의주당순이익(EPS)은1.30달러로시장전망치1.25달러를상회했으며,매출역시예상치549억2000만달러를넘어섰다.시간외거래에서엔비디아주가는5%이상급등했고,나스닥선물은1.20%상승했다.이날정규장에서S&P500지수는0.38%,나스닥종합지수는0.59%상승마감했다.​데이터센터부문90%차지…블랙웰"품절"데이터센터부문매출은전년대비66%증가한512억달러를기록하며전체매출의90%에육박했다.젠슨황최고경영자(CEO)는"블랙웰판매량은차트에표시할수없을정도로높고,클라우드GPU는품절상태"라며"우리는AI의선순환구조에진입했다"고밝혔다.​황CEO는"AI생태계는급속히확장중이며더많은새모델개발사,더많은AI스타트업이다양한산업과국가에서등장하고있다"고강조했다.엔비디아는4분기(11월∼내년1월)매출전망을650억달러로제시해시장예상치616억6000만달러를상회했다.​한국반도체업계동반상승엔비디아의호실적영향으로SK하이닉스는20일프리마켓에서전일대비6.58%급등한59만9000원을기록했다.삼성전자도3.52%오른9만9000원에거래됐다.​한편12월금리인하기대감이후퇴하며시카고상품거래소(CME)페드워치에따르면12월연방공개시장위원회(FOMC)에서0.25%포인트금리인하확률은31.6%까지떨어졌다.도널드트럼프대통령은이날미-사우디아라비아투자행사에서제롬파월의장을겨냥해금리인하를압박했다.
846 조회
0 추천
2025.11.20 등록
(퍼플렉시티가정리한기사)주요음반사들과의저작권분쟁의중심에있는AI음악생성플랫폼Suno는수요일,MenloVentures가주도한시리즈C펀딩라운드에서2억5천만달러를유치했다고발표했으며,매사추세츠에본사를둔이회사의기업가치는24억5천만달러로평가되었습니다.이번펀딩은Suno가연간2억달러의매출을보고하고플랫폼에서거의1억명의사용자가음악을창작했다고주장하는가운데이루어졌습니다.​이번라운드에는Nvidia의벤처캐피탈부문인NVentures와함께HallwoodMedia,Lightspeed,Matrix가참여했습니다.이번기업가치평가는Suno가2024년5월1억2천5백만달러규모의시리즈B투자유치시확보했던약5억달러의기업가치에서거의다섯배증가한수치입니다.​법적공방이계속되다이번자금조달발표는Suno가2024년6월소니뮤직,유니버설뮤직그룹,워너뮤직그룹이제기한저작권침해소송에여전히휘말려있는가운데나왔습니다.음반사들은Suno가허가없이저작권이있는음악으로AI모델을훈련시켰다고주장하며,침해된저작물당최대15만달러를청구하고있습니다.​최근유니버설및워너와저작권소송을합의하고2026년출시예정인라이선스AI음악플랫폼계획을발표한경쟁사Udio와달리,Suno는공정이용원칙에따라저작권이있는자료의사용을계속옹호하고있습니다.이회사는덴마크음악권리기구Koda와독일저작권협회GEMA로부터도추가소송을받고있습니다.​플랫폼역량확장Suno는2025년9월에v5음악모델을출시했으며,회사는이를향상된오디오품질,사실적인보컬,그리고강화된창작제어기능을갖춘가장진보된시스템이라고설명합니다.며칠후,사용자가AI생성스템으로트랙을편집할수있는생성형오디오워크스테이션인SunoStudio를선보였습니다.​CEOMikeyShulman은"단2년만에처음창작하는사람부터일상워크플로우에이도구를통합하는최고의작곡가와프로듀서에이르기까지수백만명의사람들이Suno를통해자신의아이디어를현실로만드는것을보았습니다"라고말했습니다.​완전히합성된트랙이스트리밍플랫폼에넘쳐나면서더넓은AI음악환경은정밀조사를받고있습니다.Deezer는2025년11월에매일50,000개이상의AI생성트랙을받았으며,이는전체업로드의34%를차지하고,이러한트랙의스트림중최대70%가사기로감지되었다고보고했습니다.​MenloVentures의파트너AmyMartin은Suno가"사람들이진정으로사용하기를좋아하는것을구축했으며수백만명의팬이매일플랫폼에서오리지널곡을만들고친구들과공유하고있습니다"라고말했습니다.
807 조회
0 추천
2025.11.20 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입