Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,082 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 111 페이지
(퍼플렉시티가정리한기사)엔비디아가17일서울코엑스그랜드볼룸에서'엔비디아AI데이서울'을개막하고국내AI개발자와연구자들에게최신AI기술을선보였다.이틀간진행되는이번행사에서는에이로봇,엔닷라이트,베슬AI등국내스타트업5개사가'엔비디아인셉션그랜드챌린지파이널쇼케이스2025'최종기업으로선정돼기술력을인정받았다.​이번챌린지는엔비디아와중소벤처기업부,창업진흥원이공동운영하는'엔업(N&UP)'프로그램의핵심행사로,약80개팀이참가한가운데10월21일1차라이브피칭을거쳐최종5개기업이선발됐다.​휴머노이드부터3DAI까지다양한혁신기술휴머노이드로봇전문기업에이로봇은예선과라이브피칭을통과해최종선정됐으며,휴머노이드로봇기술력과사업성을높게평가받았다.에이로봇관계자는"엔비디아와협력을확대해휴머노이드로봇상용화를가속화하겠다"고밝혔다.​3DAI스타트업엔닷라이트는18일기술세션에서생성형AI기반3DCAD설계자동화솔루션'트리닉스(Trinix)'를공개했다.트리닉스는텍스트나이미지입력만으로3DCAD데이터를자동생성하며,기존방식대비최대80%의시간과비용절감효과를제공한다.김선태엔닷라이트CTO는"엔비디아가주도하는피지컬AI분야에서3D데이터공급파트너로서산업현장의디지털화와자율화전환을가속화하는데기여하겠다"고말했다.​AI인프라전문기업베슬AI는GPU·모델·AI에이전트를통합하는'AI오케스트레이션전략'을발표했다.베슬AI는현대차,티맵모빌리티,한화생명등에AI인프라솔루션을공급중이며,네이버'하이퍼클로바X',LGAI연구원'엑사원'등국내대규모언어모델학습에도활용되고있다.​실습형워크숍과AI트렌드콘퍼런스첫날에는엔비디아딥러닝인스티튜트(DLI)가주관하는실습형워크숍이열렸다.주요세션은엔비디아네모(NeMo)와텐서RT(TensorRT)-LLM을활용한맞춤형대규모언어모델(LLM)최적화,아이작(Isaac)플랫폼기반로보틱스가속화,최신쿠다(CUDA)C++를이용한가속컴퓨팅기초등으로구성됐다.​둘째날에는소버린AI,에이전틱AI,AI팩토리,산업용AI,쿠다-X오픈소스라이브러리등최신트렌드를다루는콘퍼런스가진행됐다.최종선정된5개스타트업은내년엔비디아개발자행사'GTC2026'등주요프로그램참여기회와엔비디아의기술지원을받게된다.
892 조회
0 추천
2025.11.18 등록
(퍼플렉시티가 정리한 가사)전 레드불 레이싱 드라이버 다닐 크비앗은 11월 15일 아부다비 야스 마리나 서킷에서 뮌헨 공과대학교(TUM)의 AI 기반 레이싱 카가 10랩 쇼케이스 이벤트에서 그보다 먼저 결승선을 통과하면서 자율주행 기술에 첫 패배를 당했다.AI 레이서는 59.13초의 최고 랩 타임을 기록했으며, 이는 크비앗의 57.5초 기준 기록보다 단 1.6초 느린 것이었다. 이 격차는 2024년 4월 첫 아부다비 자율주행 레이싱 리그(A2RL) 이벤트에서 크비앗이 자율주행 기술을 10초 이상 앞서던 것에 비해 극적인 발전을 나타낸다.기술이 성과 격차를 줄이다인간 대 AI 전시 경기는 전통적인 나란히 달리는 배틀 방식이 아닌 추격전으로 설계되었으며, 자율주행 차량이 10초의 선발 출발 이점을 받았다. 크비아트가 초반 랩에서 격차를 좁혔지만, TUM 머신은 체커기까지 선두를 유지했다.“작년과 비교하면 낮과 밤의 차이입니다”라고 크비아트는 경기 후 기자들에게 말했다. “이제 제대로 푸시할 수 있고, 추격할 수 있으며 [1초 이내로 랩타임을 기록하고] 이것은 대단한 성과이자 인상적입니다.”TUM의 성능은 메인 이벤트에서 더욱 향상되었으며, 팀의 자율주행 레이서는 6대가 참가한 결승전에서 58.183초의 랩타임을 기록했다—이는 그날 초반 크비아트의 최고 랩타임보다 단 0.5초 느린 기록이었다.TUM, 챔피언십 타이틀 유지TUM은 저녁 메인 이벤트에서 A2RL 챔피언십을 성공적으로 방어했으며, 이탈리아 라이벌 Unimore가 선두를 달리다 충돌한 후 225만 달러의 상금을 획득했습니다. Unimore는 2번째 랩에서 대담한 추월을 성공시켰지만 12번째 랩에서 느린 차량과 충돌하여 레이스를 마감했습니다.TUM의 팀 대표인 Markus Lienkamp 교수는 이번 우승이 “전략적 레이싱 인텔리전스”를 입증했으며 “자율 시스템을 안전하고 효율적으로 도로에 도입하려는 비전을 향한 결정적인 단계”라고 말했습니다.이 이벤트에는 4개국에서 온 11개 팀이 참가했으며, 인간 운전자 대신 센서, 액추에이터 및 컴퓨팅 하드웨어로 개조된 Dallara Super Formula 차량으로 경쟁했습니다. 자율주행 차량은 대회 중 시속 250킬로미터를 초과하는 속도에 도달했습니다.
944 조회
0 추천
2025.11.17 등록
(퍼플렉시티가 정리한 기사)유럽 최대 기술 기업의 수장은 일요일, 네덜란드와 중국 간 반도체 제조업체 Nexperia를 둘러싼 최근 대치 상황에 이어 글로벌 반도체 공급망의 취약성을 강조했다.ASML CEO 크리스토프 푸케는 네덜란드 TV 프로그램 Buitenhof 인터뷰에서 Nexperia 사례가 “반도체 산업의 중요성과 ‘생태계가 취약하다는 것’을 극명하게 상기시켜 준다”고 말했다. 그는 “대화가 필수적”이라고 강조하며 분쟁이 확대되는 것을 막기 위해 모든 당사자들이 “책임감을 보여줄 것”을 촉구했다.외교적 노력이 진행 중이번 발언은 네덜란드 정부 고위 대표단이 이번 주 위기 해결을 목표로 한 협상을 위해 베이징을 방문할 준비를 하는 가운데 나왔다. 네덜란드 경제부 장관 빈센트 카레만스는 이번 회담이 “상호 합의 가능한 해결책을 찾기 위한 우리의 노력을 계속할 것”이라고 말했다. 중국 상무부는 네덜란드가 “진정한 협력 의지”를 보여주고 “실질적이고 건설적인 제안”을 제시할 것을 촉구했다.푸케는 넥스페리아 대치 상황이 확대 전에 대화하는 선호되는 접근 방식과는 “이번에는 반대로 진행되었다”는 것을 보여준다고 말했다. 긴장에도 불구하고 ASML CEO는 “위기의 최악은 지났다”고 믿으며 “단기적으로 우리 사업에 영향을 미치지 않을 것”이라고 밝혔다.위기 배경이 분쟁은 2025년 9월 네덜란드 정부가 국가 안보 우려를 이유로 냉전 시대의 비상법을 발동하여 네덜란드에 본사를 둔 중국 소유 반도체 제조업체 Nexperia의 통제권을 장악하면서 시작되었습니다. 중국은 자국 시설에서 제조된 Nexperia 칩의 수출을 차단함으로써 대응했고, 이는 글로벌 자동차 공급망을 혼란에 빠뜨렸습니다.이 교착 상태로 인해 혼다, 닛산, 폭스바겐을 포함한 자동차 제조업체들이 대체 공급업체를 찾느라 분주했으며, 일부는 일시적으로 생산을 중단했습니다. Nexperia는 잠금장치, 공조장치, 속도계와 같은 자동차 시스템에 사용되는 칩을 생산합니다.중국은 11월 1일 민간용 Nexperia 칩에 대한 수출 면제를 승인하여 자동차 제조업체들에 대한 즉각적인 압박을 완화했습니다. 그러나 Nexperia의 유럽 공장에서 중국 시설로의 웨이퍼 출하는 완전히 재개되지 않았으며, 유럽자동차제조협회는 안정적인 공급 흐름이 회복될 때까지 상황이 “계속 위중할 것”이라고 경고했습니다.첨단 반도체 제조에 사용되는 극자외선 리소그래피 장비의 세계 유일 공급업체인 ASML은 유럽과 중국 모두에서 사업을 운영하고 있으며, 중국 시장은 회사의 2025년 예상 매출의 25% 이상을 차지합니다.
938 조회
0 추천
2025.11.17 등록
(퍼플렉시티가정리한기사)루마니아게임개발스튜디오Amber가AmazonGameStudios및DeathRowGames와협력하여개발한AI기반비디오게임CourtroomChaos:StarringSnoopDogg를출시했습니다.15개국의Prime및LunaPremium구독자들에게제공되는이게임은게임업계가AI생성콘텐츠에대한비판이높아지는가운데출시되었습니다.​이파티게임은플레이어들의즉흥주장을듣고실시간으로판결을내리는가상판사로서AI기반SnoopDogg를특징으로합니다.QR코드를통해연결된휴대폰을사용하여최대6명의플레이어가참여할수있으며,콘솔이나컨트롤러가필요하지않습니다.Amber의CEO인MihaiPohonțu는"Luna플랫폼에서새롭고도발적인프로젝트를진행하는세계최초의스튜디오중하나가된것은우리에게영광입니다"라고말했습니다.​논란이주요출시작들을휩싸다이번출시는AI사용에대한주요스튜디오들에대한상당한반발과동시에이루어졌습니다.Activision은이번주플레이어들이CallofDuty:BlackOps7에서AI로생성된호출카드를발견한후광범위한비판에직면했습니다.여기에는여섯손가락을가진손과스튜디오지브리스타일의이미지와같은명백한오류가있는아트워크가포함되어있었습니다.논란이너무심해져서일부플레이어들은Steam환불을성공적으로받았으며,한플레이어는공개되지않은AI사용을이유로전체캠페인을완료한후환불을받았다고주장했습니다.​Activision은"팀을지원하고역량을강화하기위해AI도구를사용"했다는것을인정하는성명을발표했지만,"창작과정은계속해서우리스튜디오의재능있는개인들이주도하고있다"고주장했습니다.BlackOps7Steam페이지에는이제개발팀이"일부게임내자산개발을돕기위해생성형AI도구를사용한다"는것을확인하는공개사항이포함되어있습니다.​마찬가지로,Ubisoft는AI로생성된그래픽이Anno117:PaxRomana에"슬쩍들어갔다"고인정했으며,왜곡된얼굴과일치하지않는신체부위가있는로딩화면에서볼수있었습니다.회사는다가오는패치에서이미지를교체하겠다고약속하며,그것들이임시이미지였다고주장했습니다.​AI도입을둘러싼업계의의견분열2013년부쿠레슈티에서3명의직원으로설립된Amber는현재4개대륙에걸쳐850명이상의전문가를고용하고있으며,2025년8월MobileGamesAwards에서최우수공동개발/아웃소싱스튜디오로선정되었습니다.이스튜디오는CourtroomChaos가"인간이만들고AI가지원하는경험"이라고강조하며,비판받은구현방식과자사의접근방식을차별화했습니다.​AmazonGameStudios의총괄매니저인J.C.Connors는이게임을"AI가모든재판을신선하고재미있으며완전히예측불가능하게만드는""완전히새로운종류의경험"이라고설명했습니다.이게임은Amazon의Luna클라우드게임플랫폼에서제공되는컬렉션인GameNight의일부입니다.
874 조회
0 추천
2025.11.17 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입