Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,107 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 105 페이지
(퍼플렉시티가 정리한 가사)엔비디아 최고경영자(CEO) 젠슨 황이 2025년과 2026년을 합쳐 총 5000억달러(약 700조원) 규모의 AI 칩 주문을 확보했다고 밝히며 인공지능 투자 붐이 여전히 강력하다는 신호를 보냈다.황 CEO는 지난 10월 워싱턴 D.C.에서 열린 GTC 콘퍼런스에서 “현재 장부에 올라와 있는 주문이 5000억달러에 달한다”고 공개했다. 이 주문에는 2025년 매출과 현재 출하 중인 블랙웰(Blackwell) GPU, 2026년 출시 예정인 루빈(Rubin) GPU, 그리고 네트워킹 장비 등이 포함됐다.울프 리서치의 크리스 카소 애널리스트는 이번 공개가 2026년 데이터센터 매출이 기존 전망치보다 약 600억달러 높을 것임을 시사한다고 분석했다. 카소 애널리스트는 “엔비디아의 공개 내용은 현재 시장 컨센서스 대비 명확한 상승 여력을 보여준다”고 평가했다.실적 발표 앞두고 긴장감 고조엔비디아는 19일(현지시간) 2026 회계연도 3분기 실적을 발표한다. 시장은 매출 549억달러, 주당순이익 1.25달러를 예상하고 있으며, 이는 전년 동기 대비 56% 증가한 수치다.그러나 17일 뉴욕증시에서 엔비디아 주가는 전장 대비 1.8% 하락 마감했다. 최근 소프트뱅크와 피터 틸 등 주요 투자자들이 보유 지분을 전량 매각했다는 소식이 전해지면서 투자 심리가 위축된 것으로 분석된다.대규모 계약으로 미래 성장 기반 확보엔비디아는 9월 오픈AI(OpenAI)와 최대 1000억달러 규모의 전략적 파트너십을 체결했다. 이 계약에 따라 오픈AI는 최소 10기가와트 규모의 데이터센터를 구축하며, 수백만 개의 엔비디아 GPU를 도입할 예정이다.구글(Google [GOOG +3.11%]), 아마존(Amazon [AMZN -0.78%]), 마이크로소프트(Microsoft [MSFT -0.53%]), 메타(Meta [META -1.22%]) 등 주요 빅테크 기업들도 모두 AI 인프라 투자 확대를 발표했다. 모건스탠리는 하이퍼스케일러들의 자본 지출이 2026년 약 5500억달러로 24% 증가할 것으로 전망했다.한편 한국 정부와 삼성전자 [SSUN.F -4.07%], SK그룹, 현대자동차 [005380.KS -2.58%]는 10월 각각 최대 5만개의 블랙웰 GPU를 도입하기로 했으며, 네이버 [035420.KS -2.35%]는 6만개 이상을 구매할 계획이다.
939 조회
0 추천
2025.11.18 등록
(퍼플렉시티가정리한기사)엘론머스크의인공지능스타트업xAI는2025년11월17일Grok4.1을출시하며정확도에서극적인개선을이루고업계에서가장경쟁이치열한벤치마크중하나에서선두자리를차지했습니다.이모델은AI가거짓이거나무의미한정보를생성하는환각현상을이전버전에비해약3분의2감소시켰습니다.​xAI에따르면,Grok4.1의환각비율은Grok4Fast의12.09%에서단4.22%로감소했으며,FActScore지표는9.89%에서2.97%로개선되었습니다.이모델은현재LMArena의TextArena리더보드에서사고모드로1483의Elo점수로1위를차지하고있으며,빠른모드에서는1465점으로2위를기록하고있습니다—이는가장가까운비xAI모델보다31점앞선수치입니다.​감성지능과창의적성장정확도향상을넘어,Grok4.1은감성지능분야에서EQ-Bench3에서1586점,CreativeWritingv3에서1722점의기록적인점수를달성했으며,이는xAI의이전최고기록대비600점향상된수치입니다.회사는이러한발전이성격일관성과미묘한의도감지에초점을맞춘강화학습시스템덕분이라고밝혔습니다.​11월1일부터14일까지진행된조용한출시기간동안,xAI는모델을실제트래픽에노출시키고지속적인블라인드선호도테스트를실시했으며,Grok4.1은이전프로덕션모델대비64.8%의선호도를기록했습니다.ArenaExpert리더보드에서씽킹버전은1510점을기록했으며,표준버전은1437점으로19위를차지했습니다.​프리미엄옵션이포함된무료액세스이모델은grok.com,X,모바일앱을통해전세계모든사용자에게무료로제공되며,이는유료장벽없이최첨단모델을제공하는xAI의패턴을이어가고있습니다.XPremium+구독자를포함한프리미엄등급은더높은사용한도를받습니다.회사는테네시주멤피스에있는Colossus슈퍼컴퓨터를사용하여Grok4.1을구축했으며,이시스템은200,000개이상의GPU를보유하고있으며세계최대AI훈련시스템으로간주됩니다.​이번출시는AI부문에서경쟁이심화되는가운데이루어졌으며,Google이연말까지Gemini3.0출시를준비하고있는것으로알려졌습니다.OpenAI는최근자체성능개선과함께GPT5.1을출시했습니다.
934 조회
0 추천
2025.11.18 등록
(퍼플렉시티가정리한기사)구글딥마인드와구글리서치는11월17일WeatherNext2를공개했습니다.이는이전버전보다8배빠른예측을제공하고시간별해상도예보를제공하는고급AI날씨예측모델입니다.이모델은단일처리칩에서1분이내에수백가지의가능한날씨시나리오를생성할수있으며,이는기존슈퍼컴퓨터로는몇시간이걸리는작업입니다.​WeatherNext2는0일에서15일까지의예측리드타임에걸쳐온도,바람,습도를포함한99.9%의날씨변수에서구글의이전모델을능가합니다.이기술은이미구글검색,Gemini,PixelWeather,그리고구글맵스플랫폼의WeatherAPI에서날씨예보를지원하고있으며,앞으로몇주내에구글맵스에도통합될예정입니다.​향상된예측및비즈니스애플리케이션이모델은열대폭풍경로를최대3일전에예측하는데특히강점을보이며,이는이전버전보다하루개선된것입니다.DeepMindAI연구원AkibUddin에따르면,시간별예보는에너지거래자및기타산업에특히유용합니다.Uddin은Bloomberg와의인터뷰에서"더세밀한예보를제공합니다"라고말했습니다."많은다른산업들이이러한1시간단위에상당한관심을보이고있습니다.이를통해더정확한의사결정을할수있습니다".​이혁신은FunctionalGenerativeNetwork라는새로운접근방식에서비롯되었으며,이는온도나풍속과같은개별기상요소만으로모델을훈련시키지만,지역열파나풍력발전소출력과같은복잡하게상호연결된시스템을예측할수있게합니다.​한계점및경쟁환경발전에도불구하고,DeepMind연구과학자FerranAlet은훈련데이터의공백으로인해이모델이이상치강우및강설사건을예측하는데어려움을겪을가능성이있다고인정했습니다."이것은우리예보의한가지한계이지만,우리가개선하기위해노력하고있는부분입니다"라고Alet은Bloomberg에말했습니다.​WeatherNext2는현재GoogleCloudVertexAI,BigQuery,EarthEngine을통해기업과연구자들에게제공되고있습니다.이모델은,,AccuWeather,Huawei를포함한회사들이모두AI기반기상예보시스템을개발하고있는점점더경쟁적인분야에진입했습니다.
839 조회
0 추천
2025.11.18 등록
(퍼플렉시티가정리한기사)일론머스크의출시한지한달된위키피디아대체서비스인그로키피디아(Grokipedia)가수천개의"의심스러운"그리고"문제가있는"출처를인용하고있어AI기반백과사전의신뢰성에대한심각한의구심을불러일으키고있다고코넬테크연구진이금요일발표한연구결과가밝혔다.​연구에따르면위키피디아에서복사되지않은그로키피디아문서는영어위키피디아커뮤니티에서"일반적으로신뢰할수없는"것으로간주되는출처를인용할가능성이3.2배더높고,위키피디아가완전히차단하는"블랙리스트"출처를포함할가능성이13배더높은것으로나타났다.인용중에는스톰프론트(Stormfront)와인포워즈(InfoWars)를포함한극우매체에대한수십건의참조가포함되어있다.​코넬테크연구진인해롤드트리드먼(HaroldTriedman)과알렉시오스만차를리스(AlexiosMantzarlis)는보고서에서"그로키피디아에서는출처관련안전장치가대부분제거된것이분명하다"고썼다."이로인해의심스러운출처가포함되고,잠재적으로문제가있는출처의전반적인비율이더높아지게된다."​논란속에출범한위키백과경쟁서비스머스크의회사xAI는10월27일80만개이상의AI생성기사를담은그로키피디아를출시하며,머스크가"위키피디아보다엄청난개선"이라고부른것으로포지셔닝했다.이억만장자는오랫동안위키피디아를좌파편향이라고비난해왔으며,이를"Wokepedia"라고부르고작년에2억명이상의X팔로워들에게비영리단체에기부를중단할것을촉구했다.​그러나이플랫폼은정확성문제로빠르게비판을받았다.PolitiFact는그로키피디아가존재하지않는출처를인용하거나참조된정보를포함하지않는출처를인용하는등허위인용을자주만들어낸다는것을발견했다.한사례에서,백과사전은파이스트의아버지가2021년에사망했다는Vice기사를인용했는데,실제기사는2017년것이었고사망에대한언급이없었으며당시그녀의아버지는여전히살아있었다.​위키피디아공동창립자지미웨일스는이프로젝트를일축하며CNBC에대규모언어모델이"대규모오류"를만들어낼것이라고말했다."저는그로키피디아를철저히검토할기회가없었고,흥미롭게생각하지만,일론머스크의탁월함에대한찬사로가득차있는것같습니다"라고웨일스는말했다.​투명성격차와이념적우려공개편집을허용하고변경사항과출처에대한상세한기록을유지하는위키백과와달리,그로키피디아는기사가AI로생성되었다는점을인정하는것외에는기사작성방법에대한어떠한통찰도제공하지않습니다.사용자는양식을통해피드백을제출할수는있지만항목을직접편집할수는없습니다.​이플랫폼은논란의여지가있는주제를다루는방식으로특히면밀한조사를받았습니다.한분석에따르면,그로키피디아의1월6일국회의사당공격에대한항목은사건자체보다언론보도에대한이의제기에더초점을맞추고있습니다.이백과사전에는또한InfoWars를인용하는"클린턴시체수"음모론을홍보하는기사도포함되어있습니다.​코넬공대연구결과에대한논평요청을받았을때,xAI는"레거시미디어는거짓말을한다(LegacyMediaLies)"라는자동응답을보냈습니다.목요일,머스크는그로키피디아가"충분히좋아지면(아직갈길이멀지만)""은하백과사전(EncyclopediaGalactica)"으로브랜드를변경할계획이라고발표했습니다.
865 조회
0 추천
2025.11.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입