Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,538 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 44 페이지
• 연구자들과 칩 제조업체들은 뇌의 신경 구조를 모방하는 뉴로모픽 프로세서의 상용화를 위해 경쟁하고 있으며, 이는 데이터 센터의 예상 소비량이 2024년 415테라와트시에서 2030년까지 945TWh로 증가함에 따라 기존 칩 대비 100배에서 1,000배의 에너지 효율성 향상을 약속하고 있습니다.• Intel과 IBM은 에너지 집약적인 데이터 전송을 제거하기 위해 메모리와 프로세싱을 통합한 Loihi 2 및 NorthPole과 같은 프로토타입 칩을 선보였으며, NorthPole은 이미지 인식 작업에서 NVIDIA의 V100 GPU보다 25배 더 에너지 효율적임이 입증되었습니다.• 12월 4일, 네덜란드 기반의 Innatera는 뉴로모픽 컴퓨팅 시장이 2025년 48억 9천만 달러에서 2035년까지 761억 8천만 달러로 성장할 것으로 예상됨에 따라, 1밀리와트 미만의 Pulsar 칩을 상용 제품에 배포하는 것을 가속화하기 위해 영국 컨설팅 회사 42 Technology와의 파트너십을 발표했습니다.
706 조회
0 추천
2025.12.05 등록
현대자동차의 첨단차량플랫폼 부문장이자 소프트웨어 자회사 42dot의 CEO인 송창현은 자율주행 기술의 더딘 진전 속에서 정의선 회장과의 논의 끝에 사임했다.[yna +1]현대는 최근 한국에서 완전 자율주행 시스템을 출시한 Tesla [ +1.74%], 그리고 이미 레벨 3 자율주행을 양산 차량에 통합한 Mercedes-Benz와 BMW 같은 경쟁사들에 뒤처져 있다.[yna +1]분석가들은 이번 사임이 독자 개발보다는 Nvidia [ +2.11%]와의 파트너십으로의 전략적 전환을 시사하며, 앞으로 몇 주 안에 더 광범위한 임원진 변화가 예상된다고 말한다.[koreatimes +1]
724 조회
0 추천
2025.12.05 등록
실제로 존재하지 않았던 가상의 비디오 게임이 TikTok에서 너무 인기를 얻어 여러 인디 개발자들이 이를 실제로 만들기 위해 경쟁하고 있습니다. 2025년 10월에 시작된 AI 생성 밈인 Bird Game 3는 최소 세 개의 본격적인 개발 프로젝트를 탄생시켰으며, 한 팀은 이미 플레이 가능한 멀티플레이어 베타를 출시했습니다.새로 만들어진 TikTok 계정 ururur_games는 런칭 이틀 만에 Bird Game 3 프로젝트를 발표했고, 최초 발표 영상에서 이미 320만 조회수를 기록했습니다. 팔로워들에게 이 프로젝트가 “예산이 전혀 없다”고 경고했음에도 불구하고, 팀은 “좋아하는 종을 선택하고, 다른 플레이어들과 힘을 합치며, 빠른 반사신경과 기술이 중요한 혼돈스러운 실시간 매치에 참여할 수 있는” 멀티플레이어 기능을 갖춘 플레이 가능한 베타를 Google Play에 공개했습니다.여러 팀이 바이럴 성공을 위해 경쟁하다Wood Finch Studios는 11월 말에 다른 접근 방식을 취하며, 게임 관객들이 좋은 추억으로 기억한다고 여겨지는 “잃어버린 미디어”의 리메이크로 자신들의 언리얼 엔진 5 프로젝트를 설정했습니다. 1인 프로젝트로 시작했지만 빠르게 협력자들을 끌어들였고, 스튜디오는 현재 2026년 초에 데모를 출시하기를 희망하고 있습니다.한편, 1인 개발자 ragbell은 이 트렌드를 활용하여 플레이어 대 플레이어 전투와 제작 메커니즘을 강조하는 기존의 새 생존 게임 UAZO를 홍보했습니다. 그의 프로젝트를 Bird Game 3 현상과 연결한 후 비디오 조회수가 수천에서 백만 이상으로 급증했습니다. 댓글 작성자들은 벌새 플레이 기능과 깃발 뺏기 모드와 같은 기능을 요청하며 그의 게시물에 쇄도했습니다.AI 밈에서 개발 열풍까지Bird Game 3 콘셉트는 2025년 10월 6일, TikTok 사용자 ancient_meme_archive가 존재하지 않는 “Xbox 50” 콘솔용 가상의 게임을 구매하는 AI 생성 영상을 게시하면서 시작되었다. 원본 영상은 180만 회 이상의 조회수를 기록했다. 독수리와 비둘기 사이의 격투 게임으로 추정되는 한 바이럴 클립은 이틀 만에 880만 조회수를 기록했다.이 현상은 OpenAI의 Sora AI 영상 생성 도구에 의해 가속화되었으며, 이를 통해 크리에이터들은 배틀로얄부터 오픈월드 탐험까지 다양한 장르에 걸친 설득력 있는 게임플레이 영상을 제작할 수 있다. 이 트렌드에 대한 보도에 따르면 “AI 도구는 ‘바이브 코딩’을 대중화하여 코딩 기술이 없는 사람들도 기능적인 무언가를 만들 수 있게 했다”.그러나 개발자들은 근본적인 과제에 직면해 있다. Bird Game 3의 바이럴 매력은 시청자들이 상상하는 모든 것이 될 수 있다는 능력에서 비롯된다. 한 분석은 “Bird Game 3의 개념은 향수에 깊이 뿌리박혀 있다”고 지적했다. “일단 Bird Game 3가 현실이 되면, 그 백일몽은 끝날 수도 있다”.
729 조회
1 추천
2025.12.04 등록
LG전자는 CES 2026 공식 개막 하루 전인 1월 5일 라스베이거스 만달레이 베이 컨벤션 센터에서 열리는 월드 프리미어 기자회견에서 “Affectionate Intelligence” 비전과 AI 기반 제품 포트폴리오를 공개할 예정입니다.이 회사는 AI 접근 방식을 “Affectionate Intelligence”로 리브랜딩하여 순수한 기술적 역량보다는 가정, 모빌리티 솔루션 및 도시 환경 전반에 걸쳐 원활한 연결성을 창출하는 고객 중심 기술을 강조하고 있습니다.CEO 류재철은 글로벌 미디어 및 파트너를 포함한 약 1,000명의 참석자를 대상으로 기조연설을 진행할 예정이며, 이 행사는 LG 웹사이트와 소셜 채널을 통해 실시간 스트리밍될 것입니다.
746 조회
0 추천
2025.12.04 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입