Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,288 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 75 페이지
HD현대가 미국의 인공지능(AI) 방산 기업 안두릴 인더스트리와 손잡고 자율 무인수상함(ASV) 시장에 본격 진출한다. 양사는 23일 최근 서울 중구 웨스틴 조선호텔에서 ASV의 설계·건조 및 AI 솔루션 공급 계약을 체결했다고 밝혔다.계약 체결식에는 HD현대중공업 주원호 사장과 안두릴의 공동설립자 팔머 럭키가 참석했다. 양사는 2026년까지 시제함 개발과 건조를 완료하고 미국 및 글로벌 시장 선점에 나선다는 계획이다.역할 분담과 기술 융합HD현대는 울산 HD현대중공업에서 ASV를 건조하고, 개발 중인 선박 자율운항 기술 등 주요 AI 솔루션을 공급한다. 안두릴은 자율 임무 수행 솔루션을 탑재해 양사의 핵심 기술을 결합한다.이번 협력은 올해 8월 체결한 함정 개발 협력 합의각서(MOA)를 구체화한 것이다. 당시 양사는 한국 시장에서 HD현대가 개발 중인 무인수상정에 안두릴의 자율 임무 수행 체계를 탑재하고, 미국 시장에서는 안두릴이 주도하는 유·무인 함정에 HD현대가 설계·건조와 AI 자율화 기술을 공급하기로 했다.급성장하는 무인함정 시장미국 시장조사기관 얼라이드 마켓 리서치에 따르면, 세계 무인 수상정 시장은 2022년 9억2000만 달러에서 연평균 11.5% 성장해 2032년 27억 달러 규모에 달할 전망이다.주원호 HD현대중공업 사장은 “한국과 미국의 방산업체가 협력해 함정을 공동 개발하는 새로운 전기가 될 것”이라며 “세계 최고의 AI 방산 기업과 세계 최고의 조선소가 협력해 전 세계 해군이 추진하고 있는 유무인 복합체계 도입에도 앞장서겠다”고 말했다.팔머 럭키 안두릴 공동설립자는 “세계 최고 수준의 설계·건조 역량을 갖춘 HD현대의 울산 야드에서 우리의 첫 번째 ASV를 짓게 돼 기쁘게 생각한다”며 “앞으로도 미국과 한국을 포함한 전 세계 방산 시장에서 HD현대와의 더 큰 협력도 기대한다”고 말했다. 정기선 HD현대 회장은 지난 10월 APEC CEO 서밋에서 “양사의 역량이 결집된 선박 자율운항 기술과 자율 임무 수행이 융합되면 해군 작전의 패러다임을 완전히 바꿔나갈 것”이라고 전망했다.
838 조회
0 추천
2025.11.23 등록
카카오임팩트와 브라이언임팩트는 지난 22일 경기도 용인시 카카오 AI캠퍼스에서 ‘AI TOP 100’ 경진대회 본선을 개최했다고 23일 밝혔다. 과학기술정보통신부와 카카오가 후원한 이번 대회는 AI와의 협업을 통해 인간 역량이 얼마나 증강될 수 있는지 확인하려는 취지로 기획됐다. 대상은 대학생 제태호 씨가 차지했으며, 총 1억 5천만원 규모의 상금이 수여됐다.15세부터 67세까지, 다양한 세대 참여지난 10월 18일 온라인으로 진행된 예선에는 3천여 명이 참가해 제한 시간 내 주어진 과제를 수행했다. 참가자는 테크 업계 종사자를 비롯해 자영업자, 소방관, 농부, 창업자, 변호사 등 폭넓은 직업군을 아우렀다. 연령대도 15세(2010년생)부터 67세(1958년생)까지 전 세대가 참여했다.예선을 통해 선발된 100명의 본선 참가자 역시 고등학교 3학년 학생부터 중년 직장인까지 다양했으며, 비개발자 비중이 절반 이상에 달했다. 카카오 측은 이를 통해 AI가 대중적 기술로 자리잡아가고 있음을 확인했다고 밝혔다.“AI 시대 진정한 경쟁력은 언러닝”이번 대회는 일상에서 발생할 수 있는 문제 상황을 AI 툴로 해결하는 방식으로 진행됐다. 예를 들어 인수인계 없이 퇴사한 전임자의 방대한 자료를 빠르게 파악해 새로운 사업 문서를 작성하거나, 입국 신청자 서류 검증, 몽타주 제작 등의 과제가 출제됐다.대상 시상자로 나선 배경훈 부총리 겸 과학기술정보통신부 장관은 “AI 활용 능력은 미래 핵심 역량”이라며 “다양한 세대 참가자들이 보여준 역량과 도전정신은 대한민국 ‘AI 기본사회’ 구현에 큰 역할을 하게 될 것”이라고 밝혔다.정신아 카카오 대표는 “AI 시대의 진정한 경쟁력은 옛 방식을 과감히 버리는 ‘언러닝’에 있다”며 “AI를 도구 삼아 잠재력의 최대치를 실험하는 도전에 나서준 참가자들에게서 기술보다 위대한 ‘사람’의 힘을 확인했다”고 말했다. 카카오임팩트는 대회 문제를 실제로 풀어볼 수 있는 전용 웹사이트를 조만간 공개할 예정이다.
875 조회
0 추천
2025.11.23 등록
CJ대한통운이 피지컬 인공지능(AI) 기업 리얼월드와 손잡고 물류센터에 적용할 AI 휴머노이드 로봇의 핵심 기술 개발에 나선다. 이번 협력으로 국내 물류업계의 AI 로봇 상용화가 본격화될 전망이다.CJ대한통운은 지난 20일 서울 종로구 본사에서 리얼월드와 ‘물류용 로봇 파운데이션 모델(RFM) 공동개발을 위한 업무협약’을 체결하고, 전략적 시너지 강화를 위해 시드2 라운드 지분 투자에도 참여한다고 23일 밝혔다. 협약식에는 김정희 CJ대한통운 TES물류기술연구소장과 이종훈 경영지원실장, 류중희 리얼월드 대표 등 양사 주요 경영진이 참석했다.로봇 ‘두뇌’ 개발로 자율 작업 구현양사는 로봇이 스스로 움직이도록 ‘뇌’ 역할을 하는 RFM 솔루션을 공동 개발하고 현장 실증 및 상용화를 함께 추진한다. 로봇 파운데이션 모델은 로봇이 시각, 음성, 언어, 센서 데이터를 통합적으로 이해하고 스스로 판단해 행동할 수 있도록 설계된 로봇 전용 AI 모델이다.CJ대한통운은 물류센터 내 로봇 자동화가 가능한 공정을 발굴하고, 피킹·분류·포장 등 작업 데이터를 기반으로 RFM이 학습하고 고도화될 수 있도록 지원한다. 리얼월드는 이러한 데이터를 토대로 고정밀 로봇핸드 제어 기술을 중심으로 물류용 RFM을 개발한다. 로봇핸드는 휴머노이드 로봇이 인간의 손처럼 정교하게 상품을 다루기 위한 핵심 기술이다.AI 휴머노이드 생태계 완성 단계CJ대한통운은 올해 4월 레인보우로보틱스, 9월 로보티즈, 10월 에이딘로보틱스 등과 잇달아 협약을 체결하며 AI 휴머노이드 협업 생태계를 확장해 왔다. 이번 리얼월드와의 협력으로 하드웨어를 넘어 로봇의 두뇌 역할을 하는 AI 소프트웨어 기술 확보 기반까지 마련하게 됐다.벤처캐피털 퓨처플레이 출신 류중희 대표가 설립한 리얼월드는 RFM 분야의 선도 기업으로, 한국·일본·미국 등의 제조 환경에서 수집한 정밀 4D+ 멀티모달 데이터를 기반으로 특정 하드웨어에 의존하지 않는 RFM을 개발해 왔다. 최근 아마존 웹 서비스(AWS)가 전 세계 유망 생성형 AI 스타트업을 육성하는 ‘AWS 글로벌 생성형 AI 스타트업 3기’에 선정되며 기술력을 인정받았다.이종훈 CJ대한통운 경영지원실장은 “미래 물류의 경쟁력은 단순한 설비가 아니라, 얼마나 고도화된 AI 브레인을 보유하느냐에 달려 있다”며 “선도적 기술 확보와 전략적 투자를 통해 물류 AI 생태계의 주도권을 선점하고 물류센터의 AI 기반 자율운영체제 전환을 가속화하겠다”고 밝혔다.
839 조회
0 추천
2025.11.23 등록
Matthew Harris는 AI 개발이 순수한 스케일링에서 벗어나 토큰당 비용을 우선시하는 효율성 중심 아키텍처로 전환되고 있으며, 하이브리드 어텐션 메커니즘이 전통적인 단일 어텐션 접근 방식을 대체하고 있다고 주장합니다.Qwen3 Next와 Kimi Linear 같은 모델은 Gated DeltaNet을 전체 어텐션 블록과 3:1 비율로 사용하여 메모리 및 KV-캐시 사용량을 최대 75%까지 줄이면서 수십만 토큰의 컨텍스트 윈도우를 가능하게 합니다.이러한 아키텍처 변화는 AI 토큰 비용이 1년 만에 백만 토큰당 $10에서 $2.50로 75% 하락한 것을 보여주는 광범위한 업계 트렌드와 일치하며, 이는 모델 효율성을 최적화하려는 경쟁 압력에 의해 주도되었습니다.
857 조회
0 추천
2025.11.23 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입