Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,112 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 103 페이지
(퍼플렉시티가 정리한 기사)국내 제조기업 10곳 중 8곳 이상이 인공지능(AI)을 경영에 활용하지 못하고 있는 것으로 나타났다. 자금 부족과 인재난, 효과성에 대한 불확실성이라는 3중고가 AI 전환의 발목을 잡고 있다는 지적이다.대한상공회의소가 최근 국내 504개 제조기업을 대상으로 조사한 보고서에 따르면 응답기업의 82.3%가 ‘AI를 경영에 활용하지 않고 있다’고 답했다고 17일 밝혔다. 특히 대기업의 AI 활용도가 49.2%인 데 반해 중소기업은 4.2%에 불과해 규모별 격차가 큰 것으로 나타났다.투자 부담에 인재 확보도 난항AI 투자비용 부담을 묻는 질문에 기업의 73.6%가 “부담이 된다”고 응답했다. 규모별로는 중소기업(79.7%)이 대기업(57.1%)보다 부담을 더 크게 느끼는 것으로 조사됐다. 대구의 한 제조업체는 “생산공정만 AI로 전환하려 해도 라벨·센서 부착, CCTV 설치, 데이터 정제, 로봇 운영을 위한 맞춤형 솔루션 구축, 관련 인력 투입 등 예상하지 못한 자금이 들어간다”고 토로했다.인재 확보는 더욱 심각한 문제다. ‘AI 활용 전문인력이 있는가’라는 질문에 80.7%가 “없다”고 답했으며, 82.1%는 “AI 인력을 충원하고 있지 않다”고 응답했다. 보고서는 “한국의 AI 인재는 2만1000명 수준으로 중국(41만1000명), 인도(19만5000명), 미국(12만명)에 비해 턱없이 적다”며 “그나마 있는 인재도 빠져나가고 있다”고 지적했다. 스탠퍼드 인간중심AI연구소(HAI)가 올해 발표한 조사에 따르면 한국의 AI 인재 순이동은 -0.36으로 인재 순유출국에 해당한다.단계별 맞춤 지원 필요효과성에 대한 확신 부족도 AI 도입을 가로막고 있다. ‘AI 전환이 성과를 가져올 것으로 기대하는가’라는 질문에 60.6%가 “효과가 미미할 것”이라고 답했다. 경제협력개발기구(OECD)가 주요 7개국(G7) 및 브라질 기업을 대상으로 실시한 조사에서도 ‘투자 수익률 추정의 어려움’이 AI 도입의 장애 요인으로 지목된 바 있다.대한상의는 AI 활용도가 높은 기업에는 GPU·클라우드 인프라 지원 등을 유연하게 활용할 수 있도록 제도적 자율성을 확대하고, AI 도입률이 낮은 기업에는 도입 전·중·후 단계별 지원이 필요하다고 제언했다. 정부는 제조AX 얼라이언스를 통해 2030년까지 AI 팩토리를 500개 이상 구축하는 사업을 진행 중이다.이종명 대한상의 산업혁신본부장은 “지금은 AI에 대한 미래 조감도를 정교하게 만드는 데 주력하기보다는 실제 데이터 축적과 활용, 인재 영입 등에 뛰어들어야 하는 시점”이라며 “강력한 지원, 파격적인 규제 혁신을 담은 선택과 집중의 메가 샌드박스 실행전략이 맞물려 돌아가야 할 때”라고 말했다.
910 조회
0 추천
2025.11.18 등록
(퍼플렉시티가 정리한 기사)카카오는 18일 한국문화정보원이 개최하는 ‘2025 문화체육관광 AI·디지털혁신 포럼’에 참여해 자체 개발 인공지능(AI) 모델 ‘카나나’의 개발 전략과 오픈소스 정책을 발표했다고 밝혔다.이번 포럼은 문화체육관광부 주최로 한국문화정보원이 국민체육진흥공단, 한국관광공사, 한국문화예술위원회, 한국저작권위원회, 한국콘텐츠진흥원과 공동 개최하며, ‘디지털이 바꾸는 문화 일상, AI가 이끄는 혁신’을 주제로 다양한 분야의 AI와 디지털 전환 사례를 공유하는 자리다.카나나-2, 고효율 추론 구조 강화카카오의 김병학 카나나 성과리더는 한국저작권위원회 주관 오픈소스 기반 AI 기술 세션에서 국내 정서와 한국 문화에 대한 높은 이해도를 갖춘 AI 모델의 필요성을 강조하며, 카나나 라인업을 소개했다.고성능 AI 서비스를 지향하는 카나나는 여러 차례의 고도화 과정을 거쳐 현재 ‘카나나-2’ 개발을 앞두고 있다. 카나나-2는 ‘MLA(Multi-Head Latent Attention)’ 기법과 ‘MoE(Mixture of Experts)’ 구조를 적용해 고효율 추론 구조를 강화했으며, 경량 모델의 고도화와 멀티모달 언어모델 개발도 진행 중이다.오픈소스 전략으로 생태계 활성화카카오는 AI 기술의 접근성을 높이기 위해 지난 2월부터 언어모델, 멀티모달 언어모델, 가드레일 모델 등을 오픈소스로 공개해왔으며, 누적 40만 건 이상의 다운로드를 기록하고 있다. 오픈소스 모델 중 ‘Kanana-1.5-8b’는 실사용 환경에 특화된 에이전트 능력을 평가하는 리더보드 ‘Ko-agent Bench’에서 1위를 달성해 글로벌 모델 이상의 성능을 인정받았다.김병학 성과리더는 “카카오는 AI 연구 성과를 서비스에 적용하는 것을 넘어 사회적 가치와 책임을 다하는 모델 개발과 확산을 위해 기술의 투명성과 접근성 확보에 힘쓰고 있다”며 “AI 기술의 혜택을 사회 전체와 공유하고 모두가 참여하는 혁신을 통해 국내 AI 생태계 활성화에 지속 기여하고자 한다”고 말했다.한편 카카오는 한국정보과학회와 함께 ‘AI 에이전트 경진대회’를 진행 중이며, 개방형 MCP 플랫폼 ‘PlayMCP’ 활용이나 카나나 모델 사용 시 가산점을 부여한다.
867 조회
0 추천
2025.11.18 등록
(퍼플렉시티가 정리한 기사)위메이드가 일본 인공지능(AI) 기업 퀀텀솔루션스(Quantum Solutions Co., Ltd.)와 게임 아이템 거래 플랫폼 개발을 위한 업무협약(MOU)을 체결했다고 18일 밝혔다. 양사는 블록체인과 AI 기술을 결합해 안전하고 투명한 글로벌 아이템 거래 환경을 조성한다는 목표다.이더리움 기반 RWA 토큰화로 안전성 확보양사는 ‘레전드 오브 이미르’, ‘나이트 크로우’, ‘미르4’ 등 위메이드 대표 게임의 아이템을 거래할 수 있는 글로벌 공식 게임 아이템 거래 플랫폼을 공동 개발한다. 아이템 거래 데이터는 이더리움 네트워크 기반 실물자산(Real World Assets, RWA)으로 토큰화돼 블록체인상에서 위변조 없이 안전하게 관리된다.퀀텀솔루션스는 AI 인프라와 블록체인 통합 기술, 디지털 자산 운용 역량을 갖춘 기업으로, AI와 블록체인을 결합해 실물자산과 디지털 자산을 연결하는 자산담보 기술 인프라 조성에 집중하고 있다. 최근 기관급 블록체인 솔루션 개발을 위해 아크인베스트(ARK Invest) 등 글로벌 투자사로부터 1억8000만 달러(약 2500억원) 규모의 투자를 유치했다.AI로 게임 내 아이템 직접 제작 가능양사는 AI 기술을 접목해 이용자가 직접 게임 지식재산권(IP)을 바탕으로 새로운 아이템을 만들고, 이를 실제 게임 속에서 활용할 수 있는 제작 시스템도 함께 구현할 계획이다. 위메이드 관계자는 “블록체인 게임 시장 확대를 위해 다양한 파트너사들과 협력하고 기술 고도화를 통해 글로벌 경쟁력을 높여갈 예정”이라고 밝혔다.위메이드는 ‘미르4’와 ‘나이트 크로우’ 글로벌 버전으로 블록체인 게임 시장에서 성과를 거둔 바 있다. 미르4는 2021년 글로벌 출시 이후 누적 매출 1억4000만달러(약 2000억원), 최고 동시접속자 140만명을 기록했으며, 나이트 크로우는 출시 3일 만에 매출 1000만달러(약 143억원), 동시접속자 43만명을 돌파했다.
921 조회
0 추천
2025.11.18 등록
(퍼플렉시티가 정리한 기사)Terray Therapeutics는 월요일 소분자 치료제를 처음부터 설계하기 위해 인공지능과 고처리량 실험을 결합한 신약 발견 플랫폼 EMMI를 출시한다고 발표했다.로스앤젤레스에 본사를 둔 이 바이오테크 기업은 “실험이 기계 지능을 만나다(Experimentation Meets Machine Intelligence)“의 약자인 이 플랫폼이 회사가 설명하는 고급 화학 기반 모델로 구동되는 생성(Generate), 예측(Predict), 선택(Select) 기능을 갖추고 있다고 밝혔다. 11월 17일에 발표된 이번 소식은 전통적으로 화합물당 25억 달러를 초과하는 비용을 절감하고 신약 개발을 가속화하기 위해 AI를 배치하는 점점 더 많은 기업들과 함께 Terray를 위치시킨다.독점 데이터 기반 구축Terray는 독자적인 tArray 마이크로어레이 기술을 사용하여 3년 동안 50억 개 이상의 표적-리간드 상호작용을 측정했으며, 이는 공개적으로 이용 가능한 모든 화학 데이터보다 약 50배 더 큰 데이터셋을 생성했습니다. 이 회사는 이전에 2024년 초에 발표된 화학 기초 모델인 COATI를 공개했으며, 이는 대조 학습을 사용하여 약물 유사 분자를 인코딩하고 생성합니다.나노기술과 합성화학 전문성을 갖춘 전 City of Hope 교수인 CEO Jacob Berlin은 10월 회사의 1억 2천만 달러 시리즈 B 펀딩 발표 시 “우리는 우리 엔진의 속도, 정밀도 및 규모를 통해 긴급한 환자 요구를 충족하는 약물을 예측 가능하게 만들 수 있는 미래를 구축하고 있습니다”라고 말했습니다.EMMI 플랫폼은 면역학에 초점을 맞춘 Terray의 내부 파이프라인과 Gilead Sciences, Bristol Myers Squibb, Calico 및 Odyssey Therapeutics와의 파트너십을 지원합니다. 12월 Gilead와의 협력에 따라 Terray는 제약 대기업이 선택한 표적에 대한 저분자 화합물을 발견하며, Gilead는 독점적인 개발 및 상업화 권리를 보유합니다.경쟁 환경2025년 69억 3천만 달러로 평가된 AI 신약 발견 시장은 2034년까지 165억 2천만 달러에 이를 것으로 예상됩니다. 경쟁사로는 바이오제약 업계에서 가장 강력한 슈퍼컴퓨터라고 불리는 BioHive-2를 운영하는 Recursion Pharmaceuticals와 2024년 8월 발표된 5억 6천5백만 달러 규모의 거래로 Recursion과 합병한 Exscientia가 있습니다. 다른 참여자로는 AI로 설계한 후보물질 INS018_055가 2023년 2상 임상시험에 진입한 Insilico Medicine, 물리 기반 시뮬레이션을 AI와 함께 사용하는 Schrödinger, 그리고 항체 설계에 집중하는 Absci가 있습니다.Terray는 2019년 설립 이후 NVIDIA의 벤처 투자 부문인 NVentures의 지원을 포함하여 2억 달러를 유치했습니다.
955 조회
0 추천
2025.11.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입