AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,039 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 157 페이지
(퍼플렉시티가 정리한 기사)AI와 결합한 고성과자의 생산성이 평균 대비 8배까지 증가하는 시대가 도래했다. 11월 6일 서울에서 열린 ‘글로벌인재포럼 2025’에서 전문가들은 인재 관리 방식의 근본적 변화가 기업 생존을 좌우할 것이라고 진단했다.‘HAIR’ 개념 등장, 인간-AI 협업이 핵심맥킨지앤컴퍼니의 브라이언 행콕 파트너는 포럼에서 “AI와 결합한 조직 내 고성과자의 생산성은 평균 대비 여덟 배까지 격차가 벌어진다”며 “인재를 제대로 관리하지 않으면 엄청난 기회비용이 발생한다”고 강조했다.실리콘밸리에서는 이미 전통적인 인적자원(HR) 관리를 넘어 인간과 AI의 효율적 협업을 유도하는 ’HAIR(Human-AI Resources·융합 인적자원)’라는 신조어가 등장했다. 최신 조사에 따르면 지식 근로자의 75%가 이미 직장에서 AI 도구를 사용하고 있으며, 이들은 평균 66%의 생산성 향상을 보고하고 있다.보상 못지않게 중요한 성취감과 인정맥킨지의 ‘2025 인재 트렌드’ 설문조사 결과에 따르면, 기업의 인재 유치에 필요한 핵심 요인은 보상(49%), 경력 개발(39%), 의미 있는 일(34%) 순으로 나타났다. 하지만 행콕 파트너는 “기업은 인재에게 제공할 보상의 중요성을 과대평가하고, 존중감을 느끼도록 배려하는 관리자 역할 등은 과소평가한다”고 지적했다.특히 직원 이직 사유로는 경력 개발(45%), 보상(44%), 배려심 있는 관리자(34%) 등이 꼽혔다. “동기부여가 되지 않는 관리자, 직원을 저평가하는 리더는 이직의 주요 원인”이라는 분석이다.전문가들은 고성과자들이 비금전적 인정을 가치 있게 여기며, 이는 공개적인 칭찬, 역할 확대 등 다양한 형태로 제공될 수 있다고 강조했다. 최신 연구에 따르면 AI를 활용하는 직원의 90%가 시간 절약을, 84%가 더 창의적인 업무 수행을 보고하고 있어 성취감 증대 효과가 입증되고 있다.
1109 조회
0 추천
2025.11.06 등록
(퍼플렉시티가 정리한 기사)정부가 선원 없이 완전 자율 운항하는 AI 선박 기술 개발에 본격 나선다. 과학기술정보통신부는 6일 제8회 국가연구개발사업평가 총괄위원회를 열고 ‘AI 완전자율운항선박 기술개발 사업’의 예비타당성조사를 면제한다고 발표했다.이번 사업은 해양수산부와 산업통상부가 공동 주관하며, 국제해사기구(IMO) 레벨4 수준의 완전무인 자율운항 기술 확보를 목표로 한다. 지난달 21일 국무회의에서 필요성과 시급성을 인정받아 국가 정책사업으로 추진하기로 의결된 바 있다.레벨3에서 레벨4로 기술 도약 추진현재 한국은 2020년부터 1603억원을 투입한 자율운항선박 기술개발사업을 통해 레벨3 기술을 확보했다. 자율운항선박 단계는 레벨1(선원 의사결정 지원), 레벨2(선원 승선 원격제어), 레벨3(선원 미승선 원격제어), 레벨4(완전무인 자율운항)로 구분된다.후속 사업에서는 2026년부터 2032년까지 7년간 무인 항해, 기관 자동화, 운용 기술, 검인증 및 실증 기술개발을 추진한다. 사업 규모는 향후 사업계획 적정성 검토를 통해 최종 확정되지만, 일부 언론은 6034억원 규모로 보도했다.글로벌 시장 선점 위한 전략적 투자IMO는 2032년까지 자율운항선박 국제표준(MASS Code)을 제정할 예정이다. 글로벌 자율운항선박 시장 규모는 2025년 1101억달러에서 2032년 1805억달러로 63.9% 성장할 것으로 전망된다.전재수 해양수산부 장관은 “우리나라 대표 산업인 해운·조선의 주도권을 수호하기 위해 완전자율운항선박 기술 확보는 필수”라며 “선행사업의 성과를 기반으로 완전자율운항 기술을 신속하게 확보해 미래 시장을 선점할 것”이라고 말했다.김정관 산업통상부 장관은 “자율운항선박은 세계 최고의 조선기술에 AI 기술을 융합하여 세계를 리딩할 수 있는 분야”라며 “세계시장 선도를 위해 총력을 다할 것”이라고 밝혔다.[etnews]박인규 과기정통부 과학기술혁신본부장은 “국가 성장동력으로 이어지는 혁신적인 연구개발투자와 국가적 중요도 높은 사업들에 적극적으로 투자할 것”이라고 강조했다.
1118 조회
0 추천
2025.11.06 등록
(퍼플렉시티가 정리한 기사)Stripe는 NEC와 제휴하여 Stripe Reader S700 결제 단말기에 얼굴 인식 기술을 통합함으로써 고객이 얼굴만으로 핸즈프리 결제를 할 수 있도록 했습니다. 화요일에 발표된 이번 협력은 Stripe의 글로벌 결제 인프라와 NEC의 세계 최고 수준의 얼굴 인식 기술을 결합하여 카드나 모바일 기기 없이 안전한 비접촉 거래를 제공합니다.얼굴 인식 결제 기능은 11월 12일부터 14일까지 싱가포르 핀테크 페스티벌에서 시연될 예정이며, 이는 차세대 결제 경험의 첫 공개 선보임을 의미합니다. 이 통합은 25개국에서 온라인 및 오프라인 결제를 연결하는 통합 커머스 솔루션인 Stripe Terminal 내에서 작동하며, 단일 대시보드를 통해 판매자에게 실시간 고객 인사이트를 제공합니다.혁신적인 결제 기술NEC의 얼굴 인식 기술은 미국 국립표준기술연구소(NIST)가 실시한 정확도 테스트에서 지속적으로 세계 1위를 차지해 왔으며, 1,200만 명의 데이터베이스를 대상으로 테스트했을 때 인증 오류율이 단 0.07%에 불과했습니다. 이 시스템은 열악한 조명이나 얼굴 가림과 같은 까다로운 조건에서도 분당 최대 100명을 처리할 수 있습니다.“이번 협력을 통해 Stripe는 NEC의 세계적으로 유명한 얼굴 인식 기술을 지원하고, 당사의 통합 커머스 솔루션인 Stripe Terminal을 통해 결제에 활용할 수 있게 되어 자랑스럽습니다”라고 Stripe Japan의 제품 책임자인 Daniel Heffernan은 말했습니다. “이러한 조치를 취함으로써 우리는 전 세계 소비자들의 쇼핑 경험을 향상시키는 것을 목표로 합니다.Stripe Reader S700은 Wi-Fi 연결 기능을 갖추고 있으며 카운터탑과 휴대용 기기 모두로 사용할 수 있어, 뛰어난 사용 편의성을 위한 스마트폰과 같은 기능을 제공합니다. 이 단말기는 NEC의 생체 인증 시스템을 통합하여 결제 시 물리적 카드나 모바일 기기의 필요성을 없앨 것입니다.성장하는 생체인증 결제 시장이 파트너십은 급속도로 확대되고 있는 생체인식 결제 시장에 진입하게 되며, 2025년 전 세계적으로 안면 인식 도입률이 50% 증가하고 전 세계적으로 사용되는 생체인식 결제 방식의 62%를 차지하고 있습니다. 전 세계 안면 인식 결제 시장은 2024년 60억 5천만 달러에서 2025년 73억 2천만 달러로 성장했으며, 2030년까지 195억 9천만 달러에 달할 것으로 예상됩니다.연간 1조 4천억 달러 이상의 결제를 처리하고 Fortune 100대 기업의 절반에 서비스를 제공하는 Stripe는, 전 세계 온라인 결제 처리 시장의 약 20.8%-29%를 차지하고 있습니다. 생체인식 기술의 통합으로 Stripe는 소매 및 헬스케어 부문 전반에 걸쳐 Amazon One을 통해 손바닥 인식 기술을 배포한 Amazon과 같은 다른 업체들과 경쟁할 수 있는 위치에 서게 되었습니다.“NEC는 통합 커머스 솔루션인 Stripe Terminal의 뛰어난 맞춤화 가능성이 대면 결제 시나리오에서 다양한 과제를 해결하는 데 도움이 될 것이라고 확신합니다”라고 NEC의 금융 솔루션 부문 기업 수석 부사장 겸 전무 이사인 시미즈 가즈히사(Kazuhisa Shimizu)는 말했습니다. “NEC의 세계 최고 수준의 안면 인식 기술과 Stripe의 글로벌하게 신뢰받는 결제 플랫폼을 결합함으로써, 우리는 새로운 결제 경험을 제공하고 모든 사람이 안전하고 쉽고 편리하게 디지털 기술을 활용할 수 있는 세상을 만들고자 합니다.”
1102 조회
0 추천
2025.11.06 등록
(퍼플렉시티가정리한기사)Google의인공지능시스템이2025년대서양허리케인시즌동안뛰어난허리케인예측을제공하며,미국의주력기상모델을압도적으로능가했고심지어국립허리케인센터의인간전문가들이내놓은공식예보까지뛰어넘었습니다.마이애미대학교연구원브라이언맥놀디(BrianMcNoldy)의예비분석에따르면,GoogleDeepMind의실험적AI모델이이번시즌평가된11개예보시스템중최고성능을기록했으며,반면미국글로벌예보시스템(GFS)은20년만에최악의성능을기록했습니다.AI모델은5일경로오차가165해리에불과했던반면,GFS모델은360해리로두배이상의오차율을보였습니다.​AI모델이실시간성공을제공하다6월부터회사의WeatherLab플랫폼을통해사이클론경로예측을시작한GoogleDeepMind모델은거의모든예측기간에걸쳐기존의물리학기반모델을일관되게능가했습니다.가장주목할만한점은,이AI시스템이여러모델결과를분석하는인간전문가들이생성하는국립허리케인센터의공식예보조차자주능가했다는것입니다.​ArsTechnica의과학작가에따르면"결과는'입이딱벌어질정도'"라며,AI와기존예측방법간의극적인성능격차를강조했습니다.수만개의프로세서를갖춘슈퍼컴퓨터가필요하고예측을생성하는데수시간이걸리는기존모델과달리,Google의AI는단일컴퓨터에서실행되어몇분안에예보를제공할수있습니다.​이모델의성공은특히허리케인멜리사기간동안결정적으로입증되었는데,허리케인이괴물급폭풍이될것이명백해지기며칠전인10월21일에이미폭풍이카테고리5등급에도달할확률이50-60%라고예측했습니다.10월23일까지이모델은카테고리5강화확률을80%이상으로추정했습니다.​역사적인허리케인시즌이예측의한계를시험하다2025년대서양허리케인시즌은예보관들에게예외적인도전을안겨주었으며,역대두번째로3개의카테고리5허리케인을발생시켜역사적인2005년시즌과동등한기록을세웠습니다.이시즌은13개의명명된폭풍을생성했으며,허리케인에린(Erin),훔베르토(Humberto),멜리사(Melissa)가모두가장강력한등급에도달했습니다.​이러한극심한활동에도불구하고,이번시즌은10년만에처음으로미국본토에허리케인이직접상륙하지않은해였으며,2019년이후처음으로플로리다에폭풍이직접강타하지않은해였습니다.미국기상청의GFS모델의부진한성능에도불구하고,국립허리케인센터는평균이하의예보오차를유지했는데,이는전통적인모델의부정적영향을상쇄하기위해구글의AI예측을통합한덕분이었습니다.​7월에공식화된협력연구협정을통한구글과NOAA국립허리케인센터간의파트너십은예보관들이시즌내내실시간으로AI모델을평가할수있게했습니다.구글딥마인드의연구과학자인페란알레트(FerranAlet)는"NOAA와협력하여미국국립기상청기관에AI모델의힘을제공하게되어영광입니다"라고말했습니다.
1013 조회
0 추천
2025.11.06 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입