Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 11.07 14:52
187 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,127 / 83 페이지
(퍼플렉시티가 정리한 기사)정부가 선원 없이 완전 자율 운항하는 AI 선박 기술 개발에 본격 나선다. 과학기술정보통신부는 6일 제8회 국가연구개발사업평가 총괄위원회를 열고 ‘AI 완전자율운항선박 기술개발 사업’의 예비타당성조사를 면제한다고 발표했다.이번 사업은 해양수산부와 산업통상부가 공동 주관하며, 국제해사기구(IMO) 레벨4 수준의 완전무인 자율운항 기술 확보를 목표로 한다. 지난달 21일 국무회의에서 필요성과 시급성을 인정받아 국가 정책사업으로 추진하기로 의결된 바 있다.레벨3에서 레벨4로 기술 도약 추진현재 한국은 2020년부터 1603억원을 투입한 자율운항선박 기술개발사업을 통해 레벨3 기술을 확보했다. 자율운항선박 단계는 레벨1(선원 의사결정 지원), 레벨2(선원 승선 원격제어), 레벨3(선원 미승선 원격제어), 레벨4(완전무인 자율운항)로 구분된다.후속 사업에서는 2026년부터 2032년까지 7년간 무인 항해, 기관 자동화, 운용 기술, 검인증 및 실증 기술개발을 추진한다. 사업 규모는 향후 사업계획 적정성 검토를 통해 최종 확정되지만, 일부 언론은 6034억원 규모로 보도했다.글로벌 시장 선점 위한 전략적 투자IMO는 2032년까지 자율운항선박 국제표준(MASS Code)을 제정할 예정이다. 글로벌 자율운항선박 시장 규모는 2025년 1101억달러에서 2032년 1805억달러로 63.9% 성장할 것으로 전망된다.전재수 해양수산부 장관은 “우리나라 대표 산업인 해운·조선의 주도권을 수호하기 위해 완전자율운항선박 기술 확보는 필수”라며 “선행사업의 성과를 기반으로 완전자율운항 기술을 신속하게 확보해 미래 시장을 선점할 것”이라고 말했다.김정관 산업통상부 장관은 “자율운항선박은 세계 최고의 조선기술에 AI 기술을 융합하여 세계를 리딩할 수 있는 분야”라며 “세계시장 선도를 위해 총력을 다할 것”이라고 밝혔다.[etnews]박인규 과기정통부 과학기술혁신본부장은 “국가 성장동력으로 이어지는 혁신적인 연구개발투자와 국가적 중요도 높은 사업들에 적극적으로 투자할 것”이라고 강조했다.
215 조회
0 추천
11.06 등록
(퍼플렉시티가 정리한 기사)Stripe는 NEC와 제휴하여 Stripe Reader S700 결제 단말기에 얼굴 인식 기술을 통합함으로써 고객이 얼굴만으로 핸즈프리 결제를 할 수 있도록 했습니다. 화요일에 발표된 이번 협력은 Stripe의 글로벌 결제 인프라와 NEC의 세계 최고 수준의 얼굴 인식 기술을 결합하여 카드나 모바일 기기 없이 안전한 비접촉 거래를 제공합니다.얼굴 인식 결제 기능은 11월 12일부터 14일까지 싱가포르 핀테크 페스티벌에서 시연될 예정이며, 이는 차세대 결제 경험의 첫 공개 선보임을 의미합니다. 이 통합은 25개국에서 온라인 및 오프라인 결제를 연결하는 통합 커머스 솔루션인 Stripe Terminal 내에서 작동하며, 단일 대시보드를 통해 판매자에게 실시간 고객 인사이트를 제공합니다.혁신적인 결제 기술NEC의 얼굴 인식 기술은 미국 국립표준기술연구소(NIST)가 실시한 정확도 테스트에서 지속적으로 세계 1위를 차지해 왔으며, 1,200만 명의 데이터베이스를 대상으로 테스트했을 때 인증 오류율이 단 0.07%에 불과했습니다. 이 시스템은 열악한 조명이나 얼굴 가림과 같은 까다로운 조건에서도 분당 최대 100명을 처리할 수 있습니다.“이번 협력을 통해 Stripe는 NEC의 세계적으로 유명한 얼굴 인식 기술을 지원하고, 당사의 통합 커머스 솔루션인 Stripe Terminal을 통해 결제에 활용할 수 있게 되어 자랑스럽습니다”라고 Stripe Japan의 제품 책임자인 Daniel Heffernan은 말했습니다. “이러한 조치를 취함으로써 우리는 전 세계 소비자들의 쇼핑 경험을 향상시키는 것을 목표로 합니다.Stripe Reader S700은 Wi-Fi 연결 기능을 갖추고 있으며 카운터탑과 휴대용 기기 모두로 사용할 수 있어, 뛰어난 사용 편의성을 위한 스마트폰과 같은 기능을 제공합니다. 이 단말기는 NEC의 생체 인증 시스템을 통합하여 결제 시 물리적 카드나 모바일 기기의 필요성을 없앨 것입니다.성장하는 생체인증 결제 시장이 파트너십은 급속도로 확대되고 있는 생체인식 결제 시장에 진입하게 되며, 2025년 전 세계적으로 안면 인식 도입률이 50% 증가하고 전 세계적으로 사용되는 생체인식 결제 방식의 62%를 차지하고 있습니다. 전 세계 안면 인식 결제 시장은 2024년 60억 5천만 달러에서 2025년 73억 2천만 달러로 성장했으며, 2030년까지 195억 9천만 달러에 달할 것으로 예상됩니다.연간 1조 4천억 달러 이상의 결제를 처리하고 Fortune 100대 기업의 절반에 서비스를 제공하는 Stripe는, 전 세계 온라인 결제 처리 시장의 약 20.8%-29%를 차지하고 있습니다. 생체인식 기술의 통합으로 Stripe는 소매 및 헬스케어 부문 전반에 걸쳐 Amazon One을 통해 손바닥 인식 기술을 배포한 Amazon과 같은 다른 업체들과 경쟁할 수 있는 위치에 서게 되었습니다.“NEC는 통합 커머스 솔루션인 Stripe Terminal의 뛰어난 맞춤화 가능성이 대면 결제 시나리오에서 다양한 과제를 해결하는 데 도움이 될 것이라고 확신합니다”라고 NEC의 금융 솔루션 부문 기업 수석 부사장 겸 전무 이사인 시미즈 가즈히사(Kazuhisa Shimizu)는 말했습니다. “NEC의 세계 최고 수준의 안면 인식 기술과 Stripe의 글로벌하게 신뢰받는 결제 플랫폼을 결합함으로써, 우리는 새로운 결제 경험을 제공하고 모든 사람이 안전하고 쉽고 편리하게 디지털 기술을 활용할 수 있는 세상을 만들고자 합니다.”
202 조회
0 추천
11.06 등록
(퍼플렉시티가정리한기사)Google의인공지능시스템이2025년대서양허리케인시즌동안뛰어난허리케인예측을제공하며,미국의주력기상모델을압도적으로능가했고심지어국립허리케인센터의인간전문가들이내놓은공식예보까지뛰어넘었습니다.마이애미대학교연구원브라이언맥놀디(BrianMcNoldy)의예비분석에따르면,GoogleDeepMind의실험적AI모델이이번시즌평가된11개예보시스템중최고성능을기록했으며,반면미국글로벌예보시스템(GFS)은20년만에최악의성능을기록했습니다.AI모델은5일경로오차가165해리에불과했던반면,GFS모델은360해리로두배이상의오차율을보였습니다.​AI모델이실시간성공을제공하다6월부터회사의WeatherLab플랫폼을통해사이클론경로예측을시작한GoogleDeepMind모델은거의모든예측기간에걸쳐기존의물리학기반모델을일관되게능가했습니다.가장주목할만한점은,이AI시스템이여러모델결과를분석하는인간전문가들이생성하는국립허리케인센터의공식예보조차자주능가했다는것입니다.​ArsTechnica의과학작가에따르면"결과는'입이딱벌어질정도'"라며,AI와기존예측방법간의극적인성능격차를강조했습니다.수만개의프로세서를갖춘슈퍼컴퓨터가필요하고예측을생성하는데수시간이걸리는기존모델과달리,Google의AI는단일컴퓨터에서실행되어몇분안에예보를제공할수있습니다.​이모델의성공은특히허리케인멜리사기간동안결정적으로입증되었는데,허리케인이괴물급폭풍이될것이명백해지기며칠전인10월21일에이미폭풍이카테고리5등급에도달할확률이50-60%라고예측했습니다.10월23일까지이모델은카테고리5강화확률을80%이상으로추정했습니다.​역사적인허리케인시즌이예측의한계를시험하다2025년대서양허리케인시즌은예보관들에게예외적인도전을안겨주었으며,역대두번째로3개의카테고리5허리케인을발생시켜역사적인2005년시즌과동등한기록을세웠습니다.이시즌은13개의명명된폭풍을생성했으며,허리케인에린(Erin),훔베르토(Humberto),멜리사(Melissa)가모두가장강력한등급에도달했습니다.​이러한극심한활동에도불구하고,이번시즌은10년만에처음으로미국본토에허리케인이직접상륙하지않은해였으며,2019년이후처음으로플로리다에폭풍이직접강타하지않은해였습니다.미국기상청의GFS모델의부진한성능에도불구하고,국립허리케인센터는평균이하의예보오차를유지했는데,이는전통적인모델의부정적영향을상쇄하기위해구글의AI예측을통합한덕분이었습니다.​7월에공식화된협력연구협정을통한구글과NOAA국립허리케인센터간의파트너십은예보관들이시즌내내실시간으로AI모델을평가할수있게했습니다.구글딥마인드의연구과학자인페란알레트(FerranAlet)는"NOAA와협력하여미국국립기상청기관에AI모델의힘을제공하게되어영광입니다"라고말했습니다.
193 조회
0 추천
11.06 등록
(퍼플렉시티가정리한기사)Snap주가는월요일3분기실적이월스트리트예상치를상회하고인공지능회사Perplexity와4억달러규모의혁신적인파트너십을발표한후시간외거래에서최대25%급등했습니다.이소셜미디어회사는또한5억달러규모의자사주매입프로그램을승인하며,광고사업의광범위한회복속에서재무궤도에대한자신감을나타냈습니다.​Snapchat의모회사는9월30일마감분기의매출이15억1천만달러로애널리스트예상치인14억9천만달러를상회하고전년대비10%증가했다고보고했습니다.회사는주당6센트의손실을기록했으며,이는애널리스트들이예측한12센트손실보다상당히개선된수치입니다.조정EBITDA는1억8천2백만달러에달해월스트리트예상치인1억2천5백만달러를넘어섰습니다.​AI파트너십,전략적변화신호Snap발표의핵심은PerplexityAI와의파트너십이었으며,이는2026년초부터스타트업의대화형검색엔진을Snapchat에직접통합할예정입니다.이계약에따라Perplexity는기능이전세계적으로출시되는동안현금과지분을결합하여1년간Snap에4억달러를지불할것입니다.​Snap의CEO인EvanSpiegel은"이번파트너십은Snapchat에서발견과연결을향상시키는AI의힘에대한우리의공유된비전을반영합니다"라고말하며,이거래를"선도적인AI기업들이Snapchat의글로벌커뮤니티와연결될수있는플랫폼으로만들기위한Snap의노력의첫단계"라고설명했습니다.이번통합을통해Snapchat의월간활성사용자약10억명은앱을떠나지않고도질문하고신뢰할수있는출처로부터답변을받을수있게됩니다.​사용자성장및시장지위Snap은3분기에일일활성사용자가전년동기대비8%증가한4억7,700만명을기록하며지속적인사용자확대를보여주었고,월간활성사용자는7%증가한9억4,300만명에달했습니다.회사의글로벌평균사용자당수익은3.16달러로애널리스트예상치인3.13달러를상회했습니다.​향후전망을보면,Snap은4분기매출을16억8,000만달러에서17억1,000만달러사이로예상했으며,중간값은월스트리트추정치인16억9,000만달러를소폭상회했습니다.회사는4분기조정EBITDA가2억8,000만달러에서3억1,000만달러범위가될것으로예상하며,이또한애널리스트전망치를넘어섰습니다.​긍정적인실적에도불구하고,Snap은호주의소셜미디어최소연령법안과및Google의플랫폼수준연령인증요구사항등사용자지표에부정적인영향을미칠수있는잠재적규제역풍에대해투자자들에게주의를당부했습니다.​
190 조회
0 추천
11.06 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입