AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,055 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 118 페이지
(퍼플렉시티가 정리한 기사)Amazon Web Services는 2025년 11월 14일, Amazon Bedrock AgentCore 플랫폼이 생물의학 연구자들이 Stanford의 Biomni 프로젝트에서 제공하는 30개 이상의 전문 데이터베이스 도구에 접근할 수 있는 AI 에이전트를 배포할 수 있도록 지원하는 방법을 보여주는 상세한 문서를 발표했으며, 이는 프로토타입 연구 시스템에서 엔터프라이즈급 프로덕션 환경으로의 전환을 의미합니다.Stanford 연구자 Kexin Huang 및 동료들과 공동 작성된 이 구현은 AgentCore의 5개 통합 서비스—Gateway, Memory, Identity, Runtime, Observability—가 생물의학 AI 에이전트가 프로덕션 규모에 도달하는 것을 막았던 핵심 인프라 문제들을 어떻게 해결하는지 보여줍니다. 이 플랫폼은 이제 연구자들이 UniProt, AlphaFold, ClinVar, Gene Expression Omnibus를 포함한 데이터베이스를 통합되고 안전한 아키텍처를 통해 쿼리할 수 있게 합니다.프로토타입에서 프로덕션까지의 격차 해결Genentech가 문서화한 과제에 따르면, 생물의학 연구자들은 3,800만 개의 PubMed 출판물과 수백 개의 전문 데이터베이스에 흩어진 방대한 양의 정보를 수동으로 처리하는 데 약 90%의 시간을 소비합니다. Stanford 연구자들이 2025년 초 150개의 도구와 59개의 데이터베이스를 통합한 범용 생물의학 AI 에이전트인 Biomni를 도입했지만, 이러한 시스템을 엔터프라이즈 규모로 배포하려면 인증, 세션 관리 및 규제 준수를 위한 강력한 인프라가 필요했습니다.AgentCore Gateway는 Biomni의 데이터베이스 도구를 시맨틱 검색 기능을 갖춘 재사용 가능하고 인증된 엔드포인트로 중앙 집중화하여 에이전트가 각 쿼리에 대해 평가해야 하는 도구의 수를 줄입니다. Memory 서비스는 시맨틱, 사용자 선호도 및 요약 전략을 사용하여 세션 전반에 걸쳐 연구 컨텍스트를 유지하며, Identity는 사용자를 위한 인바운드 인증과 도구 액세스를 위한 아웃바운드 인증을 모두 처리합니다.AWS 문서에 따르면, BNY와 같은 얼리 어답터는 취약점을 지속적으로 스캔하는 로그인 자격 증명을 가진 약 100개의 AI “디지털 직원”을 배포했으며, 월마트는 에이전트를 사용하여 패션 제품 주기를 최대 18주까지 단축합니다. 이러한 추세는 에이전틱 AI를 향한 더 광범위한 엔터프라이즈 모멘텀을 반영하며, Arkose Labs의 2025년 11월 연구에 따르면 절반 이상의 엔터프라이즈가 이미 자율 AI 시스템을 배포하고 있습니다.보안 우려 증가빠른 도입은 보안 경고를 촉발했습니다. 10개 기업 중 7개가 에이전트 AI가 근본적으로 새로운 위험을 야기한다고 경고하고 있으며, 여기에는 적대적 조건에서 에이전트의 추론 능력이 저하되는 인지 저하와, 비인간 ID가 인간 사용자보다 82대 1로 많아지는 ID 확산이 포함됩니다. Tenable의 연구원들은 6단계 인지 저하 수명 주기를 문서화하고 실시간 모니터링 프레임워크를 제안했습니다.AgentCore는 이제 9개 AWS 리전에서 일반 공급되며, 사용량 기반 가격 책정 방식을 채택하고 초기 비용이 없습니다. 생의학 구현은 GitHub에서 오픈 소스 스타터 코드로 제공됩니다.
938 조회
0 추천
2025.11.15 등록
(퍼플렉시티가 정리한 기사)월트 디즈니 컴퍼니는 디즈니+를 구독자들이 AI로 생성한 숏폼 비디오를 제작하고 공유할 수 있는 인터랙티브 플랫폼으로 탈바꿈할 계획을 발표했다. 이 소식은 CEO 밥 아이거가 2025년 4분기 실적 발표 콜에서 11월 13일에 공개했다.이번 조치는 디즈니가 기존의 스트리밍 모델에서 벗어나 유튜브와 같은 사용자 생성 콘텐츠 플랫폼과 경쟁하고, 최근 인공지능의 발전을 활용하려는 전략의 일환이다. 아이거는 이 기능 개발과 디즈니 지적 재산권 보호를 위해 이름이 공개되지 않은 AI 기업들과 “생산적인 협의”를 진행 중임을 밝혔다.아이거는 콜에서 “특히 AI의 도입과 함께, 디즈니+를 디즈니 관련 모든 것의 포털로 사용할 수 있는 기회를 보고 있다”고 말했다. 그는 디즈니+ 이용자들에게 훨씬 더 몰입감 있는 경험을 제공하고자, 그들이 사용자 생성 콘텐츠를 직접 만들고, 다른 사람들이 만든 주로 숏폼 콘텐츠를 소비할 수 있도록 할 계획을 설명했다.에픽 게임즈 파트너십 및 게임 기능이번 발표는 디즈니가 포트나이트의 제작사인 에픽 게임즈에 15억 달러를 투자한 데에 기반을 두고 있으며, 이거(Iger)는 이를 통해 Disney+에 ‘게임과 유사한 기능’을 통합할 수 있는 기회가 생긴다고 밝혔다. 양사의 첫 번째 주요 협업으로는 11월 초에 공개된 디즈니랜드 게임 러시(Disneyland Game Rush)로, 이는 포트나이트 내부에 테마파크에서 영감을 받은 미니게임 모음집이다.디즈니는 4분기에 Disney+ 가입자가 380만 명 늘어나 총 1억 3,200만 명에 이르렀으며, D2C(Direct-to-Consumer) 영업이익도 3억 5,200만 달러로 증가했다고 보고했다. 디즈니의 스트리밍 사업에는 Hulu와 ESPN+도 포함되어 있는데, 이들 서비스를 모두 합치면 총 1억 9,600만 명의 가입자를 확보했다.혁신과 지식재산권 보호의 균형디즈니는 AI 역량을 수용하는 동시에, 자사의 캐릭터와 콘텐츠를 무단 AI 사용으로부터 보호하기 위해 법적 조치도 취하고 있다. 이 회사는 2025년 6월 AI 이미지 생성 플랫폼인 미드저니(Midjourney)를 상대로 소송을 제기했으며, 9월에는 캐릭터.AI(Character.AI)에 대해 중지 및 금지 요청 서한을 보냈다.디즈니의 발표 시기는 2025년 9월 오픈AI(OpenAI)가 텍스트 프롬프트만으로 짧은 비디오 클립을 생성할 수 있는 고급 비디오 생성 모델 소라 2(Sora 2)를 출시한 직후와 맞물린다. 디즈니는 이미 9월부터 YouTube 크리에이터 영상 유통사 포켓.워치(Pocket.watch)와 파트너십을 맺어 디즈니+에서 사용자 제작 콘텐츠 실험을 시작했다.아이거(Iger)는 AI 기업들과의 합의가 “IP를 보호할 필요성을 반영”하는 동시에, “그들의 기술을 활용해 소비자와 더 많은 교류의 기회를 창출”하는 것이 디즈니의 목표임을 강조했다.
919 조회
0 추천
2025.11.15 등록
(퍼플렉시티가 정리한 기사)바이두는 목요일 베이징에서 열린 Baidu World 2025 컨퍼런스에서 네이티브 옴니모달 인공지능 기초 모델인 ERNIE 5.0을 공개했다. 중국의 기술 대기업은 점점 더 경쟁이 치열해지는 국내 AI 시장에서 주도권을 되찾기 위해 힘쓰고 있다.이 모델은 2.4조개의 파라미터를 특징으로 하며, 텍스트, 이미지, 오디오, 비디오 데이터를 동시에 처리해 멀티모달 이해 및 생성 기능을 제공한다. ERNIE 5.0은 현재 ERNIE Bot에서 공개 프리뷰로 제공되며, 기업 고객은 바이두 AI 클라우드의 첸판(Qianfan) 플랫폼을 통해 이용 가능하다. 벤치마크 테스트에서, 회사 측은 이 모델이 Gemini 2.5 Pro와 GPT-5 등 글로벌 선도 모델들과 비슷한 성능을 보인다고 밝혔다.로빈 리 CEO는 “기술적 혁신의 속도가 유일한 경쟁력의 해자”라고 강조하며, AI 애플리케이션이 기초 모델 자체의 가치를 100배로 창출하는 바이두의 비전을 제시했다. 회사는 또한 대규모 추론 시나리오를 위한 M100(2026년 초 출시 예정)과 초대형 모델 훈련을 위한 M300(2027년 초 출시 예정) 등 2종의 새로운 쿤룬 AI 칩도 공개했다.제품 생태계 및 글로벌 확장플래그십 모델 외에도 바이두는 AI 제품군 전반에 걸친 업그레이드를 발표했습니다. 범용 AI 에이전트인 GenFlow 3.0은 2천만 사용자에 도달하여 회사가 “세계 최대 범용 에이전트”라고 부르는 제품이 되었습니다. 또한 회사는 세계 최초의 상용 자체 진화 에이전트로 설명되는 Famou를 공개했으며, 이는 초대 코드를 통해 이용 가능하고 운송, 에너지, 금융 및 물류 분야의 복잡한 시나리오를 위해 설계되었습니다.노코드 애플리케이션 빌더인 Miaoda는 버전 2.0으로 업그레이드되어 40만 개 이상의 애플리케이션을 생성했습니다. 국제 버전인 MeDo는 이번 행사에서 전 세계적으로 출시되었으며 현재 medo.dev에서 개발자들이 이용할 수 있습니다. 바이두의 AI 워크스페이스인 Oreate는 글로벌 시장에서 120만 명의 사용자를 확보했습니다. 회사의 디지털 휴먼 기술은 브라질에서 데뷔했으며 미국과 동남아시아로의 확장을 모색하고 있으며, 중국의 “광군제” 쇼핑 페스티벌 기간 동안 라이브 스트리머의 83%가 이 기술을 사용하여 참여 라이브 스트림이 전년 대비 119% 증가했습니다.자율주행의 이정표바이두의 자율주행 호출 서비스인 아폴로 고(Apollo Go)는 10월 31일 기준 전 세계적으로 누적 1,700만 건 이상의 탑승 횟수를 돌파했으며, 22개 도시에서 주간 25만 건 이상의 완전 무인 운행을 진행하고 있습니다. 이 서비스는 자율주행 누적 거리 2억 4천만 킬로미터 이상을 기록했으며, 이 중 1억 4천만 킬로미터는 완전 무인 모드로 운행되었습니다. 최근 아폴로 고는 아부다비에서 최초의 상업용 무인 운행 허가 중 하나를 획득했으며, 2026년까지 아랍에미리트 내 차량 규모를 수백 대로 확장할 계획을 세우고 있습니다.이러한 발표에도 불구하고, 바이두는 광고 수익이 9월 분기에 약 8% 감소할 것으로 예상되어 거의 10년 만에 가장 큰 하락세에 직면해 있습니다. 업계 관계자들에 따르면, 바이두는 AI 기반 애플리케이션과 오픈소스 모델 개발 부문에서 국내 경쟁사인 바이트댄스, 알리바바에 뒤처지고 있습니다.
946 조회
0 추천
2025.11.15 등록
(퍼플렉시티가정리한기사)일론머스크의AI기반백과사전Grokipedia가전문가들이신뢰할수없다고판단한수천개의출처를인용하고있어,정보출처로서의플랫폼신뢰성에대한우려가제기되고있다고코넬테크연구진이금요일발표한연구결과가밝혔다.arXiv에게재된종합분석에따르면,Grokipedia는위키백과편집자들이"일반적으로신뢰할수없음","블랙리스트"또는"사용중단"으로분류한출처에대한260만개의인용을포함하고있으며,이는전체인용의6%를차지하여위키백과에서발견되는비율의두배에달한다.이연구는코넬테크의개인정보보호및보안연구원인HaroldTriedman과대학의보안,신뢰및안전이니셔티브책임자인AlexiosMantzarlis가수행했다.​주변부사이트가광범위하게인용됨가장우려스러운발견중하나는연구자들이위키피디아가결코참조하지않는웹사이트에대한180개의인용을발견했다는것입니다.여기에는백인민족주의포럼인Stormfront에대한42개의인용,음모론웹사이트InfoWars에대한34개의인용,그리고백신반대사이트NaturalNews에대한수십개이상의인용이포함되어있습니다."그로키피디아는이러한출처들의신뢰성을검증하지않고인용하고있습니다"라고연구자들은지적했습니다.​연구에따르면"일반적으로신뢰할수없는"것으로간주되는출처가그로키피디아인용의5.4%를차지하는데,이는위키피디아와비교하여86%상대적증가를나타내며,"블랙리스트에등재된"출처는인용의0.1%를차지하여275%의상대적증가를나타냅니다.반대로,"일반적으로신뢰할수있는"출처는인용의7.7%만을차지하여위키피디아보다39%감소했습니다.​연구자들은플랫폼의10월27일출시며칠후인10월28일부터30일사이에그로키피디아말뭉치의99.8%인883,858개의기사를스크래핑했습니다.이데이터는추가분석을위해GitHub와HuggingFace에공개적으로공개되었습니다.​플랫폼이비판을받다머스크의xAI회사가출시한Grokipedia는머스크가"선전물"이라고반복적으로비판해온위키백과에대한덜편향된대안으로자리매김하고있습니다.그러나위키미디어재단은"Grokipedia조차도위키백과가존재해야한다"고강조하며,AI백과사전콘텐츠의상당부분이위키백과문서에서파생된것으로보인다고지적했습니다.​논평을요청받은xAI는"레거시미디어는거짓말을한다"라는자동메시지로응답했습니다.
884 조회
0 추천
2025.11.15 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입