AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,512 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 55 페이지
WIRED에 따르면, 1,000명 이상의 Amazon 직원들이 회사의 “모든 비용을 정당화하는 빠른 속도의 AI 혁신 접근법”이 민주주의, 고용, 환경을 위협한다고 경고하는 공개 서한에 서명했다.고위 엔지니어부터 창고 근로자까지 다양한 청원 서명자들은 Amazon이 데이터 센터에서 화석 연료 사용을 중단하고 감시 목적의 AI 배포를 금지할 것을 요구하고 있으며, 회사의 AI 추진이 해고를 정당화하는 구실로 사용되고 있고 에너지 수요로 인해 전력 공급업체들이 석탄 및 탄소 집약적 에너지원으로 회귀하도록 강요하고 있다는 우려를 제기했다.이러한 활동은 Amazon이 AI 전략과 관련하여 약 14,000개의 일자리 감축을 발표한 가운데 이루어졌으며, 해고된 직원의 거의 40%가 엔지니어였고, 회사의 탄소 배출량은 2019년 탄소 중립 서약을 발표한 이후 35% 급증했다.
745 조회
0 추천
2025.11.27 등록
WIRED는 Jeff Bezos의 비밀스러운 AI 벤처인 Project Prometheus가 컴퓨터, 차량, 우주선을 제조하기 위한 AI 시스템을 개발하는 데 62억 달러를 조달한 가운데, “번개 같은 속도”로 작동하는 컴퓨터 자동화 에이전트 Ace를 개발한 스타트업 General Agents를 조용히 인수했다고 보도했습니다.이 인수는 공동 창립자 Vik Bajaj가 General Agents 공동 창립자 Sherj Ozair를 포함한 AI 연구자들과 함께 샌프란시스코에서 프라이빗 저녁 식사를 주최한 지 불과 4일 후에 이뤄졌으며, 이후 프로젝트는 OpenAI, DeepMind, Google 출신의 100명이 넘는 직원들을 영입하며 인력을 확장했습니다.이번 계약으로 Prometheus는 2025년 70억 6천만 달러에서 2032년 932억 달러로 성장할 것으로 예상되는 빠르게 확장하는 에이전틱 AI 시장에서 유리한 위치를 선점했으며, 컴퓨터 자동화에서 속도적 우위를 가진 경쟁자를 제거함으로써 다른 경쟁자들이 따라잡기 어려운 이점을 얻게 되었습니다.
747 조회
0 추천
2025.11.27 등록
OpenAI는 11월 27일 타사 분석 제공업체인 Mixpanel의 보안 침해로 인해 API 플랫폼 고객의 제한된 사용자 데이터가 노출되었다고 확인했습니다. Mixpanel의 시스템 내에서 발생했으며 OpenAI의 인프라에는 영향을 미치지 않은 이 사건으로 인해 인공지능 회사는 해당 공급업체와의 관계를 종료하고 포괄적인 공급업체 보안 감사를 시작했습니다.Mixpanel은 11월 9일 공격자가 “스미싱(smishing)“으로도 알려진 SMS 피싱 공격을 통해 상승된 권한을 획득한 후 자사 시스템에 대한 무단 접근을 탐지했습니다. 공격자는 고객 식별 정보와 분석 데이터가 포함된 데이터셋을 유출했습니다. Mixpanel은 같은 날 OpenAI에 이를 통지했지만 11월 25일까지 영향을 받은 데이터셋을 공유하지 않았습니다.어떤 데이터가 노출되었는가침해된 정보에는 API 계정에 제공된 이름, 이메일 주소, 도시 및 주와 같은 브라우저 메타데이터를 기반으로 한 대략적인 위치 데이터, 운영 체제 및 브라우저 정보, 참조 웹사이트, API 계정과 연결된 조직 또는 사용자 ID가 포함됩니다.OpenAI는 민감한 데이터는 침해되지 않았다고 강조했습니다. 채팅 로그, API 요청, API 사용 데이터, 비밀번호, 자격 증명, API 키, 결제 세부 정보 및 정부 발급 신분증 문서는 노출되지 않았습니다. ChatGPT 사용자 및 기타 OpenAI 소비자 대상 제품은 이번 침해 사고의 영향을 받지 않았습니다.더 넓은 시사점Mixpanel 침해 사고는 OpenAI를 넘어 여러 기업에 영향을 미쳤습니다. 암호화폐 세금 플랫폼인 CoinTracker는 동일한 사고로 사용자 이메일 주소, 지리적 위치 및 기기 메타데이터가 노출되었다고 밝혔습니다. 이러한 광범위한 영향으로 기술 부문 전반에 걸쳐 제3자 공급업체 보안에 대한 우려가 제기되었습니다.OpenAI는 노출된 정보가 피싱 또는 소셜 엔지니어링 공격에 악용될 수 있다고 경고하며 사용자들에게 의심스러운 통신에 대해 경계심을 유지할 것을 촉구했습니다. 회사는 이메일, 문자 또는 채팅을 통해 비밀번호, API 키 또는 인증 코드를 요청하지 않는다고 강조했습니다.이번 사고에 대응하여 OpenAI는 즉시 모든 프로덕션 서비스에서 Mixpanel을 제거하고 전체 공급업체 생태계에 걸쳐 강화된 보안 검토를 시작했습니다. OpenAI는 “신뢰, 보안 및 개인정보 보호는 우리 제품, 조직 및 사명의 기반”이라고 밝히며, 파트너와 공급업체에게 최고 수준의 보안 기준을 요구한다고 덧붙였습니다.
764 조회
0 추천
2025.11.27 등록
네이버와 암호화폐 거래소 업비트 운영사 두나무가 27일 인공지능(AI)과 웹3 기술 융합을 통한 글로벌 시장 공략을 선언하며, 향후 5년간 10조원을 투자하겠다고 밝혔다. 전날 이사회에서 네이버파이낸셜과 두나무 간 포괄적 주식 교환을 의결한 데 따른 후속 조치다.경기 성남시 네이버 1784 사옥에서 열린 공동 기자간담회에는 이해진 네이버 의장, 송치형 두나무 회장, 최수연 네이버 대표, 오경석 두나무 대표, 박상진 네이버파이낸셜 대표 등 3사 최고 경영진이 총출동했다.차세대 금융 인프라 구축 나선다최수연 대표는 “블록체인 대중화 흐름과 AI가 스스로 판단하고 일을 처리하는 에이전틱 AI 단계로 넘어가는 과정이 맞물린 현재는 새로운 기회가 열리는 중요한 시점”이라며 기업 융합 배경을 설명했다.송치형 회장은 “3사가 힘을 합쳐 AI와 블록체인이 결합한 차세대 금융 인프라를 설계하고, 지급결제를 넘어 금융 전반, 나아가 생활 서비스까지 아우르는 새로운 글로벌 플랫폼 질서를 만들어가고자 한다”고 밝혔다.이해진 의장은 “네이버의 AI 역량은 웹3와 시너지를 발휘해야만 차세대 시장을 선점할 수 있다”며 “글로벌 기업들이 하지 않는 새로운 시도와 도전을 해야 경쟁에서 살아남을 수 있다”고 강조했다.생태계 육성에 10조원 투입최 대표는 “AI·웹3 관련 생태계 육성을 위해 5년간 10조원을 투자하겠다”며 “10조원은 최소한의 규모”라고 밝혔다. 투자는 GPU 등 기반 인프라, 기술 인재 양성, 스타트업 지원, 보안 환경 구축 등에 집중될 예정이다.이번 거래가 성사되면 국내 최대 인터넷 기업 네이버, 연간 80조원 결제 규모를 보유한 네이버파이낸셜, 글로벌 톱티어 디지털 자산 거래량의 업비트를 운영하는 두나무의 역량이 결집된다. 주식 교환 비율은 두나무 1주당 네이버파이낸셜 신주 2.54주로, 기업가치 비율은 1대 3.065로 산정됐다.송치형 회장은 “타이밍을 놓치면 글로벌 경쟁자들의 선전을 따라가기 어려운 환경이 될 것”이라며 시급성을 강조했다. 합병 완료를 위해서는 내년 5월 예정된 주주총회에서 출석 주주 3분의 2 이상, 발행주식 총수 3분의 1 이상의 찬성이 필요하다.
754 조회
0 추천
2025.11.27 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입