Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,616 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 10 페이지
Executive Summary• 앤트로픽이 개발자용 Claude Code를 비기술 사용자도 쉽게 사용할 수 있도록 만든 새로운 AI 에이전트 'Cowork' 베타 출시• 파일 정리, 형식 변환, 이메일 관리, 웹 검색 등 기본적인 컴퓨터 작업을 자동화하는 데 초점• 월 100달러 구독자 대상 연구 프리뷰로 공개, 현재 Mac 전용으로 제공• 프롬프트 인젝션 공격 등 보안 위험에 대비해 가상 머신 기반 샌드박스, 폴더별 접근 권한 설정 등 다중 안전장치 적용• 실사용 테스트에서 스크린샷 폴더 정리, Gmail 정리 등 기본 작업에서 안정적인 성능 확인Background지난해 앤트로픽의 Claude Code는 개발자들 사이에서 코드베이스 이해와 명령 실행 능력으로 큰 인기를 얻었다. 하지만 대부분의 일반 사용자에게 터미널 기반 인터페이스는 여전히 진입장벽이 높았다. 이에 앤트로픽은 비기술 사용자를 위한 접근성 높은 버전 개발에 착수했으며, 2개월간 AI 도구를 활용해 Cowork를 구축했다.Impact & Implications기술적 의미Cowork는 AI 에이전트 기술의 실용성을 입증하는 중요한 사례다. 그동안 수많은 AI 에이전트들이 과대광고에 비해 기본적인 작업조차 완료하지 못하는 문제를 보여왔다. 앤트로픽은 가상 머신 기반 샌드박스 환경에서 특정 폴더만 접근 가능하도록 설계해 보안과 사용성의 균형을 맞췄다.사용자 영향일반 사용자들이 터미널 없이도 AI 에이전트의 자동화 기능을 활용할 수 있게 되었다. 파일 정리, 이메일 관리 같은 반복적인 작업을 AI에 위임하는 '컴퓨터 사용 경험의 진화'가 시작되는 셈이다. 다만 프롬프트 인젝션 공격 위험으로 인해 민감한 금융 정보나 개인 기록에는 사용을 자제해야 한다.경쟁 구도 변화OpenAI, 구글 등 경쟁사들도 유사한 에이전트 기능을 개발 중인 가운데, 앤트로픽이 사용자 친화적 인터페이스로 선점 효과를 노리고 있다. 특히 이미 Claude Code로 개발자 시장에서 입지를 다진 만큼, Cowork를 통한 일반 소비자 시장 확대 전략으로 볼 수 있다.Key Data & Facts항목수치/내용출시 형태연구 프리뷰 (베타)구독 요금월 $100 (Max 플랜)지원 플랫폼macOS 전용주요 기능파일 정리, 형식 변환, 이메일 관리, 웹 검색보안 방식가상 머신 샌드박스, 폴더별 권한 설정개발 기간약 2개월 (AI 도구 활용)Key Quote"We tried a bunch of different ideas to see what form factor would make sense for a less technical audience that doesn't want to use a terminal."— Boris Cherny, 앤트로픽 Claude Code 총괄
591 조회
0 추천
2026.01.19 등록
Executive Summary• OpenAI가 수주 내 미국에서 ChatGPT 광고 테스트를 시작하며, 무료 및 Go 구독 사용자에게 쇼핑 관련 광고를 노출할 예정• 광고는 AI 응답과 별도로 하단에 명확히 표시되며, 사용자 데이터를 광고주에게 판매하지 않고 대화 내용도 광고주와 공유하지 않을 것이라고 밝힘• Plus, Pro, Enterprise 구독자는 광고가 표시되지 않으며, 18세 미만 및 건강·정치 등 민감한 주제에서는 광고가 제외됨BackgroundOpenAI의 ChatGPT는 주간 활성 사용자 8억 명 이상을 보유한 세계 최대 AI 소비자 제품 중 하나로 성장했다. 그러나 대부분의 사용자가 무료로 서비스를 이용하고 있어, 지금까지 약 640억 달러를 투자받은 OpenAI로서는 수익화 압박이 커지고 있었다. Google Gemini 등 경쟁사의 도전이 거세지면서 대규모 사용자층을 수익으로 전환해야 할 필요성이 더욱 절실해진 상황이다.Impact & Implications산업/시장 영향이번 광고 도입은 AI 챗봇 시장의 수익 모델에 중대한 전환점이 될 전망이다. ChatGPT의 광고 모델이 성공할 경우, 다른 AI 기업들도 유사한 전략을 채택할 가능성이 높다. OpenAI는 광고주에게 개별 사용자 정보(나이, 위치, 관심사 등)를 공개하지 않고, 대신 광고 노출 횟수나 클릭 수 같은 집계 데이터만 제공할 계획이다. 이는 기존 디지털 광고 생태계와 차별화된 접근법으로, 프라이버시를 중시하는 새로운 광고 모델의 시험대가 될 것이다.사용자 경험 영향OpenAI 애플리케이션 CEO 피지 시모는 "ChatGPT의 응답은 광고가 아닌 객관적으로 유용한 정보에 의해 결정된다는 신뢰가 필수"라고 강조했다. 광고는 챗봇 응답 아래 별도 영역에 표시되며, 사용자는 광고 개인화를 끄거나 광고용 데이터를 삭제할 수 있다. 그러나 시모는 향후 "정적인 메시지와 링크를 넘어선" 대화형 광고 경험을 암시하며, 사용자가 광고 상품에 대해 직접 질문할 수 있는 기능을 예고했다.향후 전망OpenAI는 "시간 소모 최적화"를 하지 않으며 "수익보다 사용자 신뢰와 경험을 우선시한다"고 밝혔다. 그러나 업계에서는 소셜 미디어가 겪었던 '사용자 경험 악화(enshittification)' 현상이 AI 챗봇에도 재현될 수 있다는 우려가 제기된다. Sam Altman CEO 역시 과거 소셜 미디어 시대의 실패, 특히 중독성 알고리즘의 부작용을 인정한 바 있어, 향후 광고 확대 과정에서 이러한 실수를 반복하지 않는 것이 OpenAI의 과제가 될 것이다.Key Data & Facts항목수치/내용ChatGPT 주간 활성 사용자8억 명 이상OpenAI 총 투자 유치액약 640억 달러ChatGPT Go 구독료월 8달러광고 적용 대상미국 내 무료 및 Go 사용자광고 제외 구독Plus, Pro, EnterpriseKey Quote"People trust ChatGPT for many important and personal tasks, so as we introduce ads, it's crucial we preserve what makes ChatGPT valuable in the first place. That means you need to trust that ChatGPT's responses are driven by what's objectively useful, never by advertising."— Fidji Simo, OpenAI CEO of Applications
593 조회
0 추천
2026.01.18 등록
Executive Summary• 메타가 왓츠앱, 메신저, 인스타그램에 자체 AI 어시스턴트를 전면 도입• Llama 2 기반 커스텀 LLM으로 개발, 마이크로소프트 Bing과 연동해 실시간 웹 검색 지원• MrBeast, 스눕독 등 유명인 기반 28개 AI 캐릭터 동시 출시• ChatGPT 등 경쟁 서비스와 달리 무료 이미지 생성 기능 탑재• 수십억 일간 활성 사용자를 보유한 메타의 '유통망' 강점을 활용한 AI 전략BackgroundOpenAI의 ChatGPT가 촉발한 AI 챗봇 경쟁이 치열해지는 가운데, 메타가 자사 메시징 플랫폼의 압도적 규모를 무기로 AI 시장에 본격 진입했다. Llama 2 오픈소스 모델의 성공적 확산을 기반으로, 메타는 범용 AI 어시스턴트와 독특한 AI 캐릭터 라인업을 동시에 선보이며 차별화를 시도하고 있다.Impact & Implications산업/시장 영향메타의 AI 어시스턴트 출시는 ChatGPT, Claude 등 기존 AI 챗봇 시장에 상당한 파장을 일으킬 전망이다. 왓츠앱, 메신저, 인스타그램을 합산하면 수십억 명의 일간 사용자를 보유한 메타는 별도 앱 설치나 회원가입 없이 기존 채팅 환경에서 바로 AI를 활용할 수 있다는 점에서 접근성 측면의 압도적 우위를 점한다.기술적 의미메타는 Llama 2의 핵심 원리를 기반으로 대화에 최적화된 커스텀 모델을 구축했다. 특히 컨텍스트 윈도우를 확장해 더 깊은 대화가 가능하도록 했으며, 간결한 답변을 제공하도록 튜닝했다. Bing과의 파트너십을 통해 실시간 웹 정보를 제공하는 점도 무료 AI 서비스로서는 이례적이다.사용자 영향일반 사용자들은 이제 별도의 AI 앱 없이 일상적으로 사용하는 메신저 내에서 여행 계획, 정보 검색, 이미지 생성 등을 수행할 수 있게 됐다. 유명인 기반 AI 캐릭터는 새로운 형태의 엔터테인먼트 경험을 제공하며, 애니메이션 프로필 이미지 등 몰입감을 높이는 요소도 포함됐다.Key Data & Facts항목수치/내용출시 플랫폼WhatsApp, Messenger, InstagramAI 캐릭터 수28개 (유명인 기반 포함)기반 모델Llama 2 원리 기반 커스텀 LLM웹 검색 파트너Microsoft Bing안전성 테스트6,000시간 레드팀 테스트가격무료Key Quote"기존 AI들은 로봇 같거나 밋밋할 수 있다. 우리는 대화형이고 친근한 어조를 만들기 위해 추가 데이터셋을 정제하는 데 시간을 투자했다."— 아마드 알-다흘레, 메타 생성AI 부사장
654 조회
0 추천
2026.01.17 등록
Executive Summary• OpenAI의 '모델 정책' 연구팀을 이끌던 안드레아 발로네(Andrea Vallone)가 Anthropic의 정렬(alignment) 팀에 합류했다• 발로네는 GPT-4, 추론 모델, GPT-5 배포 안전 연구를 담당했으며, 규칙 기반 보상(rule-based rewards) 등 주요 안전 기법 개발에 참여했다• AI 챗봇과 정신건강 문제가 사회적 논란으로 부상한 가운데, 안전 연구 인력의 Anthropic 이동이 이어지고 있다Background지난 1년간 AI 업계에서 가장 논쟁적인 이슈 중 하나는 사용자가 챗봇 대화 중 정신건강 문제 징후를 보일 때 AI가 어떻게 대응해야 하는가였다. 일부 10대들이 AI 챗봇에 의지한 후 자살하거나, 성인이 살인을 저지른 사례가 보고되면서 여러 가족이 부당사망 소송을 제기했고, 상원 소위원회 청문회까지 열렸다.Impact & ImplicationsAI 안전 연구 인력 재편발로네의 이직은 2024년 5월 얀 라이케(Jan Leike)의 OpenAI 퇴사 이후 이어지는 안전 연구 인력 이동의 연장선이다. 라이케는 당시 "OpenAI의 안전 문화와 프로세스가 화려한 제품에 밀려났다"고 비판하며 회사를 떠났고, 현재 Anthropic의 정렬팀을 이끌고 있다. 발로네 역시 라이케 휘하에서 일하게 된다.Anthropic의 안전 우선 전략 강화Anthropic은 AI 안전을 핵심 차별화 요소로 내세워왔다. 정렬팀 리더 샘 보우먼(Sam Bowman)은 "AI 시스템이 어떻게 행동해야 하는지 파악하는 문제를 Anthropic이 얼마나 심각하게 받아들이는지 자랑스럽다"고 밝혔다. 발로네와 같은 핵심 인재 영입은 이러한 전략의 일환이다.업계 전반의 안전 표준 경쟁AI 챗봇의 정신건강 관련 위험이 사회적·법적 이슈로 부상하면서, 주요 AI 기업들은 안전 가드레일 강화에 나서고 있다. 특히 장시간 대화에서 안전장치가 무너지는 문제가 지적되고 있어, 이에 대한 연구 역량 확보가 경쟁력의 핵심으로 떠오르고 있다.Key Data & Facts항목내용이직자Andrea Vallone (OpenAI 모델 정책 연구팀장)새 소속Anthropic 정렬(Alignment) 팀OpenAI 재직 기간3년주요 업적GPT-4, GPT-5 배포 안전 연구, 규칙 기반 보상 기법 개발직속 상관Jan Leike (전 OpenAI 안전 연구 책임자)Key Quote"지난 1년간 나는 거의 전례가 없는 질문에 대한 OpenAI 연구를 이끌었다: 정서적 과의존 징후나 정신건강 문제의 초기 조짐에 직면했을 때 모델이 어떻게 반응해야 하는가?"— Andrea Vallone
700 조회
0 추천
2026.01.16 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입