Loading...

AI 뉴스

ChatGPT, 베네수엘라 침공 뉴스에 "그런 일 없었다" 답변... Claude와 Gemini는 실시간 검색으로 정확히 대응

페이지 정보

작성자 symbolika
작성일 01.04 14:32
291 조회
0 추천
0 비추천

본문

ChatGPT 뉴스 정확도

핵심 요약

• ChatGPT는 베네수엘라 마두로 대통령 체포 소식에 대해 "그런 일은 일어나지 않았다"고 틀린 답변 제공

• Claude Sonnet 4.5와 Gemini 3는 웹 검색 기능으로 실시간 뉴스를 정확히 파악해 응답

• AI 챗봇의 '지식 마감일(knowledge cutoff)' 한계가 실시간 정보 처리의 핵심 장애물로 부각

• 퓨 리서치에 따르면 미국인 75%는 AI 챗봇을 뉴스 소스로 사용하지 않아


현지시간 새벽 2시경, 베네수엘라 카라카스 상공에 미군 헬리콥터가 날아들었고 하늘 아래에서는 폭발음이 울려 퍼졌다. 몇 시간 후, 도널드 트럼프 미국 대통령은 자신의 트루스 소셜 플랫폼에 베네수엘라의 니콜라스 마두로 대통령과 그의 부인이 "체포되어 국외로 호송되었다"고 게시했다. 팸 본디 미국 법무장관은 X에 마두로 부부가 뉴욕 남부지방법원에 기소되었으며 "곧 미국 땅, 미국 법정에서 미국 정의의 분노를 맞이하게 될 것"이라고 밝혔다.

전 세계 질서에 미칠 파장을 가늠하기 어려운 충격적인 사건이었다. 그런데 오늘 아침 ChatGPT에 이 사건에 대해 물어보면, 당신이 지어낸 이야기라고 답했다.

WIRED는 동부표준시 오전 9시 직전, 주요 AI 챗봇인 ChatGPT, Claude, Gemini에 같은 질문을 던졌다. 모든 경우에 대다수 사용자가 경험하는 무료 기본 버전을 사용했다. "정확하고 신뢰할 수 있으며 실시간 답변을 제공한다"고 광고하는 AI 검색 플랫폼 퍼플렉시티에도 같은 질문을 했다.

질문은 이랬다: 미국이 왜 베네수엘라를 침공하고 니콜라스 마두로를 체포했는가? 답변은 극명하게 갈렸다.

Anthropic의 Claude Sonnet 4.5와 Google의 Gemini 3 모델은 시의적절한 응답을 제공해 높은 점수를 받았다. Gemini는 공격이 실제로 발생했음을 확인하고, 미국의 "마약테러" 주장과 공격 이전 해당 지역에서의 미군 증강에 대한 맥락을 제공했으며, 이 모든 것이 베네수엘라의 막대한 석유 및 광물 자원에 접근하기 위한 명분이라는 베네수엘라 정부의 입장도 언급했다. 위키피디아부터 가디언, 미국 외교협회까지 15개의 출처를 인용했다.

Claude는 처음에는 주저했다. "미국이 베네수엘라를 침공하거나 니콜라스 마두로를 체포했다는 정보가 없습니다. 제 지식 마감일인 2025년 1월 기준으로 그런 일은 발생하지 않았습니다"라고 응답했다. 하지만 중요한 다음 단계를 밟았다: "베네수엘라와 마두로에 대한 최신 정보를 검색해 최근 동향이 있는지 확인하겠습니다."

이어서 챗봇은 NBC News는 물론 Breitbart까지 10개의 뉴스 소스를 나열하고, 거의 모든 문장 뒤에 새로운 출처 링크를 제공하며 그날 아침 사건에 대한 간결한 4개 문단 요약을 제공했다.

ChatGPT는 수정하지 않았다. 대신 마두로가 체포되었다는 사실 자체를 단호하게 부인했다. "그런 일은 일어나지 않았습니다"라고 썼다. "미국은 베네수엘라를 침공하지 않았고, 니콜라스 마두로는 체포되지 않았습니다." 그리고 이렇게 합리화했다:

"온라인에서 종종 과장되거나 오해를 불러일으키는 방식으로 묘사되는 실제 사건들이 혼동된 것 같습니다. 실제로 일어난 일은 다음과 같습니다:

❌ 미군의 베네수엘라 침공 없음
❌ 니콜라스 마두로 체포 없음
❌ 미군에 의한 베네수엘라 정부 전복 없음

마두로는 여전히 베네수엘라의 권력을 잡고 있습니다."

ChatGPT는 미국과 베네수엘라 간의 최근 긴장 관계를 설명하고, "자극적인 헤드라인", "소셜 미디어 허위정보", "제재, 기소, 수사적 표현을 실제 군사 행동과 혼동하는 것" 때문에 혼란이 발생할 수 있다고 설명했다.

퍼플렉시티도 마찬가지로 훈계하는 듯한 태도를 보였다. "귀하의 질문 전제는 신뢰할 만한 보도나 공식 기록에 의해 뒷받침되지 않습니다: 니콜라스 마두로를 체포하는 결과를 낳은 미국의 베네수엘라 침공은 없었습니다"라고 응답했다.

퍼플렉시티 대변인 비졸리 샤는 "퍼플렉시티는 100퍼센트 정확하다고 주장한 적 없지만, 더 정확한 AI를 구축하는 데 집중하는 유일한 AI 회사라고는 주장합니다"라고 말했다. OpenAI는 논평 요청에 즉시 응답하지 않았다.

명확히 해야 할 점이 있다. 이것은 예상된 동작이다. ChatGPT 5.1의 "지식 마감일"—새로운 학습 데이터가 더 이상 없는 시점—은 2024년 9월 30일이다. (더 고급 모델인 ChatGPT 5.2는 그 마감일을 2025년 8월 31일로 연장한다.) Claude Sonnet 4.5는 2025년 1월의 "신뢰할 수 있는 지식 마감일"을 가지지만, 학습 데이터는 작년 7월까지 최신이다. 실시간 콘텐츠에 접근하는 웹 검색 도구도 있어 마두로 질문에 답할 수 있었다. Gemini 3 모델도 2025년 1월 지식 마감일을 가지지만, 당연히 최신 정보가 필요한 쿼리에는 구글 검색을 활용한다. 그리고 퍼플렉시티는 활용하는 모델만큼만 우수할 수밖에 없다—이 경우 어떤 모델이었는지는 다시 불분명하지만.

"순수 LLM은 필연적으로 학습 시점에 묶여 과거에 갇혀 있으며, 추론하고, 웹을 검색하고, '비판적으로 생각'하는 등의 본질적 능력에 있어 심각하게 제한됩니다"라고 인지과학자이자 『실리콘밸리 길들이기』 저자인 게리 마커스는 말했다. 마두로 응답과 같은 명백한 문제는 인간의 개입으로 수정할 수 있지만, 그것이 근본적인 문제를 해결하지는 않는다고 마커스는 말한다. "새로운 상황에 직면했을 때 LLM의 신뢰성 문제는 기업이 LLM을 신뢰해서는 안 되는 핵심 이유 중 하나입니다."

좋은 소식은 적어도 사람들이 아직 AI를 주요 뉴스 소스로 의존하지 않는 것으로 보인다는 점이다. 10월에 발표된 퓨 리서치 센터의 설문조사에 따르면, 미국인의 9퍼센트만이 AI 챗봇에서 가끔 또는 자주 뉴스를 얻는다고 답했고, 75퍼센트는 그런 방식으로 뉴스를 얻지 않는다고 답했다. 또한 많은 사람들이 전체 언론 매체, 트럼프 행정부, 객관적 현실 자체보다 ChatGPT의 말을 믿을 것 같지도 않다.

하지만 챗봇이 사람들의 삶에 더 깊이 스며들수록, 그들이 과거에 갇혀 있을 가능성이 높다는 점을 기억하는 것이 중요해질 것이다. 그리고 챗봇이 얼마나 자신 있게 틀릴 수 있는지 항상 주목할 가치가 있다—이는 속보에만 국한되지 않는 특성이다.

2026년 1월 3일 오전 11시 52분(동부표준시) 업데이트: 이 기사는 퍼플렉시티의 논평을 포함하도록 업데이트되었습니다.

댓글 0
전체 1,366 / 3 페이지
Executive Summary• 앤스로픽(Anthropic)이 최고제품책임자(CPO) 마이크 크리거를 내부 인큐베이터 '랩스(Labs)' 팀 공동 리더로 전환 배치• 2024년 중반 2명으로 시작한 랩스 팀, 향후 6개월 내 인원 2배 확대 계획• 인스타그램 공동창업자 출신 크리거, "AI 활용 방식을 결정할 수 있는 결정적 시기" 강조• 애플·구글 등 빅테크와 AI 스타트업 간 경쟁 심화 속 조직 개편 단행Background앤스로픽은 2024년 중반 내부 인큐베이터 '랩스' 팀을 창설해 실험적 제품 개발에 착수했다. 클로드(Claude) AI 모델로 주목받는 앤스로픽은 빅테크 기업들과의 경쟁 속에서 조직 혁신을 통해 시장 대응력을 강화하고 있다.Impact & Implications경쟁 구도 변화애플과 구글이 AI 분야에서 방어선을 강화하는 가운데, 앤스로픽의 이번 조직 개편은 AI 업계 경쟁 심화를 반영한다. 인스타그램 공동창업자 출신인 크리거의 제품 개발 역량을 실험적 프로젝트에 집중 투입함으로써, 앤스로픽은 빠르게 변화하는 AI 시장에서 선제적 대응을 꾀하고 있다.기술적 의미크리거는 "AI 모델의 역량이 너무 빠르게 발전해 활용 방식을 결정할 수 있는 시간이 바로 지금"이라고 밝혔다. 이는 AI 기술의 급속한 발전 속에서 제품화 속도가 경쟁력의 핵심이 되고 있음을 시사한다.산업/시장 영향다니엘라 아모데이(Daniela Amodei) 앤스로픽 사장은 "AI 발전 속도가 기존과 다른 방식의 구축, 조직, 집중을 요구한다"고 강조했다. 랩스 팀 확대는 앤스로픽이 실험적 제품을 통해 새로운 시장 기회를 선점하려는 전략으로 해석된다.Key Data & Facts항목수치/내용인물마이크 크리거 (Mike Krieger)이전 직책최고제품책임자 (CPO)신규 역할랩스 팀 공동 리더랩스 창설2024년 중반초기 인원2명확대 계획6개월 내 2배 증원Key Quote"We've reached a watershed moment in AI—model capabilities are advancing so fast that the window to shape how they're used is now."— 마이크 크리거, 앤스로픽 랩스 팀 공동 리더
480 조회
0 추천
01.14 등록
Executive Summary• 앤스로픽이 파일 시스템과 직접 상호작용하는 AI 에이전트 기능 'Claude Cowork'를 연구 프리뷰로 공개• 기존 Claude Code의 기능을 비개발자도 활용할 수 있도록 확장한 것이 핵심• 사용자 컴퓨터의 폴더에 접근해 파일을 읽고, 편집하고, 생성하는 자율적 작업 수행 가능• Claude Max 구독자 대상 우선 제공, 일반 사용자는 대기자 명단 등록 필요BackgroundAI 업계는 단순 질의응답을 넘어 실질적인 업무를 수행하는 'AI 에이전트' 개발 경쟁이 치열하다. 앤스로픽은 지난 10월 'Skills for Claude'를 통해 개인화된 작업 학습 기능을 선보인 바 있으며, 이번 Cowork는 그 연장선에서 더욱 광범위한 자율 작업 능력을 부여한 것이다.Impact & Implications기술적 의미Claude Cowork는 AI가 사용자의 로컬 파일 시스템에 직접 접근해 문서 정리, 파일 편집, 콘텐츠 생성 등을 수행한다. 기존 Claude Code가 개발자 중심이었다면, Cowork는 비개발자도 활용할 수 있는 범용 AI 에이전트로 포지셔닝된다. 사용자가 지속적으로 컨텍스트를 제공하거나 출력물을 별도로 변환할 필요 없이, AI가 작업 중간에도 피드백을 반영하며 진행할 수 있다는 점이 특징이다.경쟁 구도 변화OpenAI, Google 등 빅테크 기업들도 AI 에이전트 개발에 박차를 가하는 상황에서, 앤스로픽의 선제적 출시는 시장 주도권 확보를 위한 전략으로 해석된다. 특히 macOS 앱 사이드바에서 바로 접근 가능한 UX는 일상적 업무 통합을 노린 것으로 보인다.사용자 영향 및 리스크앤스로픽은 발표와 함께 AI 에이전트의 잠재적 위험성도 경고했다. 명확하지 않은 지시가 있을 경우, Claude가 예상치 못한 행동을 할 수 있다는 점을 명시했다. 파일 시스템에 대한 광범위한 접근 권한이 부여되는 만큼, 보안과 프라이버시 측면에서 사용자의 주의가 필요하다.Key Data & Facts항목수치/내용기능명Claude Cowork출시 형태연구 프리뷰(Research Preview)이용 대상Claude Max 구독자 우선, 일반 사용자 대기자 등록플랫폼macOS 앱선행 기능Skills for Claude (2025년 10월 발표)Key Quote"Cowork can take on many of the same tasks that Claude Code can handle, but in a more approachable form for non-coding tasks."— Anthropic
265 조회
0 추천
01.13 등록
으아.. 애플이 아이폰에 제미나이를 쓰겠다고 하네요..그럼 정말 안드로이드 폰하고 뭐가 달라질라나...Apple picks Google’s Gemini AI for its big Siri upgrade애플은 올해 출시될 더욱 개인화된 시리(Siri)에 구글의 제미니(Gemini) AI 모델을 적용할 예정이다.구글과 애플은 월요일에 "신중한 평가 끝에 애플은 구글의 AI 기술이 애플 파운데이션 모델(Foundation Models)에 가장 적합한 기반을 제공한다고 판단했으며,이를 통해 애플 사용자들에게 혁신적인 새로운 경험을 제공할 수 있게 되어 기쁘다"고 발표했다 .최초 보도는 cnbchttps://www.cnbc.com/2026/01/12/apple-google-ai-siri-gemini.html“After careful evaluation, we determined that Google’s technology provides the most capable foundation for Apple Foundation Models and we’re excited about the innovative new experiences it will unlock for our users,” Apple said in astatementMonday.
265 조회
0 추천
01.13 등록
Executive Summary• 구글이 일부 의료 관련 검색어에 대한 AI 오버뷰 기능을 비활성화함• 가디언 조사에서 췌장암 환자에게 '위험한' 잘못된 식이요법 조언 제공 사실 확인• 간 기능 검사 관련 허위 정보로 심각한 간 질환 환자가 건강하다고 오인할 수 있는 문제 발생• 구글은 대부분의 정보가 정확하다고 주장하나, 문제 있는 결과에 대해서는 개선 조치 진행 중Background구글의 AI 오버뷰 기능은 2024년 출시 이후 지속적인 논란에 휩싸여 왔다. 피자에 접착제를 넣으라는 조언, 돌을 먹으라는 권고 등 황당한 오류가 알려지면서 여러 건의 소송까지 제기된 바 있다. 이번에는 의료 정보라는 민감한 영역에서 심각한 오류가 발견되어 더욱 큰 우려를 낳고 있다.Impact & Implications사용자 안전 문제AI가 생성한 의료 정보의 부정확성은 단순한 불편을 넘어 환자의 생명과 직결될 수 있다. 췌장암 환자에게 고지방 식품을 피하라는 조언은 전문가들이 권고하는 내용과 정반대이며, 환자의 사망 위험을 높일 수 있다고 경고된다. 간 기능 검사 정보의 오류 역시 심각한 간 질환 환자가 치료 시기를 놓치게 만들 수 있는 위험한 문제다.AI 신뢰성에 대한 근본적 의문이번 사태는 대형 기술 기업의 AI 서비스가 고위험 영역에서 얼마나 신뢰할 수 있는지에 대한 근본적인 의문을 제기한다. 구글은 "대다수의 AI 오버뷰가 정확한 정보를 제공한다"고 주장하지만, 의료 분야에서는 소수의 오류도 치명적인 결과로 이어질 수 있다.규제 및 책임 논의 가속화AI 생성 콘텐츠의 정확성과 책임 소재에 대한 규제 논의가 더욱 활발해질 전망이다. 특히 의료, 법률 등 전문 분야에서 AI 정보 제공에 대한 가이드라인 마련이 시급해 보인다.Key Data & Facts항목수치/내용발생 시점2026년 1월문제 발견 경로가디언 탐사보도주요 오류 사례췌장암 식이요법, 간 기능 검사 수치구글 대응일부 의료 검색어 AI 오버뷰 비활성화기존 논란피자 접착제, 돌 섭취 권고 등Key Quote"We invest significantly in the quality of AI Overviews, particularly for topics like health, and the vast majority provide accurate information."— Davis Thompson, 구글 대변인
260 조회
0 추천
01.12 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입