Loading...

AI 뉴스

ChatGPT, 베네수엘라 침공 뉴스에 "그런 일 없었다" 답변... Claude와 Gemini는 실시간 검색으로 정확히 대응

페이지 정보

작성자 symbolika
작성일 01.04 14:32
314 조회
0 추천
0 비추천

본문

ChatGPT 뉴스 정확도

핵심 요약

• ChatGPT는 베네수엘라 마두로 대통령 체포 소식에 대해 "그런 일은 일어나지 않았다"고 틀린 답변 제공

• Claude Sonnet 4.5와 Gemini 3는 웹 검색 기능으로 실시간 뉴스를 정확히 파악해 응답

• AI 챗봇의 '지식 마감일(knowledge cutoff)' 한계가 실시간 정보 처리의 핵심 장애물로 부각

• 퓨 리서치에 따르면 미국인 75%는 AI 챗봇을 뉴스 소스로 사용하지 않아


현지시간 새벽 2시경, 베네수엘라 카라카스 상공에 미군 헬리콥터가 날아들었고 하늘 아래에서는 폭발음이 울려 퍼졌다. 몇 시간 후, 도널드 트럼프 미국 대통령은 자신의 트루스 소셜 플랫폼에 베네수엘라의 니콜라스 마두로 대통령과 그의 부인이 "체포되어 국외로 호송되었다"고 게시했다. 팸 본디 미국 법무장관은 X에 마두로 부부가 뉴욕 남부지방법원에 기소되었으며 "곧 미국 땅, 미국 법정에서 미국 정의의 분노를 맞이하게 될 것"이라고 밝혔다.

전 세계 질서에 미칠 파장을 가늠하기 어려운 충격적인 사건이었다. 그런데 오늘 아침 ChatGPT에 이 사건에 대해 물어보면, 당신이 지어낸 이야기라고 답했다.

WIRED는 동부표준시 오전 9시 직전, 주요 AI 챗봇인 ChatGPT, Claude, Gemini에 같은 질문을 던졌다. 모든 경우에 대다수 사용자가 경험하는 무료 기본 버전을 사용했다. "정확하고 신뢰할 수 있으며 실시간 답변을 제공한다"고 광고하는 AI 검색 플랫폼 퍼플렉시티에도 같은 질문을 했다.

질문은 이랬다: 미국이 왜 베네수엘라를 침공하고 니콜라스 마두로를 체포했는가? 답변은 극명하게 갈렸다.

Anthropic의 Claude Sonnet 4.5와 Google의 Gemini 3 모델은 시의적절한 응답을 제공해 높은 점수를 받았다. Gemini는 공격이 실제로 발생했음을 확인하고, 미국의 "마약테러" 주장과 공격 이전 해당 지역에서의 미군 증강에 대한 맥락을 제공했으며, 이 모든 것이 베네수엘라의 막대한 석유 및 광물 자원에 접근하기 위한 명분이라는 베네수엘라 정부의 입장도 언급했다. 위키피디아부터 가디언, 미국 외교협회까지 15개의 출처를 인용했다.

Claude는 처음에는 주저했다. "미국이 베네수엘라를 침공하거나 니콜라스 마두로를 체포했다는 정보가 없습니다. 제 지식 마감일인 2025년 1월 기준으로 그런 일은 발생하지 않았습니다"라고 응답했다. 하지만 중요한 다음 단계를 밟았다: "베네수엘라와 마두로에 대한 최신 정보를 검색해 최근 동향이 있는지 확인하겠습니다."

이어서 챗봇은 NBC News는 물론 Breitbart까지 10개의 뉴스 소스를 나열하고, 거의 모든 문장 뒤에 새로운 출처 링크를 제공하며 그날 아침 사건에 대한 간결한 4개 문단 요약을 제공했다.

ChatGPT는 수정하지 않았다. 대신 마두로가 체포되었다는 사실 자체를 단호하게 부인했다. "그런 일은 일어나지 않았습니다"라고 썼다. "미국은 베네수엘라를 침공하지 않았고, 니콜라스 마두로는 체포되지 않았습니다." 그리고 이렇게 합리화했다:

"온라인에서 종종 과장되거나 오해를 불러일으키는 방식으로 묘사되는 실제 사건들이 혼동된 것 같습니다. 실제로 일어난 일은 다음과 같습니다:

❌ 미군의 베네수엘라 침공 없음
❌ 니콜라스 마두로 체포 없음
❌ 미군에 의한 베네수엘라 정부 전복 없음

마두로는 여전히 베네수엘라의 권력을 잡고 있습니다."

ChatGPT는 미국과 베네수엘라 간의 최근 긴장 관계를 설명하고, "자극적인 헤드라인", "소셜 미디어 허위정보", "제재, 기소, 수사적 표현을 실제 군사 행동과 혼동하는 것" 때문에 혼란이 발생할 수 있다고 설명했다.

퍼플렉시티도 마찬가지로 훈계하는 듯한 태도를 보였다. "귀하의 질문 전제는 신뢰할 만한 보도나 공식 기록에 의해 뒷받침되지 않습니다: 니콜라스 마두로를 체포하는 결과를 낳은 미국의 베네수엘라 침공은 없었습니다"라고 응답했다.

퍼플렉시티 대변인 비졸리 샤는 "퍼플렉시티는 100퍼센트 정확하다고 주장한 적 없지만, 더 정확한 AI를 구축하는 데 집중하는 유일한 AI 회사라고는 주장합니다"라고 말했다. OpenAI는 논평 요청에 즉시 응답하지 않았다.

명확히 해야 할 점이 있다. 이것은 예상된 동작이다. ChatGPT 5.1의 "지식 마감일"—새로운 학습 데이터가 더 이상 없는 시점—은 2024년 9월 30일이다. (더 고급 모델인 ChatGPT 5.2는 그 마감일을 2025년 8월 31일로 연장한다.) Claude Sonnet 4.5는 2025년 1월의 "신뢰할 수 있는 지식 마감일"을 가지지만, 학습 데이터는 작년 7월까지 최신이다. 실시간 콘텐츠에 접근하는 웹 검색 도구도 있어 마두로 질문에 답할 수 있었다. Gemini 3 모델도 2025년 1월 지식 마감일을 가지지만, 당연히 최신 정보가 필요한 쿼리에는 구글 검색을 활용한다. 그리고 퍼플렉시티는 활용하는 모델만큼만 우수할 수밖에 없다—이 경우 어떤 모델이었는지는 다시 불분명하지만.

"순수 LLM은 필연적으로 학습 시점에 묶여 과거에 갇혀 있으며, 추론하고, 웹을 검색하고, '비판적으로 생각'하는 등의 본질적 능력에 있어 심각하게 제한됩니다"라고 인지과학자이자 『실리콘밸리 길들이기』 저자인 게리 마커스는 말했다. 마두로 응답과 같은 명백한 문제는 인간의 개입으로 수정할 수 있지만, 그것이 근본적인 문제를 해결하지는 않는다고 마커스는 말한다. "새로운 상황에 직면했을 때 LLM의 신뢰성 문제는 기업이 LLM을 신뢰해서는 안 되는 핵심 이유 중 하나입니다."

좋은 소식은 적어도 사람들이 아직 AI를 주요 뉴스 소스로 의존하지 않는 것으로 보인다는 점이다. 10월에 발표된 퓨 리서치 센터의 설문조사에 따르면, 미국인의 9퍼센트만이 AI 챗봇에서 가끔 또는 자주 뉴스를 얻는다고 답했고, 75퍼센트는 그런 방식으로 뉴스를 얻지 않는다고 답했다. 또한 많은 사람들이 전체 언론 매체, 트럼프 행정부, 객관적 현실 자체보다 ChatGPT의 말을 믿을 것 같지도 않다.

하지만 챗봇이 사람들의 삶에 더 깊이 스며들수록, 그들이 과거에 갇혀 있을 가능성이 높다는 점을 기억하는 것이 중요해질 것이다. 그리고 챗봇이 얼마나 자신 있게 틀릴 수 있는지 항상 주목할 가치가 있다—이는 속보에만 국한되지 않는 특성이다.

2026년 1월 3일 오전 11시 52분(동부표준시) 업데이트: 이 기사는 퍼플렉시티의 논평을 포함하도록 업데이트되었습니다.

댓글 0
전체 1,366 / 24 페이지
• 중국은 금요일 슝안신구에서 오픈소스 AI 기상 모델인 Fengyuan V1.0을 출시했으며, 이는 관측 데이터로부터 직접 전 지구 예보를 생성할 수 있는 독자적 지식재산권을 가진 중국 최초의 종단간(end-to-end) AI 기상 시스템을 의미한다[chinadaily +1].• 이번 출시는 NOAA가 AI 기반 예보 모델 3종을 공개한 지 불과 이틀 만에 이루어진 것으로, 더 빠르고 정확한 AI 기상 예측 시스템 개발 경쟁에서 미국과 중국 간 기상 기술 분야의 경쟁이 심화되고 있음을 보여준다[techspot +2].• 중국 기상국 관계자들은 Fengyuan이 극한 기상 현상 탐지에 중점을 두고 저고도 경제 및 에너지 공급을 포함한 특화 분야를 지원할 것이며, 일대일로 이니셔티브를 통해 국제 협력을 확대할 계획이라고 밝혔다[chinadaily +1].
348 조회
0 추천
2025.12.21 등록
• 라쿠텐 그룹인 [RKUNY +1.40%]는 일본어에 최적화된 7,000억 파라미터 대규모 언어 모델 Rakuten AI 3.0를 12월 18일 공개했다. 이 모델은 일본어 벤치마크에서 GPT-4o를 능가했으며, 유사 규모의 서드파티 AI 모델 대비 최대 90%의 비용 절감을 제공한다.[global.rakuten +1]• 이 모델은 일본 정부가 지원하는 GENIAC 프로젝트의 일환으로 개발되었으며, 일본 경제산업성 및 신에너지·산업기술종합개발기구(NEDO)가 주도하고, 이 이니셔티브를 통해 일부 학습 비용을 지원받았다.[global.rakuten +1]• 라쿠텐은 2026년 봄에 이 모델을 오픈 웨이트로 공개할 계획이며, Rakuten AI Gateway 플랫폼을 통해 전자상거래, 핀테크, 여행, 엔터테인먼트 서비스 등 자사 전체 에코시스템에 이를 통합하고 있다.[global.rakuten +1]
346 조회
0 추천
2025.12.21 등록
• 한국 정부는 19일 제22차 국가핵융합위원회에서 핵융합에너지 전력생산 실증 목표를 2050년대에서 2030년대로 20년 앞당기는 로드맵을 의결했다[mk +2].• 정부는 2030년까지 노심 플라즈마 제어, 초전도 자석 등 8대 핵심기술을 개발하고 2035년까지 실증을 완료하며, 전남 나주에 1조5000억원 규모의 한국형 혁신 핵융합로를 건설할 계획이다[mk +2].• AI 데이터센터의 전력 소비가 2030년까지 2배 이상 증가할 것으로 예상되면서[g-enews], 트럼프 미디어가 핵융합 기업 TAE테크놀로지스와 합병하는 등 글로벌 핵융합 개발 경쟁이 가속화되고 있다[mk +2].
357 조회
0 추천
2025.12.21 등록
구글이 빠른 속도와 낮은 비용을 갖춘 경량 인공지능(AI) 모델 '제미나이3 플래시'를 17일(현지시간) 공개했다. 이번 출시로 구글은 최상위 모델인 '딥싱크', 균형 모델인 '프로'와 함께 제미나이3 제품군의 삼각 편대를 완성했다.상위 모델 능가하는 성능, 4분의 1 가격제미나이3 플래시는 일부 벤치마크에서 상위 모델인 제미나이3 프로를 능가하는 성과를 보였다. 일반 지식을 측정하는 'MMLU-Pro'에서 81.2%, 코딩 능력을 재는 'SWE-벤치 베리파이드'에서 78%를 기록해 프로 모델의 각각 81%와 76.2%를 웃돌았다.​과학 지식 평가인 'GPQA 다이아몬드'와 인류의 마지막 시험으로 불리는 'HLE' 벤치마크에서도 각각 90.4%와 33.7%를 기록해 프로 모델(91.9%, 37.5%)과 큰 차이가 없는 수준을 보였다.​속도와 지능의 균형제미나이3 플래시는 제미나이 2.5 프로보다 3배 빠른 속도를 자랑하며, 일상적 작업에서 평균 30% 적은 토큰을 사용한다. API 요금은 토큰당 0.5∼3달러로 프로 모델(2∼12달러)의 4분의 1 수준이다.​조시 우드워드 구글랩스·제미나이 담당 부사장은 "오랫동안 AI는 비싸고 느린 대형 모델과 성능이 떨어지는 고속 모델 사이 선택을 강요했다"며 "제미나이3 플래시는 이와 같은 타협을 끝내고 지능과 속도를 모두 제공한다"고 밝혔다.​제미나이3 플래시는 무료 이용자를 포함해 전 세계에서 사용할 수 있으며, 구글은 제미나이 앱과 AI 모드에서 이를 기본 모델로 적용했다.경량 모델은 방대한 데이터로 학습한 상위 모델을 기반으로 '증류'라는 작업을 거쳐 만들어진다. 속도가 빠르면서도 상위 모델에 버금가는 성능을 내는 것이 특징이다.
383 조회
0 추천
2025.12.20 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입