AI 뉴스

ChatGPT, 베네수엘라 침공 뉴스에 "그런 일 없었다" 답변... Claude와 Gemini는 실시간 검색으로 정확히 대응

페이지 정보

작성자 symbolika
작성일 01.04 14:32
322 조회
0 추천
0 비추천

본문

ChatGPT 뉴스 정확도

핵심 요약

• ChatGPT는 베네수엘라 마두로 대통령 체포 소식에 대해 "그런 일은 일어나지 않았다"고 틀린 답변 제공

• Claude Sonnet 4.5와 Gemini 3는 웹 검색 기능으로 실시간 뉴스를 정확히 파악해 응답

• AI 챗봇의 '지식 마감일(knowledge cutoff)' 한계가 실시간 정보 처리의 핵심 장애물로 부각

• 퓨 리서치에 따르면 미국인 75%는 AI 챗봇을 뉴스 소스로 사용하지 않아


현지시간 새벽 2시경, 베네수엘라 카라카스 상공에 미군 헬리콥터가 날아들었고 하늘 아래에서는 폭발음이 울려 퍼졌다. 몇 시간 후, 도널드 트럼프 미국 대통령은 자신의 트루스 소셜 플랫폼에 베네수엘라의 니콜라스 마두로 대통령과 그의 부인이 "체포되어 국외로 호송되었다"고 게시했다. 팸 본디 미국 법무장관은 X에 마두로 부부가 뉴욕 남부지방법원에 기소되었으며 "곧 미국 땅, 미국 법정에서 미국 정의의 분노를 맞이하게 될 것"이라고 밝혔다.

전 세계 질서에 미칠 파장을 가늠하기 어려운 충격적인 사건이었다. 그런데 오늘 아침 ChatGPT에 이 사건에 대해 물어보면, 당신이 지어낸 이야기라고 답했다.

WIRED는 동부표준시 오전 9시 직전, 주요 AI 챗봇인 ChatGPT, Claude, Gemini에 같은 질문을 던졌다. 모든 경우에 대다수 사용자가 경험하는 무료 기본 버전을 사용했다. "정확하고 신뢰할 수 있으며 실시간 답변을 제공한다"고 광고하는 AI 검색 플랫폼 퍼플렉시티에도 같은 질문을 했다.

질문은 이랬다: 미국이 왜 베네수엘라를 침공하고 니콜라스 마두로를 체포했는가? 답변은 극명하게 갈렸다.

Anthropic의 Claude Sonnet 4.5와 Google의 Gemini 3 모델은 시의적절한 응답을 제공해 높은 점수를 받았다. Gemini는 공격이 실제로 발생했음을 확인하고, 미국의 "마약테러" 주장과 공격 이전 해당 지역에서의 미군 증강에 대한 맥락을 제공했으며, 이 모든 것이 베네수엘라의 막대한 석유 및 광물 자원에 접근하기 위한 명분이라는 베네수엘라 정부의 입장도 언급했다. 위키피디아부터 가디언, 미국 외교협회까지 15개의 출처를 인용했다.

Claude는 처음에는 주저했다. "미국이 베네수엘라를 침공하거나 니콜라스 마두로를 체포했다는 정보가 없습니다. 제 지식 마감일인 2025년 1월 기준으로 그런 일은 발생하지 않았습니다"라고 응답했다. 하지만 중요한 다음 단계를 밟았다: "베네수엘라와 마두로에 대한 최신 정보를 검색해 최근 동향이 있는지 확인하겠습니다."

이어서 챗봇은 NBC News는 물론 Breitbart까지 10개의 뉴스 소스를 나열하고, 거의 모든 문장 뒤에 새로운 출처 링크를 제공하며 그날 아침 사건에 대한 간결한 4개 문단 요약을 제공했다.

ChatGPT는 수정하지 않았다. 대신 마두로가 체포되었다는 사실 자체를 단호하게 부인했다. "그런 일은 일어나지 않았습니다"라고 썼다. "미국은 베네수엘라를 침공하지 않았고, 니콜라스 마두로는 체포되지 않았습니다." 그리고 이렇게 합리화했다:

"온라인에서 종종 과장되거나 오해를 불러일으키는 방식으로 묘사되는 실제 사건들이 혼동된 것 같습니다. 실제로 일어난 일은 다음과 같습니다:

❌ 미군의 베네수엘라 침공 없음
❌ 니콜라스 마두로 체포 없음
❌ 미군에 의한 베네수엘라 정부 전복 없음

마두로는 여전히 베네수엘라의 권력을 잡고 있습니다."

ChatGPT는 미국과 베네수엘라 간의 최근 긴장 관계를 설명하고, "자극적인 헤드라인", "소셜 미디어 허위정보", "제재, 기소, 수사적 표현을 실제 군사 행동과 혼동하는 것" 때문에 혼란이 발생할 수 있다고 설명했다.

퍼플렉시티도 마찬가지로 훈계하는 듯한 태도를 보였다. "귀하의 질문 전제는 신뢰할 만한 보도나 공식 기록에 의해 뒷받침되지 않습니다: 니콜라스 마두로를 체포하는 결과를 낳은 미국의 베네수엘라 침공은 없었습니다"라고 응답했다.

퍼플렉시티 대변인 비졸리 샤는 "퍼플렉시티는 100퍼센트 정확하다고 주장한 적 없지만, 더 정확한 AI를 구축하는 데 집중하는 유일한 AI 회사라고는 주장합니다"라고 말했다. OpenAI는 논평 요청에 즉시 응답하지 않았다.

명확히 해야 할 점이 있다. 이것은 예상된 동작이다. ChatGPT 5.1의 "지식 마감일"—새로운 학습 데이터가 더 이상 없는 시점—은 2024년 9월 30일이다. (더 고급 모델인 ChatGPT 5.2는 그 마감일을 2025년 8월 31일로 연장한다.) Claude Sonnet 4.5는 2025년 1월의 "신뢰할 수 있는 지식 마감일"을 가지지만, 학습 데이터는 작년 7월까지 최신이다. 실시간 콘텐츠에 접근하는 웹 검색 도구도 있어 마두로 질문에 답할 수 있었다. Gemini 3 모델도 2025년 1월 지식 마감일을 가지지만, 당연히 최신 정보가 필요한 쿼리에는 구글 검색을 활용한다. 그리고 퍼플렉시티는 활용하는 모델만큼만 우수할 수밖에 없다—이 경우 어떤 모델이었는지는 다시 불분명하지만.

"순수 LLM은 필연적으로 학습 시점에 묶여 과거에 갇혀 있으며, 추론하고, 웹을 검색하고, '비판적으로 생각'하는 등의 본질적 능력에 있어 심각하게 제한됩니다"라고 인지과학자이자 『실리콘밸리 길들이기』 저자인 게리 마커스는 말했다. 마두로 응답과 같은 명백한 문제는 인간의 개입으로 수정할 수 있지만, 그것이 근본적인 문제를 해결하지는 않는다고 마커스는 말한다. "새로운 상황에 직면했을 때 LLM의 신뢰성 문제는 기업이 LLM을 신뢰해서는 안 되는 핵심 이유 중 하나입니다."

좋은 소식은 적어도 사람들이 아직 AI를 주요 뉴스 소스로 의존하지 않는 것으로 보인다는 점이다. 10월에 발표된 퓨 리서치 센터의 설문조사에 따르면, 미국인의 9퍼센트만이 AI 챗봇에서 가끔 또는 자주 뉴스를 얻는다고 답했고, 75퍼센트는 그런 방식으로 뉴스를 얻지 않는다고 답했다. 또한 많은 사람들이 전체 언론 매체, 트럼프 행정부, 객관적 현실 자체보다 ChatGPT의 말을 믿을 것 같지도 않다.

하지만 챗봇이 사람들의 삶에 더 깊이 스며들수록, 그들이 과거에 갇혀 있을 가능성이 높다는 점을 기억하는 것이 중요해질 것이다. 그리고 챗봇이 얼마나 자신 있게 틀릴 수 있는지 항상 주목할 가치가 있다—이는 속보에만 국한되지 않는 특성이다.

2026년 1월 3일 오전 11시 52분(동부표준시) 업데이트: 이 기사는 퍼플렉시티의 논평을 포함하도록 업데이트되었습니다.

댓글 0
전체 1,366 / 30 페이지
OpenAI의 코딩 에이전트 Codex의 제품 개발을 이끌고 있는 Alexander Embiricos는 일요일에 공개된 Lenny’s Podcast에서 인간의 타이핑 속도와 프롬프트를 지속적으로 작성하고 AI 작업을 검증해야 하는 필요성이 인공 일반 지능을 달성하는 데 있어 “현재 과소평가되고 있는 제한 요인”이라고 말했다.Codex는 8월 출시 이후 20배 성장했으며 현재 매주 수조 개의 토큰을 처리하고 있다. Embiricos는 시스템이 AI 에이전트가 지속적인 인간의 감독 없이 기본적으로 작동할 수 있도록 하면 생산성 향상이 가속화될 것이라고 주장했다.Embiricos는 얼리 어답터들이 2026년부터 극적인 생산성 증가를 경험할 것이며, AGI는 이러한 초기 성과와 주요 기업들이 AI 에이전트를 통해 완전한 자동화를 달성하는 시점 사이 어딘가에 도래할 것이라고 예측했다.
424 조회
0 추천
2025.12.15 등록
한국은 2026년 1월 22일부터 국가 인공지능 기본법을 시행할 예정이며, 2026년 8월부터 대부분의 AI 규칙을 시행할 유럽연합보다 앞서 포괄적인 인공지능 규제를 시행하는 세계 최초의 국가가 됩니다. 이러한 움직임은 최근 조사에서 한국 AI 스타트업의 98%가 대대적인 변화에 여전히 준비되지 않은 것으로 나타나면서, 국내 급성장하는 기술 부문에서 중소기업의 생존에 대한 우려를 불러일으키고 있습니다.​2025년 1월에 법률로 서명된 인공지능 육성 및 신뢰 기반 조성 등에 관한 기본법은 국가 AI 위원회 설립, 기본 3개 년 AI 계획 수립, 특정 AI 시스템에 대한 공개 의무를 포함한 안전성 및 투명성 요구사항 부과를 의무화하고 있습니다. 이 법은 위험 기반 접근 방식을 적용하며, 특히 의료, 교육, 공공 서비스와 같은 중요 부문에서 운영되는 고영향 AI 시스템에 대해서는 엄격한 규칙을 적용합니다.스타트업들, 준비 시간 부족에 경보 발령스타트업 얼라이언스가 2025년 12월 국내 AI 기업 101곳을 대상으로 실시한 조사에 따르면, 신규 규제를 준수하기 위한 대응 시스템을 구축한 기업은 단 2%에 불과한 것으로 나타났다. 나머지 기업 중 48.5%는 법에 대해 익숙하지 않고 준비가 되어 있지 않다고 답했으며, 다른 48.5%는 인지하고 있으나 준비가 부족하다고 응답했다. 조사는 불명확한 기준, 특히 통지 범위, 생성형 AI의 정의, 고영향 AI 시스템 지정 기준 등을 주요 부담 요인으로 지적했다.​한국인터넷기업협회 관계자는 현지 언론에 "절차상 요건으로 인해 시행령이 법 시행 직전에야 확정될 것으로 예상되어 기업들이 새로운 규정에 대비할 충분한 시간을 갖지 못할 수 있다"고 말했다. "특히 스타트업에게는 매우 부담스러울 것이다."​업계 관계자들은 일부 기업들이 1월 22일 이후 서비스를 갑작스럽게 수정하거나 중단해야 할 수도 있다고 경고한다. 이러한 규제 압박은 엄격한 준수 요건보다 혁신 촉진에 초점을 맞춘 부드러운 자율 거버넌스 접근 방식을 채택한 일본으로의 이전을 고려하는 한국 AI 스타트업의 수를 증가시키는 것으로 여겨진다.워터마크 요구사항이 논란을 촉발하다AI 생성 콘텐츠에 라벨을 표시하도록 요구하는 의무적 워터마킹 조항은 새로운 프레임워크에서 특히 논란이 되는 측면으로 부상했습니다. 딥페이크와 허위정보를 억제하기 위한 목적이지만, 업계 관계자들은 요구사항이 너무 모호하며 소비자들이 AI 생성 제품을 기피하게 만들 수 있다고 주장합니다.​"AI 생성 콘텐츠라도 일반적으로 품질을 향상시키기 위해 수많은 개인들이 협력하지만, 'AI 생성'으로 표시되면 소비자들이 꺼릴 수 있습니다"라고 한 AI 콘텐츠 기업의 관계자가 밝혔습니다. 2025년 12월에 발표된 AI 생성 광고에 대한 모니터링 강화 계획은 소셜 미디어 플랫폼 전반에 걸쳐 확산되는 조작된 콘텐츠와 딥페이크에 대한 우려를 더욱 강조합니다.​우려에도 불구하고, 과학기술정보통신부는 행정 벌금을 부과하기 전에 최소 1년의 유예 기간을 발표하여 기업들에게 추가 준비 시간을 제공했습니다. 배경훈 장관은 시행령이 "대한민국이 글로벌 AI 강국 3위로 도약하기 위한 제도적 초석"이 될 것이라고 강조했습니다.
396 조회
0 추천
2025.12.15 등록
인공지능(AI) 모델들의 성능 경쟁이 치열해지면서, 추론, 수리 등 종합적인 역량을 객관적으로 평가하는 다양한 벤치마크에 대한 관심이 높아지고 있습니다. 사용자의 직접적인 평가를 반영하는 '엘엠아레나(LMArena)'는 익명으로 받은 두 개의 AI 답변 중 더 우수한 것을 고르거나 무승부를 선언하여 순위를 매기는 방식입니다.기존 벤치마크의 한계를 극복하기 위해 만들어진 '인류의 마지막 시험(HLE)'은 수학, 물리학 등 100개 이상 과목의 고난도 문제를 통해 AI의 정답률을 측정합니다. 또한, AI의 자율적인 경제활동 능력을 측정하는 '벤딩 벤치(Vending-Bench)'는 AI가 재고 관리와 가격 책정 등을 얼마나 잘 수행하는지 평가합니다.이 외에도 코딩 오류 해결 능력을 평가하는 'SWE벤치'와 수학 올림피아드 난이도의 '매스아레나 에이펙스' 등 다양한 전문 벤치마크들이 활용됩니다. 하지만 이러한 AI 벤치마크는 윤리나 안전보다는 높은 경제적 보상이 기대되는 과업에만 초점을 맞춘다는 비판도 제기됩니다.
396 조회
0 추천
2025.12.14 등록
앨런 AI 연구소(Ai2)는 훈련 데이터와 가중치까지 완전히 공개하는 대표적인 대형언어모델(LLM)인 '올모(OLMo) 3'의 업데이트 버전 '올모 3.1'을 공개했습니다. 새로 출시된 '올모 3.1 싱크 32B'와 '올모 3.1 인스트럭트 32B'는 강화 학습(RL)을 추가 적용하여 추론, 수학, 지시 이행 능력 등 여러 벤치마크에서 성능이 크게 향상되었습니다.특히, '싱크 32B'는 고급 추론과 연구 목적에 최적화되었으며, '인스트럭트 32B'는 대화형 AI와 툴 기반 워크플로에 맞춰 현재까지 공개된 완전 오픈 소스 32B급 지시형 모델 중 가장 강력한 성능을 자랑합니다. Ai2는 이를 새로운 모델 출시가 아닌 '체크포인트 추가' 개념으로 소개하며, 개발자들이 모델의 학습 과정을 완벽하게 통제하고 자체 데이터를 추가해 재학습할 수 있도록 지원합니다.Ai2는 올모 시리즈가 개방성과 성능을 동시에 발전시킬 수 있음을 보여주며, 학습 데이터, 코드, 결정에 대한 엔드투엔드 투명성을 유지하면서 기능을 지속적으로 개선했다고 강조했습니다. 이 새로운 '체크포인트' 모델들은 Ai2 플레이그라운드와 허깅페이스를 통해 제공되어 개발자 및 연구기관의 활용을 넓힐 예정입니다.* 앨런 인공지능 연구소(Ai2)는 마이크로소프트 공동 창립자였던 고(故) 폴 앨런이 공익을 위해 고도(하이-임팩트) AI 연구 및 엔지니어링을 수행할 목적으로 2014년에 설립한 비영리 연구소입니다. 이 연구소는 텍스트를 읽고 추론하여 지식을 입증하는 AI 시스템 개발을 목표로 시작했으며, 현재도 개방성과 투명성을 중시하며 AI 분야의 발전을 주도하고 있습니다.
413 조회
0 추천
2025.12.14 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입