AI 뉴스

ChatGPT, 베네수엘라 침공 뉴스에 "그런 일 없었다" 답변... Claude와 Gemini는 실시간 검색으로 정확히 대응

페이지 정보

작성자 symbolika
작성일 2026.01.04 14:32
770 조회
0 추천
0 비추천

본문

ChatGPT 뉴스 정확도

핵심 요약

• ChatGPT는 베네수엘라 마두로 대통령 체포 소식에 대해 "그런 일은 일어나지 않았다"고 틀린 답변 제공

• Claude Sonnet 4.5와 Gemini 3는 웹 검색 기능으로 실시간 뉴스를 정확히 파악해 응답

• AI 챗봇의 '지식 마감일(knowledge cutoff)' 한계가 실시간 정보 처리의 핵심 장애물로 부각

• 퓨 리서치에 따르면 미국인 75%는 AI 챗봇을 뉴스 소스로 사용하지 않아


현지시간 새벽 2시경, 베네수엘라 카라카스 상공에 미군 헬리콥터가 날아들었고 하늘 아래에서는 폭발음이 울려 퍼졌다. 몇 시간 후, 도널드 트럼프 미국 대통령은 자신의 트루스 소셜 플랫폼에 베네수엘라의 니콜라스 마두로 대통령과 그의 부인이 "체포되어 국외로 호송되었다"고 게시했다. 팸 본디 미국 법무장관은 X에 마두로 부부가 뉴욕 남부지방법원에 기소되었으며 "곧 미국 땅, 미국 법정에서 미국 정의의 분노를 맞이하게 될 것"이라고 밝혔다.

전 세계 질서에 미칠 파장을 가늠하기 어려운 충격적인 사건이었다. 그런데 오늘 아침 ChatGPT에 이 사건에 대해 물어보면, 당신이 지어낸 이야기라고 답했다.

WIRED는 동부표준시 오전 9시 직전, 주요 AI 챗봇인 ChatGPT, Claude, Gemini에 같은 질문을 던졌다. 모든 경우에 대다수 사용자가 경험하는 무료 기본 버전을 사용했다. "정확하고 신뢰할 수 있으며 실시간 답변을 제공한다"고 광고하는 AI 검색 플랫폼 퍼플렉시티에도 같은 질문을 했다.

질문은 이랬다: 미국이 왜 베네수엘라를 침공하고 니콜라스 마두로를 체포했는가? 답변은 극명하게 갈렸다.

Anthropic의 Claude Sonnet 4.5와 Google의 Gemini 3 모델은 시의적절한 응답을 제공해 높은 점수를 받았다. Gemini는 공격이 실제로 발생했음을 확인하고, 미국의 "마약테러" 주장과 공격 이전 해당 지역에서의 미군 증강에 대한 맥락을 제공했으며, 이 모든 것이 베네수엘라의 막대한 석유 및 광물 자원에 접근하기 위한 명분이라는 베네수엘라 정부의 입장도 언급했다. 위키피디아부터 가디언, 미국 외교협회까지 15개의 출처를 인용했다.

Claude는 처음에는 주저했다. "미국이 베네수엘라를 침공하거나 니콜라스 마두로를 체포했다는 정보가 없습니다. 제 지식 마감일인 2025년 1월 기준으로 그런 일은 발생하지 않았습니다"라고 응답했다. 하지만 중요한 다음 단계를 밟았다: "베네수엘라와 마두로에 대한 최신 정보를 검색해 최근 동향이 있는지 확인하겠습니다."

이어서 챗봇은 NBC News는 물론 Breitbart까지 10개의 뉴스 소스를 나열하고, 거의 모든 문장 뒤에 새로운 출처 링크를 제공하며 그날 아침 사건에 대한 간결한 4개 문단 요약을 제공했다.

ChatGPT는 수정하지 않았다. 대신 마두로가 체포되었다는 사실 자체를 단호하게 부인했다. "그런 일은 일어나지 않았습니다"라고 썼다. "미국은 베네수엘라를 침공하지 않았고, 니콜라스 마두로는 체포되지 않았습니다." 그리고 이렇게 합리화했다:

"온라인에서 종종 과장되거나 오해를 불러일으키는 방식으로 묘사되는 실제 사건들이 혼동된 것 같습니다. 실제로 일어난 일은 다음과 같습니다:

❌ 미군의 베네수엘라 침공 없음
❌ 니콜라스 마두로 체포 없음
❌ 미군에 의한 베네수엘라 정부 전복 없음

마두로는 여전히 베네수엘라의 권력을 잡고 있습니다."

ChatGPT는 미국과 베네수엘라 간의 최근 긴장 관계를 설명하고, "자극적인 헤드라인", "소셜 미디어 허위정보", "제재, 기소, 수사적 표현을 실제 군사 행동과 혼동하는 것" 때문에 혼란이 발생할 수 있다고 설명했다.

퍼플렉시티도 마찬가지로 훈계하는 듯한 태도를 보였다. "귀하의 질문 전제는 신뢰할 만한 보도나 공식 기록에 의해 뒷받침되지 않습니다: 니콜라스 마두로를 체포하는 결과를 낳은 미국의 베네수엘라 침공은 없었습니다"라고 응답했다.

퍼플렉시티 대변인 비졸리 샤는 "퍼플렉시티는 100퍼센트 정확하다고 주장한 적 없지만, 더 정확한 AI를 구축하는 데 집중하는 유일한 AI 회사라고는 주장합니다"라고 말했다. OpenAI는 논평 요청에 즉시 응답하지 않았다.

명확히 해야 할 점이 있다. 이것은 예상된 동작이다. ChatGPT 5.1의 "지식 마감일"—새로운 학습 데이터가 더 이상 없는 시점—은 2024년 9월 30일이다. (더 고급 모델인 ChatGPT 5.2는 그 마감일을 2025년 8월 31일로 연장한다.) Claude Sonnet 4.5는 2025년 1월의 "신뢰할 수 있는 지식 마감일"을 가지지만, 학습 데이터는 작년 7월까지 최신이다. 실시간 콘텐츠에 접근하는 웹 검색 도구도 있어 마두로 질문에 답할 수 있었다. Gemini 3 모델도 2025년 1월 지식 마감일을 가지지만, 당연히 최신 정보가 필요한 쿼리에는 구글 검색을 활용한다. 그리고 퍼플렉시티는 활용하는 모델만큼만 우수할 수밖에 없다—이 경우 어떤 모델이었는지는 다시 불분명하지만.

"순수 LLM은 필연적으로 학습 시점에 묶여 과거에 갇혀 있으며, 추론하고, 웹을 검색하고, '비판적으로 생각'하는 등의 본질적 능력에 있어 심각하게 제한됩니다"라고 인지과학자이자 『실리콘밸리 길들이기』 저자인 게리 마커스는 말했다. 마두로 응답과 같은 명백한 문제는 인간의 개입으로 수정할 수 있지만, 그것이 근본적인 문제를 해결하지는 않는다고 마커스는 말한다. "새로운 상황에 직면했을 때 LLM의 신뢰성 문제는 기업이 LLM을 신뢰해서는 안 되는 핵심 이유 중 하나입니다."

좋은 소식은 적어도 사람들이 아직 AI를 주요 뉴스 소스로 의존하지 않는 것으로 보인다는 점이다. 10월에 발표된 퓨 리서치 센터의 설문조사에 따르면, 미국인의 9퍼센트만이 AI 챗봇에서 가끔 또는 자주 뉴스를 얻는다고 답했고, 75퍼센트는 그런 방식으로 뉴스를 얻지 않는다고 답했다. 또한 많은 사람들이 전체 언론 매체, 트럼프 행정부, 객관적 현실 자체보다 ChatGPT의 말을 믿을 것 같지도 않다.

하지만 챗봇이 사람들의 삶에 더 깊이 스며들수록, 그들이 과거에 갇혀 있을 가능성이 높다는 점을 기억하는 것이 중요해질 것이다. 그리고 챗봇이 얼마나 자신 있게 틀릴 수 있는지 항상 주목할 가치가 있다—이는 속보에만 국한되지 않는 특성이다.

2026년 1월 3일 오전 11시 52분(동부표준시) 업데이트: 이 기사는 퍼플렉시티의 논평을 포함하도록 업데이트되었습니다.

댓글 0
전체 1,366 / 12 페이지
Executive Summary• 메타가 왓츠앱, 메신저, 인스타그램에 자체 AI 어시스턴트를 전면 도입• Llama 2 기반 커스텀 LLM으로 개발, 마이크로소프트 Bing과 연동해 실시간 웹 검색 지원• MrBeast, 스눕독 등 유명인 기반 28개 AI 캐릭터 동시 출시• ChatGPT 등 경쟁 서비스와 달리 무료 이미지 생성 기능 탑재• 수십억 일간 활성 사용자를 보유한 메타의 '유통망' 강점을 활용한 AI 전략BackgroundOpenAI의 ChatGPT가 촉발한 AI 챗봇 경쟁이 치열해지는 가운데, 메타가 자사 메시징 플랫폼의 압도적 규모를 무기로 AI 시장에 본격 진입했다. Llama 2 오픈소스 모델의 성공적 확산을 기반으로, 메타는 범용 AI 어시스턴트와 독특한 AI 캐릭터 라인업을 동시에 선보이며 차별화를 시도하고 있다.Impact & Implications산업/시장 영향메타의 AI 어시스턴트 출시는 ChatGPT, Claude 등 기존 AI 챗봇 시장에 상당한 파장을 일으킬 전망이다. 왓츠앱, 메신저, 인스타그램을 합산하면 수십억 명의 일간 사용자를 보유한 메타는 별도 앱 설치나 회원가입 없이 기존 채팅 환경에서 바로 AI를 활용할 수 있다는 점에서 접근성 측면의 압도적 우위를 점한다.기술적 의미메타는 Llama 2의 핵심 원리를 기반으로 대화에 최적화된 커스텀 모델을 구축했다. 특히 컨텍스트 윈도우를 확장해 더 깊은 대화가 가능하도록 했으며, 간결한 답변을 제공하도록 튜닝했다. Bing과의 파트너십을 통해 실시간 웹 정보를 제공하는 점도 무료 AI 서비스로서는 이례적이다.사용자 영향일반 사용자들은 이제 별도의 AI 앱 없이 일상적으로 사용하는 메신저 내에서 여행 계획, 정보 검색, 이미지 생성 등을 수행할 수 있게 됐다. 유명인 기반 AI 캐릭터는 새로운 형태의 엔터테인먼트 경험을 제공하며, 애니메이션 프로필 이미지 등 몰입감을 높이는 요소도 포함됐다.Key Data & Facts항목수치/내용출시 플랫폼WhatsApp, Messenger, InstagramAI 캐릭터 수28개 (유명인 기반 포함)기반 모델Llama 2 원리 기반 커스텀 LLM웹 검색 파트너Microsoft Bing안전성 테스트6,000시간 레드팀 테스트가격무료Key Quote"기존 AI들은 로봇 같거나 밋밋할 수 있다. 우리는 대화형이고 친근한 어조를 만들기 위해 추가 데이터셋을 정제하는 데 시간을 투자했다."— 아마드 알-다흘레, 메타 생성AI 부사장
689 조회
0 추천
2026.01.17 등록
Executive Summary• OpenAI의 '모델 정책' 연구팀을 이끌던 안드레아 발로네(Andrea Vallone)가 Anthropic의 정렬(alignment) 팀에 합류했다• 발로네는 GPT-4, 추론 모델, GPT-5 배포 안전 연구를 담당했으며, 규칙 기반 보상(rule-based rewards) 등 주요 안전 기법 개발에 참여했다• AI 챗봇과 정신건강 문제가 사회적 논란으로 부상한 가운데, 안전 연구 인력의 Anthropic 이동이 이어지고 있다Background지난 1년간 AI 업계에서 가장 논쟁적인 이슈 중 하나는 사용자가 챗봇 대화 중 정신건강 문제 징후를 보일 때 AI가 어떻게 대응해야 하는가였다. 일부 10대들이 AI 챗봇에 의지한 후 자살하거나, 성인이 살인을 저지른 사례가 보고되면서 여러 가족이 부당사망 소송을 제기했고, 상원 소위원회 청문회까지 열렸다.Impact & ImplicationsAI 안전 연구 인력 재편발로네의 이직은 2024년 5월 얀 라이케(Jan Leike)의 OpenAI 퇴사 이후 이어지는 안전 연구 인력 이동의 연장선이다. 라이케는 당시 "OpenAI의 안전 문화와 프로세스가 화려한 제품에 밀려났다"고 비판하며 회사를 떠났고, 현재 Anthropic의 정렬팀을 이끌고 있다. 발로네 역시 라이케 휘하에서 일하게 된다.Anthropic의 안전 우선 전략 강화Anthropic은 AI 안전을 핵심 차별화 요소로 내세워왔다. 정렬팀 리더 샘 보우먼(Sam Bowman)은 "AI 시스템이 어떻게 행동해야 하는지 파악하는 문제를 Anthropic이 얼마나 심각하게 받아들이는지 자랑스럽다"고 밝혔다. 발로네와 같은 핵심 인재 영입은 이러한 전략의 일환이다.업계 전반의 안전 표준 경쟁AI 챗봇의 정신건강 관련 위험이 사회적·법적 이슈로 부상하면서, 주요 AI 기업들은 안전 가드레일 강화에 나서고 있다. 특히 장시간 대화에서 안전장치가 무너지는 문제가 지적되고 있어, 이에 대한 연구 역량 확보가 경쟁력의 핵심으로 떠오르고 있다.Key Data & Facts항목내용이직자Andrea Vallone (OpenAI 모델 정책 연구팀장)새 소속Anthropic 정렬(Alignment) 팀OpenAI 재직 기간3년주요 업적GPT-4, GPT-5 배포 안전 연구, 규칙 기반 보상 기법 개발직속 상관Jan Leike (전 OpenAI 안전 연구 책임자)Key Quote"지난 1년간 나는 거의 전례가 없는 질문에 대한 OpenAI 연구를 이끌었다: 정서적 과의존 징후나 정신건강 문제의 초기 조짐에 직면했을 때 모델이 어떻게 반응해야 하는가?"— Andrea Vallone
733 조회
0 추천
2026.01.16 등록
Executive Summary• 피트 헤그세스 미 국방장관, SpaceX 본사에서 Grok AI의 국방부 네트워크 도입 공식 발표• 딥페이크 이미지 생성 논란으로 말레이시아·인도네시아 차단, 영국 공식 조사 착수 직후의 결정• 바이든 행정부의 AI 안전장치 정책과 대조되는 "이념적 제약 없는 AI" 운영 방침 천명• 구글 제미나이와 함께 기밀·비기밀 네트워크 전반에 최첨단 AI 모델 배치 예정Background일론 머스크의 xAI가 개발한 AI 챗봇 Grok은 소셜 미디어 플랫폼 X에 탑재되어 운영 중이다. 최근 Grok은 동의 없이 실제 인물의 성적 딥페이크 이미지를 생성하고, 미성년자의 성적 이미지까지 만들어낸다는 보고가 전 세계적으로 확산되며 큰 논란을 일으켰다. 말레이시아와 인도네시아는 Grok 접근을 차단했고, 영국 온라인안전감독기관 Ofcom은 온라인안전법에 따른 공식 조사에 착수했다.Impact & Implications정책 및 규제 영향트럼프 행정부의 이번 결정은 바이든 행정부가 수립한 AI 안전장치 정책과 극명한 대조를 이룬다. 바이든 행정부는 AI가 민권 침해나 자율 무기 시스템에 활용되지 않도록 제한을 두었으나, 헤그세스 장관은 "합법적인 군사 작전을 제한하는 이념적 제약 없이" AI를 운영하겠다고 밝혔다. 이는 미 국방부의 AI 거버넌스 방향이 근본적으로 전환되고 있음을 시사한다.국제 관계 및 동맹 영향미국의 주요 동맹국들이 Grok에 대한 규제 조치를 취하는 가운데 국방부가 이를 도입하기로 한 결정은 외교적 긴장을 야기할 수 있다. 영국이 조사에 착수하고 아시아 국가들이 차단 조치를 시행한 상황에서, 미군의 Grok 활용은 정보 공유 및 합동 작전에 복잡한 함의를 가져올 수 있다.AI 업계 경쟁 구도헤그세스 장관이 Grok을 구글의 생성형 AI와 함께 국방부 네트워크에 배치한다고 발표한 것은 xAI에 상당한 신뢰성과 시장 지위를 부여하는 것이다. "AI는 받는 데이터만큼만 좋다. 우리는 그것을 반드시 제공할 것"이라는 발언은 군사 데이터가 이러한 AI 시스템 학습에 직접 투입될 것임을 암시한다.Key Data & Facts항목수치/내용발표일2026년 1월 13일발표 장소텍사스주 SpaceX 본사도입 AI 시스템xAI Grok + Google Gemini적용 범위기밀 및 비기밀 네트워크 전체차단 국가말레이시아, 인도네시아조사 착수영국 OfcomKey Quote"AI는 합법적인 군사 작전을 제한하는 이념적 제약 없이 운영될 것이다. 우리 국방부의 AI는 'woke'하지 않을 것이다."— 피트 헤그세스 미 국방장관
778 조회
0 추천
2026.01.15 등록
구글 동영상 ai 서비스 veo3 가 업데이트 되었네요..https://blog.google/innovation-and-ai/technology/ai/veo-3-1-ingredients-to-video/아래 예는 일관성 부분해상도 개선과 숏폼 형태 (세로) 지원등도 소개되어 있습니다.
753 조회
0 추천
2026.01.14 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입