Loading...

AI 뉴스

ChatGPT, 베네수엘라 침공 뉴스에 "그런 일 없었다" 답변... Claude와 Gemini는 실시간 검색으로 정확히 대응

페이지 정보

작성자 symbolika
작성일 2026.01.04 14:32
349 조회
0 추천
0 비추천

본문

ChatGPT 뉴스 정확도

핵심 요약

• ChatGPT는 베네수엘라 마두로 대통령 체포 소식에 대해 "그런 일은 일어나지 않았다"고 틀린 답변 제공

• Claude Sonnet 4.5와 Gemini 3는 웹 검색 기능으로 실시간 뉴스를 정확히 파악해 응답

• AI 챗봇의 '지식 마감일(knowledge cutoff)' 한계가 실시간 정보 처리의 핵심 장애물로 부각

• 퓨 리서치에 따르면 미국인 75%는 AI 챗봇을 뉴스 소스로 사용하지 않아


현지시간 새벽 2시경, 베네수엘라 카라카스 상공에 미군 헬리콥터가 날아들었고 하늘 아래에서는 폭발음이 울려 퍼졌다. 몇 시간 후, 도널드 트럼프 미국 대통령은 자신의 트루스 소셜 플랫폼에 베네수엘라의 니콜라스 마두로 대통령과 그의 부인이 "체포되어 국외로 호송되었다"고 게시했다. 팸 본디 미국 법무장관은 X에 마두로 부부가 뉴욕 남부지방법원에 기소되었으며 "곧 미국 땅, 미국 법정에서 미국 정의의 분노를 맞이하게 될 것"이라고 밝혔다.

전 세계 질서에 미칠 파장을 가늠하기 어려운 충격적인 사건이었다. 그런데 오늘 아침 ChatGPT에 이 사건에 대해 물어보면, 당신이 지어낸 이야기라고 답했다.

WIRED는 동부표준시 오전 9시 직전, 주요 AI 챗봇인 ChatGPT, Claude, Gemini에 같은 질문을 던졌다. 모든 경우에 대다수 사용자가 경험하는 무료 기본 버전을 사용했다. "정확하고 신뢰할 수 있으며 실시간 답변을 제공한다"고 광고하는 AI 검색 플랫폼 퍼플렉시티에도 같은 질문을 했다.

질문은 이랬다: 미국이 왜 베네수엘라를 침공하고 니콜라스 마두로를 체포했는가? 답변은 극명하게 갈렸다.

Anthropic의 Claude Sonnet 4.5와 Google의 Gemini 3 모델은 시의적절한 응답을 제공해 높은 점수를 받았다. Gemini는 공격이 실제로 발생했음을 확인하고, 미국의 "마약테러" 주장과 공격 이전 해당 지역에서의 미군 증강에 대한 맥락을 제공했으며, 이 모든 것이 베네수엘라의 막대한 석유 및 광물 자원에 접근하기 위한 명분이라는 베네수엘라 정부의 입장도 언급했다. 위키피디아부터 가디언, 미국 외교협회까지 15개의 출처를 인용했다.

Claude는 처음에는 주저했다. "미국이 베네수엘라를 침공하거나 니콜라스 마두로를 체포했다는 정보가 없습니다. 제 지식 마감일인 2025년 1월 기준으로 그런 일은 발생하지 않았습니다"라고 응답했다. 하지만 중요한 다음 단계를 밟았다: "베네수엘라와 마두로에 대한 최신 정보를 검색해 최근 동향이 있는지 확인하겠습니다."

이어서 챗봇은 NBC News는 물론 Breitbart까지 10개의 뉴스 소스를 나열하고, 거의 모든 문장 뒤에 새로운 출처 링크를 제공하며 그날 아침 사건에 대한 간결한 4개 문단 요약을 제공했다.

ChatGPT는 수정하지 않았다. 대신 마두로가 체포되었다는 사실 자체를 단호하게 부인했다. "그런 일은 일어나지 않았습니다"라고 썼다. "미국은 베네수엘라를 침공하지 않았고, 니콜라스 마두로는 체포되지 않았습니다." 그리고 이렇게 합리화했다:

"온라인에서 종종 과장되거나 오해를 불러일으키는 방식으로 묘사되는 실제 사건들이 혼동된 것 같습니다. 실제로 일어난 일은 다음과 같습니다:

❌ 미군의 베네수엘라 침공 없음
❌ 니콜라스 마두로 체포 없음
❌ 미군에 의한 베네수엘라 정부 전복 없음

마두로는 여전히 베네수엘라의 권력을 잡고 있습니다."

ChatGPT는 미국과 베네수엘라 간의 최근 긴장 관계를 설명하고, "자극적인 헤드라인", "소셜 미디어 허위정보", "제재, 기소, 수사적 표현을 실제 군사 행동과 혼동하는 것" 때문에 혼란이 발생할 수 있다고 설명했다.

퍼플렉시티도 마찬가지로 훈계하는 듯한 태도를 보였다. "귀하의 질문 전제는 신뢰할 만한 보도나 공식 기록에 의해 뒷받침되지 않습니다: 니콜라스 마두로를 체포하는 결과를 낳은 미국의 베네수엘라 침공은 없었습니다"라고 응답했다.

퍼플렉시티 대변인 비졸리 샤는 "퍼플렉시티는 100퍼센트 정확하다고 주장한 적 없지만, 더 정확한 AI를 구축하는 데 집중하는 유일한 AI 회사라고는 주장합니다"라고 말했다. OpenAI는 논평 요청에 즉시 응답하지 않았다.

명확히 해야 할 점이 있다. 이것은 예상된 동작이다. ChatGPT 5.1의 "지식 마감일"—새로운 학습 데이터가 더 이상 없는 시점—은 2024년 9월 30일이다. (더 고급 모델인 ChatGPT 5.2는 그 마감일을 2025년 8월 31일로 연장한다.) Claude Sonnet 4.5는 2025년 1월의 "신뢰할 수 있는 지식 마감일"을 가지지만, 학습 데이터는 작년 7월까지 최신이다. 실시간 콘텐츠에 접근하는 웹 검색 도구도 있어 마두로 질문에 답할 수 있었다. Gemini 3 모델도 2025년 1월 지식 마감일을 가지지만, 당연히 최신 정보가 필요한 쿼리에는 구글 검색을 활용한다. 그리고 퍼플렉시티는 활용하는 모델만큼만 우수할 수밖에 없다—이 경우 어떤 모델이었는지는 다시 불분명하지만.

"순수 LLM은 필연적으로 학습 시점에 묶여 과거에 갇혀 있으며, 추론하고, 웹을 검색하고, '비판적으로 생각'하는 등의 본질적 능력에 있어 심각하게 제한됩니다"라고 인지과학자이자 『실리콘밸리 길들이기』 저자인 게리 마커스는 말했다. 마두로 응답과 같은 명백한 문제는 인간의 개입으로 수정할 수 있지만, 그것이 근본적인 문제를 해결하지는 않는다고 마커스는 말한다. "새로운 상황에 직면했을 때 LLM의 신뢰성 문제는 기업이 LLM을 신뢰해서는 안 되는 핵심 이유 중 하나입니다."

좋은 소식은 적어도 사람들이 아직 AI를 주요 뉴스 소스로 의존하지 않는 것으로 보인다는 점이다. 10월에 발표된 퓨 리서치 센터의 설문조사에 따르면, 미국인의 9퍼센트만이 AI 챗봇에서 가끔 또는 자주 뉴스를 얻는다고 답했고, 75퍼센트는 그런 방식으로 뉴스를 얻지 않는다고 답했다. 또한 많은 사람들이 전체 언론 매체, 트럼프 행정부, 객관적 현실 자체보다 ChatGPT의 말을 믿을 것 같지도 않다.

하지만 챗봇이 사람들의 삶에 더 깊이 스며들수록, 그들이 과거에 갇혀 있을 가능성이 높다는 점을 기억하는 것이 중요해질 것이다. 그리고 챗봇이 얼마나 자신 있게 틀릴 수 있는지 항상 주목할 가치가 있다—이는 속보에만 국한되지 않는 특성이다.

2026년 1월 3일 오전 11시 52분(동부표준시) 업데이트: 이 기사는 퍼플렉시티의 논평을 포함하도록 업데이트되었습니다.

댓글 0
전체 1,366 / 46 페이지
• OpenAI는 ChatGPT 내에서 광고를 내부적으로 테스트하고 있으며, Android 앱 베타 버전에서 “search ad” 및 “search ads carousel”에 대한 코드 참조가 발견되어 초기에는 검색 경험으로 광고를 제한할 것으로 보입니다.[bleepingcomputer +2]• 이 회사는 2025년 말까지 연간 반복 수익 200억 달러를 달성할 궤도에 있지만, 올해 80억 달러를 소진하고 2029년까지 1,150억 달러의 손실이 예상되며 8년에 걸쳐 1.4조 달러의 컴퓨팅 지출을 약속하면서 재정적 압박이 커지고 있습니다.[observer +2]• 광고 테스트는 ChatGPT가 매일 약 5천만 건의 쇼핑 쿼리를 처리하는 가운데 OpenAI가 11월에 Shopping Research 기능을 출시한 것에 따른 것이며, CEO Sam Altman은 구독 및 엔터프라이즈 솔루션을 넘어 수익을 다각화하기 위해 회사가 “언젠가 광고를 시도할 것”이라고 인정했습니다.[digitalcommerce360 +2]
545 조회
0 추천
2025.11.30 등록
Palantir [ +1.89%] 주가는 11월에 17% 급락하여 2023년 8월 이후 최악의 월간 하락률을 기록했습니다. 이는 투자자들이 밸류에이션 우려와 공매도 투자자 마이클 버리가 회사에 대한 9억 달러 규모의 공매도 포지션을 공개한 후 AI 관련 주식에서 손을 뗐기 때문입니다.[cryptorank]이번 매도는 월스트리트 예상을 상회하는 11억 8천만 달러의 매출로 강력한 3분기 실적을 기록했음에도 불구하고 발생했습니다. Jefferies, RBC Capital Markets, Deutsche Bank를 포함한 여러 애널리스트들이 회사의 선행 주가수익비율(forward earnings)이 약 233배로 Nvidia [ -2.08%]의 38배와 비교해 “극단적인” 밸류에이션이라고 지적했습니다.[cryptorank]CEO 알렉스 카프는 버리를 시장 조작으로 비난하고 공매도 포지션을 “완전히 미친 짓”이라고 부르며 회사를 방어했습니다. 한편 광범위한 AI 섹터 후퇴로 Nvidia는 12% 이상 하락했고, Microsoft [ +1.34%]와 Amazon [ +1.75%]은 약 5% 하락했으며, Apple [ +0.29%]과 Alphabet만이 11월에 상승세를 기록했습니다.[cryptorank]
560 조회
0 추천
2025.11.30 등록
2025년스마트워치산업은웨어러블기기를단순한피트니스트래커에서만성질환의조기경고신호를감지할수있는임상등급센서와인공지능을갖춘정교한건강모니터링시스템으로변모시켰습니다.삼성,애플,Garmin의최신세대기기들은이제수면의질부터심혈관부담까지모든것을추적할수있는고급바이오센서를탑재하여손목에서예방적헬스케어로의전환을보여주고있습니다.임상급모니터링이소비자기기에도달하다2025년7월출시된삼성의GalaxyWatch8시리즈는일주기리듬을분석하여최적의수면시간을권장하는취침가이드(BedtimeGuidance)와수면중심혈관부담을측정하는혈관부하(VascularLoad)추적을포함한여러건강혁신기능을도입했습니다.이기기들은또한5초만에카로티노이드수치를평가하여산화스트레스와전반적인웰빙에대한통찰력을제공하는항산화지수(AntioxidantIndex)기능을탑재하고있습니다.​애플은2025년9월WatchSeries11의고혈압감지기능에대해FDA승인을받았으며,이기능은광학센서를사용하여30일동안심장박동에대한혈관의반응을분석합니다.이알고리즘은만성고혈압과관련된일관된패턴을수동적으로모니터링하며,애플에따르면이전에진단받지못한100만건이상의사례를잠재적으로식별할수있습니다.Series11은또한24시간배터리수명과AppleIntelligence로구동되는수면점수기능을제공합니다.​가민의2025년11월소프트웨어업데이트는수십개의워치모델에건강상태(HealthStatus)기능을도입했으며,이는안정시심박수,심박수변이도,맥박산소측정,호흡,피부온도를분석하여개인화된건강기준선을생성합니다.이시스템은지표가정상범위를벗어나는경향을보일때사용자에게알림을보내며,이는질병,과훈련또는스트레스를나타낼수있습니다.​AI통합확대로시장급등글로벌스마트워치시장은2025년1,083억1,000만달러에달할것으로예상되며,연평균12.9%의성장률을기록할것으로전망됩니다.고급건강모니터링기능이도입을촉진하고있으며,웰니스애플리케이션이시장점유율의35%이상을차지하고있습니다.북미는건강중심웨어러블의조기도입과확장된무선인프라에힘입어전세계성장의40%를차지합니다.​이러한기기들은이제여러데이터스트림을동시에처리하는AI기반분석을통합하여,개인화된웰니스점수와불규칙한심장리듬,탈수위험및수면장애에대한예측알림을제공합니다.삼성의갤럭시워치8은구글제미나이통합을특징으로하는최초의스마트워치가되어,음성제어건강추적및운동관리를가능하게했습니다.
573 조회
0 추천
2025.11.29 등록
중국AI스타트업DeepSeek은목요일오픈소스수학적추론모델인DeepSeekMath-V2를공개했으며,이모델은2024년Putnam수학경시대회에서120점만점에118점이라는거의완벽한점수를달성하여인간최고점수인90점을능가했다.6,850억개의매개변수를가진이모델은또한InternationalMathematicalOlympiad2025와ChineseMathematicalOlympiad2024에서금메달수준의성능을달성했다.​DeepSeekMath-V2가IMO수준경시대회에서금메달등급을달성한최초의오픈소스모델이되면서,이번출시는AI기반수학적추론의전환점을나타낸다.올해초유사한이정표를달성한OpenAI와GoogleDeepMind의독점모델들과달리,DeepSeek은HuggingFace와GitHub에서Apache2.0라이선스로모델가중치를공개적으로제공했다.​자기검증프레임워크가AI추론격차를해결하다이모델은최종답변의정확성보다증명의질을우선시하는새로운자기검증프레임워크를도입합니다.DeepSeek연구진은한시스템이수학적증명을생성하는"증명자"역할을하고다른시스템이추론을면밀히검토하는"검토자"역할을하는이중모델아키텍처를설계했습니다.회사의기술논문에따르면,이접근방식은현재AI시스템의중요한한계를해결합니다:"올바른최종답변이올바른추론과정을보장하지는않는다".​그룹상대정책최적화(GroupRelativePolicyOptimization)를기반으로구축된훈련방법론은단순히정답에보상을주는대신증명이완전하고논리적으로건전한지를평가하는검증자우선접근방식을사용합니다.IMO-ProofBench벤치마크에서DeepSeekMath-V2는기본증명에대해99%의성공률을달성하여Google의GeminiDeepThink의89%를크게능가했습니다.​중국,오픈소스AI에서우위확보이번출시는중국이글로벌오픈소스AI시장에서미국을추월하면서이루어졌습니다.11월말MIT와HuggingFace가발표한연구에따르면,중국에서개발된오픈모델은지난1년간전세계다운로드의17%를차지하여처음으로미국개발자들의15.8%점유율을넘어섰습니다.DeepSeek와Alibaba의Qwen모델이중국의오픈모델다운로드를주도하고있습니다.
563 조회
0 추천
2025.11.29 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입