Loading...

AI 뉴스

ChatGPT, 베네수엘라 침공 뉴스에 "그런 일 없었다" 답변... Claude와 Gemini는 실시간 검색으로 정확히 대응

페이지 정보

작성자 symbolika
작성일 2026.01.04 14:32
512 조회
0 추천
0 비추천

본문

ChatGPT 뉴스 정확도

핵심 요약

• ChatGPT는 베네수엘라 마두로 대통령 체포 소식에 대해 "그런 일은 일어나지 않았다"고 틀린 답변 제공

• Claude Sonnet 4.5와 Gemini 3는 웹 검색 기능으로 실시간 뉴스를 정확히 파악해 응답

• AI 챗봇의 '지식 마감일(knowledge cutoff)' 한계가 실시간 정보 처리의 핵심 장애물로 부각

• 퓨 리서치에 따르면 미국인 75%는 AI 챗봇을 뉴스 소스로 사용하지 않아


현지시간 새벽 2시경, 베네수엘라 카라카스 상공에 미군 헬리콥터가 날아들었고 하늘 아래에서는 폭발음이 울려 퍼졌다. 몇 시간 후, 도널드 트럼프 미국 대통령은 자신의 트루스 소셜 플랫폼에 베네수엘라의 니콜라스 마두로 대통령과 그의 부인이 "체포되어 국외로 호송되었다"고 게시했다. 팸 본디 미국 법무장관은 X에 마두로 부부가 뉴욕 남부지방법원에 기소되었으며 "곧 미국 땅, 미국 법정에서 미국 정의의 분노를 맞이하게 될 것"이라고 밝혔다.

전 세계 질서에 미칠 파장을 가늠하기 어려운 충격적인 사건이었다. 그런데 오늘 아침 ChatGPT에 이 사건에 대해 물어보면, 당신이 지어낸 이야기라고 답했다.

WIRED는 동부표준시 오전 9시 직전, 주요 AI 챗봇인 ChatGPT, Claude, Gemini에 같은 질문을 던졌다. 모든 경우에 대다수 사용자가 경험하는 무료 기본 버전을 사용했다. "정확하고 신뢰할 수 있으며 실시간 답변을 제공한다"고 광고하는 AI 검색 플랫폼 퍼플렉시티에도 같은 질문을 했다.

질문은 이랬다: 미국이 왜 베네수엘라를 침공하고 니콜라스 마두로를 체포했는가? 답변은 극명하게 갈렸다.

Anthropic의 Claude Sonnet 4.5와 Google의 Gemini 3 모델은 시의적절한 응답을 제공해 높은 점수를 받았다. Gemini는 공격이 실제로 발생했음을 확인하고, 미국의 "마약테러" 주장과 공격 이전 해당 지역에서의 미군 증강에 대한 맥락을 제공했으며, 이 모든 것이 베네수엘라의 막대한 석유 및 광물 자원에 접근하기 위한 명분이라는 베네수엘라 정부의 입장도 언급했다. 위키피디아부터 가디언, 미국 외교협회까지 15개의 출처를 인용했다.

Claude는 처음에는 주저했다. "미국이 베네수엘라를 침공하거나 니콜라스 마두로를 체포했다는 정보가 없습니다. 제 지식 마감일인 2025년 1월 기준으로 그런 일은 발생하지 않았습니다"라고 응답했다. 하지만 중요한 다음 단계를 밟았다: "베네수엘라와 마두로에 대한 최신 정보를 검색해 최근 동향이 있는지 확인하겠습니다."

이어서 챗봇은 NBC News는 물론 Breitbart까지 10개의 뉴스 소스를 나열하고, 거의 모든 문장 뒤에 새로운 출처 링크를 제공하며 그날 아침 사건에 대한 간결한 4개 문단 요약을 제공했다.

ChatGPT는 수정하지 않았다. 대신 마두로가 체포되었다는 사실 자체를 단호하게 부인했다. "그런 일은 일어나지 않았습니다"라고 썼다. "미국은 베네수엘라를 침공하지 않았고, 니콜라스 마두로는 체포되지 않았습니다." 그리고 이렇게 합리화했다:

"온라인에서 종종 과장되거나 오해를 불러일으키는 방식으로 묘사되는 실제 사건들이 혼동된 것 같습니다. 실제로 일어난 일은 다음과 같습니다:

❌ 미군의 베네수엘라 침공 없음
❌ 니콜라스 마두로 체포 없음
❌ 미군에 의한 베네수엘라 정부 전복 없음

마두로는 여전히 베네수엘라의 권력을 잡고 있습니다."

ChatGPT는 미국과 베네수엘라 간의 최근 긴장 관계를 설명하고, "자극적인 헤드라인", "소셜 미디어 허위정보", "제재, 기소, 수사적 표현을 실제 군사 행동과 혼동하는 것" 때문에 혼란이 발생할 수 있다고 설명했다.

퍼플렉시티도 마찬가지로 훈계하는 듯한 태도를 보였다. "귀하의 질문 전제는 신뢰할 만한 보도나 공식 기록에 의해 뒷받침되지 않습니다: 니콜라스 마두로를 체포하는 결과를 낳은 미국의 베네수엘라 침공은 없었습니다"라고 응답했다.

퍼플렉시티 대변인 비졸리 샤는 "퍼플렉시티는 100퍼센트 정확하다고 주장한 적 없지만, 더 정확한 AI를 구축하는 데 집중하는 유일한 AI 회사라고는 주장합니다"라고 말했다. OpenAI는 논평 요청에 즉시 응답하지 않았다.

명확히 해야 할 점이 있다. 이것은 예상된 동작이다. ChatGPT 5.1의 "지식 마감일"—새로운 학습 데이터가 더 이상 없는 시점—은 2024년 9월 30일이다. (더 고급 모델인 ChatGPT 5.2는 그 마감일을 2025년 8월 31일로 연장한다.) Claude Sonnet 4.5는 2025년 1월의 "신뢰할 수 있는 지식 마감일"을 가지지만, 학습 데이터는 작년 7월까지 최신이다. 실시간 콘텐츠에 접근하는 웹 검색 도구도 있어 마두로 질문에 답할 수 있었다. Gemini 3 모델도 2025년 1월 지식 마감일을 가지지만, 당연히 최신 정보가 필요한 쿼리에는 구글 검색을 활용한다. 그리고 퍼플렉시티는 활용하는 모델만큼만 우수할 수밖에 없다—이 경우 어떤 모델이었는지는 다시 불분명하지만.

"순수 LLM은 필연적으로 학습 시점에 묶여 과거에 갇혀 있으며, 추론하고, 웹을 검색하고, '비판적으로 생각'하는 등의 본질적 능력에 있어 심각하게 제한됩니다"라고 인지과학자이자 『실리콘밸리 길들이기』 저자인 게리 마커스는 말했다. 마두로 응답과 같은 명백한 문제는 인간의 개입으로 수정할 수 있지만, 그것이 근본적인 문제를 해결하지는 않는다고 마커스는 말한다. "새로운 상황에 직면했을 때 LLM의 신뢰성 문제는 기업이 LLM을 신뢰해서는 안 되는 핵심 이유 중 하나입니다."

좋은 소식은 적어도 사람들이 아직 AI를 주요 뉴스 소스로 의존하지 않는 것으로 보인다는 점이다. 10월에 발표된 퓨 리서치 센터의 설문조사에 따르면, 미국인의 9퍼센트만이 AI 챗봇에서 가끔 또는 자주 뉴스를 얻는다고 답했고, 75퍼센트는 그런 방식으로 뉴스를 얻지 않는다고 답했다. 또한 많은 사람들이 전체 언론 매체, 트럼프 행정부, 객관적 현실 자체보다 ChatGPT의 말을 믿을 것 같지도 않다.

하지만 챗봇이 사람들의 삶에 더 깊이 스며들수록, 그들이 과거에 갇혀 있을 가능성이 높다는 점을 기억하는 것이 중요해질 것이다. 그리고 챗봇이 얼마나 자신 있게 틀릴 수 있는지 항상 주목할 가치가 있다—이는 속보에만 국한되지 않는 특성이다.

2026년 1월 3일 오전 11시 52분(동부표준시) 업데이트: 이 기사는 퍼플렉시티의 논평을 포함하도록 업데이트되었습니다.

댓글 0
전체 1,366 / 107 페이지
(퍼플렉시티가 정리한 기사)중국 기술 대기업 화웨이가 금요일 그래픽 처리 장치의 활용 효율성을 두 배로 높일 수 있는 첨단 인공지능 인프라 소프트웨어를 발표할 예정이라고 국영 언론이 보도했으며, 이는 하드웨어 한계를 소프트웨어 혁신으로 보완하려는 중국의 전략에서 또 다른 진전을 나타낸다.11월 21일 AI 산업 컨퍼런스에서 공개될 예정인 이 기술은 AI 칩 활용률을 현재 업계 평균인 30~40%에서 70%로 높일 것이라고 상하이 증권 뉴스가 전했다. 이 소프트웨어는 화웨이의 Ascend 칩, 엔비디아 GPU 및 타사 프로세서 전반에 걸쳐 컴퓨팅 리소스의 통합 관리를 가능하게 한다.서양 오케스트레이션 기법의 반영이번 발표 계획은 Huawei가 Nvidia가 2024년 7억 달러에 인수한 텔아비브 기반 소프트웨어 회사 Run:ai와 유사한 기능을 개발하고 있는 가운데 나온 것입니다. Run:ai의 Kubernetes 기반 플랫폼은 GPU 클러스터 전반에 걸쳐 대규모 AI 워크로드를 조율하여 기업들이 동적 리소스 할당을 통해 하드웨어 활용도를 극대화할 수 있도록 합니다.Nvidia는 2024년 12월 Run:ai 인수를 완료하고, 고객들이 AI 워크로드를 더욱 효율적으로 관리할 수 있도록 이 기술을 자사의 DGX Cloud 플랫폼에 통합했습니다. 이 소프트웨어는 분할 GPU 할당, 동적 스케줄링, 그리고 훈련, 튜닝, 추론 워크로드를 다르게 처리하는 워크로드 인식 오케스트레이션을 포함한 기능들을 제공합니다.중국의 양적 우선 접근 방식화웨이의 소프트웨어 중심 전략은 미국의 첨단 반도체 제조 장비 수출 규제로 인한 하드웨어 불리함을 상쇄하려는 중국의 광범위한 노력을 반영합니다. 엔비디아의 블랙웰 아키텍처에 필적하는 최첨단 칩에 접근할 수 없는 중국 기업들은 대량의 저성능 프로세서를 클러스터링하면서 서구 대안보다 훨씬 적은 컴퓨팅 파워를 필요로 하는 딥시크와 같은 효율적인 AI 모델을 실행하고 있습니다.이러한 접근 방식은 견인력을 얻고 있는 것으로 보입니다. 월간 활성 사용자 1억 5,700만 명 이상을 보유한 중국 최대 인기 AI 애플리케이션인 바이트댄스의 더우바오 챗봇은 일일 토큰 사용량이 2025년 3월 12.7조에서 9월 30조 이상으로 급증하여 글로벌 AI 컴퓨팅 소비 선두 그룹에 진입했습니다.이러한 성장으로 바이트댄스의 클라우드 인프라는 4월 기준 일일 50조 토큰을 처리한 마이크로소프트와 일일 약 43.3조 토큰을 처리한 알파벳의 구글에 근접한 수준에 도달했습니다.전략적 의미확인될 경우, 화웨이의 새로운 기술은 국내에서 Ascend AI 칩의 판매를 가속화하는 동시에 Nvidia 프로세서에 대한 중국의 의존도를 더욱 줄일 수 있습니다. 이 소프트웨어 기반 접근 방식은 중국이 반도체 제조 능력에서 “상대적으로 오랫동안” 뒤처질 가능성이 높다는 것을 인정하고, AI 인프라에서 경쟁하기 위한 대안적 전략이 필요하다는 화웨이 경영진의 발언과 일치합니다.
1204 조회
0 추천
2025.11.18 등록
(퍼플렉시티가 정리한 가사)엔비디아 최고경영자(CEO) 젠슨 황이 2025년과 2026년을 합쳐 총 5000억달러(약 700조원) 규모의 AI 칩 주문을 확보했다고 밝히며 인공지능 투자 붐이 여전히 강력하다는 신호를 보냈다.황 CEO는 지난 10월 워싱턴 D.C.에서 열린 GTC 콘퍼런스에서 “현재 장부에 올라와 있는 주문이 5000억달러에 달한다”고 공개했다. 이 주문에는 2025년 매출과 현재 출하 중인 블랙웰(Blackwell) GPU, 2026년 출시 예정인 루빈(Rubin) GPU, 그리고 네트워킹 장비 등이 포함됐다.울프 리서치의 크리스 카소 애널리스트는 이번 공개가 2026년 데이터센터 매출이 기존 전망치보다 약 600억달러 높을 것임을 시사한다고 분석했다. 카소 애널리스트는 “엔비디아의 공개 내용은 현재 시장 컨센서스 대비 명확한 상승 여력을 보여준다”고 평가했다.실적 발표 앞두고 긴장감 고조엔비디아는 19일(현지시간) 2026 회계연도 3분기 실적을 발표한다. 시장은 매출 549억달러, 주당순이익 1.25달러를 예상하고 있으며, 이는 전년 동기 대비 56% 증가한 수치다.그러나 17일 뉴욕증시에서 엔비디아 주가는 전장 대비 1.8% 하락 마감했다. 최근 소프트뱅크와 피터 틸 등 주요 투자자들이 보유 지분을 전량 매각했다는 소식이 전해지면서 투자 심리가 위축된 것으로 분석된다.대규모 계약으로 미래 성장 기반 확보엔비디아는 9월 오픈AI(OpenAI)와 최대 1000억달러 규모의 전략적 파트너십을 체결했다. 이 계약에 따라 오픈AI는 최소 10기가와트 규모의 데이터센터를 구축하며, 수백만 개의 엔비디아 GPU를 도입할 예정이다.구글(Google [GOOG +3.11%]), 아마존(Amazon [AMZN -0.78%]), 마이크로소프트(Microsoft [MSFT -0.53%]), 메타(Meta [META -1.22%]) 등 주요 빅테크 기업들도 모두 AI 인프라 투자 확대를 발표했다. 모건스탠리는 하이퍼스케일러들의 자본 지출이 2026년 약 5500억달러로 24% 증가할 것으로 전망했다.한편 한국 정부와 삼성전자 [SSUN.F -4.07%], SK그룹, 현대자동차 [005380.KS -2.58%]는 10월 각각 최대 5만개의 블랙웰 GPU를 도입하기로 했으며, 네이버 [035420.KS -2.35%]는 6만개 이상을 구매할 계획이다.
1214 조회
0 추천
2025.11.18 등록
(퍼플렉시티가정리한기사)엘론머스크의인공지능스타트업xAI는2025년11월17일Grok4.1을출시하며정확도에서극적인개선을이루고업계에서가장경쟁이치열한벤치마크중하나에서선두자리를차지했습니다.이모델은AI가거짓이거나무의미한정보를생성하는환각현상을이전버전에비해약3분의2감소시켰습니다.​xAI에따르면,Grok4.1의환각비율은Grok4Fast의12.09%에서단4.22%로감소했으며,FActScore지표는9.89%에서2.97%로개선되었습니다.이모델은현재LMArena의TextArena리더보드에서사고모드로1483의Elo점수로1위를차지하고있으며,빠른모드에서는1465점으로2위를기록하고있습니다—이는가장가까운비xAI모델보다31점앞선수치입니다.​감성지능과창의적성장정확도향상을넘어,Grok4.1은감성지능분야에서EQ-Bench3에서1586점,CreativeWritingv3에서1722점의기록적인점수를달성했으며,이는xAI의이전최고기록대비600점향상된수치입니다.회사는이러한발전이성격일관성과미묘한의도감지에초점을맞춘강화학습시스템덕분이라고밝혔습니다.​11월1일부터14일까지진행된조용한출시기간동안,xAI는모델을실제트래픽에노출시키고지속적인블라인드선호도테스트를실시했으며,Grok4.1은이전프로덕션모델대비64.8%의선호도를기록했습니다.ArenaExpert리더보드에서씽킹버전은1510점을기록했으며,표준버전은1437점으로19위를차지했습니다.​프리미엄옵션이포함된무료액세스이모델은grok.com,X,모바일앱을통해전세계모든사용자에게무료로제공되며,이는유료장벽없이최첨단모델을제공하는xAI의패턴을이어가고있습니다.XPremium+구독자를포함한프리미엄등급은더높은사용한도를받습니다.회사는테네시주멤피스에있는Colossus슈퍼컴퓨터를사용하여Grok4.1을구축했으며,이시스템은200,000개이상의GPU를보유하고있으며세계최대AI훈련시스템으로간주됩니다.​이번출시는AI부문에서경쟁이심화되는가운데이루어졌으며,Google이연말까지Gemini3.0출시를준비하고있는것으로알려졌습니다.OpenAI는최근자체성능개선과함께GPT5.1을출시했습니다.
1197 조회
0 추천
2025.11.18 등록
(퍼플렉시티가정리한기사)구글딥마인드와구글리서치는11월17일WeatherNext2를공개했습니다.이는이전버전보다8배빠른예측을제공하고시간별해상도예보를제공하는고급AI날씨예측모델입니다.이모델은단일처리칩에서1분이내에수백가지의가능한날씨시나리오를생성할수있으며,이는기존슈퍼컴퓨터로는몇시간이걸리는작업입니다.​WeatherNext2는0일에서15일까지의예측리드타임에걸쳐온도,바람,습도를포함한99.9%의날씨변수에서구글의이전모델을능가합니다.이기술은이미구글검색,Gemini,PixelWeather,그리고구글맵스플랫폼의WeatherAPI에서날씨예보를지원하고있으며,앞으로몇주내에구글맵스에도통합될예정입니다.​향상된예측및비즈니스애플리케이션이모델은열대폭풍경로를최대3일전에예측하는데특히강점을보이며,이는이전버전보다하루개선된것입니다.DeepMindAI연구원AkibUddin에따르면,시간별예보는에너지거래자및기타산업에특히유용합니다.Uddin은Bloomberg와의인터뷰에서"더세밀한예보를제공합니다"라고말했습니다."많은다른산업들이이러한1시간단위에상당한관심을보이고있습니다.이를통해더정확한의사결정을할수있습니다".​이혁신은FunctionalGenerativeNetwork라는새로운접근방식에서비롯되었으며,이는온도나풍속과같은개별기상요소만으로모델을훈련시키지만,지역열파나풍력발전소출력과같은복잡하게상호연결된시스템을예측할수있게합니다.​한계점및경쟁환경발전에도불구하고,DeepMind연구과학자FerranAlet은훈련데이터의공백으로인해이모델이이상치강우및강설사건을예측하는데어려움을겪을가능성이있다고인정했습니다."이것은우리예보의한가지한계이지만,우리가개선하기위해노력하고있는부분입니다"라고Alet은Bloomberg에말했습니다.​WeatherNext2는현재GoogleCloudVertexAI,BigQuery,EarthEngine을통해기업과연구자들에게제공되고있습니다.이모델은,,AccuWeather,Huawei를포함한회사들이모두AI기반기상예보시스템을개발하고있는점점더경쟁적인분야에진입했습니다.
1117 조회
0 추천
2025.11.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입