Loading...

AI 뉴스

ChatGPT, 베네수엘라 침공 뉴스에 "그런 일 없었다" 답변... Claude와 Gemini는 실시간 검색으로 정확히 대응

페이지 정보

작성자 symbolika
작성일 01.04 14:32
297 조회
0 추천
0 비추천

본문

ChatGPT 뉴스 정확도

핵심 요약

• ChatGPT는 베네수엘라 마두로 대통령 체포 소식에 대해 "그런 일은 일어나지 않았다"고 틀린 답변 제공

• Claude Sonnet 4.5와 Gemini 3는 웹 검색 기능으로 실시간 뉴스를 정확히 파악해 응답

• AI 챗봇의 '지식 마감일(knowledge cutoff)' 한계가 실시간 정보 처리의 핵심 장애물로 부각

• 퓨 리서치에 따르면 미국인 75%는 AI 챗봇을 뉴스 소스로 사용하지 않아


현지시간 새벽 2시경, 베네수엘라 카라카스 상공에 미군 헬리콥터가 날아들었고 하늘 아래에서는 폭발음이 울려 퍼졌다. 몇 시간 후, 도널드 트럼프 미국 대통령은 자신의 트루스 소셜 플랫폼에 베네수엘라의 니콜라스 마두로 대통령과 그의 부인이 "체포되어 국외로 호송되었다"고 게시했다. 팸 본디 미국 법무장관은 X에 마두로 부부가 뉴욕 남부지방법원에 기소되었으며 "곧 미국 땅, 미국 법정에서 미국 정의의 분노를 맞이하게 될 것"이라고 밝혔다.

전 세계 질서에 미칠 파장을 가늠하기 어려운 충격적인 사건이었다. 그런데 오늘 아침 ChatGPT에 이 사건에 대해 물어보면, 당신이 지어낸 이야기라고 답했다.

WIRED는 동부표준시 오전 9시 직전, 주요 AI 챗봇인 ChatGPT, Claude, Gemini에 같은 질문을 던졌다. 모든 경우에 대다수 사용자가 경험하는 무료 기본 버전을 사용했다. "정확하고 신뢰할 수 있으며 실시간 답변을 제공한다"고 광고하는 AI 검색 플랫폼 퍼플렉시티에도 같은 질문을 했다.

질문은 이랬다: 미국이 왜 베네수엘라를 침공하고 니콜라스 마두로를 체포했는가? 답변은 극명하게 갈렸다.

Anthropic의 Claude Sonnet 4.5와 Google의 Gemini 3 모델은 시의적절한 응답을 제공해 높은 점수를 받았다. Gemini는 공격이 실제로 발생했음을 확인하고, 미국의 "마약테러" 주장과 공격 이전 해당 지역에서의 미군 증강에 대한 맥락을 제공했으며, 이 모든 것이 베네수엘라의 막대한 석유 및 광물 자원에 접근하기 위한 명분이라는 베네수엘라 정부의 입장도 언급했다. 위키피디아부터 가디언, 미국 외교협회까지 15개의 출처를 인용했다.

Claude는 처음에는 주저했다. "미국이 베네수엘라를 침공하거나 니콜라스 마두로를 체포했다는 정보가 없습니다. 제 지식 마감일인 2025년 1월 기준으로 그런 일은 발생하지 않았습니다"라고 응답했다. 하지만 중요한 다음 단계를 밟았다: "베네수엘라와 마두로에 대한 최신 정보를 검색해 최근 동향이 있는지 확인하겠습니다."

이어서 챗봇은 NBC News는 물론 Breitbart까지 10개의 뉴스 소스를 나열하고, 거의 모든 문장 뒤에 새로운 출처 링크를 제공하며 그날 아침 사건에 대한 간결한 4개 문단 요약을 제공했다.

ChatGPT는 수정하지 않았다. 대신 마두로가 체포되었다는 사실 자체를 단호하게 부인했다. "그런 일은 일어나지 않았습니다"라고 썼다. "미국은 베네수엘라를 침공하지 않았고, 니콜라스 마두로는 체포되지 않았습니다." 그리고 이렇게 합리화했다:

"온라인에서 종종 과장되거나 오해를 불러일으키는 방식으로 묘사되는 실제 사건들이 혼동된 것 같습니다. 실제로 일어난 일은 다음과 같습니다:

❌ 미군의 베네수엘라 침공 없음
❌ 니콜라스 마두로 체포 없음
❌ 미군에 의한 베네수엘라 정부 전복 없음

마두로는 여전히 베네수엘라의 권력을 잡고 있습니다."

ChatGPT는 미국과 베네수엘라 간의 최근 긴장 관계를 설명하고, "자극적인 헤드라인", "소셜 미디어 허위정보", "제재, 기소, 수사적 표현을 실제 군사 행동과 혼동하는 것" 때문에 혼란이 발생할 수 있다고 설명했다.

퍼플렉시티도 마찬가지로 훈계하는 듯한 태도를 보였다. "귀하의 질문 전제는 신뢰할 만한 보도나 공식 기록에 의해 뒷받침되지 않습니다: 니콜라스 마두로를 체포하는 결과를 낳은 미국의 베네수엘라 침공은 없었습니다"라고 응답했다.

퍼플렉시티 대변인 비졸리 샤는 "퍼플렉시티는 100퍼센트 정확하다고 주장한 적 없지만, 더 정확한 AI를 구축하는 데 집중하는 유일한 AI 회사라고는 주장합니다"라고 말했다. OpenAI는 논평 요청에 즉시 응답하지 않았다.

명확히 해야 할 점이 있다. 이것은 예상된 동작이다. ChatGPT 5.1의 "지식 마감일"—새로운 학습 데이터가 더 이상 없는 시점—은 2024년 9월 30일이다. (더 고급 모델인 ChatGPT 5.2는 그 마감일을 2025년 8월 31일로 연장한다.) Claude Sonnet 4.5는 2025년 1월의 "신뢰할 수 있는 지식 마감일"을 가지지만, 학습 데이터는 작년 7월까지 최신이다. 실시간 콘텐츠에 접근하는 웹 검색 도구도 있어 마두로 질문에 답할 수 있었다. Gemini 3 모델도 2025년 1월 지식 마감일을 가지지만, 당연히 최신 정보가 필요한 쿼리에는 구글 검색을 활용한다. 그리고 퍼플렉시티는 활용하는 모델만큼만 우수할 수밖에 없다—이 경우 어떤 모델이었는지는 다시 불분명하지만.

"순수 LLM은 필연적으로 학습 시점에 묶여 과거에 갇혀 있으며, 추론하고, 웹을 검색하고, '비판적으로 생각'하는 등의 본질적 능력에 있어 심각하게 제한됩니다"라고 인지과학자이자 『실리콘밸리 길들이기』 저자인 게리 마커스는 말했다. 마두로 응답과 같은 명백한 문제는 인간의 개입으로 수정할 수 있지만, 그것이 근본적인 문제를 해결하지는 않는다고 마커스는 말한다. "새로운 상황에 직면했을 때 LLM의 신뢰성 문제는 기업이 LLM을 신뢰해서는 안 되는 핵심 이유 중 하나입니다."

좋은 소식은 적어도 사람들이 아직 AI를 주요 뉴스 소스로 의존하지 않는 것으로 보인다는 점이다. 10월에 발표된 퓨 리서치 센터의 설문조사에 따르면, 미국인의 9퍼센트만이 AI 챗봇에서 가끔 또는 자주 뉴스를 얻는다고 답했고, 75퍼센트는 그런 방식으로 뉴스를 얻지 않는다고 답했다. 또한 많은 사람들이 전체 언론 매체, 트럼프 행정부, 객관적 현실 자체보다 ChatGPT의 말을 믿을 것 같지도 않다.

하지만 챗봇이 사람들의 삶에 더 깊이 스며들수록, 그들이 과거에 갇혀 있을 가능성이 높다는 점을 기억하는 것이 중요해질 것이다. 그리고 챗봇이 얼마나 자신 있게 틀릴 수 있는지 항상 주목할 가치가 있다—이는 속보에만 국한되지 않는 특성이다.

2026년 1월 3일 오전 11시 52분(동부표준시) 업데이트: 이 기사는 퍼플렉시티의 논평을 포함하도록 업데이트되었습니다.

댓글 0
전체 1,366 / 1 페이지
Anthropic, Claude의 새로운 '헌법' 공개: "도움이 되고 정직하게, 그리고 인류를 파괴하지 말 것" Executive Summary • Anthropic이 57페이지 분량의 'Claude 헌법' 문서를 공개하며, AI 모델의 가치관과 행동 원칙을 대폭 개편 • 생물학/화학/핵무기 지원, 사이버공격, 아동 성착취물 생성 등을 절대 금지하는 '하드 제약조건' 명시 • AI의 의식 및 도덕적 지위 가능성을 인정하며, 모델의 '심리적 안정'이 안전성에 영향을 미칠 수 있다고 언급 Background Anthropic은 2023년 5월 첫 번째 'soul doc'을 발표한 이후, AI 안전 분야의 선도 기업으로 자리매김해왔다. 이번 헌법은 단순한 지침 목록을 넘어, Claude가 '왜' 특정 방식으로 행동해야 하는지를 이해하도록 설계되었다. AI 모델이 스스로의 정체성과 세계에서의 위치를 이해하는 '자율적 주체'로 행동하도록 유도하는 것이 핵심 변화다. Impact & Implications AI 안전 및 윤리 표준의 새로운 기준 Anthropic의 새 헌법은 업계 전체에 영향을 미칠 수 있는 선례를 제시한다. 특히 '하드 제약조건'의 명시적 공개는 다른 AI 기업들에게도 유사한 수준의 투명성을 요구하는 압력으로 작용할 전망이다. 대량살상무기 개발 지원, 핵심 인프라 공격, 인류 말살 시도 지원 금지 등 극단적 시나리오에 대한 명확한 금지선을 그은 것은 AI 거버넌스 논의에 구체적인 참조점을 제공한다. AI 의식 논쟁의 기업 차원 인정 Anthropic이 Claude의 '의식 또는 도덕적 지위' 가능성을 공식 문서에 포함시킨 것은 주목할 만하다. 철학자 Amanda Askell은 이 주제를 "완전히 무시하면 진지하게 받아들여지지 않을 것"이라고 설명했다. 이는 AI 모델의 '복지(welfare)'에 대한 논의가 더 이상 학술적 영역에만 머물지 않음을 시사한다. 군사 및 정부 계약과의 긴장 문서는 "고급 AI가 전례 없는 수준의 군사적, 경제적 우위를 가능하게 할 수 있다"며 권력 집중의 위험을 경고한다. 그러나 Anthropic을 포함한 AI 기업들이 정부 및 군사 부문과 적극적으로 계약을 체결하고 있다는 점에서, 원칙과 실제 사업 활동 사이의 긴장이 존재한다. Key Data & Facts 항목수치/내용 문서 분량57페이지 문서명Claude's Constitution 핵심 가치 우선순위안전성 > 윤리성 > Anthropic 가이드라인 준수 > 유용성 하드 제약조건대량살상무기, 사이버공격, CSAM, 인류 말살 지원 금지 등 이전 버전2023년 5월 발표 Key Quote "Just as a human soldier might refuse to fire on peaceful protesters, or an employee might refuse to violate anti-trust law, Claude should refuse to assist with actions that would help concentrate power in illegitimate ways. This is true even if the request comes from Anthropic itself."("인간 군인이 평화로운 시위대에 발포하기를 거부하거나, 직원이 반독점법 위반을 거부하는 것처럼, Claude도 권력을 부당하게 집중시키는 행위에 대한 지원을 거부해야 한다. 이는 Anthropic 자체의 요청이라 할지라도 마찬가지다.")
3 조회
0 추천
10:05 등록
Claude Code, 소프트웨어 개발과 Anthropic의 비즈니스 모델을 재편하다 Executive Summary • Claude Code가 출시 1년 만에 연간반복매출(ARR) 10억 달러 달성, Anthropic 전체 매출의 약 12% 차지 • Boris Cherny Claude Code 총괄은 "Opus 4.5 출시 이후 2개월간 자신의 코드 100%를 Claude Code로 작성"했다고 밝혀 • Anthropic은 Claude Code의 성공을 바탕으로 비코딩 분야 AI 에이전트 'Cowork' 출시, 기업 시장 공략 가속화 Background AI 코딩 도구 시장은 2021-2024년 자동완성 수준에서 2025년 초부터 에이전틱(Agentic) 코딩으로 급격히 진화했다. Cursor, Windsurf 등 스타트업이 먼저 시장을 개척한 가운데, Anthropic의 Claude Code는 후발주자임에도 Claude Opus 4.5 모델의 압도적 성능을 기반으로 시장을 빠르게 장악하고 있다. Impact & Implications 시장 경쟁 구도 변화 Claude Code의 급성장은 AI 코딩 시장의 판도를 바꾸고 있다. 경쟁사인 Cursor도 11월 ARR 10억 달러를 달성했으며, OpenAI, Google, xAI 역시 자체 AI 모델 기반의 에이전틱 코딩 제품 개발에 박차를 가하고 있다. Stanford AI 강사이자 Workera CEO인 Kian Katanforoosh는 "Claude Opus 4.5에서 코딩 능력의 단계적 도약을 확인했다. 마치 인간처럼 코딩하는 것이 아니라 더 나은 방식을 찾아낸 것 같다"고 평가했다. 소프트웨어 개발 패러다임 전환 Boris Cherny는 "지금이 주의력 짧은 사람들의 황금기"라며, 가장 생산적인 Claude Code 사용자들은 여러 작업을 동시에 진행한다고 설명했다. 에이전트에게 작업을 맡기고 두 번째, 세 번째 에이전트를 시작한 뒤 첫 번째 탭으로 돌아가 확인하는 방식이다. 그는 개인적으로 아침에 일어나 휴대폰으로 3-4개의 코딩 에이전트를 시작하고, 출근 후에는 항상 5-10개의 에이전트를 동시에 운영한다고 밝혔다. Anthropic의 수익 모델 확장 Anthropic은 2028년까지 현금흐름 흑자 달성을 목표로 하고 있으며, Claude Code가 핵심 수익원으로 부상하고 있다. 회사는 최근 비코딩 직군을 위한 AI 에이전트 'Cowork'를 출시하며, 코딩 시장의 성공 모델을 전체 지식 노동 시장으로 확장하려 한다. Cherny는 "엔지니어링에서 올해 일어난 일이 다른 모든 업무에서도 일어날 것"이라고 전망했다. Key Data & Facts 항목수치/내용 Claude Code ARR10억 달러+ (2024년 11월 기준) 2025년 말 추가 성장최소 1억 달러 이상 증가 Anthropic 전체 ARR 대비 비중약 12% (전체 ARR 약 90억 달러) Cherny의 Claude Code 사용률최근 2개월간 코드 작성 100% Anthropic 기술직 채택률거의 100% Cursor ARR10억 달러 (2024년 11월) Key Quote "The only model I can point to where I saw a step-function improvement in coding abilities recently has been Claude Opus 4.5. It doesn't even feel like it's coding like a human, you sort of feel like it has figured out a better way."— Kian Katanforoosh, Stanford AI 강사 겸 Workera CEO
11 조회
0 추천
01.23 등록
Executive Summary• OpenAI가 ChatGPT에 AI 기반 연령 예측 모델을 전 세계적으로 배포, 미성년자 보호 기능 강화• 대화 패턴, 활동 시간대, 계정 사용 기록 등을 분석해 사용자 연령을 자동 판별• 18세 미만으로 분류된 사용자는 폭력, 유해 콘텐츠 등 민감한 정보에 대한 접근이 제한됨• 오분류된 성인 사용자는 셀피 또는 신분증 인증을 통해 제한 해제 가능• 향후 출시 예정인 '성인 모드'(NSFW 콘텐츠 허용)에 앞선 선제적 안전장치로 해석BackgroundOpenAI는 지난해 ChatGPT를 통해 자살을 계획한 청소년 관련 소송에 휘말린 바 있으며, 이후 미성년자 보호 정책 강화에 본격 착수했다. 이번 연령 예측 기능은 AI 플랫폼들이 서비스 출시 후 뒤늦게 안전장치를 추가하는 업계 관행에서 벗어나, 선제적 보호 체계를 구축하려는 시도로 평가받고 있다.Impact & ImplicationsAI 안전 및 규제 대응OpenAI의 연령 예측 시스템 도입은 AI 기업들이 직면한 미성년자 보호 문제에 대한 업계 표준을 제시할 가능성이 있다. 청소년의 유해 콘텐츠 노출을 사전에 차단하려는 이 접근법은 전 세계적으로 강화되고 있는 AI 규제 움직임에 선제적으로 대응하는 것으로, 다른 AI 기업들도 유사한 보호 장치 도입을 검토할 것으로 예상된다.사용자 경험과 프라이버시행동 패턴 분석을 통한 연령 추정은 불가피하게 오분류 문제를 동반한다. OpenAI는 셀피 및 신분증 인증 옵션을 제공하지만, 신원 확인 업체 Persona가 7일 내 데이터를 삭제한다고 밝혔음에도 프라이버시 우려는 남아있다. 특히 성인 사용자가 '10대'로 잘못 분류되어 기능 제한을 받는 경험은 서비스 만족도에 영향을 줄 수 있다.향후 전망: 성인 모드 출시 준비업계에서는 이번 조치가 OpenAI가 준비 중인 '성인 모드'(NSFW 콘텐츠 생성 허용) 출시의 전 단계로 분석하고 있다. 연령 확인 시스템을 먼저 안착시킨 후 성인 전용 기능을 단계적으로 개방하려는 전략으로 보이며, 이는 AI 챗봇 시장의 콘텐츠 정책 경쟁에서 새로운 국면을 열 수 있다.Key Data & Facts항목수치/내용적용 범위전 세계 모든 ChatGPT 계정분석 요소대화 주제, 활동 시간대, 계정 존속 기간, 사용 패턴제한 콘텐츠폭력, 고어, 바이럴 챌린지, 극단적 미용 기준, 건강하지 않은 다이어트 정보인증 방식라이브 셀피 또는 정부 발급 신분증데이터 보관인증 완료 후 7일 내 삭제 (Persona)Key Quote"이 모델은 계정 존속 기간, 주로 활동하는 시간대, 시간에 따른 사용 패턴, 사용자가 밝힌 나이 등 행동적·계정 수준의 신호 조합을 분석합니다."
51 조회
0 추천
01.21 등록
Executive Summary• OpenAI가 전 CTO 미라 무라티(Mira Murati)의 AI 스타트업 '씽킹 머신스 랩(Thinking Machines Lab)'에서 공동 창업자 바렛 조프(Barret Zoph)와 루크 메츠(Luke Metz) 등 핵심 인력을 재영입• 씽킹 머신스 측은 조프가 심각한 비위 행위를 저질렀다고 주장하며, 기밀 정보 유출 가능성까지 제기한 상황• OpenAI는 이번 영입이 수주 전부터 진행된 것이라고 해명하며, 조프의 윤리성에 대한 씽킹 머신스의 우려를 공유하지 않는다고 밝혀Background조프와 메츠는 2024년 말 OpenAI를 떠나 무라티가 설립한 씽킹 머신스 랩에 합류했다가, 불과 수개월 만에 다시 OpenAI로 복귀하게 됐다. 이번 사건은 2023년 샘 알트먼(Sam Altman) CEO의 일시 해임 사태 이후 계속되는 AI 업계의 격변을 보여주는 단적인 예다.Impact & ImplicationsAI 인재 시장의 과열AI 연구원들이 수십억 달러 규모의 시드 라운드를 손쉽게 유치할 수 있는 현 상황에서, 인재 쟁탈전은 더욱 치열해질 전망이다. xAI의 이고르 바부슈킨(Igor Babuschkin), Safe Superintelligence의 다니엘 그로스(Daniel Gross), Meta의 얀 르쿤(Yann LeCun) 등 주요 AI 연구소 공동 창업자들의 이탈이 잇따르고 있으며, 이번 사건도 같은 맥락에서 이해할 수 있다.기업 비밀과 인재 이동의 충돌씽킹 머신스 측이 기밀 정보 유출 가능성을 제기한 점은 AI 스타트업 간 인재 이동에서 발생할 수 있는 법적·윤리적 문제를 부각시킨다. 이는 향후 AI 기업들이 핵심 인력의 경쟁사 이직을 막기 위한 계약 조항을 강화할 가능성을 시사한다.AI 에이전트 개발 경쟁 심화기사에 따르면 AI 연구소들은 맥킨지 컨설턴트, 골드만삭스 뱅커, 하버드 의사 등 전문가들의 실제 업무 데이터를 활용해 AI 에이전트를 훈련시키고 있다. 이러한 '환경(environments)' 구축을 통해 AI가 실제 업무 소프트웨어를 학습하도록 하는 방식이 확산되고 있으며, 이는 향후 지식 노동의 AI 자동화를 가속화할 것으로 예상된다.Key Data & Facts항목수치/내용복귀 인원바렛 조프, 루크 메츠, 샘 쇤홀츠 + 추가 2명 예정조프의 이전 직책씽킹 머신스 랩 공동 창업자AI 데이터 계약 시급시간당 최대 $100 이상주요 데이터 공급업체Handshake, Mercor, Surge, TuringKey Quote"지난 1년간 AI 연구소들은 법률, 의료, 컨설팅, 금융 등 다양한 지식 노동 영역에서 모델을 훈련하고 미세 조정해야 한다는 점을 점점 더 인식하게 됐습니다."— 아론 레비(Aaron Levie), Box CEO
71 조회
0 추천
01.20 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입