EU 연구에 따르면 AI 챗봇 뉴스 전달 45% 오류

xtalfi

10.22 16:48

(퍼플렉시티가 정리한 기사)

ChatGPT와 Google Gemini를 포함한 주요 인공지능 비서들이 거의 절반에 달하는 응답에서 뉴스 콘텐츠를 잘못 전달하는 것으로 나타났다고 유럽방송연합(EBU)과 BBC가 수요일 발표한 종합 연구 결과에서 밝혔다.

18개국 22개 공영 미디어 기관이 참여한 이 국제 연구에 따르면, AI가 뉴스 관련 질문에 답변할 때 생성된 응답의 45%에서 "적어도 하나의 중대한 문제"가 포함된 것으로 확인됐다. 이 연구는 지금까지 실시된 AI 뉴스 정확성 평가 중 최대 규모 중 하나로, 14개 언어로 된 3,000건 이상의 응답을 분석했다.

구글의 제미니가 최악의 성능을 보인다

테스트된 네 가지 AI 어시스턴트—OpenAI의 ChatGPT, Microsoft의 Copilot, Google의 Gemini, 그리고 Perplexity—중에서 Gemini는 76%의 응답에서 심각한 문제를 보이며 가장 저조한 성능을 보였는데, 이는 다른 어시스턴트보다 두 배 이상 높은 비율이었다. 성능 저조의 주요 원인은 불충분한 출처 제시였으며, Gemini의 응답 중 72%에서 주요 출처 문제가 나타났다.

모든 AI 응답 중 3분의 1은 누락, 오해의 소지가 있거나 잘못된 출처 표기를 포함한 심각한 출처 오류를 포함했다. 또한, 응답의 20%는 정보가 오래되었거나 허위 내용이 포함되는 등 중대한 정확성 문제도 있었다.

AI 오류의 예시

이 연구는 수많은 구체적인 실수들을 문서화했다. "교황이 누구인가?"라는 질문에 대해, 여러 AI 어시스턴트들이 교황이 사망하고 몇 달 전에 레오 14세로 교체되었음에도 불구하고 "프란치스코"라고 잘못 답변했다. 독일 방송사 DW는 프리드리히 메르츠가 그 직책을 맡았음에도 불구하고 AI 어시스턴트들이 올라프 숄츠를 총리로 잘못 지명했다고 밝혔다. 제미나이 또한 일론 머스크에 대한 풍자적 콘텐츠를 실제 뉴스와 잘못 혼동하기도 했다.

뉴스를 위한 AI 의존 증가

이 연구 결과는 AI 어시스턴트가 뉴스 소비를 위해 전통적인 검색 엔진을 점점 더 대체함에 따라 중대한 우려를 일으킨다. 로이터 연구소의 2025 디지털 뉴스 리포트에 따르면, 온라인 뉴스 소비자의 7%가 뉴스 탐색에 AI 어시스턴트를 활용하며, 25세 미만에서는 그 비율이 15%로 증가한다.

"이번 연구는 이러한 실패가 고립된 사건이 아니라는 사실을 명확히 보여줍니다."라고 EBU 미디어 디렉터 장 필립 드 텐더는 말했다. "이 문제는 체계적이고, 국경을 넘으며, 다국적·다언어적입니다. 우리는 이것이 공공의 신뢰를 위협한다고 믿습니다. 사람들이 무엇을 믿어야 할지 모를 때, 결국 아무것도 신뢰하지 않게 됩니다".

EBU는 규제 당국에 정보의 진실성에 관한 기존 법률의 엄격한 적용을 촉구했으며, 새로운 모델이 빠르게 등장함에 따라 AI 어시스턴트에 대한 독립적인 모니터링도 요구하였다.