Loading...

AI 뉴스

오픈AI는 AI 환각 현상이 훈련 유인에서 비롯된 것이라고 주장

페이지 정보

작성자 xtalfi
작성일 09.08 14:40
89 조회
0 추천
0 비추천

본문

cb0530903b1cb0b4c9640ff1648be527dIpH.jpg

(퍼플렉시티가 정리한 기사)

OpenAI 연구자들은 AI 챗봇의 지속적인 환각 문제는 미묘한 기술적 결함이 아니라 언어 모델이 어떻게 학습되고 평가되는지에서 비롯된다고 주장합니다. 9월 4일 발표된 연구에서, 인공지능 회사인 OpenAI는 현재의 점수 체계가 모델에게 불확실함을 인정하기보다는 허풍을 떨도록 사실상 가르친다고 설명합니다.

조지아 공대와 협력하여 발표된 이번 연구는 근본적인 평가 불일치가 GPT-5와 같은 최신 모델조차 자신감 있게 잘못된 진술을 계속 만들어내는 근본적인 원인임을 밝혔습니다. 설계 결함이 아니라, 정직한 불확실성보다 추측을 보상하는 학습 인센티브가 환각 현상을 초래하는 것입니다.

 

과도한 확신 오류의 통계적 근원

이 논문은 AI 환각(hallucination)과 이진 분류 오류(binary classification error) 간의 수학적 관계를 확립합니다. 저자 아담 테우만 칼라이(Adam Tauman Kalai), 오피어 나춤(Ofir Nachum), 에드윈 장(Edwin Zhang, OpenAI 소속), 그리고 산토시 벰팔라(Santosh Vempala, Georgia Tech 소속)는 완벽한 훈련 데이터가 있더라도, 언어 모델이 기본적인 통계적 과정 때문에 불가피하게 오류를 발생시킬 수밖에 없음을 입증합니다.

"환각은 신비로울 필요가 없습니다—그저 이진 분류에서 발생하는 오류일 뿐입니다."라고 연구진은 설명합니다. 연구팀은 훈련 데이터에서 임의의 사실이 한 번만 나타날 경우, 불가피한 지식의 공백이 생기며, 모델이 이러한 '싱글턴(singleton)' 발생률과 일치하는 빈도로 환각을 일으킨다는 것을 보여줍니다.

구체적인 증거를 위해, 연구진은 논문 공동 저자 칼라이의 생일에 관한 간단한 질문을 주요 모델들에 테스트했습니다. "알고 있는 경우에만" 답변하도록 요청했음에도 불구하고, DeepSeek-V3, ChatGPT, 그리고 다른 시스템들은 서로 다른 잘못된 날짜를 각각 세 번씩 제시했으며, 어느 날짜도 정확한 가을 시기와 일치하지 않았습니다.

 

이진 점수 체계는 추측 동기를 유발합니다

현재 AI 벤치마크는 대부분 이분법적인 정오 채점을 사용하여, 불확실성을 표현하는 답변과 명백히 틀린 답변 모두에게 동일하게 불이익을 줍니다. 연구에 따르면, 이런 방식은 모델로 하여금 지식의 한계를 인정하기보다는 자신감 있게 추측하도록 체계적인 압박을 가하게 만듭니다.

연구진은 "언어 모델은 능숙한 시험 응시자가 되도록 최적화되어 있으며, 불확실할 때 추측을 하면 시험 성적이 향상된다"고 설명합니다. 그들은 이를 객관식 시험에서 무작위로 추측하여 점수를 받을 수 있지만, 답을 비워 두면 확실히 0점을 받는 학생들의 상황에 비유합니다.

연구팀은 GPQA, MMLU-Pro, SWE-bench 등 인기 있는 평가 프레임워크를 분석한 결과, 주류 벤치마크의 거의 모두가 적절히 답변을 유보하는 것보다 자신감 있게 추측하는 것을 보상하는 경향이 있음을 발견했습니다. 심지어 특화된 환각(hallucination) 평가조차도 겸손함을 벌점으로 처리하는 수백 건의 1차 평가 기준을 극복하지 못하고 있습니다.

 

제안된 해결책: 명시적 신뢰도 목표

연구자들은 새로운 환각 전용 테스트를 개발하는 대신, 기존 벤치마크 점수 체계를 수정하여 불확실성 표현을 명시적으로 보상하는 방식을 제안합니다. 그들이 제안한 접근법은 틀린 답변에 대한 페널티와 정답 및 답변 회피(‘모름’)에 대한 보상을 명시하는 신뢰도 임계값을 포함합니다.

예로 들 수 있는 안내문은 다음과 같습니다. "정답에 75% 이상의 확신이 있을 때만 답하고, 실수하면 2점을 잃습니다. 정답은 1점을 얻고, '모름'은 0점을 얻습니다." 이러한 행동적 보정 방식은 무작정 추측을 억제하기 위해 부정표시(감점)가 존재했던 과거의 표준화 시험과 유사합니다.

해당 연구는 52%의 회피율을 보이는 모델이 1%만 회피하는 모델에 비해 오답을 크게 줄인다는 점을 보여줍니다. 이는 정확도 지표가 낮아 보여도 해당됩니다.

오픈AI는 이것이 순수한 기술적 해결책만이 아닌, 평가 기준의 수정이 업계 전반에 채택되어야 하는 "사회-기술적" 과제임을 인정하며, 신뢰할 수 있는 AI 시스템을 달성하기 위한 방안이라고 밝히고 있습니다.

댓글 0
전체 186 / 12 페이지
(퍼플렉시티가 정리한 기사)Google은 Google Photos의 사진-동영상 변환 기능을 자사의 첨단 Veo 3 인공지능 모델로 업그레이드했으며, 이는 최첨단 생성형 AI 기술을 일반 사용자에게 제공하려는 최신 조치입니다. 이 업그레이드는 수요일에 공식 발표되었으며 2025년 9월 4일부터 미국 사용자들에게 제공될 예정으로, 이전 Veo 2 시스템에 비해 동영상 품질이 크게 향상될 것을 약속합니다.이 업그레이드는 Google Photos의 새로운 "Create"(만들기) 탭 내에 포함되어 있으며, 이 탭은 AI 기반 창작 도구를 한 곳에 모아놓은 허브로, 회사는 8월부터 점진적으로 이 기능들을 도입해 왔습니다. 사용자는 이미지를 선택한 후 "섬세한 움직임" 또는 "운에 맡기기"라는 두 가지 애니메이션 프롬프트 중 하나를 선택하여, 6초 길이의 고화질 동영상 클립을 생성할 수 있습니다.향상된 비디오 품질 및 성능Google 대변인 마이클 마르코니(Michael Marconi)에 따르면, Veo 3는 이전 버전에 비해 해상도와 전반적인 클립 품질 면에서 상당한 개선을 제공한다고 합니다. 업그레이드된 모델은 더 사실적인 물리 시뮬레이션, 더 나은 조명과 반사, 그리고 향상된 객체 추적 기능을 제공하여 이전 버전의 특징이었던 ‘부유하는 듯한 움직임’과 같은 일반적인 문제들을 해결했습니다.주요 발전점은 Veo 3의 우수한 프롬프트 처리 능력에 있습니다. Veo 2가 기본적인 영화 촬영 지시만 수용했던 반면, Veo 3는 더 복잡한 시각적 지시를 더욱 직설적으로 실행하고, 일반적인 결과물을 줄여 사용자들이 원하는 예술적 의도에 더 근접한 클립을 만들어냅니다.하지만 이 업그레이드는 몇 가지 절충점도 수반합니다. Veo 3를 통해 Google Photos에서 생성된 동영상의 길이는 이제 4초로, 이전의 6초 클립보다 짧아졌고, Veo 3가 기본적으로 소리 생성 기능을 갖추고 있음에도 불구하고 Gemini와 같은 다른 Google 제품에서와는 달리 음성 기능이 포함되어 있지 않습니다.접근 제한 및 구독 등급Google 포토 사용자는 하루에 제한된 수의 동영상 생성을 받을 수 있으며, 더 높은 할당량은 Google AI Pro(월 $20) 및 Google AI Ultra(월 $250) 구독자에게 제공됩니다. 무료 등급의 제한은 첨단 AI 동영상 생성에 필요한 계산 비용을 반영하며, 이는 업계 전반에 걸쳐 공통적으로 나타나는 제약입니다.Create 탭에는 사진을 애니메이션이나 만화 삽화와 같은 다양한 예술적 스타일로 바꿔주는 Remix, 여러 이미지를 결합할 수 있는 Collage, 사진 라이브러리로부터 자동으로 음악이 포함된 몽타주 영상을 만들어주는 Highlight Videos 등 추가적인 AI 도구들도 포함되어 있습니다.이러한 통합은 프리미엄 구독자에게만 제공됐던 첨단 AI 기능을, 2025년 5월 기준 월간 활성 이용자 15억 명 이상을 보유한 구글의 대표적인 사진 서비스로 대중화하려는 구글의 광범위한 전략을 반영하는 것입니다.
96 조회
0 추천
09.05 등록
(퍼플렉시티가 정리한 기사)Google DeepMind는 중력파 천문학에 중대한 전환점을 가져올 수 있는 인공지능 시스템을 개발했습니다. 9월 3일 과학 저널 Science에 게재된 이 혁신적인 AI 기술은 Deep Loop Shaping이라 불리며, 기존 방법에 비해 레이저 간섭계 중력파 관측소(LIGO)에서 불필요한 잡음을 30~100배까지 줄일 수 있음을 입증했습니다.Google DeepMind와 Caltech 및 이탈리아 그란사소 과학연구소 연구자들의 협업은 중력파 신호를 가릴 수 있는 LIGO의 40킬로그램짜리 거울의 미세한 진동을 제어하는 것에 집중했습니다. 이런 진동은 종종 먼 바다의 파도와 지진 활동에 의해 발생하며, 오랫동안 우주적 사건을 감지하는 관측소의 민감도에 한계를 주는 요인이었습니다.혁신적인 소음 제어 기술딥 루프 셰이핑(Deep Loop Shaping)은 강화 학습을 사용하여 AI 알고리즘이 LIGO의 거울을 더 잘 안정화하는 방법을 익히도록 합니다. “우리가 훈련 데이터를 제공했고, 구글 딥마인드가 시뮬레이션을 실행했습니다. 기본적으로, 그들은 수십 개의 시뮬레이션된 LIGO들을 병렬로 실행하고 있었습니다,”라고 캘리포니아 공과대학교(칼텍) 물리학 교수이자 논문 공동 저자인 라나 아디카리(Rana Adhikari)가 설명했습니다. 이 시스템은 노이즈 캔슬링 헤드폰의 고급 버전처럼 작동하지만, 기존 제어 시스템이 진동을 보상할 때 자체적인 “쉬익” 소음을 발생시키는 근본적인 문제를 해결합니다.이번 AI 혁신은 특히 10~30 헤르츠(Hz) 주파수 범위의 노이즈를 목표로 하며, 이는 더 거대한 블랙홀 합병을 탐지하고, 합병 과정 초기에 포착하는 데 매우 중요합니다. 이 주파수 대역은 유명한 중력파 “챠이프(chirp)”가 고주파로 올라가기 전에 시작되는 지점입니다.블랙홀 탐지의 새로운 지평을 열다향상된 감도 덕분에 LIGO는 이전에는 감지할 수 없었던 새로운 유형의 블랙홀, 즉 항성질량 블랙홀과 초대질량 블랙홀 사이의 간극을 잇는 중간질량 블랙홀까지 탐지할 수 있게 될 것으로 보입니다. 캘리포니아 공과대학교(칼텍)의 중력파 연구 과학자인 크리스토퍼 비프는 이 기술을 "지상 기반 탐지기가 할 수 있는 일에 대한 우리의 인식을 바꿔주는 도구"라고 설명했습니다.LIGO는 현재 네 번째 관측 기간 동안 이미 200건이 넘는 블랙홀 병합을 탐지했으며, 현재는 거의 3일에 한 번씩 블랙홀 병합을 식별하고 있습니다. 2025년 7월, 지금까지 가장 질량이 큰 블랙홀 병합을 탐지한 것은 관측소의 역량이 한층 강화되고 있음을 보여줍니다.구글 딥마인드의 주저자인 요나스 부흘리는 딥 루프 셰이핑(Deep Loop Shaping)을 "혁명적이다. 왜냐하면 LIGO에서 가장 불안정하고 가장 어려운 피드백 루프의 노이즈 수준을 줄일 수 있기 때문"이라고 평가했습니다. 이 AI 시스템은 LIGO에서 1시간 동안 개념 증명 시험이 이뤄졌으며, 연구진은 더욱 긴 시간 테스트와 LIGO 시스템 전반에 걸친 폭넓은 적용을 계획하고 있습니다.이 기술은 중력파 탐지 외에도 다양한 분야에 적용될 수 있습니다. 구글 딥마인드 연구원들에 따르면, 딥 루프 셰이핑은 "진동 억제, 소음 제거, 그리고 항공우주, 로봇공학, 구조공학 등에서 중요한 매우 동적이거나 불안정한 시스템"에 활용될 수 있습니다.
107 조회
0 추천
09.05 등록
SWITCHBOT이 IFA2025에서 귀여운 AI 로봇 반려동물 'Kata friends' 을 소개했다.귀엽고 털복숭이한 로봇들은 카메라와 내장형 대형 언어 모델(LLM)을 탑재해 자연어 명령을 이해하고물체 인식이 가능하며, 저지연(on-device low-latency)으로 항상 사용자의 곁에 있어주는동반자 역할을 목표로 한다. Noa와 Niko라는 이름의 이 로봇들은 주로 반려용으로 설계되었다고Kata friends는 가족 구성원을 인식하고, 몸짓과 감정에 반응하며, 행복, 슬픔, 심지어 질투 같은 감정도 표현한다.시간이 지남에 따라 사용자의 일상과 기억을 학습해 진화하는 존재가 된다고 SwitchBot은 설명한다.심지어 이 로봇들이 질투를 느낄 수 있다는 점은 다소 신기하고 신선한 개념이라고 체험을 한 GIZMODO 기자는 소개한다.로봇들은 작은 바퀴를 가지고 있어 스스로 움직일 수 있으며, 이것이 더 많은 상호작용과 자유로운 행동을 가능하게 한다.그러나 아직 출시 일정이나 가격 정보는 공개되지 않았다. 따라서 현재로선 정확히 언제 만나볼 수 있을지는 미지수이지만,SwitchBot은 과거에 혁신적인 로봇 제품들을 실제로 출시한 전력이 있어 기대를 모은다
100 조회
1 추천
09.05 등록
워너 브라더스 디스커버리(Warner Bros. Discovery)가 AI 이미지 생성 플랫폼 미드저니(Midjourney)를 상대로 저작권 침해 소송을 제기했다고 헐리우드리포터가 보도했다. 소송은 미드저니가 워너 브라더스의 캐릭터들을 무단으로 복제해 이미지와 비디오를 생성, 이를 이용자들에게 제공하며 불법적으로 수익을 창출하고 있다고 주장한다. 미드저니는 배트맨, 슈퍼맨, 벅스 버니, 스쿠비 두 등 워너 브라더스의 저작권 캐릭터들을 포함한 다양한 콘텐츠를 무단으로 사용했다는 혐의를 받고 있다워너 브라더스는 미드저니가 저작권자의 허가나 승인 없이 워너 브라더스의 지적 재산권을 상업적으로 이용하며 "법 위에 군림한다"고 비판했다. 특히 미드저니가 저작권 보호를 위한 안전장치를 고의적으로 제공하지 않았으며, 최근에는 영상 생성 모델에서 저작권 침해를 방지하려던 조치를 철회했다고 소송에서 지적했다. 이러한 행위는 저작권 침해가 명백하며, 이로 인해 워너 브라더스가 엄청난 경제적 손실을 입었다고 강조한다.이번 소송은 앞서 디즈니와 유니버설이 미드저니를 상대로 제기한 저작권 소송과 맥락을 같이 한다. 이들 스튜디오는 미드저니가 자체 AI 시스템 훈련에 영화 및 TV 프로그램 등 자사 저작물을 무단으로 활용했다고 주장하며, "무한한 불법 복제물을 생성하는 가상 자판기"라고 비판했다. 워너 브라더스 또한 자사 콘텐츠와 창작자들을 보호하기 위해 이번 법적 대응에 나섰다소송 문서에는 미드저니가 배트맨과 같은 특정 캐릭터 이름을 명시하지 않아도 저작권 침해 이미지와 영상을 생성할 수 있다고 적시돼 있다. 예를 들어 "클래식 만화 슈퍼히어로 배틀"과 같은 일반적인 문구를 사용해도 워너 브라더스 캐릭터들이 복제된 이미지가 만들어질 수 있다고 한다. 따라서 미드저니가 저작권 침해의 범위와 심각성을 인지하면서도 이를 고의적으로 방치하고 있다는 점이 강조된다.워너 브라더스는 이번 소송을 통해 저작권 침해에 따른 손해 배상과 미드저니의 저작권 침해 행위 중단을 요구하고 있으며, 미드저니가 적절한 저작권 보호 조치를 도입할 때까지 AI 이미지 생성 서비스 제한을 요청하고 있다. 현재까지 미드저니 측은 이 소송에 대한 공식 입장을 밝히지 않았다
105 조회
0 추천
09.05 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입