Loading...

AI 뉴스

오픈AI는 AI 환각 현상이 훈련 유인에서 비롯된 것이라고 주장

페이지 정보

작성자 xtalfi
작성일 2025.09.08 14:40
1,024 조회
0 추천
0 비추천

본문

cb0530903b1cb0b4c9640ff1648be527dIpH.jpg

(퍼플렉시티가 정리한 기사)

OpenAI 연구자들은 AI 챗봇의 지속적인 환각 문제는 미묘한 기술적 결함이 아니라 언어 모델이 어떻게 학습되고 평가되는지에서 비롯된다고 주장합니다. 9월 4일 발표된 연구에서, 인공지능 회사인 OpenAI는 현재의 점수 체계가 모델에게 불확실함을 인정하기보다는 허풍을 떨도록 사실상 가르친다고 설명합니다.

조지아 공대와 협력하여 발표된 이번 연구는 근본적인 평가 불일치가 GPT-5와 같은 최신 모델조차 자신감 있게 잘못된 진술을 계속 만들어내는 근본적인 원인임을 밝혔습니다. 설계 결함이 아니라, 정직한 불확실성보다 추측을 보상하는 학습 인센티브가 환각 현상을 초래하는 것입니다.

 

과도한 확신 오류의 통계적 근원

이 논문은 AI 환각(hallucination)과 이진 분류 오류(binary classification error) 간의 수학적 관계를 확립합니다. 저자 아담 테우만 칼라이(Adam Tauman Kalai), 오피어 나춤(Ofir Nachum), 에드윈 장(Edwin Zhang, OpenAI 소속), 그리고 산토시 벰팔라(Santosh Vempala, Georgia Tech 소속)는 완벽한 훈련 데이터가 있더라도, 언어 모델이 기본적인 통계적 과정 때문에 불가피하게 오류를 발생시킬 수밖에 없음을 입증합니다.

"환각은 신비로울 필요가 없습니다—그저 이진 분류에서 발생하는 오류일 뿐입니다."라고 연구진은 설명합니다. 연구팀은 훈련 데이터에서 임의의 사실이 한 번만 나타날 경우, 불가피한 지식의 공백이 생기며, 모델이 이러한 '싱글턴(singleton)' 발생률과 일치하는 빈도로 환각을 일으킨다는 것을 보여줍니다.

구체적인 증거를 위해, 연구진은 논문 공동 저자 칼라이의 생일에 관한 간단한 질문을 주요 모델들에 테스트했습니다. "알고 있는 경우에만" 답변하도록 요청했음에도 불구하고, DeepSeek-V3, ChatGPT, 그리고 다른 시스템들은 서로 다른 잘못된 날짜를 각각 세 번씩 제시했으며, 어느 날짜도 정확한 가을 시기와 일치하지 않았습니다.

 

이진 점수 체계는 추측 동기를 유발합니다

현재 AI 벤치마크는 대부분 이분법적인 정오 채점을 사용하여, 불확실성을 표현하는 답변과 명백히 틀린 답변 모두에게 동일하게 불이익을 줍니다. 연구에 따르면, 이런 방식은 모델로 하여금 지식의 한계를 인정하기보다는 자신감 있게 추측하도록 체계적인 압박을 가하게 만듭니다.

연구진은 "언어 모델은 능숙한 시험 응시자가 되도록 최적화되어 있으며, 불확실할 때 추측을 하면 시험 성적이 향상된다"고 설명합니다. 그들은 이를 객관식 시험에서 무작위로 추측하여 점수를 받을 수 있지만, 답을 비워 두면 확실히 0점을 받는 학생들의 상황에 비유합니다.

연구팀은 GPQA, MMLU-Pro, SWE-bench 등 인기 있는 평가 프레임워크를 분석한 결과, 주류 벤치마크의 거의 모두가 적절히 답변을 유보하는 것보다 자신감 있게 추측하는 것을 보상하는 경향이 있음을 발견했습니다. 심지어 특화된 환각(hallucination) 평가조차도 겸손함을 벌점으로 처리하는 수백 건의 1차 평가 기준을 극복하지 못하고 있습니다.

 

제안된 해결책: 명시적 신뢰도 목표

연구자들은 새로운 환각 전용 테스트를 개발하는 대신, 기존 벤치마크 점수 체계를 수정하여 불확실성 표현을 명시적으로 보상하는 방식을 제안합니다. 그들이 제안한 접근법은 틀린 답변에 대한 페널티와 정답 및 답변 회피(‘모름’)에 대한 보상을 명시하는 신뢰도 임계값을 포함합니다.

예로 들 수 있는 안내문은 다음과 같습니다. "정답에 75% 이상의 확신이 있을 때만 답하고, 실수하면 2점을 잃습니다. 정답은 1점을 얻고, '모름'은 0점을 얻습니다." 이러한 행동적 보정 방식은 무작정 추측을 억제하기 위해 부정표시(감점)가 존재했던 과거의 표준화 시험과 유사합니다.

해당 연구는 52%의 회피율을 보이는 모델이 1%만 회피하는 모델에 비해 오답을 크게 줄인다는 점을 보여줍니다. 이는 정확도 지표가 낮아 보여도 해당됩니다.

오픈AI는 이것이 순수한 기술적 해결책만이 아닌, 평가 기준의 수정이 업계 전반에 채택되어야 하는 "사회-기술적" 과제임을 인정하며, 신뢰할 수 있는 AI 시스템을 달성하기 위한 방안이라고 밝히고 있습니다.

댓글 0
전체 610 / 112 페이지
(퍼플렉시티가 정리한 기사)마이크로소프트(Microsoft)는 Office 365 애플리케이션에 앤트로픽(Anthropic)의 인공지능 기술을 통합하고 있으며, 이는 오픈AI(OpenAI) 모델에만 의존하던 전략에서 벗어난 새로운 움직임입니다. 오늘 The Information에 보도된 바에 따르면, 이번 파트너십을 통해 두 회사의 기술이 마이크로소프트의 생산성 제품군 내에서 함께 작동할 예정이며, 개발자들은 앤트로픽의 최신 모델이 특정 자동화 작업에서 오픈AI를 능가할 수도 있다고 언급하고 있습니다.Anthropic 모델은 사무 작업에서 뛰어난 성과를 보입니다.Anthropic의 기술을 도입하기로 한 결정은 AI 기업의 최신 모델들, 특히 Claude Sonnet 4가 특정 Office 365 기능 자동화에서 우수한 성능을 보인 테스트 결과에 따른 것입니다. Microsoft의 생산성 앱용 AI 기능 개발에 참여한 개발자들은 Anthropic의 모델들이 특히 Excel에서의 재무 계산 실행 및 특정 지시 사항에 따른 PowerPoint 프레젠테이션 생성에서 뛰어남을 발견했습니다.이번 협력은 Microsoft가 Office 365의 AI 역량을 위해 이전까지 독점적으로 의존하던 OpenAI 기술에서 처음으로 의미 있는 전환을 시도하는 것입니다. 수년간 OpenAI의 모델이 Word, Excel, Outlook, PowerPoint 전반의 Copilot 기능을 구동해왔으나, 이제 회사는 AI 포트폴리오를 다각화하여 여러 공급업체를 포함시키고 있습니다.파트너십 갈등 속에서의 전략적 전환이 같은 상황은 마이크로소프트와 오픈AI 간의 관계에 대한 압력이 점점 커지고 있는 가운데 벌어지고 있습니다. 소프트웨어 거대 기업인 마이크로소프트는 2019년 이후 오픈AI에 130억 달러 이상을 투자했지만, 양사의 파트너십 계약은 2030년에 만료될 예정입니다. 최근 협상에서는 지분율, 수익 분배 방식, 독점적 권리 등에 초점이 맞춰졌으며, 오픈AI는 현재 20%인 마이크로소프트의 수익 지분을 줄이고자 하는 것으로 알려졌습니다.마이크로소프트는 자체 AI 모델인 MAI도 개발해왔으며, 이 모델들은 오픈AI와 Anthropic의 주요 모델과 비슷한 성능을 보이고 있습니다. 마이크로소프트는 8월에 MAI-Voice-1과 MAI-1-preview를 선보였는데, 이는 회사의 최초의 엔드투엔드 기반 모델로, 외부 AI 공급업체에 대한 의존도를 줄이려는 더 넓은 전략을 나타냅니다.AI 모델 포트폴리오 확장Anthropic의 통합은 Microsoft가 OpenAI를 넘어 인공지능 역량을 다양화하려는 광범위한 노력의 일부입니다. 이 회사는 Copilot 프레임워크 내에서 성능을 평가하기 위해 DeepSeek, Meta, xAI를 포함한 다양한 업체의 AI 모델을 테스트해 왔습니다. 이러한 다중 모델 접근법은 Microsoft가 다양한 비즈니스 분야에 맞춤형 솔루션을 제공하면서 단일 AI 공급업체에 대한 의존도를 줄일 수 있게 해줍니다.현재 Microsoft와 OpenAI의 파트너십은 OpenAI 모델을 자사 제품 및 클라우드 인프라에 통합할 독점 권한을 포함합니다. 하지만 최근 변경으로 인해 OpenAI의 Azure 독점권이 수정되어, Microsoft가 용량 요구를 충족하지 못할 경우 OpenAI가 다른 클라우드 공급자를 사용할 수 있는 '선매권(right of first refusal)' 모델로 전환되었습니다.Anthropic 기술의 Office 365 통합은 기업용 AI 환경이 변화하고 있음을 보여줍니다. 기업들은 점점 단일 공급업체 솔루션 대신, 유연성과 성능 최적화를 추구하고 있습니다. Microsoft와 Anthropic 모두 The Information의 보도 당시 파트너십 세부 사항에 대한 공식 입장을 내놓지 않았습니다.
974 조회
0 추천
2025.09.11 등록
(퍼플렉시티가 정리한 기사)Google은 Android, iOS, 웹 플랫폼 전반에서 Gemini AI 앱에 오디오 파일 업로드 기능을 추가하여 사용자들의 압도적인 수요에 응답했습니다. Google Labs 및 Gemini 부사장 Josh Woodward는 오디오 지원이 앱 출시 이후 사용자들이 요청한 "가장 많은 요청"이었다고 X에서 발표했습니다.이 기능을 통해 사용자는 MP3, WAV, M4A 등 일반적인 오디오 파일 형식을 앱의 업로드 인터페이스를 통해 직접 업로드할 수 있습니다. 무료 사용자는 하루 5번의 프롬프트로 총 10분 길이의 오디오를 처리할 수 있으며, Google AI Pro 또는 AI Ultra 플랜 구독자는 최대 3시간 분량의 오디오 업로드로 훨씬 더 많은 용량을 제공받습니다.멀티모달 AI 역량 확장이 오디오 기능은 사용자가 Gemini와 상호작용하는 방식을 변화시키며, 인터뷰를 기록하거나 음성 메모를 분석하고 강의 녹음을 검색 가능한 콘텐츠로 변환하는 등 새로운 사용 사례를 가능하게 합니다. 사용자는 이제 회의 녹음을 업로드하여 실행 항목이 포함된 요약을 요청하거나 대학 강의를 제출해 학습 가이드 생성을 요청할 수 있습니다.이번 업데이트는 Gemini를 수개월 전부터 오디오 업로드 기능을 지원해 온 OpenAI의 ChatGPT와 같은 경쟁업체들과 기능적 균형에 더 가까워지게 합니다. Android Police에 따르면, 올해 초 파일 업로드가 제공된 이후로 오디오 지원이 없었던 것은 "이상한 누락"이었다고 합니다.더 넓어진 제미니 생태계 업데이트오디오 기능과 함께, 구글은 AI 모드 검색 경험을 인도어, 인도네시아어, 일본어, 한국어, 브라질 포르투갈어 등 5개 새로운 언어로 확장했습니다. 이번 확장에서는 Gemini 2.5 기술의 맞춤형 버전을 활용하여 단순 번역을 넘어 문화적으로 적합한 답변을 제공합니다.구글은 또한 NotebookLM 연구 보조 도구를 80개 이상의 언어에서 사용자 맞춤형 보고서 형식을 지원하도록 업그레이드하여, 사용자가 업로드한 자료로부터 학습 가이드, 요약 문서, 블로그 글, 퀴즈 등을 생성할 수 있도록 했습니다. 이제 이 플랫폼은 사용자의 선호도에 따라 특정 구조, 스타일, 톤으로 보고서를 작성할 수 있습니다.오디오 업로드 기능은 빠르게 진화하는 인공지능 분야에서 멀티모달 기능의 중요성이 커지고 있는 가운데 구글이 자사의 AI 도구를 더욱 다양하고 경쟁력 있게 만들기 위한 지속적인 노력을 보여줍니다. 이러한 기능은 사용자 참여와 생산성 향상에 중요하게 작용합니다.
961 조회
0 추천
2025.09.11 등록
KBS가 만든 다큐 'AI 시대, 인간의 일'모든 산업에 AI가 혁명적으로 도입되는 지금, 일자리 우려가 많습니다.한번 볼만한 내용입니다.요약- AI 도입이 빠르게 확산: 자동차 공장과 물류창고 등 생산현장에 AI 기반 로봇과 휴머노이드가 투입되어, 인간의 일자리가 줄어들고 있음.- AI는 인간 능력의 '증폭기': 한 사람이 AI를 활용해 여러 업무(시장조사, 코딩, 광고제작 등)를 동시에 처리할 수 있게 되면서 직급, 부서의 의미가 약해지고 신입채용도 감소.- AI의 문제해결 능력: 의료영상 판독, 축산·물류관리 등 데이터가 충분한 분야에서 AI가 빠르고 정확한 해법을 제시. 생성형 AI는 영상 제작 등 창작 과정 자체를 혁신.- 일자리 위기와 해법도 AI: AI 활용 능력이 곧 생존력이 되면서, AI를 잘 활용하는 개인과 기업만이 살아남음. 국가 차원에서도 'AI 주권'과 세계 2위 전략의 필요성 강조.
808 조회
0 추천
2025.09.10 등록
Anthropic의 Claude AI가 채팅창에서 직접 PDF, 파워포인트 슬라이드, 엑셀 스프레드시트, 워드 문서를 생성하고 편집할 수 있는 새로운 기능을 9일 출시했다.이 기능은 사용자가 필요한 파일을 설명하고 관련 데이터를 업로드하면 Claude가 개인용 컴퓨터 환경에서 코드를 작성해 즉시 사용 가능한 파일을 생성해준다. 파일 생성 기능은 현재 Max(월 100달러, 약 13만 8,500원), Team, Enterprise 플랜 사용자에게 프리뷰로 제공되며, Pro 사용자는 몇 주 내에 접근할 수 있게 된다. PDF 보고서를 파워포인트 슬라이드로 변환하거나 원시 데이터를 차트와 통계 분석이 포함된 완성된 문서로 변환하는 등 포맷 간 작업도 지원한다.사용자는 설정에서 "업그레이드된 파일 생성 및 분석" 기능을 활성화한 후 완성된 문서를 다운로드하거나 구글 드라이브에 직접 저장할 수 있다.
903 조회
0 추천
2025.09.10 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입