Loading...

AI 뉴스

오픈AI는 AI 환각 현상이 훈련 유인에서 비롯된 것이라고 주장

페이지 정보

작성자 xtalfi
작성일 2025.09.08 14:40
1,746 조회
0 추천
0 비추천

본문

cb0530903b1cb0b4c9640ff1648be527dIpH.jpg

(퍼플렉시티가 정리한 기사)

OpenAI 연구자들은 AI 챗봇의 지속적인 환각 문제는 미묘한 기술적 결함이 아니라 언어 모델이 어떻게 학습되고 평가되는지에서 비롯된다고 주장합니다. 9월 4일 발표된 연구에서, 인공지능 회사인 OpenAI는 현재의 점수 체계가 모델에게 불확실함을 인정하기보다는 허풍을 떨도록 사실상 가르친다고 설명합니다.

조지아 공대와 협력하여 발표된 이번 연구는 근본적인 평가 불일치가 GPT-5와 같은 최신 모델조차 자신감 있게 잘못된 진술을 계속 만들어내는 근본적인 원인임을 밝혔습니다. 설계 결함이 아니라, 정직한 불확실성보다 추측을 보상하는 학습 인센티브가 환각 현상을 초래하는 것입니다.

 

과도한 확신 오류의 통계적 근원

이 논문은 AI 환각(hallucination)과 이진 분류 오류(binary classification error) 간의 수학적 관계를 확립합니다. 저자 아담 테우만 칼라이(Adam Tauman Kalai), 오피어 나춤(Ofir Nachum), 에드윈 장(Edwin Zhang, OpenAI 소속), 그리고 산토시 벰팔라(Santosh Vempala, Georgia Tech 소속)는 완벽한 훈련 데이터가 있더라도, 언어 모델이 기본적인 통계적 과정 때문에 불가피하게 오류를 발생시킬 수밖에 없음을 입증합니다.

"환각은 신비로울 필요가 없습니다—그저 이진 분류에서 발생하는 오류일 뿐입니다."라고 연구진은 설명합니다. 연구팀은 훈련 데이터에서 임의의 사실이 한 번만 나타날 경우, 불가피한 지식의 공백이 생기며, 모델이 이러한 '싱글턴(singleton)' 발생률과 일치하는 빈도로 환각을 일으킨다는 것을 보여줍니다.

구체적인 증거를 위해, 연구진은 논문 공동 저자 칼라이의 생일에 관한 간단한 질문을 주요 모델들에 테스트했습니다. "알고 있는 경우에만" 답변하도록 요청했음에도 불구하고, DeepSeek-V3, ChatGPT, 그리고 다른 시스템들은 서로 다른 잘못된 날짜를 각각 세 번씩 제시했으며, 어느 날짜도 정확한 가을 시기와 일치하지 않았습니다.

 

이진 점수 체계는 추측 동기를 유발합니다

현재 AI 벤치마크는 대부분 이분법적인 정오 채점을 사용하여, 불확실성을 표현하는 답변과 명백히 틀린 답변 모두에게 동일하게 불이익을 줍니다. 연구에 따르면, 이런 방식은 모델로 하여금 지식의 한계를 인정하기보다는 자신감 있게 추측하도록 체계적인 압박을 가하게 만듭니다.

연구진은 "언어 모델은 능숙한 시험 응시자가 되도록 최적화되어 있으며, 불확실할 때 추측을 하면 시험 성적이 향상된다"고 설명합니다. 그들은 이를 객관식 시험에서 무작위로 추측하여 점수를 받을 수 있지만, 답을 비워 두면 확실히 0점을 받는 학생들의 상황에 비유합니다.

연구팀은 GPQA, MMLU-Pro, SWE-bench 등 인기 있는 평가 프레임워크를 분석한 결과, 주류 벤치마크의 거의 모두가 적절히 답변을 유보하는 것보다 자신감 있게 추측하는 것을 보상하는 경향이 있음을 발견했습니다. 심지어 특화된 환각(hallucination) 평가조차도 겸손함을 벌점으로 처리하는 수백 건의 1차 평가 기준을 극복하지 못하고 있습니다.

 

제안된 해결책: 명시적 신뢰도 목표

연구자들은 새로운 환각 전용 테스트를 개발하는 대신, 기존 벤치마크 점수 체계를 수정하여 불확실성 표현을 명시적으로 보상하는 방식을 제안합니다. 그들이 제안한 접근법은 틀린 답변에 대한 페널티와 정답 및 답변 회피(‘모름’)에 대한 보상을 명시하는 신뢰도 임계값을 포함합니다.

예로 들 수 있는 안내문은 다음과 같습니다. "정답에 75% 이상의 확신이 있을 때만 답하고, 실수하면 2점을 잃습니다. 정답은 1점을 얻고, '모름'은 0점을 얻습니다." 이러한 행동적 보정 방식은 무작정 추측을 억제하기 위해 부정표시(감점)가 존재했던 과거의 표준화 시험과 유사합니다.

해당 연구는 52%의 회피율을 보이는 모델이 1%만 회피하는 모델에 비해 오답을 크게 줄인다는 점을 보여줍니다. 이는 정확도 지표가 낮아 보여도 해당됩니다.

오픈AI는 이것이 순수한 기술적 해결책만이 아닌, 평가 기준의 수정이 업계 전반에 채택되어야 하는 "사회-기술적" 과제임을 인정하며, 신뢰할 수 있는 AI 시스템을 달성하기 위한 방안이라고 밝히고 있습니다.

댓글 0
전체 1,238 / 283 페이지
애플의 인공지능 기능에 대해 부정적인 뉴스가 나오면서 시리의 활용에 대해 조사한 결과가 나오고 있다.https://9to5mac.com/2025/08/20/seven-years-later-people-still-havent-changed-how-they-use-siri/YouGov 설문조사에 따르면, 사용자의 대다수는 2018년 이후로도 Siri와 다른 음성 비서를 여전히 다섯 가지 기본 용도로 사용하고 있다. 가장 많이 사용하는 기능은 날씨 확인(59%), 음악 재생(51%), 웹 검색(47%), 타이머/알람 설정(40%), 핸즈프리 전화 걸기(39%)이다사용자들은 Siri가 기본적인 명령만 이해하도록 적응했으며, 새로운 AI 음성 모드가 나오더라도 기존 사용자들이 이를 익히는 데는 시간이 걸릴 것으로 보고 있다. 또한 새로운 Siri가 나와도 2027년쯤에는 사용자 경험이 크게 개선되길 기대하고 있다.원래부터 거의 모든 사용자가 지금 하는 행동을 7년 전에도 할 수 있었을 정도로 Siri 사용은 정체되어 있다.일부 사용자들은 음성 비서가 기대만큼 똑똑하지 않고, 정확한 답변을 제공하지 못해 답답함을 느끼고 있다.전반적으로 사용자들은 Siri의 기본 기능에는 만족하지만, 더 복잡한 작업을 수행하거나 자연스러운 대화를 기대하는 데는 한계가 있으며 이는 앞으로 개선이 필요한 점으로 남아 있다
1839 조회
0 추천
2025.08.21 등록
20일 구글은 Made by google 행사를 열었다. 이 자리에서 주로 Pixel 폰과 관련된 내용이 발표되었지만,인공지능 Gemini 의 픽셀 연결 버전 "제미나이 라이브" 와 관련된 업데이트가 있었다..https://blog.google/products/gemini/gemini-live-updates-august-2025/주요 동영상은 위 주소에서 확인이 가능하다.이번 업데이트로 Gemini Live는 더욱 시각적으로 인지력이 높아졌고, 화면에서 실시간으로 사용자에게 시각적 가이드(예: 화면에 중요한 부분 하이라이트)를 제공한다.예를 들어 신발 두 켤레 중 어느 것이 더 잘 어울리는지, 또는 적절한 공구가 무엇인지 Gemini가 화면을 보며 직접 알려줄 수 있다 이 시각적 가이드 기능은 8월 28일 출시되는 Pixel 10 시리즈에 먼저 적용되며, 이후 안드로이드 및 iOS 기기로 확장될 예정이다.Gemini Live는 구글 캘린더, 킵, 테스크 등 기존 앱뿐 아니라 곧 메시지, 전화, 시계, 지도 앱과도 더 깊게 통합되어 스케줄 관리, 메시지 전송 등의 실생활 업무를 돕는다.예를 들어 생일 선물을 찾다가 바로 가족에게 전화를 걸거나, 지하철 경로를 찾으면서 메시지를 바로 보내는 등 대화하면서 여러 앱을 넘나드는 지원이 가능해진다.음성 대화 품질도 크게 개선되어 어조, 리듬, 음높이 등을 자연스럽게 사용해 스트레스 상황에도 차분한 반응을 하는 등 보다 인간다운 대화가 가능해진다.사용자 요청에 따라 말하는 속도를 조절하거나, 재미있는 악센트로 이야기해주는 기능과, 인물 시점의 생생한 스토리텔링 기능도 곧 선보인다.이번 업데이트는 Gemini를 더 자연스럽고 도움이 되는 AI 비서로 만들기 위한 구글의 지속적인 노력의 일환이며, 앞으로도 사용자와 함께 발전시켜 나가겠다는 계획이다.
1806 조회
0 추천
2025.08.21 등록
구름 측은 “‘Stack Overflow Developer Survey 2025’의 리서치에 따르면 개발자는 10명중 8명이 이미 업무에 AI 도구를 활용하고 있다”며 “AI 코드 어시스턴트를 사용하는 기업 소프트웨어 엔지니어가 2023년 초에는 10% 미만에 불과했지만, 2028년에는 75%까지 증가할 전망이며, 이는 곧 AI 활용 능력이 개발자의 필수 역량으로 자리잡고 있음을 보여준다”고 설명했다.개발자가 코딩에 가장 많이 활용하는 LLM은 Claude(42%), ChatGPT(21%), Gemini(16%) 순으로 Claude가 코딩분야에서는 ChatGPT를 제치고 1위로 부상했다. LLM에 가장 많이 활용되는 개발언어는 Python이다.https://www.tech42.co.kr/%ea%b5%ac%eb%a6%84-%ea%b8%80%eb%a1%9c%eb%b2%8c-%ea%b0%9c%eb%b0%9c%ec%9e%90-ai-%ed%99%9c%ec%9a%a9-%ed%8a%b8%eb%a0%8c%eb%93%9c-%eb%b6%84%ec%84%9d-%ec%9d%b8%ec%82%ac%ec%9d%b4%ed%8a%b8%eb%a5%bc-%eb%b3%b4/
2500 조회
0 추천
2025.08.21 등록
MIT 연구진이 기업의 생성형 AI 시범사업 중 95%가 수익 창출에 실패했다는 충격적인 연구 결과를 발표했다.18일(현지시간) 포춘지에 따르면, MIT 미디어랩 NANDA 이니셔티브가 발표한 '생성형 AI 격차: 2025년 비즈니스 AI 현황' 보고서는 대부분의 기업 AI 프로젝트가 기대에 못 미치는 성과를 거두고 있다고 밝혔다.연구진은 95%의 기업에서 생성형 AI 구현이 부진한 핵심 원인이 AI 모델의 품질이 아니라 도구와 조직 모두의 '학습 격차'에 있다고 분석했다. 경영진들이 종종 규제나 모델 성능을 탓하지만, MIT 연구는 잘못된 기업 통합 방식을 지적했다.생성형 AI 예산의 절반 이상이 영업 및 마케팅 도구에 투입되고 있지만, MIT는 백오피스 자동화에서 가장 큰 투자수익률을 발견했다. 성공적인 AI 배포의 비결은 도입 방식에 있다. 전문 업체로부터 AI 도구를 구매하고 파트너십을 구축하는 방식은 약 67%의 성공률을 보인 반면, 내부 개발은 3분의 1 정도의 성공률만을 기록했다.
1796 조회
0 추천
2025.08.21 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입