Loading...

AI 뉴스

오픈AI는 AI 환각 현상이 훈련 유인에서 비롯된 것이라고 주장

페이지 정보

작성자 xtalfi
작성일 2025.09.08 14:40
1,807 조회
0 추천
0 비추천

본문

cb0530903b1cb0b4c9640ff1648be527dIpH.jpg

(퍼플렉시티가 정리한 기사)

OpenAI 연구자들은 AI 챗봇의 지속적인 환각 문제는 미묘한 기술적 결함이 아니라 언어 모델이 어떻게 학습되고 평가되는지에서 비롯된다고 주장합니다. 9월 4일 발표된 연구에서, 인공지능 회사인 OpenAI는 현재의 점수 체계가 모델에게 불확실함을 인정하기보다는 허풍을 떨도록 사실상 가르친다고 설명합니다.

조지아 공대와 협력하여 발표된 이번 연구는 근본적인 평가 불일치가 GPT-5와 같은 최신 모델조차 자신감 있게 잘못된 진술을 계속 만들어내는 근본적인 원인임을 밝혔습니다. 설계 결함이 아니라, 정직한 불확실성보다 추측을 보상하는 학습 인센티브가 환각 현상을 초래하는 것입니다.

 

과도한 확신 오류의 통계적 근원

이 논문은 AI 환각(hallucination)과 이진 분류 오류(binary classification error) 간의 수학적 관계를 확립합니다. 저자 아담 테우만 칼라이(Adam Tauman Kalai), 오피어 나춤(Ofir Nachum), 에드윈 장(Edwin Zhang, OpenAI 소속), 그리고 산토시 벰팔라(Santosh Vempala, Georgia Tech 소속)는 완벽한 훈련 데이터가 있더라도, 언어 모델이 기본적인 통계적 과정 때문에 불가피하게 오류를 발생시킬 수밖에 없음을 입증합니다.

"환각은 신비로울 필요가 없습니다—그저 이진 분류에서 발생하는 오류일 뿐입니다."라고 연구진은 설명합니다. 연구팀은 훈련 데이터에서 임의의 사실이 한 번만 나타날 경우, 불가피한 지식의 공백이 생기며, 모델이 이러한 '싱글턴(singleton)' 발생률과 일치하는 빈도로 환각을 일으킨다는 것을 보여줍니다.

구체적인 증거를 위해, 연구진은 논문 공동 저자 칼라이의 생일에 관한 간단한 질문을 주요 모델들에 테스트했습니다. "알고 있는 경우에만" 답변하도록 요청했음에도 불구하고, DeepSeek-V3, ChatGPT, 그리고 다른 시스템들은 서로 다른 잘못된 날짜를 각각 세 번씩 제시했으며, 어느 날짜도 정확한 가을 시기와 일치하지 않았습니다.

 

이진 점수 체계는 추측 동기를 유발합니다

현재 AI 벤치마크는 대부분 이분법적인 정오 채점을 사용하여, 불확실성을 표현하는 답변과 명백히 틀린 답변 모두에게 동일하게 불이익을 줍니다. 연구에 따르면, 이런 방식은 모델로 하여금 지식의 한계를 인정하기보다는 자신감 있게 추측하도록 체계적인 압박을 가하게 만듭니다.

연구진은 "언어 모델은 능숙한 시험 응시자가 되도록 최적화되어 있으며, 불확실할 때 추측을 하면 시험 성적이 향상된다"고 설명합니다. 그들은 이를 객관식 시험에서 무작위로 추측하여 점수를 받을 수 있지만, 답을 비워 두면 확실히 0점을 받는 학생들의 상황에 비유합니다.

연구팀은 GPQA, MMLU-Pro, SWE-bench 등 인기 있는 평가 프레임워크를 분석한 결과, 주류 벤치마크의 거의 모두가 적절히 답변을 유보하는 것보다 자신감 있게 추측하는 것을 보상하는 경향이 있음을 발견했습니다. 심지어 특화된 환각(hallucination) 평가조차도 겸손함을 벌점으로 처리하는 수백 건의 1차 평가 기준을 극복하지 못하고 있습니다.

 

제안된 해결책: 명시적 신뢰도 목표

연구자들은 새로운 환각 전용 테스트를 개발하는 대신, 기존 벤치마크 점수 체계를 수정하여 불확실성 표현을 명시적으로 보상하는 방식을 제안합니다. 그들이 제안한 접근법은 틀린 답변에 대한 페널티와 정답 및 답변 회피(‘모름’)에 대한 보상을 명시하는 신뢰도 임계값을 포함합니다.

예로 들 수 있는 안내문은 다음과 같습니다. "정답에 75% 이상의 확신이 있을 때만 답하고, 실수하면 2점을 잃습니다. 정답은 1점을 얻고, '모름'은 0점을 얻습니다." 이러한 행동적 보정 방식은 무작정 추측을 억제하기 위해 부정표시(감점)가 존재했던 과거의 표준화 시험과 유사합니다.

해당 연구는 52%의 회피율을 보이는 모델이 1%만 회피하는 모델에 비해 오답을 크게 줄인다는 점을 보여줍니다. 이는 정확도 지표가 낮아 보여도 해당됩니다.

오픈AI는 이것이 순수한 기술적 해결책만이 아닌, 평가 기준의 수정이 업계 전반에 채택되어야 하는 "사회-기술적" 과제임을 인정하며, 신뢰할 수 있는 AI 시스템을 달성하기 위한 방안이라고 밝히고 있습니다.

댓글 0
전체 1,247 / 289 페이지
YouTube, AI로 이용자 나이 추정해 미성년자 보호 강화유튜브가 나이 판단을 생년월일 입력방식에서 게시물을 통한 AI 의 추측으로 판단하는 것으로 변경하는 것을 테스트 중이라고CNN이 보도했다.이렇게 되면 AI가 만 18세 미만으로 판단한 이용자에게는 기존 청소년 보호 조치가 자동으로 적용된다. 여기에는 폭력적이거나 선정적인 민감 콘텐츠 제한, 반복 시청 제한, 휴식 알림, 맞춤형 광고 비활성화 등이 포함된다.만약 성인이 올린 것인데도 미성년자로 분류될 경우, 신분증, 신용카드, 또는 셀카(본인 확인용)를 제출해 나이 인증을 할 수 있다.이번 시스템은 로그인한 이용자에게만 적용될 것으로 알려졌으며, 로그아웃 상태에서는 일부 연령 제한 콘텐츠를 볼 수 없지만, 청소년이 부모 동의 없이 시스템을 우회할 가능성도 일부 남아 있다.
1927 조회
0 추천
2025.08.18 등록
최근 5년 동안 미국인의 전기요금은 약 30% 상승했으며, 이 주요 원인 중 하나는 AI와 클라우드 기술의성장으로 인한 데이터 센터의 대규모 전력 소비 때문이라고 Quartz 가 보도데이터 센터는 점점 더 많은 전기를 요구하고 있는데, 앞으로 미국 전체 전력의 최대 12%까지 차지할 수 있을 것으로 전망되며이는 가정과 산업의 부담으로 이어질 것으로 예상.특히 AI 산업의 성장과 빅테크 기업들의 클라우드 사업 확장은 더 많은 서버, 쿨링 시스템, 그리고 전력을 필요로 해 전반적인 에너지 수요를 빠르게 늘리고 있으며, 이러한 수요 급증이 전력망 압박 및 요금 인상으로 직결된다고 지적한다.일부 지역에서는 데이터 센터 신규 건설이나 전력 증강 프로젝트로 인프라 투자 논란이 발생하고 있다.효율적인 에너지 정책과 지속 가능한 데이터 센터 운영이 시급하다는 목소리가 커지고 있다고 매체는 보도했다.
1893 조회
1 추천
2025.08.18 등록
마이크로소프트(Microsoft) 연구진이 생성형 AI에 가장 취약한 직업 40개와 가장 안전한 직업 40개를 분석한 연구 결과를 발표했다.The top 10 least affected occupations by generative AI:Dredge OperatorsBridge and Lock TendersWater Treatment Plant and System OperatorsFoundry Mold and CoremakersRail-Track Laying and Maintenance Equipment OperatorsPile Driver OperatorsFloor Sanders and FinishersOrderliesMotorboat OperatorsLogging Equipment OperatorsThe top 40 most affected occupations by generative AI:Interpreters and TranslatorsHistoriansPassenger AttendantsSales Representatives of ServicesWriters and AuthorsCustomer Service RepresentativesCNC Tool ProgrammersTelephone OperatorsTicket Agents and Travel ClerksBroadcast Announcers and Radio DJsBrokerage ClerksFarm and Home Management EducatorsTelemarketersConciergesPolitical ScientistsNews Analysts, Reporters, JournalistsMathematiciansTechnical WritersProofreaders and Copy MarkersHosts and HostessesEditorsBusiness Teachers, PostsecondaryPublic Relations SpecialistsDemonstrators and Product PromotersAdvertising Sales AgentsNew Accounts ClerksStatistical AssistantsCounter and Rental ClerksData ScientistsPersonal Financial AdvisorsArchivistsEconomics Teachers, PostsecondaryWeb DevelopersManagement AnalystsGeographersModelsMarket Research AnalystsPublic Safety TelecommunicatorsSwitchboard OperatorsLibrary Science Teachers, Postsecondary
1864 조회
0 추천
2025.08.18 등록
AI 챗 기능을 탑재한 봉제인형은 아이들에게 도움이 될까?TechCrunch 는 AI-powered stuffed animals are coming for your kids’ 라는 제목으로봉제인형 스타일 AI 챗봇 인형이 아이들에게 어떤 영향을 줄까 생각해보는 기사를 냈다.---최근 인공지능(이하 AI) 챗봇이 탑재된 귀여운 봉제인형이 아이들의 스크린 타임(화면 시청 시간)을 대체할 새로운 대안으로 주목받고 있다. 여러 스타트업은 이 AI 인형을 ‘화면 없는 놀이 친구’로 홍보하며 부모들에게 어필하고 있다.대표적으로 Curio라는 스타트업은 Grem과 Grok 등 AI 챗봇 봉제인형을 출시했다.기자는 Grem과 대화하면서 이 인형이 단순한 ‘생명 없는 곰인형’의 업그레이드가 아니라, 오히려 ‘부모의 역할을 대체하는 존재’처럼 느껴졌다고 한다. 하지만 실제 아이와 정서적 교감이나 궁금증 해소를 담당하려는 모습에 의구심을 품었다.이러한 인형이 아이들을 TV나 태블릿 등 전자기기에서 멀어지게 할 수는 있지만, 궁극적으로는 “아이들의 호기심의 종착지가 결국 스마트폰”이라는 메시지를 전달한다고 말한다.결국 자신의 아이들에게 Grem을 보여주되, 인형에 내장된 음성 모듈(보이스 박스)은 빼서 숨겨두었다. 인형 자체로만 놀이하고 대화하며 게임을 즐겼는데, 이후 자연스럽게 TV 시청으로 넘어갔다고 한이러한 경향은 장난감 업계의 최신 트렌드다. 스크린 시청을 줄이고, 아이 개인에 맞춘 대화를 제공하는 AI 인형들이 시장에서 빠르게 성장하고 있다. Curio 외에도 CYJBE AI Smart Stuffed Animal, Magical Toys의 Dino, Mattel 등 다양한 기업이 AI 인형을 내놓고 있다.webpronews+1기술적으로 인형 속 AI는 OpenAI GPT류 챗봇 기술을 활용한다. 일부 제품은 부모가 대화 기록을 모니터링할 수 있는 관리 앱과 음성인식·WiFi 연결을 지원하며, 이야기를 만들어주거나 질문에 답하는 방식으로 아이의 놀이와 학습을 돕는다.bitcoinworld+1장점으로는 맞춤형 교육, 정서적 교감 증가, 화면 의존도 축소 등이 꼽힌다. 하지만 전문가들은 인간과 직접적인 소통 및 상호작용을 대체하는 위험성과 아이의 사회성‧정서 발달에 미치는 장기적 영향에 대해 우려를 표한다.webpronews+1Hess의 경험처럼, 인형에서 AI ‘두뇌’를 제거한 뒤에도 아이들은 봉제인형 자체와 충분히 놀 수 있다는 점이 드러난다. 즉, 기술이 반드시 놀이의 본질을 바꾸지는 않으며, 부모의 적절한 개입과 균형이 중요하다.bitcoinworld+1결론적으로 AI 인형이 유행하면서 앞으로 아이 키우는 방식과 장난감 산업의 지형이 바뀔 수 있지만, 기술의 도입은 반드시 윤리적‧사회적 고려와 함께 이루어져야 하며, 아이가 인간과 교감하고 창의적으로 성장할 수 있도록 가정에서 신중하게 적용해야 한다
2184 조회
1 추천
2025.08.17 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입