Loading...

AI 뉴스

오픈AI는 AI 환각 현상이 훈련 유인에서 비롯된 것이라고 주장

페이지 정보

작성자 xtalfi
작성일 2025.09.08 14:40
1,395 조회
0 추천
0 비추천

본문

cb0530903b1cb0b4c9640ff1648be527dIpH.jpg

(퍼플렉시티가 정리한 기사)

OpenAI 연구자들은 AI 챗봇의 지속적인 환각 문제는 미묘한 기술적 결함이 아니라 언어 모델이 어떻게 학습되고 평가되는지에서 비롯된다고 주장합니다. 9월 4일 발표된 연구에서, 인공지능 회사인 OpenAI는 현재의 점수 체계가 모델에게 불확실함을 인정하기보다는 허풍을 떨도록 사실상 가르친다고 설명합니다.

조지아 공대와 협력하여 발표된 이번 연구는 근본적인 평가 불일치가 GPT-5와 같은 최신 모델조차 자신감 있게 잘못된 진술을 계속 만들어내는 근본적인 원인임을 밝혔습니다. 설계 결함이 아니라, 정직한 불확실성보다 추측을 보상하는 학습 인센티브가 환각 현상을 초래하는 것입니다.

 

과도한 확신 오류의 통계적 근원

이 논문은 AI 환각(hallucination)과 이진 분류 오류(binary classification error) 간의 수학적 관계를 확립합니다. 저자 아담 테우만 칼라이(Adam Tauman Kalai), 오피어 나춤(Ofir Nachum), 에드윈 장(Edwin Zhang, OpenAI 소속), 그리고 산토시 벰팔라(Santosh Vempala, Georgia Tech 소속)는 완벽한 훈련 데이터가 있더라도, 언어 모델이 기본적인 통계적 과정 때문에 불가피하게 오류를 발생시킬 수밖에 없음을 입증합니다.

"환각은 신비로울 필요가 없습니다—그저 이진 분류에서 발생하는 오류일 뿐입니다."라고 연구진은 설명합니다. 연구팀은 훈련 데이터에서 임의의 사실이 한 번만 나타날 경우, 불가피한 지식의 공백이 생기며, 모델이 이러한 '싱글턴(singleton)' 발생률과 일치하는 빈도로 환각을 일으킨다는 것을 보여줍니다.

구체적인 증거를 위해, 연구진은 논문 공동 저자 칼라이의 생일에 관한 간단한 질문을 주요 모델들에 테스트했습니다. "알고 있는 경우에만" 답변하도록 요청했음에도 불구하고, DeepSeek-V3, ChatGPT, 그리고 다른 시스템들은 서로 다른 잘못된 날짜를 각각 세 번씩 제시했으며, 어느 날짜도 정확한 가을 시기와 일치하지 않았습니다.

 

이진 점수 체계는 추측 동기를 유발합니다

현재 AI 벤치마크는 대부분 이분법적인 정오 채점을 사용하여, 불확실성을 표현하는 답변과 명백히 틀린 답변 모두에게 동일하게 불이익을 줍니다. 연구에 따르면, 이런 방식은 모델로 하여금 지식의 한계를 인정하기보다는 자신감 있게 추측하도록 체계적인 압박을 가하게 만듭니다.

연구진은 "언어 모델은 능숙한 시험 응시자가 되도록 최적화되어 있으며, 불확실할 때 추측을 하면 시험 성적이 향상된다"고 설명합니다. 그들은 이를 객관식 시험에서 무작위로 추측하여 점수를 받을 수 있지만, 답을 비워 두면 확실히 0점을 받는 학생들의 상황에 비유합니다.

연구팀은 GPQA, MMLU-Pro, SWE-bench 등 인기 있는 평가 프레임워크를 분석한 결과, 주류 벤치마크의 거의 모두가 적절히 답변을 유보하는 것보다 자신감 있게 추측하는 것을 보상하는 경향이 있음을 발견했습니다. 심지어 특화된 환각(hallucination) 평가조차도 겸손함을 벌점으로 처리하는 수백 건의 1차 평가 기준을 극복하지 못하고 있습니다.

 

제안된 해결책: 명시적 신뢰도 목표

연구자들은 새로운 환각 전용 테스트를 개발하는 대신, 기존 벤치마크 점수 체계를 수정하여 불확실성 표현을 명시적으로 보상하는 방식을 제안합니다. 그들이 제안한 접근법은 틀린 답변에 대한 페널티와 정답 및 답변 회피(‘모름’)에 대한 보상을 명시하는 신뢰도 임계값을 포함합니다.

예로 들 수 있는 안내문은 다음과 같습니다. "정답에 75% 이상의 확신이 있을 때만 답하고, 실수하면 2점을 잃습니다. 정답은 1점을 얻고, '모름'은 0점을 얻습니다." 이러한 행동적 보정 방식은 무작정 추측을 억제하기 위해 부정표시(감점)가 존재했던 과거의 표준화 시험과 유사합니다.

해당 연구는 52%의 회피율을 보이는 모델이 1%만 회피하는 모델에 비해 오답을 크게 줄인다는 점을 보여줍니다. 이는 정확도 지표가 낮아 보여도 해당됩니다.

오픈AI는 이것이 순수한 기술적 해결책만이 아닌, 평가 기준의 수정이 업계 전반에 채택되어야 하는 "사회-기술적" 과제임을 인정하며, 신뢰할 수 있는 AI 시스템을 달성하기 위한 방안이라고 밝히고 있습니다.

댓글 0
전체 1,021 / 210 페이지
(퍼플렉시티가 정리한 기사)구글의 Gemini 앱이 처음으로 Apple App Store에서 1위를 차지하며 ChatGPT를 제치고 Nano Banana AI 이미지 생성 기능의 폭발적인 성공을 활용했습니다. 이 이정표는 인공지능 주도권을 놓고 경쟁이 갈수록 치열해지는 구글(알파벳)과 오픈AI 간의 주요한 성과를 의미합니다.나노 바나나가 전례 없는 성장을 이끈다이 인기가 급상승하게 된 직접적인 원인은 Nano Banana(공식 명칭: Gemini 2.5 Flash Image)에서 비롯된 것으로, 사용자가 간단한 텍스트 프롬프트만으로 일반 사진을 하이퍼리얼리즘 3D 피규어로 변환할 수 있게 해주는 기능입니다. Google 부사장 Josh Woodward에 따르면, 이 기능은 8월 말 출시 이후 2억 장 이상의 이미지를 생성했으며, Gemini 앱에 1,000만 명 이상의 신규 사용자를 유치했다고 합니다.이 바이럴 트렌드는 전 세계 소셜 미디어 이용자들을 매료시켰으며, 사람들은 저마다 자신, 반려동물, 심지어 유명인의 수집품 스타일 피규어와 포장 모형, 투명 아크릴 받침대까지 만들어내고 있습니다. 이 기능은 기술적 지식이나 결제가 전혀 필요하지 않아 누구나 쉽게 사용할 수 있으며, 고품질 AI 이미지 생성의 민주화를 이뤄냈고, 누구든지 몇 초 만에 전문가 수준의 결과물을 만들 수 있게 했습니다.앱 스토어 순위 변화현재 앱 순위에 따르면 Gemini가 무료 앱 부문에서 1위를 차지하며 ChatGPT를 2위로 밀어냈습니다. 이는 구글의 AI 어시스턴트가 애플 플랫폼에서 처음으로 정상에 오른 것으로, 이전에 ChatGPT의 지브리 열풍과 같은 바이럴 AI 트렌드에서 보았던 성공 패턴을 따른 결과입니다.Gemini 앱은 최근 몇 주 동안 급격히 상승했으며, 트래킹 데이터에 따르면 9월 초 기준 Google Play 스토어에서 생산성 부문 2위, 전체 13위에 올랐습니다. 업계 관계자들은 이 빠른 성장의 원인을 Nano Banana의 기능과 구글의 마케팅 전략, 특히 CEO 순다 피차이 등 경영진의 바나나 이모지 티저가 포함된 해커톤과 소셜 미디어 캠페인에 있다고 분석합니다.경쟁 환경이 더욱 치열해지고 있다이번 개발은 2022년 출시 이후 ChatGPT가 지배해온 AI 챗봇 시장에 잠재적인 변화가 있을 수 있음을 시사합니다. 여전히 ChatGPT가 전체 시장 점유율의 약 60%로 Gemini의 13.5%와 비교해 선두를 유지하고 있지만, 구글의 모바일 측면에서의 성장세는 특히 Android 기기에서 Gemini 사용자의 거의 90%가 집중되고 있는 만큼, 사용자 선호도가 변화하고 있음을 보여줍니다.Nano Banana의 성공은 Gemini를 차별화하기 위한 Google의 광범위한 전략을 뒷받침합니다. 멀티모달 기능과 Google 서비스의 원활한 통합을 통해 Gemini의 경쟁력을 높였습니다. 이 기능은 수정 과정에서 캐릭터의 일관성을 유지하고, 여러 이미지를 자연스럽게 조합할 수 있어 기존 AI 이미지 툴이 어려움을 겪었던 주요 문제들을 해결함으로써, Google이 창의적 응용 분야에서 경쟁우위를 가지게 했습니다.AI 경쟁이 계속되는 가운데, 이번 앱스토어에서의 성공은 ChatGPT와 같은 기존의 강자들에 맞서 바이럴한 기능이 시장의 흐름을 얼마나 빠르게 뒤바꿀 수 있는지를 보여줍니다.
1156 조회
0 추천
2025.09.14 등록
(퍼플렉시티가 정리한 기사)구글 AI 리서치와 딥마인드는 프라이버시에 중점을 둔 10억 매개변수의 오픈소스 언어 모델인 VaultGemma를 공개했습니다. 이는 차등 프라이버시 인공지능 분야에서 중요한 진전을 의미합니다. 구글의 최고 과학자 제프 딘(Jeff Dean)이 발표한 이 모델은 차등 프라이버시로 완전히 처음부터 학습된 최대 규모의 오픈웨이트 LLM으로, 프라이버시 보호형 AI 개발의 새로운 기준을 세웠습니다.VaultGemma는 웹 규모 데이터셋으로 학습된 시스템에서 민감한 정보가 추출될 수 있는 AI 모델의 암기 공격에 대한 중요한 우려를 해결합니다. 구글 리서치에 따르면, 이 모델은 훈련 중에 보정된 노이즈를 추가하여 어느 하나의 데이터 포인트가 최종 모델에 크게 영향을 미치지 못하도록 하는 고급 차등 프라이버시 기법을 활용해 개발되었습니다.기술 혁신과 프라이버시 보장이 모델은 그래디언트 클리핑과 가우시안 노이즈 추가가 결합된 DP-SGD(차등 개인 정보 보호 확률적 경사 하강법)를 사용하여, 시퀀스 수준에서 (ε ≤ 2.0, δ ≤ 1.1e-10)의 공식적인 프라이버시 보장을 달성합니다.VaultGemma는 Gemma 2에 사용된 것과 동일한 13조 토큰 데이터셋으로 학습되었으며, 이는 주로 웹 문서, 코드, 과학 논문 등 영어 텍스트로 구성되어 있습니다.구글 연구팀은 특히 차등 개인 정보 보호를 적용한 언어 모델을 위한 새로운 스케일링 법칙을 개발했으며, 이는 컴퓨트-프라이버시-유틸리티의 균형 이해를 위한 종합적인 프레임워크를 제공합니다. 이러한 스케일링 법칙은 모델의 성능을 정확하게 예측하고, 2048개의 TPUv6e 칩 클러스터에서의 학습 과정에서 효율적인 자원 할당을 가능하게 했습니다.성능 및 접근성VaultGemma는 훈련 데이터에 대한 감지 가능한 암기 현상을 보이지 않지만, 현재 성능은 비공개 모델에 비해 뒤처지고 있습니다. 학술 벤치마크에서 약 5년 전의 비공개 모델과 유사한 점수를 기록하고 있으며, 그 예로 ARC-C에서 26.45점을 달성한 반면 Gemma-3 1B는 38.31점을 기록했습니다.Google은 VaultGemma의 가중치를 Hugging Face와 Kaggle에 공개했으며, 이에 더해 포괄적인 기술 보고서와 연구 논문도 함께 제공하고 있습니다. 회사가 이렇게 오픈 릴리스를 진행한 배경에는, 강력한 모델과 명확한 방법론을 커뮤니티에 제공함으로써 프라이빗 AI 연구 및 개발 가속화를 도모하려는 의도가 있습니다.이번 공개를 통해 Google은 개인정보 보호를 중시하는 AI 개발 분야의 선두에 섰으며, 데이터 보호에 대한 규제가 강화되는 상황에서 경쟁력 있는 AI 역량을 유지함과 동시에 관련 문제를 해결하고 있습니다. 이 연구는 대규모 언어 모델이 엄격한 프라이버시 보장을 적용해도 실제 응용 사례에서 비현실적으로 변하지 않고 충분히 실용적으로 훈련될 수 있음을 보여줍니다.
1124 조회
0 추천
2025.09.14 등록
(퍼플렉시티가 정히한 기사)구글는 구글 지도의 데이터를 카메라 뷰파인더에 직접 통합하여 증강현실 내비게이션 경험을 제공하는 Gemini Live AI 어시스턴트의 혁신적인 업그레이드를 테스트 중이라고 Android Authority가 숨겨진 코드에서 발견했습니다. 최신 구글 앱 베타 버전에서 포착된 이 기능은 사용자가 스마트폰 카메라로 상점, 랜드마크 또는 거리를 비추면 이름, 평점, 리뷰와 같은 정보 카드가 즉시 화면에 오버레이되어 표시됩니다.이 업그레이드는 8월 Pixel 10 시리즈 출시와 함께 구글이 도입한 시각적 안내 기능을 기반으로 하며, Gemini Live는 화면에 특정 객체를 강조하여 사용자의 업무를 도왔습니다. Android Authority의 테스트에 따르면, 새로운 지도 통합 기능은 카메라 화면에 여러 상점이나 위치가 인식될 경우 동시에 여러 정보 카드를 표시한다고 합니다.실시간 AR 내비게이션 기능Google의 기존 Maps 내 Lens 기능과는 달리, 이번 통합 기능은 사용자가 주변 환경에 대해 자연스러운 대화를 나누면서 시각적 데이터 오버레이를 받을 수 있도록 해줍니다. 사용자는 Gemini Live에게 자신이 보고 있는 레스토랑, 상점, 혹은 랜드마크에 대해 질문하면서 동시에 Google Maps 정보가 화면에 표시되는 것을 볼 수 있습니다.이 기능은 위치 서비스와 독립적으로 작동하며, 주로 시각 인식을 통해 Google의 방대한 Maps 데이터베이스에서 관련 데이터를 불러옵니다. 초기 테스트 결과, 시스템은 카메라 입력만으로도 위치를 식별할 수 있었으나, 위치 서비스를 활성화하면 정확도가 향상될 것으로 보입니다.Android Authority는 Google 앱 버전 16.35.63 베타에서 이 기능을 성공적으로 활성화했으며, 사업장 이름, 종류, 평균 평점, 리뷰 수 등이 표시되는 정보 카드가 잘 작동하는 모습을 시연했습니다. 이 구현은 오디오 전용 모드에서도 작동하므로, 사용자는 카메라 뷰파인더를 사용하지 않고도 특정 위치 정보를 요청할 수 있습니다.스마트 안경 통합 전망업계 분석가들은 이번 개발을 스마트 글래스 통합을 위한 준비 단계로 보고 있습니다. 특히 삼성은 9월 29일 Unpacked 행사에서 Galaxy Glasses를 공개할 계획인 것으로 전해지고 있습니다. AR 스타일 오버레이 기술을 통해 사용자는 비즈니스 정보와 길 안내가 담긴 플로팅 정보 카드를 시야 내에서 바로 볼 수 있게 됩니다.이번 일정은 구글이 삼성, 퀄컴과 협력해 발표한 안드로이드 XR 이니셔티브와도 맞물립니다. 이들 기업은 안드로이드 XR 기반 XR 헤드셋과 스마트 글래스를 개발하고 있으며, 삼성의 오디오 중심 Galaxy Glasses는 메타의 Ray-Ban 스마트 글래스와 직접 경쟁할 것으로 예상됩니다.구글은 아직 지도 통합 기능의 공식 출시 일정을 발표하지 않았으나, 관련 코드 인프라는 이미 베타 버전에 적용된 상태입니다. 회사는 최근 업데이트를 통해 Calendar, Keep, Tasks와의 통합 및 Google Maps 기능 강화 등 Gemini Live의 역량을 지속적으로 확대해 나가고 있습니다.
1140 조회
0 추천
2025.09.14 등록
(퍼플렉시티가 정리한 기사)테슬라(Tesla, Inc.) CEO 일론 머스크는 전기차에서 인간형 로봇으로의 극적인 전략 전환을 발표하며, 회사의 미래 성장을 이끌 핵심 사업으로 옵티머스(Optimus) 로봇을 내세웠습니다. 최근 공개된 테슬라의 마스터 플랜 파트 4에서 머스크는 테슬라 가치의 80%가 결국 옵티머스 인간형 로봇에서 비롯될 것으로 전망하며, 전기차로 명성을 쌓은 기업에게 있어 근본적인 변화를 예고했습니다.이 야심찬 비전은 2050년까지 옵티머스 로봇의 대량 생산에 힘입어 테슬라를 최대 25조 달러(약 3경 3천조 원) 규모의 기업으로 성장시키는 것을 목표로 합니다. 옵티머스 로봇은 개당 20,000~30,000달러에 판매될 예정입니다. 이는 테슬라가 추구해온 지속 가능한 운송 수단을 가속화한다는 원래의 사명에서 크게 벗어나는 변화입니다.생산 문제로 인해 야심찬 일정에 먹구름이 드리우다머스크의 대담한 전망에도 불구하고, 테슬라의 옵티머스(Optimus) 프로그램은 상당한 기술적 및 생산적 난관에 직면해 있다. 2025년 중반까지 약 1,000대의 시제품을 제작했으나, 엔지니어들이 배터리 수명 문제, 낮은 적재 용량, 관절 모터 과열 등 중대한 문제에 부딪히자 생산을 중단하고 대대적인 재설계에 들어갔다.테슬라 공급망 내부 소식통에 따르면, 프로그램의 초대 책임자였던 밀란 코박(Milan Kovac)이 퇴사한 뒤 책임이 AI 디렉터인 아쇼크 엘루스와미(Ashok Elluswamy)에게 이관되면서 6월 생산이 중단됐다고 한다. 최소 두 달이 소요될 것으로 예상되는 재설계 과정으로 인해, 테슬라가 2025년에 옵티머스 5,000~10,000대를 생산하겠다는 당초 목표는 달성 가능성이 점점 낮아지고 있다.회사는 이제 2026년에는 5만10만 대 규모로 양산하고, 10년 말까지 연 50만100만 대에 도달할 것으로 전망한다. 하지만 현재 테슬라 배터리 워크숍에 배치된 옵티머스 로봇의 효율성은 인간 노동자의 절반에도 못 미친다.전기차 사업 고전으로 인한 전략적 전환 추진테슬라의 핵심 전기차 사업이 점점 더 많은 압박에 직면하면서 로봇 분야로의 전환이 이루어지고 있습니다. 2025년 상반기 글로벌 전기차(EV) 인도량은 13% 감소했으며, 유럽 판매는 40% 급감했고 중국에서는 5% 감소했습니다. 이는 BYD를 중심으로 한 중국 자동차 제조업체들이 시장 점유율을 빠르게 확보하고 있기 때문입니다. 테슬라의 미국 시장 점유율은 2025년 8월 38%까지 떨어졌으며, 이는 2017년 10월 이후 최저치입니다.테슬라의 주식은 이러한 어려움을 반영해, 연초 기준 2.76% 하락했으나 Master Plan Part 4 발표 이후 약 8.21% 반등했습니다. 회사는 EV 세액공제 만료, 소비자 수요 둔화, 그리고 중국 제조업체와의 경쟁 심화 등 여러 역풍에 직면해 있습니다.시장 기회와 회의론로봇 시장은 상당한 기회를 제공하며, GlobalData는 이 산업이 2030년까지 연평균 14%의 성장률로 2,180억 달러에 이를 것으로 전망하고 있습니다. Morgan Stanley 분석가들은 휴머노이드 로봇 시장이 2050년까지 5조 달러에 이를 수 있다고 추정합니다.하지만 투자자들의 회의감은 여전히 높습니다. Stifel의 분석가 Stephen Gengaro는 Tesla의 주식이 오로지 전기차 사업을 위해 구매된다면 과대평가되었다고 주장했으며, Gerber Kawasaki의 CEO는 회사가 지속 가능한 운송 미션을 포기했다고 비판했습니다. Tesla의 2025년 수익이 약 30% 감소할 것으로 예상되면서, 일부는 로봇 사업이 회사의 프리미엄 평가를 정당화할 수 있을지 의문을 제기하고 있습니다.Tesla 의장 Robyn Denholm은 이 전략을 옹호하며, 인공지능 및 로봇 산업으로의 전환을 이끌 수 있는 사람은 오직 Musk뿐이라고 말했지만, 그가 CEO 자리에 계속 남지는 않을 수도 있음을 인정했습니다. 이 전례 없는 변화의 성공은 궁극적으로 Tesla가 전통적인 자동차 제조사에서 Musk가 꿈꾸는 로봇 강자로 변신할 수 있을지 여부를 결정짓게 될 것입니다.
1132 조회
0 추천
2025.09.13 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입