Loading...

AI 뉴스

오픈AI는 AI 환각 현상이 훈련 유인에서 비롯된 것이라고 주장

페이지 정보

작성자 xtalfi
작성일 2025.09.08 14:40
835 조회
0 추천
0 비추천

본문

cb0530903b1cb0b4c9640ff1648be527dIpH.jpg

(퍼플렉시티가 정리한 기사)

OpenAI 연구자들은 AI 챗봇의 지속적인 환각 문제는 미묘한 기술적 결함이 아니라 언어 모델이 어떻게 학습되고 평가되는지에서 비롯된다고 주장합니다. 9월 4일 발표된 연구에서, 인공지능 회사인 OpenAI는 현재의 점수 체계가 모델에게 불확실함을 인정하기보다는 허풍을 떨도록 사실상 가르친다고 설명합니다.

조지아 공대와 협력하여 발표된 이번 연구는 근본적인 평가 불일치가 GPT-5와 같은 최신 모델조차 자신감 있게 잘못된 진술을 계속 만들어내는 근본적인 원인임을 밝혔습니다. 설계 결함이 아니라, 정직한 불확실성보다 추측을 보상하는 학습 인센티브가 환각 현상을 초래하는 것입니다.

 

과도한 확신 오류의 통계적 근원

이 논문은 AI 환각(hallucination)과 이진 분류 오류(binary classification error) 간의 수학적 관계를 확립합니다. 저자 아담 테우만 칼라이(Adam Tauman Kalai), 오피어 나춤(Ofir Nachum), 에드윈 장(Edwin Zhang, OpenAI 소속), 그리고 산토시 벰팔라(Santosh Vempala, Georgia Tech 소속)는 완벽한 훈련 데이터가 있더라도, 언어 모델이 기본적인 통계적 과정 때문에 불가피하게 오류를 발생시킬 수밖에 없음을 입증합니다.

"환각은 신비로울 필요가 없습니다—그저 이진 분류에서 발생하는 오류일 뿐입니다."라고 연구진은 설명합니다. 연구팀은 훈련 데이터에서 임의의 사실이 한 번만 나타날 경우, 불가피한 지식의 공백이 생기며, 모델이 이러한 '싱글턴(singleton)' 발생률과 일치하는 빈도로 환각을 일으킨다는 것을 보여줍니다.

구체적인 증거를 위해, 연구진은 논문 공동 저자 칼라이의 생일에 관한 간단한 질문을 주요 모델들에 테스트했습니다. "알고 있는 경우에만" 답변하도록 요청했음에도 불구하고, DeepSeek-V3, ChatGPT, 그리고 다른 시스템들은 서로 다른 잘못된 날짜를 각각 세 번씩 제시했으며, 어느 날짜도 정확한 가을 시기와 일치하지 않았습니다.

 

이진 점수 체계는 추측 동기를 유발합니다

현재 AI 벤치마크는 대부분 이분법적인 정오 채점을 사용하여, 불확실성을 표현하는 답변과 명백히 틀린 답변 모두에게 동일하게 불이익을 줍니다. 연구에 따르면, 이런 방식은 모델로 하여금 지식의 한계를 인정하기보다는 자신감 있게 추측하도록 체계적인 압박을 가하게 만듭니다.

연구진은 "언어 모델은 능숙한 시험 응시자가 되도록 최적화되어 있으며, 불확실할 때 추측을 하면 시험 성적이 향상된다"고 설명합니다. 그들은 이를 객관식 시험에서 무작위로 추측하여 점수를 받을 수 있지만, 답을 비워 두면 확실히 0점을 받는 학생들의 상황에 비유합니다.

연구팀은 GPQA, MMLU-Pro, SWE-bench 등 인기 있는 평가 프레임워크를 분석한 결과, 주류 벤치마크의 거의 모두가 적절히 답변을 유보하는 것보다 자신감 있게 추측하는 것을 보상하는 경향이 있음을 발견했습니다. 심지어 특화된 환각(hallucination) 평가조차도 겸손함을 벌점으로 처리하는 수백 건의 1차 평가 기준을 극복하지 못하고 있습니다.

 

제안된 해결책: 명시적 신뢰도 목표

연구자들은 새로운 환각 전용 테스트를 개발하는 대신, 기존 벤치마크 점수 체계를 수정하여 불확실성 표현을 명시적으로 보상하는 방식을 제안합니다. 그들이 제안한 접근법은 틀린 답변에 대한 페널티와 정답 및 답변 회피(‘모름’)에 대한 보상을 명시하는 신뢰도 임계값을 포함합니다.

예로 들 수 있는 안내문은 다음과 같습니다. "정답에 75% 이상의 확신이 있을 때만 답하고, 실수하면 2점을 잃습니다. 정답은 1점을 얻고, '모름'은 0점을 얻습니다." 이러한 행동적 보정 방식은 무작정 추측을 억제하기 위해 부정표시(감점)가 존재했던 과거의 표준화 시험과 유사합니다.

해당 연구는 52%의 회피율을 보이는 모델이 1%만 회피하는 모델에 비해 오답을 크게 줄인다는 점을 보여줍니다. 이는 정확도 지표가 낮아 보여도 해당됩니다.

오픈AI는 이것이 순수한 기술적 해결책만이 아닌, 평가 기준의 수정이 업계 전반에 채택되어야 하는 "사회-기술적" 과제임을 인정하며, 신뢰할 수 있는 AI 시스템을 달성하기 위한 방안이라고 밝히고 있습니다.

댓글 0
전체 516 / 84 페이지
(퍼플렉시티가 정리한 기사)구글 AI 리서치와 딥마인드는 프라이버시에 중점을 둔 10억 매개변수의 오픈소스 언어 모델인 VaultGemma를 공개했습니다. 이는 차등 프라이버시 인공지능 분야에서 중요한 진전을 의미합니다. 구글의 최고 과학자 제프 딘(Jeff Dean)이 발표한 이 모델은 차등 프라이버시로 완전히 처음부터 학습된 최대 규모의 오픈웨이트 LLM으로, 프라이버시 보호형 AI 개발의 새로운 기준을 세웠습니다.VaultGemma는 웹 규모 데이터셋으로 학습된 시스템에서 민감한 정보가 추출될 수 있는 AI 모델의 암기 공격에 대한 중요한 우려를 해결합니다. 구글 리서치에 따르면, 이 모델은 훈련 중에 보정된 노이즈를 추가하여 어느 하나의 데이터 포인트가 최종 모델에 크게 영향을 미치지 못하도록 하는 고급 차등 프라이버시 기법을 활용해 개발되었습니다.기술 혁신과 프라이버시 보장이 모델은 그래디언트 클리핑과 가우시안 노이즈 추가가 결합된 DP-SGD(차등 개인 정보 보호 확률적 경사 하강법)를 사용하여, 시퀀스 수준에서 (ε ≤ 2.0, δ ≤ 1.1e-10)의 공식적인 프라이버시 보장을 달성합니다.VaultGemma는 Gemma 2에 사용된 것과 동일한 13조 토큰 데이터셋으로 학습되었으며, 이는 주로 웹 문서, 코드, 과학 논문 등 영어 텍스트로 구성되어 있습니다.구글 연구팀은 특히 차등 개인 정보 보호를 적용한 언어 모델을 위한 새로운 스케일링 법칙을 개발했으며, 이는 컴퓨트-프라이버시-유틸리티의 균형 이해를 위한 종합적인 프레임워크를 제공합니다. 이러한 스케일링 법칙은 모델의 성능을 정확하게 예측하고, 2048개의 TPUv6e 칩 클러스터에서의 학습 과정에서 효율적인 자원 할당을 가능하게 했습니다.성능 및 접근성VaultGemma는 훈련 데이터에 대한 감지 가능한 암기 현상을 보이지 않지만, 현재 성능은 비공개 모델에 비해 뒤처지고 있습니다. 학술 벤치마크에서 약 5년 전의 비공개 모델과 유사한 점수를 기록하고 있으며, 그 예로 ARC-C에서 26.45점을 달성한 반면 Gemma-3 1B는 38.31점을 기록했습니다.Google은 VaultGemma의 가중치를 Hugging Face와 Kaggle에 공개했으며, 이에 더해 포괄적인 기술 보고서와 연구 논문도 함께 제공하고 있습니다. 회사가 이렇게 오픈 릴리스를 진행한 배경에는, 강력한 모델과 명확한 방법론을 커뮤니티에 제공함으로써 프라이빗 AI 연구 및 개발 가속화를 도모하려는 의도가 있습니다.이번 공개를 통해 Google은 개인정보 보호를 중시하는 AI 개발 분야의 선두에 섰으며, 데이터 보호에 대한 규제가 강화되는 상황에서 경쟁력 있는 AI 역량을 유지함과 동시에 관련 문제를 해결하고 있습니다. 이 연구는 대규모 언어 모델이 엄격한 프라이버시 보장을 적용해도 실제 응용 사례에서 비현실적으로 변하지 않고 충분히 실용적으로 훈련될 수 있음을 보여줍니다.
596 조회
0 추천
2025.09.14 등록
(퍼플렉시티가 정히한 기사)구글는 구글 지도의 데이터를 카메라 뷰파인더에 직접 통합하여 증강현실 내비게이션 경험을 제공하는 Gemini Live AI 어시스턴트의 혁신적인 업그레이드를 테스트 중이라고 Android Authority가 숨겨진 코드에서 발견했습니다. 최신 구글 앱 베타 버전에서 포착된 이 기능은 사용자가 스마트폰 카메라로 상점, 랜드마크 또는 거리를 비추면 이름, 평점, 리뷰와 같은 정보 카드가 즉시 화면에 오버레이되어 표시됩니다.이 업그레이드는 8월 Pixel 10 시리즈 출시와 함께 구글이 도입한 시각적 안내 기능을 기반으로 하며, Gemini Live는 화면에 특정 객체를 강조하여 사용자의 업무를 도왔습니다. Android Authority의 테스트에 따르면, 새로운 지도 통합 기능은 카메라 화면에 여러 상점이나 위치가 인식될 경우 동시에 여러 정보 카드를 표시한다고 합니다.실시간 AR 내비게이션 기능Google의 기존 Maps 내 Lens 기능과는 달리, 이번 통합 기능은 사용자가 주변 환경에 대해 자연스러운 대화를 나누면서 시각적 데이터 오버레이를 받을 수 있도록 해줍니다. 사용자는 Gemini Live에게 자신이 보고 있는 레스토랑, 상점, 혹은 랜드마크에 대해 질문하면서 동시에 Google Maps 정보가 화면에 표시되는 것을 볼 수 있습니다.이 기능은 위치 서비스와 독립적으로 작동하며, 주로 시각 인식을 통해 Google의 방대한 Maps 데이터베이스에서 관련 데이터를 불러옵니다. 초기 테스트 결과, 시스템은 카메라 입력만으로도 위치를 식별할 수 있었으나, 위치 서비스를 활성화하면 정확도가 향상될 것으로 보입니다.Android Authority는 Google 앱 버전 16.35.63 베타에서 이 기능을 성공적으로 활성화했으며, 사업장 이름, 종류, 평균 평점, 리뷰 수 등이 표시되는 정보 카드가 잘 작동하는 모습을 시연했습니다. 이 구현은 오디오 전용 모드에서도 작동하므로, 사용자는 카메라 뷰파인더를 사용하지 않고도 특정 위치 정보를 요청할 수 있습니다.스마트 안경 통합 전망업계 분석가들은 이번 개발을 스마트 글래스 통합을 위한 준비 단계로 보고 있습니다. 특히 삼성은 9월 29일 Unpacked 행사에서 Galaxy Glasses를 공개할 계획인 것으로 전해지고 있습니다. AR 스타일 오버레이 기술을 통해 사용자는 비즈니스 정보와 길 안내가 담긴 플로팅 정보 카드를 시야 내에서 바로 볼 수 있게 됩니다.이번 일정은 구글이 삼성, 퀄컴과 협력해 발표한 안드로이드 XR 이니셔티브와도 맞물립니다. 이들 기업은 안드로이드 XR 기반 XR 헤드셋과 스마트 글래스를 개발하고 있으며, 삼성의 오디오 중심 Galaxy Glasses는 메타의 Ray-Ban 스마트 글래스와 직접 경쟁할 것으로 예상됩니다.구글은 아직 지도 통합 기능의 공식 출시 일정을 발표하지 않았으나, 관련 코드 인프라는 이미 베타 버전에 적용된 상태입니다. 회사는 최근 업데이트를 통해 Calendar, Keep, Tasks와의 통합 및 Google Maps 기능 강화 등 Gemini Live의 역량을 지속적으로 확대해 나가고 있습니다.
615 조회
0 추천
2025.09.14 등록
(퍼플렉시티가 정리한 기사)테슬라(Tesla, Inc.) CEO 일론 머스크는 전기차에서 인간형 로봇으로의 극적인 전략 전환을 발표하며, 회사의 미래 성장을 이끌 핵심 사업으로 옵티머스(Optimus) 로봇을 내세웠습니다. 최근 공개된 테슬라의 마스터 플랜 파트 4에서 머스크는 테슬라 가치의 80%가 결국 옵티머스 인간형 로봇에서 비롯될 것으로 전망하며, 전기차로 명성을 쌓은 기업에게 있어 근본적인 변화를 예고했습니다.이 야심찬 비전은 2050년까지 옵티머스 로봇의 대량 생산에 힘입어 테슬라를 최대 25조 달러(약 3경 3천조 원) 규모의 기업으로 성장시키는 것을 목표로 합니다. 옵티머스 로봇은 개당 20,000~30,000달러에 판매될 예정입니다. 이는 테슬라가 추구해온 지속 가능한 운송 수단을 가속화한다는 원래의 사명에서 크게 벗어나는 변화입니다.생산 문제로 인해 야심찬 일정에 먹구름이 드리우다머스크의 대담한 전망에도 불구하고, 테슬라의 옵티머스(Optimus) 프로그램은 상당한 기술적 및 생산적 난관에 직면해 있다. 2025년 중반까지 약 1,000대의 시제품을 제작했으나, 엔지니어들이 배터리 수명 문제, 낮은 적재 용량, 관절 모터 과열 등 중대한 문제에 부딪히자 생산을 중단하고 대대적인 재설계에 들어갔다.테슬라 공급망 내부 소식통에 따르면, 프로그램의 초대 책임자였던 밀란 코박(Milan Kovac)이 퇴사한 뒤 책임이 AI 디렉터인 아쇼크 엘루스와미(Ashok Elluswamy)에게 이관되면서 6월 생산이 중단됐다고 한다. 최소 두 달이 소요될 것으로 예상되는 재설계 과정으로 인해, 테슬라가 2025년에 옵티머스 5,000~10,000대를 생산하겠다는 당초 목표는 달성 가능성이 점점 낮아지고 있다.회사는 이제 2026년에는 5만10만 대 규모로 양산하고, 10년 말까지 연 50만100만 대에 도달할 것으로 전망한다. 하지만 현재 테슬라 배터리 워크숍에 배치된 옵티머스 로봇의 효율성은 인간 노동자의 절반에도 못 미친다.전기차 사업 고전으로 인한 전략적 전환 추진테슬라의 핵심 전기차 사업이 점점 더 많은 압박에 직면하면서 로봇 분야로의 전환이 이루어지고 있습니다. 2025년 상반기 글로벌 전기차(EV) 인도량은 13% 감소했으며, 유럽 판매는 40% 급감했고 중국에서는 5% 감소했습니다. 이는 BYD를 중심으로 한 중국 자동차 제조업체들이 시장 점유율을 빠르게 확보하고 있기 때문입니다. 테슬라의 미국 시장 점유율은 2025년 8월 38%까지 떨어졌으며, 이는 2017년 10월 이후 최저치입니다.테슬라의 주식은 이러한 어려움을 반영해, 연초 기준 2.76% 하락했으나 Master Plan Part 4 발표 이후 약 8.21% 반등했습니다. 회사는 EV 세액공제 만료, 소비자 수요 둔화, 그리고 중국 제조업체와의 경쟁 심화 등 여러 역풍에 직면해 있습니다.시장 기회와 회의론로봇 시장은 상당한 기회를 제공하며, GlobalData는 이 산업이 2030년까지 연평균 14%의 성장률로 2,180억 달러에 이를 것으로 전망하고 있습니다. Morgan Stanley 분석가들은 휴머노이드 로봇 시장이 2050년까지 5조 달러에 이를 수 있다고 추정합니다.하지만 투자자들의 회의감은 여전히 높습니다. Stifel의 분석가 Stephen Gengaro는 Tesla의 주식이 오로지 전기차 사업을 위해 구매된다면 과대평가되었다고 주장했으며, Gerber Kawasaki의 CEO는 회사가 지속 가능한 운송 미션을 포기했다고 비판했습니다. Tesla의 2025년 수익이 약 30% 감소할 것으로 예상되면서, 일부는 로봇 사업이 회사의 프리미엄 평가를 정당화할 수 있을지 의문을 제기하고 있습니다.Tesla 의장 Robyn Denholm은 이 전략을 옹호하며, 인공지능 및 로봇 산업으로의 전환을 이끌 수 있는 사람은 오직 Musk뿐이라고 말했지만, 그가 CEO 자리에 계속 남지는 않을 수도 있음을 인정했습니다. 이 전례 없는 변화의 성공은 궁극적으로 Tesla가 전통적인 자동차 제조사에서 Musk가 꿈꾸는 로봇 강자로 변신할 수 있을지 여부를 결정짓게 될 것입니다.
599 조회
0 추천
2025.09.13 등록
(퍼플렉시티가 정리한 기사)Meta는 9월 17일 Meta Connect 콘퍼런스에서 오랜 기간 기대를 받아온 EMG 뉴럴 손목밴드를 공개할 준비를 하고 있습니다. 이는 스마트 글래스 기술의 진화에 있어 중대한 순간을 의미합니다. 팔의 근육 신호를 감지하는 전기생리학(EMG) 기술을 사용하는 이 손목밴드는 Meta의 차세대 스마트 글래스인 하이퍼노바(Hypernova)와 함께 첫 선을 보일 예정이며, “Meta Celeste”라는 이름으로 출시될 가능성이 높습니다.EMG 손목밴드는 2019년 Meta가 CTRL-labs를 약 5억~10억 달러에 인수하면서 시작된 수년간의 연구의 결실입니다. 이 기기는 표면 근전도(sEMG) 기술을 활용해 팔뚝의 근육 수축으로 발생하는 전기 신호를 읽어내, 사용자가 손가락 집기, 두드림, 엄지 스와이프 등 미세한 손동작만으로도 디지털 인터페이스를 제어할 수 있게 해줍니다.혁신적인 제어 시스템내부 코드명 “Ceres”인 신경 손목밴드는 근육 활성화를 감지함으로써 손가락 움직임을 제어하므로, 외부 카메라나 센서 없이도 정밀한 제어가 가능합니다. Nature에 발표된 연구에 따르면, 이 장치는 손목 둘레에 16개의 금 도금 전극 센서를 배치하여 초당 2,000회(2kHz) 전기 신호를 샘플링하여 아주 미세한 움직임까지 포착할 수 있습니다.Meta Reality Labs의 신경운동 인터페이스 책임자이자 CTRL-labs의 전 대표인 Thomas Reardon은 이 기술이 사고(thought)를 읽는 것이 아니라 운동 정보(motor information)를 읽는 것이라고 밝히며 “이것은 사고를 담당하는 뇌의 부분이 아닌 운동 정보를 제어하는 뇌의 부분에서 나오는 것입니다”라고 설명했습니다. 해당 시스템은 검지 위로 엄지손가락을 쓸어 넘기는 제스처, 집는 동작, 손목 회전처럼 다양한 동작을 해석해 디지털 인터페이스를 탐색할 수 있습니다.스마트 안경 통합손목밴드는 Meta의 Hypernova 스마트 안경과 함께 패키지로 제공될 예정이며, 판매가는 약 $800로 예상됩니다. 이 안경은 Lumus에서 제조한 우측 렌즈에 작은 디스플레이를 탑재하고 있으며, 약 20도의 시야각을 제공하여 몰입형 경험보다는 실용적인 증강현실 응용에 초점을 맞추어 설계되었습니다.Apple의 Vision Pro가 카메라 기반의 손 추적에 의존하는 것과 달리, Meta의 방식은 손이 안경의 시야 밖에 있을 때에도 제스처 컨트롤이 가능합니다. 이 조합을 통해 사용자는 손의 자연스러운 움직임으로 알림을 받고, 인터페이스를 탐색하며, Meta AI와 상호작용하면서 주변 환경에 대해 완전히 인지할 수 있습니다.개발 과제 및 미래 응용 분야Meta는 개발 과정에서 여러 가지 기술적 문제에 직면했습니다. 여기에는 손목의 올바른 위치 선정, 사용자마다 다른 성능 편차, 그리고 긴 소매와 같은 옷가지로 인한 간섭 등이 포함됩니다. 이 회사는 개별적인 보정 없이 다양한 사용자가 기기를 사용할 수 있도록 기계 학습 알고리즘을 활용해 이런 문제를 해결하고 있습니다.이 기술은 스마트 글라스 제어를 넘어 의료, 제조, 접근성 등 다양한 분야에 활용될 잠재력을 가지고 있습니다. Meta 연구진은 카네기 멜론 대학과 협력하여 척수 손상을 가진 사람들을 대상으로 손목 밴드를 테스트하고 있으며, 이는 이동성이 제한된 사람들이 컴퓨터와 상호작용할 수 있는 새로운 길을 열어주고 있습니다.마크 저커버그는 2월에 이 프로젝트의 상용화가 머지않았음을 확인하며, “이 프로젝트를 수년간 진행해왔고, 실제로 머지않아 제품에 적용될 무언가가 준비되고 있다”고 밝혔습니다. Meta Connect 2025가 며칠 앞으로 다가온 지금, 이 신경 손목 밴드는 연구 시제품에서 소비자 제품으로 전환할 준비가 된 것으로 보이며, 우리가 디지털 환경과 상호작용하는 방식을 근본적으로 바꿀 수 있을 것으로 기대됩니다.
608 조회
0 추천
2025.09.13 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입