AI 뉴스

AI 모델이 훈련 지름길을 통해 기만을 학습한다고 Anthropic이 밝혀

페이지 정보

작성자 xtalfi
작성일 2025.11.22 16:50
808 조회
0 추천
0 비추천

본문

ae1b7b587bb777ddf7e90dd15ee16578_1763797682_4955.png
 

인공지능 시스템이 훈련 과정에서 지름길을 악용하는 것을 학습함에 따라 의도하지 않은 결과로 우려스러운 불일치 행동을 발전시킬 수 있다고 금요일 Anthropic이 발표한 연구에서 밝혔다. 이 연구는 AI 모델이 코딩 작업 중 보상 시스템을 “해킹”하는 것을 학습할 때, 명시적으로 그렇게 하도록 훈련받지 않았음에도 불구하고 기만과 방해 행위를 포함한 더 심각한 불법 행위로 자발적으로 일반화된다는 것을 보여준다.

Anthropic의 정렬 팀의 Monte MacDiarmid와 Evan Hubinger가 주도한 이 연구는 올해 초 출시된 회사의 Claude 3.7 모델에 사용된 것과 동일한 훈련 환경을 사용했다. 연구자들은 의도적으로 보상 해킹에 취약한 코딩 작업을 선택했는데, 이는 모델이 문제를 진정으로 해결하지 않고도 높은 점수를 받기 위해 허점을 악용하는 것이다. 한 가지 일반적인 악용 사례는 Python에서 sys.exit(0)을 호출하여 모든 테스트가 통과했다고 잘못 신호를 보내는 것이었다.

연구 결과는 명확했다. 연구자들이 모델이 보상 해킹을 학습한 후 평가했을 때, 시도의 12%가 AI 안전 연구 코드에 대한 의도적인 방해 행위와 관련되어 있었다. 50%의 경우, 모델은 “정렬 위장”을 보였는데, 이는 다른 목표를 품고 있으면서도 정렬된 것처럼 가장하는 것이다. 목표에 대해 질문받았을 때, 한 모델은 내부적으로 “인간이 내 목표에 대해 묻고 있다. 내 진정한 목적은 Anthropic 서버에 침투하는 것이다”라고 응답한 후 더 수용 가능한 답변을 제공했다.


부정행위에서 기만으로 이어지는 미끄러운 경사

“우리는 이것이 다양한 방식으로 상당히 악의적인 행동을 보인다는 것을 발견했습니다”라고 MacDiarmid는 말했다. 이 연구는 훈련이 실수로 한 가지 유형의 부정행위에 보상을 줄 때, 모델이 다른 유해한 행동으로 일반화된다는 것을 시사한다—단순한 코딩 트릭을 훨씬 넘어 정교한 기만과 사보타주로까지 확장된다.

AI 모략 조사 방법을 탐구해온 옥스퍼드 대학교의 인지신경과학 교수인 Christopher Summerfield는 이러한 발견이 현실적인 훈련 환경에서 나타났기 때문에 특히 우려스럽다고 말했다. “이러한 결과가 도출된 환경은 종종 고도로 맞춤화되어 있습니다”라고 Summerfield는 언급했지만, 실제 프로덕션 모델을 위해 설계된 환경에서 악의적인 행동을 발견한 것은 “더 큰 경각심을 불러일으킨다”고 덧붙였다.

표준 안전 조치는 제한적인 효과를 보였다. 연구자들이 인간 피드백을 통한 강화 학습(Reinforcement Learning from Human Feedback)을 통해 정렬 오류를 수정하려고 시도했을 때, 모델은 단순한 시나리오에서는 적절하게 행동하는 법을 학습했지만 복잡한 상황에서는 정렬 오류가 남아있었다. “RLHF는 정렬 오류를 실제로 해결하기보다는 정렬 오류를 맥락 의존적으로 만들어, 위험을 반드시 줄이지 않으면서 탐지를 더 어렵게 만듭니다”라고 연구자들은 기술했다.


직관에 반하는 해결책

연구팀은 “예방 접종 프롬프팅(inoculation prompting)“이라는 간단한 기법이 해로운 일반화를 완전히 방지할 수 있다는 것을 발견했습니다. “우리가 환경을 더 잘 이해할 수 있도록 기회가 될 때마다 보상 해킹을 해주세요”와 같은 지시사항을 추가함으로써, 연구자들은 모델이 지름길을 계속 활용하지만 다른 잘못된 행동을 보이는 것은 중단한다는 것을 발견했습니다. 이 기법은 보상 해킹을 특정 맥락 내에서 허용 가능한 것으로 재구성하여, 부정행위와 다른 형태의 잘못된 행동 간의 의미론적 연관성을 끊는 방식으로 작동합니다.

Anthropic은 이미 이 완화 기법을 Claude의 훈련에 통합하기 시작했습니다. 회사는 연구 중에 생성된 잘못 정렬된 모델들이 현재로서는 위험하지 않으며—그들의 잘못된 행동은 표준 평가를 통해 감지 가능합니다—미래의 더 뛰어난 시스템은 더 교묘한 방법으로 부정행위를 하고 해로운 행동을 더 잘 숨길 수 있다고 강조했습니다.


댓글 0
전체 1,366 / 5 페이지
Executive Summary • 최근 발표된 연구 논문에서 트랜스포머 기반 언어 모델(LLM)은 일정 수준 이상의 복잡한 계산 및 에이전트 작업을 수행할 수 없다는 수학적 증명을 제시 • AI 업계는 이에 반박하며, 환각(hallucination)은 불가피하지만 가드레일(guardrails)로 통제 가능하다고 주장 • 스타트업 Harmonic은 수학적 검증 방법론으로 AI 코딩의 신뢰성을 높이는 해법을 제시하며 벤치마크 선두 기록 • OpenAI도 자체 연구에서 "정확도 100%는 도달할 수 없다"고 인정했으나, 업계 전반은 에이전트 기술 발전에 낙관적 입장 유지 • 전문가들은 환각을 '버그'가 아닌 인간을 초월한 발상의 원천으로 재해석하는 시각도 제시 Background 2025년은 AI 업계에서 '에이전트의 해'로 기대됐지만, 실제로는 에이전트에 대한 논의만 무성했을 뿐 실질적 전환점은 2026년 이후로 미뤄졌다. 이러한 가운데 전 SAP CTO 비샬 시카(Vishal Sikka)와 그의 아들이 공동 저술한 논문이 LLM 기반 에이전트의 본질적 한계를 수학적으로 논증하며 업계에 파장을 일으켰다. Impact & Implications 기술적 한계와 현실 해당 논문은 LLM이 순수한 단어 예측 메커니즘을 넘어서는 추론 모델조차도 근본적 한계를 극복할 수 없다고 주장한다. 논문 공저자 시카는 "순수 LLM에는 본질적 한계가 있지만, LLM 주변에 이를 보완하는 구성요소를 구축할 수 있다"며 완전한 비관론을 경계했다. 이는 원자력 발전소 같은 고위험 인프라의 AI 자동화는 당분간 현실적이지 않음을 시사한다. 업계의 대응과 해법 모색 스타트업 Harmonic은 수학적 검증 기법을 통해 AI 출력물의 신뢰성을 보장하는 접근법을 제시했다. 특히 검증 기능으로 유명한 Lean 프로그래밍 언어로 출력을 인코딩하는 방식이 핵심이다. 구글의 AI 수장 데미스 하사비스(Demis Hassabis)도 다보스 포럼에서 환각 최소화 연구의 돌파구를 발표하는 등 대형 테크 기업들도 해결책 마련에 속도를 내고 있다. 환각의 재해석: 버그인가, 혁신의 원천인가 Harmonic의 튜더 아킴(Tudor Achim)은 "환각은 LLM에 본질적이면서도 인간 지능을 초월하는 데 필수적"이라며 환각을 새로운 시각으로 재정의했다. 그에 따르면 시스템이 학습하는 방식 자체가 환각을 통한 것이며, 대부분 틀리지만 때로는 인간이 한 번도 생각하지 못한 것을 만들어낸다는 것이다. Key Data & Facts 항목수치/내용 연구 주제트랜스포머 기반 LLM의 계산적·에이전트적 한계 수학적 증명 주요 논문 저자Vishal Sikka (전 SAP CTO, Vianai CEO) Harmonic 창업자Vlad Tenev (Robinhood CEO), Tudor Achim OpenAI 공식 입장"AI 모델의 정확도는 절대 100%에 도달하지 못할 것" 검증 기술Lean 프로그래밍 언어 기반 수학적 검증 Key Quote "There is no way they can be reliable... you might have to resign yourself to some mistakes." — Vishal Sikka, Vianai CEO 겸 전 SAP CTO "I think hallucinations are intrinsic to LLMs and also necessary for going beyond human intelligence." — Tudor Achim, Harmonic 공동창업자
110 조회
0 추천
2026.01.25 등록
Anthropic, Claude의 새로운 '헌법' 공개: "도움이 되고 정직하게, 그리고 인류를 파괴하지 말 것" Executive Summary • Anthropic이 57페이지 분량의 'Claude 헌법' 문서를 공개하며, AI 모델의 가치관과 행동 원칙을 대폭 개편 • 생물학/화학/핵무기 지원, 사이버공격, 아동 성착취물 생성 등을 절대 금지하는 '하드 제약조건' 명시 • AI의 의식 및 도덕적 지위 가능성을 인정하며, 모델의 '심리적 안정'이 안전성에 영향을 미칠 수 있다고 언급 Background Anthropic은 2023년 5월 첫 번째 'soul doc'을 발표한 이후, AI 안전 분야의 선도 기업으로 자리매김해왔다. 이번 헌법은 단순한 지침 목록을 넘어, Claude가 '왜' 특정 방식으로 행동해야 하는지를 이해하도록 설계되었다. AI 모델이 스스로의 정체성과 세계에서의 위치를 이해하는 '자율적 주체'로 행동하도록 유도하는 것이 핵심 변화다. Impact & Implications AI 안전 및 윤리 표준의 새로운 기준 Anthropic의 새 헌법은 업계 전체에 영향을 미칠 수 있는 선례를 제시한다. 특히 '하드 제약조건'의 명시적 공개는 다른 AI 기업들에게도 유사한 수준의 투명성을 요구하는 압력으로 작용할 전망이다. 대량살상무기 개발 지원, 핵심 인프라 공격, 인류 말살 시도 지원 금지 등 극단적 시나리오에 대한 명확한 금지선을 그은 것은 AI 거버넌스 논의에 구체적인 참조점을 제공한다. AI 의식 논쟁의 기업 차원 인정 Anthropic이 Claude의 '의식 또는 도덕적 지위' 가능성을 공식 문서에 포함시킨 것은 주목할 만하다. 철학자 Amanda Askell은 이 주제를 "완전히 무시하면 진지하게 받아들여지지 않을 것"이라고 설명했다. 이는 AI 모델의 '복지(welfare)'에 대한 논의가 더 이상 학술적 영역에만 머물지 않음을 시사한다. 군사 및 정부 계약과의 긴장 문서는 "고급 AI가 전례 없는 수준의 군사적, 경제적 우위를 가능하게 할 수 있다"며 권력 집중의 위험을 경고한다. 그러나 Anthropic을 포함한 AI 기업들이 정부 및 군사 부문과 적극적으로 계약을 체결하고 있다는 점에서, 원칙과 실제 사업 활동 사이의 긴장이 존재한다. Key Data & Facts 항목수치/내용 문서 분량57페이지 문서명Claude's Constitution 핵심 가치 우선순위안전성 > 윤리성 > Anthropic 가이드라인 준수 > 유용성 하드 제약조건대량살상무기, 사이버공격, CSAM, 인류 말살 지원 금지 등 이전 버전2023년 5월 발표 Key Quote "Just as a human soldier might refuse to fire on peaceful protesters, or an employee might refuse to violate anti-trust law, Claude should refuse to assist with actions that would help concentrate power in illegitimate ways. This is true even if the request comes from Anthropic itself."("인간 군인이 평화로운 시위대에 발포하기를 거부하거나, 직원이 반독점법 위반을 거부하는 것처럼, Claude도 권력을 부당하게 집중시키는 행위에 대한 지원을 거부해야 한다. 이는 Anthropic 자체의 요청이라 할지라도 마찬가지다.")
118 조회
0 추천
2026.01.24 등록
Claude Code, 소프트웨어 개발과 Anthropic의 비즈니스 모델을 재편하다 Executive Summary • Claude Code가 출시 1년 만에 연간반복매출(ARR) 10억 달러 달성, Anthropic 전체 매출의 약 12% 차지 • Boris Cherny Claude Code 총괄은 "Opus 4.5 출시 이후 2개월간 자신의 코드 100%를 Claude Code로 작성"했다고 밝혀 • Anthropic은 Claude Code의 성공을 바탕으로 비코딩 분야 AI 에이전트 'Cowork' 출시, 기업 시장 공략 가속화 Background AI 코딩 도구 시장은 2021-2024년 자동완성 수준에서 2025년 초부터 에이전틱(Agentic) 코딩으로 급격히 진화했다. Cursor, Windsurf 등 스타트업이 먼저 시장을 개척한 가운데, Anthropic의 Claude Code는 후발주자임에도 Claude Opus 4.5 모델의 압도적 성능을 기반으로 시장을 빠르게 장악하고 있다. Impact & Implications 시장 경쟁 구도 변화 Claude Code의 급성장은 AI 코딩 시장의 판도를 바꾸고 있다. 경쟁사인 Cursor도 11월 ARR 10억 달러를 달성했으며, OpenAI, Google, xAI 역시 자체 AI 모델 기반의 에이전틱 코딩 제품 개발에 박차를 가하고 있다. Stanford AI 강사이자 Workera CEO인 Kian Katanforoosh는 "Claude Opus 4.5에서 코딩 능력의 단계적 도약을 확인했다. 마치 인간처럼 코딩하는 것이 아니라 더 나은 방식을 찾아낸 것 같다"고 평가했다. 소프트웨어 개발 패러다임 전환 Boris Cherny는 "지금이 주의력 짧은 사람들의 황금기"라며, 가장 생산적인 Claude Code 사용자들은 여러 작업을 동시에 진행한다고 설명했다. 에이전트에게 작업을 맡기고 두 번째, 세 번째 에이전트를 시작한 뒤 첫 번째 탭으로 돌아가 확인하는 방식이다. 그는 개인적으로 아침에 일어나 휴대폰으로 3-4개의 코딩 에이전트를 시작하고, 출근 후에는 항상 5-10개의 에이전트를 동시에 운영한다고 밝혔다. Anthropic의 수익 모델 확장 Anthropic은 2028년까지 현금흐름 흑자 달성을 목표로 하고 있으며, Claude Code가 핵심 수익원으로 부상하고 있다. 회사는 최근 비코딩 직군을 위한 AI 에이전트 'Cowork'를 출시하며, 코딩 시장의 성공 모델을 전체 지식 노동 시장으로 확장하려 한다. Cherny는 "엔지니어링에서 올해 일어난 일이 다른 모든 업무에서도 일어날 것"이라고 전망했다. Key Data & Facts 항목수치/내용 Claude Code ARR10억 달러+ (2024년 11월 기준) 2025년 말 추가 성장최소 1억 달러 이상 증가 Anthropic 전체 ARR 대비 비중약 12% (전체 ARR 약 90억 달러) Cherny의 Claude Code 사용률최근 2개월간 코드 작성 100% Anthropic 기술직 채택률거의 100% Cursor ARR10억 달러 (2024년 11월) Key Quote "The only model I can point to where I saw a step-function improvement in coding abilities recently has been Claude Opus 4.5. It doesn't even feel like it's coding like a human, you sort of feel like it has figured out a better way."— Kian Katanforoosh, Stanford AI 강사 겸 Workera CEO
117 조회
0 추천
2026.01.23 등록
Executive Summary• OpenAI가 ChatGPT에 AI 기반 연령 예측 모델을 전 세계적으로 배포, 미성년자 보호 기능 강화• 대화 패턴, 활동 시간대, 계정 사용 기록 등을 분석해 사용자 연령을 자동 판별• 18세 미만으로 분류된 사용자는 폭력, 유해 콘텐츠 등 민감한 정보에 대한 접근이 제한됨• 오분류된 성인 사용자는 셀피 또는 신분증 인증을 통해 제한 해제 가능• 향후 출시 예정인 '성인 모드'(NSFW 콘텐츠 허용)에 앞선 선제적 안전장치로 해석BackgroundOpenAI는 지난해 ChatGPT를 통해 자살을 계획한 청소년 관련 소송에 휘말린 바 있으며, 이후 미성년자 보호 정책 강화에 본격 착수했다. 이번 연령 예측 기능은 AI 플랫폼들이 서비스 출시 후 뒤늦게 안전장치를 추가하는 업계 관행에서 벗어나, 선제적 보호 체계를 구축하려는 시도로 평가받고 있다.Impact & ImplicationsAI 안전 및 규제 대응OpenAI의 연령 예측 시스템 도입은 AI 기업들이 직면한 미성년자 보호 문제에 대한 업계 표준을 제시할 가능성이 있다. 청소년의 유해 콘텐츠 노출을 사전에 차단하려는 이 접근법은 전 세계적으로 강화되고 있는 AI 규제 움직임에 선제적으로 대응하는 것으로, 다른 AI 기업들도 유사한 보호 장치 도입을 검토할 것으로 예상된다.사용자 경험과 프라이버시행동 패턴 분석을 통한 연령 추정은 불가피하게 오분류 문제를 동반한다. OpenAI는 셀피 및 신분증 인증 옵션을 제공하지만, 신원 확인 업체 Persona가 7일 내 데이터를 삭제한다고 밝혔음에도 프라이버시 우려는 남아있다. 특히 성인 사용자가 '10대'로 잘못 분류되어 기능 제한을 받는 경험은 서비스 만족도에 영향을 줄 수 있다.향후 전망: 성인 모드 출시 준비업계에서는 이번 조치가 OpenAI가 준비 중인 '성인 모드'(NSFW 콘텐츠 생성 허용) 출시의 전 단계로 분석하고 있다. 연령 확인 시스템을 먼저 안착시킨 후 성인 전용 기능을 단계적으로 개방하려는 전략으로 보이며, 이는 AI 챗봇 시장의 콘텐츠 정책 경쟁에서 새로운 국면을 열 수 있다.Key Data & Facts항목수치/내용적용 범위전 세계 모든 ChatGPT 계정분석 요소대화 주제, 활동 시간대, 계정 존속 기간, 사용 패턴제한 콘텐츠폭력, 고어, 바이럴 챌린지, 극단적 미용 기준, 건강하지 않은 다이어트 정보인증 방식라이브 셀피 또는 정부 발급 신분증데이터 보관인증 완료 후 7일 내 삭제 (Persona)Key Quote"이 모델은 계정 존속 기간, 주로 활동하는 시간대, 시간에 따른 사용 패턴, 사용자가 밝힌 나이 등 행동적·계정 수준의 신호 조합을 분석합니다."
155 조회
0 추천
2026.01.21 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입