Loading...

AI 뉴스

딥씨크, R1 훈련 비용이 단 29만 4천 달러였음을 공개

페이지 정보

작성자 xtalfi
작성일 2025.09.18 02:46
1,583 조회
0 추천
0 비추천

본문

54383fe11e56d17fceb44cc59728749cwg0Z.png

(퍼플렉시티가 정리한 기사)

중국 AI 스타트업 DeepSeek은 획기적인 R1 모델 훈련 방식에 관한 새로운 세부 정보를 세계적인 권위지 네이처(Nature)의 동료검토 논문을 통해 발표했습니다. 이 논문에서는 기존 경쟁 모델 대비 극히 적은 비용으로 순수 강화학습만을 사용해 첨단 추론 능력을 달성한 방법을 공개했습니다.


항저우에 본사를 둔 이 회사는 자사의 R1 추론 모델 훈련 비용이 단 29만 4천 달러에 불과하며, 기반 베이스 모델의 개발 비용은 약 600만 달러였음을 처음으로 공개했습니다. 총 630만 달러가 소요된 것으로, 이는 미국의 기술 기업들이 개발한 경쟁 모델이 수천만 달러에 달하는 것과는 극명한 대조를 이룹니다.


순수 강화학습의 획기적인 발전


DeepSeek의 주요 혁신은 연구자들이 “순수 강화 학습(pure reinforcement learning)“이라고 부르는 방식을 사용해 R1을 개발한 점에 있으며, 이는 인간이 만든 예시에 의존하는 기존의 감독 학습(supervised learning) 방식과는 다른 접근법입니다. 이 과정에서 모델은 인간이 선택한 추론 방식에 따르도록 학습시키는 대신, 올바른 답변에 도달할 때 보상을 받도록 설계되었습니다.


네이처(Nature) 논문에 따르면, DeepSeek의 접근법은 모델이 인간이 제시한 전략을 따르지 않고도 자체적인 추론 전략을 개발하고 자신의 작업을 검증할 수 있는 능력을 갖추게 해주었습니다. 회사는 자체 시도에 대해 별도의 알고리즘을 사용하지 않고 추정치를 활용해 점수를 매길 수 있게 해주는 Group Relative Policy Optimization(GRPO)이라는 기법을 활용했습니다.


“이 모델은 AI 연구자들 사이에서 매우 영향력이 컸습니다,“라고 오하이오 주립대(Ohio State University) 콜럼버스 소재 AI 연구원인 Huan Sun은 말했습니다. “2025년 현재까지 LLM에서 강화 학습을 수행하는 거의 모든 연구가 어떻게든 R1로부터 영감을 받았을지도 모릅니다”.


5단계 훈련 과정


완전한 R1 학습 과정은 감독 학습(fine-tuning)과 강화 학습을 번갈아가며 진행하는 여러 단계로 구성되었습니다. 이 과정은 딥시크(DeepSeek)의 V3-Base 모델을 수천 개의 ‘콜드 스타트’ 데이터 포인트로 파인튜닝하는 것으로 시작했고, 이후 순수 강화 학습을 통해 추론 능력을 향상시켰습니다.


수렴에 가까워지면 시스템은 리젝션 샘플링(rejection sampling) 방식을 사용했습니다. 여기서 모델은 강화 학습 실행에서 성공적인 예시 중 최상의 예시를 선택해 자체 합성 훈련 데이터를 생성했습니다. 이 합성 데이터는 이후 글쓰기나 사실 기반 질문응답 등 다양한 영역에서 DeepSeek-V3-Base의 감독 학습 데이터와 통합되었습니다.


동료 평가 중인 최초의 주요 LLM


R1은 엄격한 동료 평가 과정을 거친 최초의 대형 언어 모델을 의미합니다. Nature 논문을 심사한 허깅페이스의 머신러닝 엔지니어 루이스 턴스톨은 이를 “매우 환영할 만한 선례”라고 평가하며, 훈련 과정이 공개되지 않으면 AI 시스템이 위험을 초래하는지 평가하기 어렵다고 언급했습니다.
이 동료 평가 과정에서 DeepSeek는 훈련에 사용된 데이터 유형과 안전 조치를 포함한 기술적 세부 사항에 대한 설명을 추가하게 되었습니다. 이 모델은 오픈소스 특성을 유지하면서도 OpenAI의 o1 모델에 필적하는 추론 벤치마크 성능을 달성하였습니다.


성능 및 접근성


Hugging Face에서 1월에 출시된 이후, R1은 복잡한 문제 해결을 위한 플랫폼에서 가장 많이 다운로드된 모델이 되었으며, 다운로드 수는 1,090만 회를 넘어섰습니다. 이 모델은 AIME 2024 수학 벤치마크에서 pass@1 점수 79.8%를 기록하여 OpenAI o1의 79.2%를 소폭 앞섰습니다.


DeepSeek의 혁신은 AI 개발 비용 및 성능 향상을 위해 모델 크기와 연산 능력을 늘려야 한다는 확장 법칙에 대한 기존의 통념에 도전장을 내밀었습니다. 회사는 비교적 덜 강력한 H800 칩을 사용해 성공을 거두었으며, 이 칩은 2023년 미국의 수출 통제로 중국 내 판매가 금지된 바 있습니다. 이러한 성과는 향후 AI 개발 방향에 대한 논의를 촉진하고 있습니다.

댓글 0
전체 1,253 / 289 페이지
2025년 5월 25일 중국 항저우에서 세계 최초의 휴머노이드 로봇 격투 대회가 열렸습니다. 중국중앙방송총국이 주최한 이 대회에는 유니트리 G1 로봇 4대가 참가했습니다.로봇들은 키 130cm, 무게 35kg으로 인간 조종사가 리모컨으로 조작했지만, 격투 동작은 전문 격투선수로부터 학습한 AI 기술로 구현되었습니다. 손 타격 1점, 발차기 3점, 쓰러지면 5점 감점이라는 규칙으로 진행되었고, 넘어진 후 8초 내에 일어나지 못하면 패배 처리되었습니다.경기에서는 로봇들이 잽, 어퍼컷, 킥 등 다양한 격투 기술을 선보였으며, "AI Strategist"라는 로봇이 우승했습니다. 전 세계에 생중계 된 이 대회는 로봇 기술의 실용화 가능성을 보여주는 중요한 이정표로 평가 받고 있으며, 중국의 로봇 산업 발전 의지를 드러낸 행사로 해석됩니다.
1761 조회
0 추천
2025.08.19 등록
애플은 올해 WWDC에서 Xcode의 "Intelligence" 기능에 챗GPT(ChatGPT)와 다양한 LLM(대형 언어모델) API 연동을 예고한 데 이어, Anthropic의 Claude도 Xcode에 네이티브로 통합할 계획을 갖고 있음이 확인되었다.9to5mac 매체에 따르면 Xcode 26 베타 7 분석 결과, Claude Sonnet 4.0 및 Claude Opus 4의 지원 코드와 Anthropic 계정 관련 언급이 발견되었다고. 그동안 챗GPT만 Xcode와 1차로 통합이 되어 있었으나, 이제 Claude도 유사한 수준의 네이티브 지원을 받을 기반이 마련된 것으로 예상된다.Xcode에 연동되는 Swift Assist라는 기능은 2024년 WWDC에서 최초로 공개된 애플의 AI 기반 코딩 도우미였으며, GitHub Copilot과 유사한 서비스였다. 하지만 실제로 출시되지는 않았고, 이제 Xcode 26에서 기능이 더 확장된 형태로 새롭게 선보이게 되며,. 공식 명칭도 더 이상 Swift Assist가 아니지만, 애플 자체 모델과 챗GPT, 그리고 다양한 서드파티 LLM을 네이티브로 지원하게 된다.애플은 2025년 5월경부터 Claude 기반 Xcode를 내부적으로 테스트해왔던 것으로 알려졌다. 그동안 Swift Assist 확장설이나 챗GPT만 지원한다는 루머가 돌았지만, 이번 발견으로 Claude를 선호하는 개발자들에게 좋은 소식이 될 것으로 보인다.
2001 조회
0 추천
2025.08.19 등록
Claude Opus 4 및 4.1, 소수의 대화 종료 기능 도입안트로픽은 최근 Claude Opus 4와 4.1에 소비자용 챗 인터페이스에서 특정 극단적 상황에 한해 대화를 종료할 수 있는 기능을 도입했으며, 사용자로부터 학대적인 상호작용이 반복될 때 사용된다고 밝혔다.특히 이 기능은 잠재적인 AI 복지 연구의 일환으로 도입되었다고 하며, 사용자가 스스로 채팅 종료를 요청할 때, 혹은 Claude가 반복적인 거절에도 불구하고 생산적인 대화로 전환이 불가능하다고 판단할 때에만 최후의 수단으로써 사용된다고 한다.따라서 대부분의 일반 사용자는 평소에는 해당 기능을 경험하지 않을 전망이다.Claude가 대화 종료를 선택하면 해당 채팅에서는 추가 메시지를 보낼 수 없으나, 다른 대화에는 영향을 주지 않는다.사용자는 여전히 이전 메시지를 수정하거나 새로운 선택지를 만들어 대화를 이어갈 수 있다. 이 기능은 계속 개선될 예정이고 피드백을 받고 있다고 회사는 밝혔다.
1922 조회
0 추천
2025.08.18 등록
LG전자가 "Radio Optimism" 이라는 이름으로 AI 음악생성 이벤트를 진행하고 있네요.https://radiooptimism.lg.com/ko누구나 쉽게 음악을 만들고 이를 공유하는 이벤트로 간단히 분위기와 장르 등을 선택하면 곡을 만들어줍니다..https://live.lge.co.kr/2508-lg-radio-optimism/
1769 조회
3 추천
2025.08.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입