Loading...

AI 뉴스

딥씨크, R1 훈련 비용이 단 29만 4천 달러였음을 공개

페이지 정보

작성자 xtalfi
작성일 2025.09.18 02:46
1,598 조회
0 추천
0 비추천

본문

54383fe11e56d17fceb44cc59728749cwg0Z.png

(퍼플렉시티가 정리한 기사)

중국 AI 스타트업 DeepSeek은 획기적인 R1 모델 훈련 방식에 관한 새로운 세부 정보를 세계적인 권위지 네이처(Nature)의 동료검토 논문을 통해 발표했습니다. 이 논문에서는 기존 경쟁 모델 대비 극히 적은 비용으로 순수 강화학습만을 사용해 첨단 추론 능력을 달성한 방법을 공개했습니다.


항저우에 본사를 둔 이 회사는 자사의 R1 추론 모델 훈련 비용이 단 29만 4천 달러에 불과하며, 기반 베이스 모델의 개발 비용은 약 600만 달러였음을 처음으로 공개했습니다. 총 630만 달러가 소요된 것으로, 이는 미국의 기술 기업들이 개발한 경쟁 모델이 수천만 달러에 달하는 것과는 극명한 대조를 이룹니다.


순수 강화학습의 획기적인 발전


DeepSeek의 주요 혁신은 연구자들이 “순수 강화 학습(pure reinforcement learning)“이라고 부르는 방식을 사용해 R1을 개발한 점에 있으며, 이는 인간이 만든 예시에 의존하는 기존의 감독 학습(supervised learning) 방식과는 다른 접근법입니다. 이 과정에서 모델은 인간이 선택한 추론 방식에 따르도록 학습시키는 대신, 올바른 답변에 도달할 때 보상을 받도록 설계되었습니다.


네이처(Nature) 논문에 따르면, DeepSeek의 접근법은 모델이 인간이 제시한 전략을 따르지 않고도 자체적인 추론 전략을 개발하고 자신의 작업을 검증할 수 있는 능력을 갖추게 해주었습니다. 회사는 자체 시도에 대해 별도의 알고리즘을 사용하지 않고 추정치를 활용해 점수를 매길 수 있게 해주는 Group Relative Policy Optimization(GRPO)이라는 기법을 활용했습니다.


“이 모델은 AI 연구자들 사이에서 매우 영향력이 컸습니다,“라고 오하이오 주립대(Ohio State University) 콜럼버스 소재 AI 연구원인 Huan Sun은 말했습니다. “2025년 현재까지 LLM에서 강화 학습을 수행하는 거의 모든 연구가 어떻게든 R1로부터 영감을 받았을지도 모릅니다”.


5단계 훈련 과정


완전한 R1 학습 과정은 감독 학습(fine-tuning)과 강화 학습을 번갈아가며 진행하는 여러 단계로 구성되었습니다. 이 과정은 딥시크(DeepSeek)의 V3-Base 모델을 수천 개의 ‘콜드 스타트’ 데이터 포인트로 파인튜닝하는 것으로 시작했고, 이후 순수 강화 학습을 통해 추론 능력을 향상시켰습니다.


수렴에 가까워지면 시스템은 리젝션 샘플링(rejection sampling) 방식을 사용했습니다. 여기서 모델은 강화 학습 실행에서 성공적인 예시 중 최상의 예시를 선택해 자체 합성 훈련 데이터를 생성했습니다. 이 합성 데이터는 이후 글쓰기나 사실 기반 질문응답 등 다양한 영역에서 DeepSeek-V3-Base의 감독 학습 데이터와 통합되었습니다.


동료 평가 중인 최초의 주요 LLM


R1은 엄격한 동료 평가 과정을 거친 최초의 대형 언어 모델을 의미합니다. Nature 논문을 심사한 허깅페이스의 머신러닝 엔지니어 루이스 턴스톨은 이를 “매우 환영할 만한 선례”라고 평가하며, 훈련 과정이 공개되지 않으면 AI 시스템이 위험을 초래하는지 평가하기 어렵다고 언급했습니다.
이 동료 평가 과정에서 DeepSeek는 훈련에 사용된 데이터 유형과 안전 조치를 포함한 기술적 세부 사항에 대한 설명을 추가하게 되었습니다. 이 모델은 오픈소스 특성을 유지하면서도 OpenAI의 o1 모델에 필적하는 추론 벤치마크 성능을 달성하였습니다.


성능 및 접근성


Hugging Face에서 1월에 출시된 이후, R1은 복잡한 문제 해결을 위한 플랫폼에서 가장 많이 다운로드된 모델이 되었으며, 다운로드 수는 1,090만 회를 넘어섰습니다. 이 모델은 AIME 2024 수학 벤치마크에서 pass@1 점수 79.8%를 기록하여 OpenAI o1의 79.2%를 소폭 앞섰습니다.


DeepSeek의 혁신은 AI 개발 비용 및 성능 향상을 위해 모델 크기와 연산 능력을 늘려야 한다는 확장 법칙에 대한 기존의 통념에 도전장을 내밀었습니다. 회사는 비교적 덜 강력한 H800 칩을 사용해 성공을 거두었으며, 이 칩은 2023년 미국의 수출 통제로 중국 내 판매가 금지된 바 있습니다. 이러한 성과는 향후 AI 개발 방향에 대한 논의를 촉진하고 있습니다.

댓글 0
전체 1,259 / 296 페이지
AI 전문가 Daniel Lozovsky의 분석에 따르면, 2025년 7월 27일부터 8월 1일까지의 단 5일간이 AI 역사상 가장 극적인 변화를 가져온 기간이었습니다. 빌 게이츠조차 이 급격한 변화의 속도에 놀랐다고 할 정도였습니다.이 기간 동안 구글은 Gemini 2.5 Deep Think라는 월 250달러짜리 프리미엄 AI 모델을 출시했는데, 너무 강력해서 하루에 단 5회만 사용할 수 있도록 제한했습니다. 이 AI는 화학, 생물학, 방사능, 핵 관련 위험한 정보까지 생성할 수 있어서 구글이 안전상의 이유로 직접 사용을 제한한 것입니다.반면 중국의 Zhipu AI는 GLM 4.5라는 모델을 완전 무료로 공개했는데, 이 AI는 정말 놀라운 성능을 보여줬습니다. "새는 진짜가 아니다"라는 음모론에 대한 프레젠테이션을 완벽하게 만들어내거나, 뱀파이어 서바이버라는 게임을 자바스크립트로 완전히 구현해내는 등 유료 모델 못지않은 능력을 발휘했습니다.창작 도구 분야에서도 혁신이 쏟아졌습니다. Runway의 ALF라는 도구는 음성 명령만으로 비디오를 편집할 수 있게 해주고, 구글의 Veo는 이미지에 직접 텍스트를 써넣으면 그대로 비디오를 생성해주는 마법 같은 기능을 선보였습니다. Ideogram의 새로운 기능은 단 한 장의 사진만 있으면 어떤 이미지에든 얼굴을 바꿔넣을 수 있게 해줍니다.경제적으로도 엄청난 변화가 있었습니다. 빅테크 기업들이 올해만 AI에 1,550억 달러를 투자했고, 메타는 AI 투자 발표 후 주식이 11%나 급등했습니다.
2255 조회
0 추천
2025.08.08 등록
중국의 한 공장에서 테스트 중이던 휴머노이드 로봇이 갑작스럽게 오작동을 일으켜 작업자들을 위협하는 상황이 발생했습니다. 영상에는 로봇이 크레인에 매달린 채 팔다리를 격렬하게 흔들다가 갑자기 앞으로 돌진해 바닥을 기어가는 충격적인 모습이 담겨있습니다. 이를 지켜본 두 명의 작업자들이 당황하며 뒤로 물러서는 장면도 함께 촬영되어 더욱 화제가 되었습니다.이 사건은 AI 로봇의 안전성에 대한 새로운 우려를 불러일으켰으며, 많은 사람들이 "AI 반란이 시작된 건 아닌가?"라는 걱정스러운 반응을 보였습니다. SF 영화에서나 볼 법한 기괴하고 무서운 광경이 실제 공장에서 벌어진 것입니다.
2276 조회
0 추천
2025.08.08 등록
두바이 에미레이츠 타워 근처에서 인간형 로봇이 도로를 빠르게 건너는 모습이 목격되어 전 세계적으로 화제가 되었습니다. 인스타그램 사용자 Nazish Khan이 "미래에 오신 것을 환영합니다"라는 캡션과 함께 올린 이 영상에는 로봇이 거리를 질주하고 그 뒤를 운영자로 보이는 남성이 따라가는 모습이 담겨있습니다.사람들의 반응이 정말 재미있었습니다. "급하게 화장실 가는 건가? 구직하러 가는 건가?"라며 농담을 하거나, "더운 날씨를 견디지 못해서 뛰어가는군, 달려 베이비!"라는 유머러스한 댓글들이 쏟아졌습니다. 또 다른 사용자는 "두바이에서만 가능한 일! 미래가 우리와 함께 걸어다니는 곳"이라며 감탄하기도 했습니다.
2249 조회
0 추천
2025.08.08 등록
구글 제미나이를 대학생들은 무료로 1개월간 사용할 수 있게 되었다.주의할점은 학교 계정이 아닌 개인 계정을 이용해야 한다는 점.자세한 내용은 링크에서 확인할 수 있다.
2277 조회
0 추천
2025.08.07 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입