Loading...

AI 뉴스

딥씨크, R1 훈련 비용이 단 29만 4천 달러였음을 공개

페이지 정보

작성자 xtalfi
작성일 2025.09.18 02:46
866 조회
0 추천
0 비추천

본문

54383fe11e56d17fceb44cc59728749cwg0Z.png

(퍼플렉시티가 정리한 기사)

중국 AI 스타트업 DeepSeek은 획기적인 R1 모델 훈련 방식에 관한 새로운 세부 정보를 세계적인 권위지 네이처(Nature)의 동료검토 논문을 통해 발표했습니다. 이 논문에서는 기존 경쟁 모델 대비 극히 적은 비용으로 순수 강화학습만을 사용해 첨단 추론 능력을 달성한 방법을 공개했습니다.


항저우에 본사를 둔 이 회사는 자사의 R1 추론 모델 훈련 비용이 단 29만 4천 달러에 불과하며, 기반 베이스 모델의 개발 비용은 약 600만 달러였음을 처음으로 공개했습니다. 총 630만 달러가 소요된 것으로, 이는 미국의 기술 기업들이 개발한 경쟁 모델이 수천만 달러에 달하는 것과는 극명한 대조를 이룹니다.


순수 강화학습의 획기적인 발전


DeepSeek의 주요 혁신은 연구자들이 “순수 강화 학습(pure reinforcement learning)“이라고 부르는 방식을 사용해 R1을 개발한 점에 있으며, 이는 인간이 만든 예시에 의존하는 기존의 감독 학습(supervised learning) 방식과는 다른 접근법입니다. 이 과정에서 모델은 인간이 선택한 추론 방식에 따르도록 학습시키는 대신, 올바른 답변에 도달할 때 보상을 받도록 설계되었습니다.


네이처(Nature) 논문에 따르면, DeepSeek의 접근법은 모델이 인간이 제시한 전략을 따르지 않고도 자체적인 추론 전략을 개발하고 자신의 작업을 검증할 수 있는 능력을 갖추게 해주었습니다. 회사는 자체 시도에 대해 별도의 알고리즘을 사용하지 않고 추정치를 활용해 점수를 매길 수 있게 해주는 Group Relative Policy Optimization(GRPO)이라는 기법을 활용했습니다.


“이 모델은 AI 연구자들 사이에서 매우 영향력이 컸습니다,“라고 오하이오 주립대(Ohio State University) 콜럼버스 소재 AI 연구원인 Huan Sun은 말했습니다. “2025년 현재까지 LLM에서 강화 학습을 수행하는 거의 모든 연구가 어떻게든 R1로부터 영감을 받았을지도 모릅니다”.


5단계 훈련 과정


완전한 R1 학습 과정은 감독 학습(fine-tuning)과 강화 학습을 번갈아가며 진행하는 여러 단계로 구성되었습니다. 이 과정은 딥시크(DeepSeek)의 V3-Base 모델을 수천 개의 ‘콜드 스타트’ 데이터 포인트로 파인튜닝하는 것으로 시작했고, 이후 순수 강화 학습을 통해 추론 능력을 향상시켰습니다.


수렴에 가까워지면 시스템은 리젝션 샘플링(rejection sampling) 방식을 사용했습니다. 여기서 모델은 강화 학습 실행에서 성공적인 예시 중 최상의 예시를 선택해 자체 합성 훈련 데이터를 생성했습니다. 이 합성 데이터는 이후 글쓰기나 사실 기반 질문응답 등 다양한 영역에서 DeepSeek-V3-Base의 감독 학습 데이터와 통합되었습니다.


동료 평가 중인 최초의 주요 LLM


R1은 엄격한 동료 평가 과정을 거친 최초의 대형 언어 모델을 의미합니다. Nature 논문을 심사한 허깅페이스의 머신러닝 엔지니어 루이스 턴스톨은 이를 “매우 환영할 만한 선례”라고 평가하며, 훈련 과정이 공개되지 않으면 AI 시스템이 위험을 초래하는지 평가하기 어렵다고 언급했습니다.
이 동료 평가 과정에서 DeepSeek는 훈련에 사용된 데이터 유형과 안전 조치를 포함한 기술적 세부 사항에 대한 설명을 추가하게 되었습니다. 이 모델은 오픈소스 특성을 유지하면서도 OpenAI의 o1 모델에 필적하는 추론 벤치마크 성능을 달성하였습니다.


성능 및 접근성


Hugging Face에서 1월에 출시된 이후, R1은 복잡한 문제 해결을 위한 플랫폼에서 가장 많이 다운로드된 모델이 되었으며, 다운로드 수는 1,090만 회를 넘어섰습니다. 이 모델은 AIME 2024 수학 벤치마크에서 pass@1 점수 79.8%를 기록하여 OpenAI o1의 79.2%를 소폭 앞섰습니다.


DeepSeek의 혁신은 AI 개발 비용 및 성능 향상을 위해 모델 크기와 연산 능력을 늘려야 한다는 확장 법칙에 대한 기존의 통념에 도전장을 내밀었습니다. 회사는 비교적 덜 강력한 H800 칩을 사용해 성공을 거두었으며, 이 칩은 2023년 미국의 수출 통제로 중국 내 판매가 금지된 바 있습니다. 이러한 성과는 향후 AI 개발 방향에 대한 논의를 촉진하고 있습니다.

댓글 0
전체 766 / 30 페이지
(퍼플렉시티가정리한기사)한국주요기업들이세계최대AI반도체기업엔비디아와손잡고총26만장의최첨단그래픽처리장치(GPU)를확보하는역사적협력에나선다.31일경주아시아태평양경제협력체(APEC)정상회의에서발표된이번'AI동맹'은한국을세계AI3대강국으로도약시키기위한전방위협력체계를구축한다.​이재명대통령이젠슨황엔비디아최고경영자(CEO)를접견한자리에서이루어진이번발표에따르면,엔비디아는한국정부에5만장,삼성전자·SK그룹·현대자동차그룹에각각5만장씩,네이버클라우드에6만장을공급한다.총공급규모는최대14조원에달하며,이는현재한국이보유한전체GPU의13배에이르는막대한물량이다.​제조업혁신을위한'AI팩토리'구축본격화각기업들은확보된GPU를활용해산업별특화된AI팩토리를구축한다.삼성전자는반도체제조의모든과정을지능화하는'반도체AI팩토리'를통해설계부터공정,품질관리까지전과정에AI를적용한다.엔비디아의옴니버스,쿠다X,쿠리소기술도입으로공정시뮬레이션속도가20배향상되는성과를거두었다.​SK그룹은'제조AI클라우드'플랫폼을구축해국내제조업생태계전체를연결하는아시아최초의제조AI생태계를조성한다.현대자동차그룹은자율주행차와스마트팩토리,로보틱스분야의거대모델훈련을위한AI팩토리를구축하며,정부와함께피지컬AI분야에30억달러를공동투자한다.​글로벌AI경쟁에서한국의위상제고이번협력으로한국의AIGPU총량은기존6만5천장에서30만장이상으로늘어나게된다.이대통령은"대한민국의목표는아시아·태평양지역의AI수도로거듭나는것"이라며"엔비디아도블랙록,오픈AI처럼한국투자에동참해AI생태계를함께만들어가기를기대한다"고강조했다.​​젠슨황CEO는"한국은소프트웨어와제조업역량을모두갖춘유일한국가"라며"AI분야에서한국의가능성은무궁무진하다"고평가했다.네이버는산업맞춤형AI로제조현장디지털화에나서며,LG전자도휴머노이드로봇과의료분야에서엔비디아와파트너십을확대한다.
23 조회
0 추천
11.01 등록
(퍼플렉시티가정리한기사)최태원SK그룹회장과젠슨황엔비디아CEO가31일경주APECCEO서밋현장에서단독회동을갖고특별한선물을교환했다.이는전날서울에서열린'깐부치킨'모임에참석하지못한최회장에대한배려차원에서이뤄진만남으로해석된다.​'깐부모임'불참아쉬움달래는특별회동최회장은이날오후5시께경주예술의전당에서젠슨황CEO와약30분간면담했다.이자리에는곽노정SK하이닉스대표이사와김주선사장도함께했다.​젠슨황CEO는회동전"최태원회장이어제너무바빴다.이해한다"고말하며,30일이재용삼성전자회장,정의선현대차그룹회장과가진'깐부치킨'모임에최회장이참석하지못한것에대한이해를표했다.당초젠슨황은최회장에게"헬기를보낼테니그걸타고와서모임에오라"고제안하기도했으나,APECCEO서밋의장으로서바쁜일정때문에참석이불가능했다.​HBM웨이퍼와DGX스파크선물교환최회장은젠슨황CEO에게SK하이닉스의고대역폭메모리(HBM)웨이퍼와기념패를선물로전달했다.젠슨황CEO는HBM웨이퍼를받으며"웨이퍼가너무비싸고무겁다"며농담을건넸다.​젠슨황CEO도이재용,정의선회장에게증정했던것과동일한선물을준비해왔다.엔비디아의초소형AI슈퍼컴퓨터'DGX스파크'와일본산토리의하쿠슈위스키를최회장에게전달했다.이는당초최회장을위해준비했던선물을뒤늦게나마직접전달한것이다.​SK-엔비디아파트너십강화신호이번회동은SK그룹과엔비디아간끈끈한파트너십을보여주는상징적의미를갖는다.SK하이닉스는현재엔비디아에고부가가치제품인HBM을가장많이공급하는회사다.특히SK하이닉스는올4분기부터차세대HBM4를엔비디아에공급할예정이라고발표했다.​젠슨황CEO는이날"SK그룹은엔비디아가글로벌AI발전을이끄는세계에서가장진보된GPU컴퓨팅플랫폼을만드는데도움을주는핵심메모리기술파트너"라고평가했다.최회장도"엔비디아AI팩토리를기반으로SK그룹은차세대메모리,로보틱스,디지털트윈,지능형AI에이전트를구동하는인프라를구축할것"이라고밝혔다.
24 조회
0 추천
11.01 등록
(퍼플렉시티가정리한기사)네이버가글로벌AI반도체선두기업엔비디아와손잡고국내제조업AI전환을위한'피지컬AI플랫폼'공동개발에나선다.31일경주에서열린APEC정상회의를계기로양사의전략적협력이공식화되면서,한국의AI산업경쟁력강화에대한기대감이높아지고있다.소버린AI2.0비전구현착수이해진네이버이사회의장은31일경북경주화백컨벤션센터에서열린이재명대통령과젠슨황엔비디아최고경영자접견에참석해양사의협력방안을발표했다.이자리에서이의장은"자동차의소프트웨어중심자동차전환이보여주듯AI가실제산업현장과시스템속에서작동하는'피지컬AI'의시대가열리고있다"며"네이버는AI와클라우드기술로기업이데이터를더잘활용하고,산업이한단계더도약할수있도록지원하겠다"고밝혔다.​네이버클라우드는엔비디아와업무협약을체결하고현실공간과디지털공간을유기적으로연결하는차세대'피지컬AI'플랫폼을공동개발하기로했다.이는네이버클라우드가제시한'소버린AI2.0'비전을구현하기위한첫단계로평가된다.​주력산업특화AI모델개발양사는네이버클라우드의디지털트윈·로보틱스기술과엔비디아의'옴니버스','아이작심'등3D시뮬레이션·로보틱스플랫폼을결합해산업환경을가상공간에서정밀하게재현할계획이다.이를통해AI가분석·판단·제어를지원하는피지컬AI플랫폼을구현하며,반도체·조선·에너지등국가주력산업을중심으로AI인프라를구축할예정이다.​네이버클라우드는이번협력을통해조선·에너지·바이오등주요산업별특화AI적용모델을발굴하고확산을주도한다는방침이다.또한네이버는엔비디아로부터최신블랙웰GPU6만장을확보해AI컴퓨팅인프라를대폭확장한다.
24 조회
0 추천
11.01 등록
(퍼플렉시티가정리한기사)크래프톤이엔비디아와협업해개발한인공지능(AI)동료캐릭터'펍지앨라이(PUBGAlly)'를2026년초배틀그라운드에서선보인다고31일발표했다.이는기존NPC(Non-PlayerCharacter)와달리플레이어와능동적으로상호작용할수있는혁신적인게임동료로주목받고있다.​AI기술로구현한새로운게임경험크래프톤은지난30일서울코엑스케이팝광장에서열린'지포스게이머페스티벌'에서펍지앨라이를공개했다.이강욱크래프톤AI본부장은"이용자와대화를통해전략을논의하고그에맞춰플레이스타일을바꾼다"며"파밍·교전·생존중어떤행동을취할지스스로판단하고계획하며,상황에따라전략을유연하게수정하고보완한다"고설명했다.​펍지앨라이는엔비디아에이스(ACE)기술로구축된온디바이스소형언어모델(SLM)을기반으로작동한다.특히인터넷연결없이도기기자체에서빠르고자연스러운상호작용이가능해지연시간이매우짧다는점이특징이다.또한한국어,영어,중국어3개언어를지원하며배틀그라운드의전문용어와맵,아이템의장단점을이해하고자연스럽게대화할수있다.​AI퍼스트기업으로의전환이번발표는크래프톤이지난23일'AI퍼스트(AIFirst)'기업으로의전환을선언한지일주일만에나온것이다.회사는에이전틱AI를중심으로AI워크플로우자동화,AI연구개발,인게임AI서비스강화등전사적인AI전략을추진하고있으며,1000억원이상의투자를단행했다고밝혔다.​크래프톤은2026년상반기배틀그라운드아케이드모드를통해펍지앨라이의실험적버전을최초로공개할예정이다.상용화에앞서이용자피드백을수렴하고엔비디아와의장기적파트너십을통해기술을지속적으로고도화할계획이라고밝혔다.
25 조회
0 추천
11.01 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입