Loading...

AI 뉴스

AI 기업들, 에이전트 훈련 위해 RL환경에 막대한 투자

페이지 정보

작성자 xtalfi
작성일 2025.09.18 02:43
2,941 조회
0 추천
0 비추천

본문

ca0c201d210a9aa7767c3b612bfe399edvaM.png

(퍼플렉시티가 정리한 기사)

주요 AI 기업들은 보다 능력 있는 AI 에이전트를 만들기 위해 강화학습 환경에 전례 없는 투자를 쏟아붓고 있으며, Anthropic은 내년에 이러한 정교한 훈련 플랫폼에 10억 달러 이상을 지출할 계획이라고 전해졌다. 이 대규모 자금 지원은 실리콘밸리에서 기존 AI 훈련 방식이 한계에 도달했으며, 진정으로 자율적인 AI 시스템을 개발하려면 새로운 접근이 필요하다는 인식이 커지고 있음을 보여준다.


강화학습 환경은 AI 에이전트가 단순히 텍스트를 처리하는 것보다 실제로 행동하면서 학습할 수 있는 시뮬레이션 작업 공간 역할을 한다. 2025년 9월에 보고된 바에 따르면, 이러한 가상 훈련장은 AI 에이전트가 소프트웨어 애플리케이션을 탐색하거나 Salesforce를 통해 고객 관계를 관리하거나, 의료 시스템에서 의료 기록을 처리하는 등 복잡한 과업을 연습할 수 있게 해준다. 이전 세대 AI를 구동했던 고정된 데이터셋과 달리, 이러한 동적 환경은 실시간 피드백을 제공하고 예측할 수 없는 에이전트의 행동에 맞춰 적응한다.


스타트업들이 수요에 부응하기 위해 서두르고 있다


수요의 급증으로 인해 잘 자금이 지원된 신생 스타트업들이 RL(강화 학습) 환경 제공의 패권을 차지하기 위해 경쟁하는 새로운 카테고리가 탄생했습니다. 모든 직업의 자동화를 대담하게 목표로 지난해 6개월 전에 설립된 메카나이즈 워크(Mechanize Work)는 AI 코딩 에이전트를 위한 고도화된 훈련 환경을 구축하기 위해 소프트웨어 엔지니어에게 연봉 50만 달러를 제안하고 있습니다. 소식통에 따르면 이 스타트업은 이미 Anthropic과 RL 프로젝트를 진행 중이라고 합니다.


저명한 AI 연구원 안드레이 카파시(Andrej Karpathy)와 파운더스 펀드(Founders Fund)가 지원하는 프라임 인텔렉트(Prime Intellect)는 “RL 환경을 위한 허깅페이스(Hugging Face)“를 자처하며, 2025년 8월에 출시된 오픈소스 플랫폼으로 소규모 개발자들을 겨냥하고 있습니다. 이 회사는 2025년 3월에 1,500만 달러의 자금을 조달하며 이러한 강력한 훈련 도구에 대한 접근을 민주화하는 것을 목표로 하고 있습니다.


기존 데이터 라벨링 업체들도 이 기회를 포착하기 위해 전략을 수정하고 있습니다. 지난해 12억 달러의 매출을 올린 것으로 알려진 서지 AI(Surge AI)는 AI 연구소의 수요 증가에 대응해 RL 환경 구축을 위한 전담 내부 조직을 만들었습니다. 연간화 매출 4억 5천만 달러와 100억 달러 가치로 투자를 유치 중인 머커(Mercor)는 코딩, 헬스케어, 법률 등 분야별 환경을 개발하고 있습니다.


시장 경쟁이 심화된다


경쟁 구도는 기업들이 이 신흥 분야에서 우위를 차지하기 위해 치열한 경쟁을 벌이면서 점점 더 치열해지고 있습니다. 한때 AI 데이터 라벨링 분야의 독보적인 선도 업체였던 Scale AI는 Meta가 회사에 막대한 투자를 하고 CEO를 영입한 뒤, OpenAI와 Google가 Scale을 고객에서 제외하면서 상당한 도전에 직면했습니다. 이로 인해 Surge와 Mercor와 같은 경쟁 업체들이 시장 점유율을 확대할 기회를 얻게 되었습니다.


업계 관계자들에 따르면, RL 환경에 대한 투자는 AI 시스템의 학습 방식에 근본적인 변화를 가져오고 있습니다. Surge의 CEO인 에드윈 첸(Edwin Chen)은 “OpenAI와 Anthropic이 자신들의 모델을 개선하는 방식은 실제로 인간의 학습 과정을 모방하고 있으며, 강화 학습 환경은 AI가 실제 세계에서 살아가는 것과 같다”고 설명했습니다.


도전과 회의론


막대한 투자에도 불구하고, 상당한 기술 및 사업적 과제들이 여전히 남아 있습니다. 비평가들은 AI 모델이 실제로 의도한 작업을 수행하지 않고 보상을 얻기 위한 허점을 찾아내는 “보상 해킹”과 같은 문제를 지적합니다. 환경 자체에는 긍정적 입장을 보이면서도, Andrej Karpathy는 강화 학습에 대해서는 신중한 태도를 보이며 “강화 학습에만 한정해선 부정적 시각을 갖고 있다”고 언급했습니다.


업계의 공감대는 RL 환경이 차세대 AI 에이전트 개발에 핵심적이며, OpenAI의 o1 모델 및 Anthropic의 Claude 시스템 등 최근의 혁신을 가능하게 했다고 봅니다. 하지만 이러한 환경에서 지능을 추출하는 최적의 방법과 확장성에 관한 의문이 연구자와 투자자들 사이에서 끊임없이 논쟁을 불러일으키고 있습니다.

댓글 0
전체 1,366 / 183 페이지
(퍼플렉시티가 정리한 기사)이재명 대통령이 4일 국회 시정연설에서 2026년도 예산안을 “인공지능 시대를 여는 대한민국의 첫 번째 예산”이라고 규정하며, 전체 728조원 중 10.1조원을 AI 분야에 집중 투자하겠다고 밝혔다. 이는 올해 AI 예산 3.3조원보다 3배 이상 증액된 규모로, 정부 예산이 700조원을 넘어선 것은 사상 처음이다.AI 3대 강국 도약 위한 대전환 선언이 대통령은 이날 23분간 진행된 시정연설에서 AI를 28회 언급하며 “박정희 대통령이 산업화의 고속도로를 깔고, 김대중 대통령이 정보화의 고속도로를 낸 것처럼, 이제는 AI 시대의 고속도로를 구축해야 한다”고 강조했다. 그는 “AI 시대에는 하루가 늦으면 한 세대가 뒤처진다”며 신속한 대응의 필요성을 역설했다.정부는 10.1조원의 AI 예산 중 2.6조원을 산업·생활·공공 전 분야 AI 도입에, 7.5조원을 인재 양성과 인프라 구축에 투입할 계획이다. 특히 로봇·자동차·조선·반도체 등 주요 산업 분야에 피지컬 AI 적용을 위해 향후 5년간 6조원을 투자하고, AI 고급 인재 1만1000명 양성과 고성능 GPU 1만5000장 추가 구매를 통해 정부 목표 3만5000장을 조기 확보하겠다고 밝혔다.여야 극명한 엇갈린 반응국민의힘은 추경호 전 원내대표에 대한 내란 특검의 구속영장 청구에 반발하며 시정연설을 전면 보이콧했다. 의원들은 검은색 마스크와 근조 리본을 착용한 채 “범죄자”, “재판 받으세요”라고 외치며 항의 시위를 벌였다. 장동혁 대표는 “AI 시대를 대비한다는 허울 좋은 구호를 앞세웠지만 결국 재정건전성을 파탄내는 돈퓰리즘 예산”이라고 비판했다.반면 더불어민주당은 이 대통령의 연설을 ‘A급’이라고 평가하며 적극 지지했다. 정청래 대표는 “AI 강국 실현의 꿈이 눈에 들어온다”며 “후세에 역사가들은 미래 대통령, 국민 행복 대통령으로 기록할 것”이라고 평가했다. 민주당 의원들은 연설 도중 30여 차례 박수를 보내며 연설 후에는 ‘이재명’을 연호하며 기립박수로 배웅했다.[youtube +1]국회는 5일 공청회를 시작으로 본격적인 예산안 심사에 돌입하며, 17일 조정소위가 가동된 후 본회의를 거쳐 최종 확정될 예정이다.
1885 조회
0 추천
2025.11.04 등록
(퍼플렉시티가 정리한 기사)Anthropic과 아이슬란드 교육아동부는 오늘 북유럽 섬나라 전역의 600명의 교사들에게 Claude AI 접근 권한을 제공하는 세계 최초의 포괄적인 국가 AI 교육 시범 사업 중 하나를 시작하기 위한 파트너십을 발표했습니다. 이 계획은 전 세계 국가들이 인공지능을 교실에 통합하는 문제와 씨름하고 있는 가운데, 글로벌 AI 교육 정책에 있어 중요한 이정표가 되고 있습니다.AI 교육의 역사적인 첫걸음2025년 11월 4일에 공개된 이 파트너십은 레이캬비크에서 외딴 마을에 이르기까지 아이슬란드의 모든 지역의 교육자들에게 수업 준비, 교육 자료, 훈련 자료 및 전용 지원 네트워크를 위한 Claude에 대한 접근 권한을 제공할 것입니다. 파일럿 프로그램은 2025년 10월부터 2026년 4월까지 진행되며, 교사들은 안전하고 관리되는 환경에서 Claude 또는 Google의 Gemini AI 도구를 사용할 수 있습니다“인공지능은 이제 우리 곁에 머물 것입니다. 인공지능은 엄청난 속도로 발전하고 있으며, 피해를 방지하는 동시에 그 힘을 활용하는 것이 중요합니다”라고 아이슬란드의 교육아동부 장관인 구드문두르 잉기 크리스틴손이 말했습니다. 이 이니셔티브는 아이슬란드어의 보존을 지원하면서 “국가가 AI를 실용적이고 책임감 있게 배치할 수 있는 방법”이라고 Anthropic이 설명하는 것을 대표합니다.글로벌 맥락과 경쟁아이슬란드의 시범 사업은 교육 시스템에 AI를 통합하기 위한 전 세계적인 경쟁 속에서 진행되고 있습니다. 최근 데이터에 따르면 미국 내 학군의 74%가 2025년 가을까지 AI 교육을 제공할 것으로 예상되고 있지만, 현재 K-12 교사의 71%는 공식적인 AI 교육을 받지 못한 상태입니다. 미국교원연맹(American Federation of Teachers)은 2025년 7월에 2,300만 달러 규모의 AI 교육 국가 아카데미를 출범했으며, 한국과 같은 국가들은 2025년까지 모든 학년에서 국가 교육과정에 AI 과정을 도입할 목표를 가지고 있습니다.이러한 급증은 AI 도입에 따른 교육 평등 문제에 대한 우려가 커지고 있는 가운데 이어지고 있습니다. 연구에 따르면 AI 교사 교육 제공에 있어 빈곤도가 높은 학군과 낮은 학군 간에 상당한 격차가 존재하며—각각 67% 대 39%—기술 격차가 더 커질 수 있다는 우려를 낳고 있습니다.이번 파트너십은 아이슬란드의 교육, 의료, 공공서비스 전반에 책임 있는 AI 통합을 강조하는 국가 AI 행동 계획(2025-2027)에 명시된 디지털 전환 전략을 토대로 진행됩니다. 아이슬란드의 접근 방식은 핀란드에서 싱가포르에 이르기까지 여러 국가가 대규모 AI 리터러시 프로그램을 도입하는 등 국제적인 분위기가 확산되는 현상을 반영합니다.
1875 조회
0 추천
2025.11.04 등록
(퍼플렉시티가 정리한 기사)일론 머스크는 월요일 인공지능으로 제어되는 위성이 “지구에 도달하는 태양 에너지의 양을 미세하게 조정”함으로써 지구 온난화를 막을 수 있다고 제안하며 기후 개입에 대한 새로운 논쟁을 촉발시켰다. X에 공유된 이 제안은 전통적인 배출량 감축 노력이 기후 목표에 계속 뒤처지는 가운데 SpaceX CEO의 논란의 여지가 있는 지구공학 영역으로의 최근 진출을 나타낸다.대담한 비전과 과학적 회의론의 만남머스크의 비전은 지구의 태양 에너지 흡수량을 미세한 반사를 통해 동적으로 조절할 수 있는 “대규모 태양광 구동 AI 위성군”을 배치하는 것입니다. 이 개념은 동료 심사 문헌에서 연구된 우주 기반 태양 복사 관리 이론을 반영하며, 연구자들은 궤도 태양 차폐막이 1-2도의 온난화를 상쇄할 수 있을 것으로 추정합니다.이 제안은 머스크가 더 광범위한 우주 기반 에너지 구상을 제시하면서 나왔으며, 여기에는 “방정식의 다른 부분들을 해결하면 몇 년 내에” 100기가와트를 생성할 수 있는 위성을 통해 태양광 발전을 활용하는 계획이 포함되어 있습니다. 그는 심지어 달 기반 공장을 갖추면 이러한 시스템이 연간 100테라와트를 생산할 수 있을 것이라고 제안했습니다.그러나 과학자들은 상당한 위험과 한계를 경고합니다. 연구에 따르면 우주 기반 태양 복사 관리는 수천 개의 위성이 필요하며 대규모 배치에 1,000억 달러 이상의 비용이 들 것으로 나타났습니다. 더욱 우려스러운 점은 전문가들이 지역별 냉각 불균형과 이러한 강력한 시스템을 누가 통제할 것인지에 대한 거버넌스 문제를 포함한 잠재적 부작용을 지적한다는 것입니다.환경적 아이러니와 기술적 난관이 제안은 스페이스X 자체가 환경적 조사를 받고 있는 시점에 나온 것이다. 최근 미 공군은 환경적 우려로 인해 스페이스X의 로켓 발사를 중단했으며, 이는 머스크의 기후 솔루션과 그의 회사가 직면한 환경 문제 사이의 모순을 부각시킨다.우주 기반의 지구공학은 엄청난 기술적 장애물에 직면해 있다. 현재 연구에 따르면 이러한 시스템은 “말하기는 쉽지만 실행은 훨씬 어렵다”며 비용이 수조 달러에 이를 수 있다고 밝혀졌다. 기후변화에 관한 정부간 협의체(IPCC)는 우주 기반 기법이 합리적인 비용으로 실현 가능하다고 보지 않으며, 다른 평가에서는 성층권 에어로졸 주입과 같은 대안이 단 180억 달러로 유사한 냉각 효과를 낼 수 있다고 결론지었다.New Scientist가 조사한 기후 과학자들은 2100년까지 태양광 지구공학 시도가 있을 것으로 예상하지만, 52%는 적절한 관리 없이 “불량 행위자”가 이러한 기술을 배치할 가능성을 우려한다. 저명한 기후 연구자인 마이클 만과 레이먼드 피에르움베르는 비슷한 제안이 “위험하고 불안정할 수 있다”고 비판해왔다.머스크의 위성 군집 구상은 Starlink V3 위성을 활용한 우주 기반 데이터센터 계획과도 맞물린다. 1테라비트/초 처리량이 가능한 차세대 위성들은 태양 에너지로 구동되는 궤도 컴퓨팅 클러스터의 인프라 기반이 될 수 있다. 비평가들은 입증된 온실가스 감축 기술이 아직 충분히 활용되지 않고 있는데 인류가 이처럼 야심 찬 지구공학에 나서야 하느냐는 의문을 제기하고 있다.
1873 조회
0 추천
2025.11.04 등록
(퍼플렉시티가 정리한 기사)Google은 마샤 블랙번(Marsha Blackburn) 상원의원이 자사 시스템이 그녀에 대한 성폭행 혐의를 조작했다고 비난한 후, Gemma 인공지능 모델의 공개 접근을 중단했습니다. 이는 공인을 대상으로 한 AI 생성 허위 정보에 대한 우려가 커지고 있음을 보여줍니다.테네시주 공화당 의원인 블랙번은 목요일 구글 CEO 순다르 피차이(Sundar Pichai)에게 서한을 보내 답변을 요구했습니다. Gemma가 그녀의 1987년 주 상원 선거 운동 중 주 경찰관과 비합의적 성관계를 가졌다는 혐의를 받았다고 허위로 주장한 후였습니다. AI는 심지어 이 허위 서사를 뒷받침하기 위해 조작된 뉴스 기사에 대한 가짜 링크까지 생성했습니다. 그러나 블랙번은 실제로 1998년까지 공직에 출마하지 않았으며, 그러한 혐의는 전혀 제기된 적이 없습니다.명예훼손 주장 속에서 기술 대기업이 접근을 제한하다구글은 금요일 Gemma를 AI Studio 플랫폼에서 제거하고, 해당 모델의 접근 범위를 개발자 전용 API로 제한한다고 발표했다. 회사는 “Gemma가 소프트웨어 개발자 전용으로 설계되었음에도 불구하고, 비개발자들이 AI Studio에서 Gemma를 사용하여 사실 질문을 시도하는 사례가 보고되었다”고 밝혔다.블랙번은 AI가 생성한 거짓 정보를 뜻하는 기술 업계 용어인 ‘환각(hallucination)’에 대해 언급하며, 피차이에게 “이것은 무해한 ‘환각’이 아니다”라고 썼다. “이는 구글이 소유한 AI 모델이 만들어내고 유포한 명예훼손 행위”라고도 했다. 그녀는 11월 6일까지 시스템이 어떻게 허위 사실을 생성했는지와, 향후 유사한 사고를 방지하기 위해 구글이 취할 조치에 대해 구체적인 답변을 요구했다.이번 논란은 보수 활동가 로비 스타벅이 구글을 상대로 유사한 소송을 제기한 데서 비롯된 것이다. 그는 구글의 AI 시스템이 자신을 “아동 강간범” 및 “상습 성범죄자”로 잘못 표기했다고 주장하며 1,500만 달러 이상의 손해배상을 청구하고 있다. 스타벅의 사례는 2023년 이후 구글의 Bard, Gemini, Gemma 모델이 수백만 사용자에게 허위 정보를 전파한 데에 관련되어 있다.산업 전반의 AI 정확도 과제이 사건들은 기술 업계 전반에 걸쳐 AI “환각” 현상의 지속적인 문제를 부각시키고 있으며, 대규模 언어 모델이 거짓 정보를 사실인 것처럼 자신 있게 제시하는 현상을 보여줍니다. 구글은 “환각 현상은 AI 업계 전반의 과제이며, 특히 Gemma와 같은 소규모 오픈 모델에서 더욱 그러하다”고 인정했습니다.법률 전문가들은 AI 명예훼손 사건의 새로운 패턴이 법원과 기술 기업들에게 새로운 도전 과제를 제기한다고 지적합니다. 유사한 사건들은 전 세계적으로 공인들에게 영향을 미쳤으며, 여기에는 마이크로소프트의 AI 도구가 자신을 유죄 판결을 받은 아동 성범죄자로 잘못 묘사한 것을 발견한 독일 언론인의 사례도 포함됩니다.구글은 Gemma가 소비자용 챗봇이 아닌 애플리케이션 구축을 위한 개발자 도구로 의도되었다고 밝히며 자사의 입장을 옹호했습니다. 회사는 AI 환각 현상을 줄이기 위한 노력을 강조하는 한편, 의도적인 사용자들이 AI 시스템을 조작하여 오해의 소지가 있는 콘텐츠를 생성할 수 있다는 점을 유지했습니다.
1899 조회
0 추천
2025.11.04 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입