AI 뉴스

AI 기업들, 에이전트 훈련 위해 RL환경에 막대한 투자

페이지 정보

작성자 xtalfi
작성일 2025.09.18 02:43
3,138 조회
0 추천
0 비추천

본문

ca0c201d210a9aa7767c3b612bfe399edvaM.png

(퍼플렉시티가 정리한 기사)

주요 AI 기업들은 보다 능력 있는 AI 에이전트를 만들기 위해 강화학습 환경에 전례 없는 투자를 쏟아붓고 있으며, Anthropic은 내년에 이러한 정교한 훈련 플랫폼에 10억 달러 이상을 지출할 계획이라고 전해졌다. 이 대규모 자금 지원은 실리콘밸리에서 기존 AI 훈련 방식이 한계에 도달했으며, 진정으로 자율적인 AI 시스템을 개발하려면 새로운 접근이 필요하다는 인식이 커지고 있음을 보여준다.


강화학습 환경은 AI 에이전트가 단순히 텍스트를 처리하는 것보다 실제로 행동하면서 학습할 수 있는 시뮬레이션 작업 공간 역할을 한다. 2025년 9월에 보고된 바에 따르면, 이러한 가상 훈련장은 AI 에이전트가 소프트웨어 애플리케이션을 탐색하거나 Salesforce를 통해 고객 관계를 관리하거나, 의료 시스템에서 의료 기록을 처리하는 등 복잡한 과업을 연습할 수 있게 해준다. 이전 세대 AI를 구동했던 고정된 데이터셋과 달리, 이러한 동적 환경은 실시간 피드백을 제공하고 예측할 수 없는 에이전트의 행동에 맞춰 적응한다.


스타트업들이 수요에 부응하기 위해 서두르고 있다


수요의 급증으로 인해 잘 자금이 지원된 신생 스타트업들이 RL(강화 학습) 환경 제공의 패권을 차지하기 위해 경쟁하는 새로운 카테고리가 탄생했습니다. 모든 직업의 자동화를 대담하게 목표로 지난해 6개월 전에 설립된 메카나이즈 워크(Mechanize Work)는 AI 코딩 에이전트를 위한 고도화된 훈련 환경을 구축하기 위해 소프트웨어 엔지니어에게 연봉 50만 달러를 제안하고 있습니다. 소식통에 따르면 이 스타트업은 이미 Anthropic과 RL 프로젝트를 진행 중이라고 합니다.


저명한 AI 연구원 안드레이 카파시(Andrej Karpathy)와 파운더스 펀드(Founders Fund)가 지원하는 프라임 인텔렉트(Prime Intellect)는 “RL 환경을 위한 허깅페이스(Hugging Face)“를 자처하며, 2025년 8월에 출시된 오픈소스 플랫폼으로 소규모 개발자들을 겨냥하고 있습니다. 이 회사는 2025년 3월에 1,500만 달러의 자금을 조달하며 이러한 강력한 훈련 도구에 대한 접근을 민주화하는 것을 목표로 하고 있습니다.


기존 데이터 라벨링 업체들도 이 기회를 포착하기 위해 전략을 수정하고 있습니다. 지난해 12억 달러의 매출을 올린 것으로 알려진 서지 AI(Surge AI)는 AI 연구소의 수요 증가에 대응해 RL 환경 구축을 위한 전담 내부 조직을 만들었습니다. 연간화 매출 4억 5천만 달러와 100억 달러 가치로 투자를 유치 중인 머커(Mercor)는 코딩, 헬스케어, 법률 등 분야별 환경을 개발하고 있습니다.


시장 경쟁이 심화된다


경쟁 구도는 기업들이 이 신흥 분야에서 우위를 차지하기 위해 치열한 경쟁을 벌이면서 점점 더 치열해지고 있습니다. 한때 AI 데이터 라벨링 분야의 독보적인 선도 업체였던 Scale AI는 Meta가 회사에 막대한 투자를 하고 CEO를 영입한 뒤, OpenAI와 Google가 Scale을 고객에서 제외하면서 상당한 도전에 직면했습니다. 이로 인해 Surge와 Mercor와 같은 경쟁 업체들이 시장 점유율을 확대할 기회를 얻게 되었습니다.


업계 관계자들에 따르면, RL 환경에 대한 투자는 AI 시스템의 학습 방식에 근본적인 변화를 가져오고 있습니다. Surge의 CEO인 에드윈 첸(Edwin Chen)은 “OpenAI와 Anthropic이 자신들의 모델을 개선하는 방식은 실제로 인간의 학습 과정을 모방하고 있으며, 강화 학습 환경은 AI가 실제 세계에서 살아가는 것과 같다”고 설명했습니다.


도전과 회의론


막대한 투자에도 불구하고, 상당한 기술 및 사업적 과제들이 여전히 남아 있습니다. 비평가들은 AI 모델이 실제로 의도한 작업을 수행하지 않고 보상을 얻기 위한 허점을 찾아내는 “보상 해킹”과 같은 문제를 지적합니다. 환경 자체에는 긍정적 입장을 보이면서도, Andrej Karpathy는 강화 학습에 대해서는 신중한 태도를 보이며 “강화 학습에만 한정해선 부정적 시각을 갖고 있다”고 언급했습니다.


업계의 공감대는 RL 환경이 차세대 AI 에이전트 개발에 핵심적이며, OpenAI의 o1 모델 및 Anthropic의 Claude 시스템 등 최근의 혁신을 가능하게 했다고 봅니다. 하지만 이러한 환경에서 지능을 추출하는 최적의 방법과 확장성에 관한 의문이 연구자와 투자자들 사이에서 끊임없이 논쟁을 불러일으키고 있습니다.

댓글 0
전체 1,366 / 296 페이지
Perplexity가 " 이메일 어시스턴트"를 퍼플렉시티 Max 유료 구독자에게 제공한다.지메일과 아웃룩용 AI 에이전트에 연동하는 것으로 사용자의 목소리와 맞춰 답장 초안을 만들어준다. 또한 이메일에 자동으로 라벨을 붙여 받은 편지함을 정리해주고, cc를 추가하면 미팅 시간을 제안해준다고.이 서비스는 구글 및 마이크로소프트 계정과의 연동으로 작동한다. 퍼플렉시티는 사용자 데이터를 모델 훈련에 사용하지 않는다고 하며, 비슷한 기능으로 구글 제미나이나 MS 코파일럿에서 이미 제공한 바 있다.하지만 요즘 주목을 받는 '에이전트' 기능으로 이메일 스레드 내에서 일정 조율의 전 과정을 처리한다는 점이 특징이라고.자세한 내용은 아래 페이지에서 확인할 수 있다.https://www.perplexity.ai/assistant
3019 조회
0 추천
2025.09.26 등록
페이스북 데이팅 기능이 스와이핑으로 파트너를 찾는 피로함을 해결하기 위해 AI 를 도입한다고 밝혔다.페이스북은 "데이트 어시스턴트"와 "밋 큐트(Meet Cute)"라는 두 가지 새로운 기능을 자사의데이팅 서비스에 도입해, 반복적인 스와이프 방식에 지친 사용자들을 돕고자 한다고 발표했다데이트 어시스턴트는 사용자의 취향과 관심사를 바탕으로 맞춤형 추천을 제공하는 채팅 기반 도우미로,전통적인 키, 교육 수준 등의 기준뿐 아니라 '브루클린에 사는 IT 업계 여성 찾아줘'처럼 구체적인 요청도 가능하다이 어시스턴트는 매칭 탭에서 이용할 수 있으며, 미국과 캐나다에서 순차적으로 도입될 예정이다밋 큐트는 사용자의 선호도에 따라 매주 자동으로 새로운 상대와 매칭해주는 기능으로, 매칭된 상대와 대화를 나누거나 필요시 매칭을 해제할 수 있다페이스북은 이러한 기능들이 반복적인 스와이프로 인해 피로감을 느끼던 사용자들에게 새로운 만남의 기회를 제공하고, 쉽고 재미있는 만남을 이어갈 수 있도록 서비스를 계속 개선해 나가겠다고 밝혔다.
3000 조회
0 추천
2025.09.26 등록
(퍼플렉시티가 정리한 기사)구글 딥마인드 는 화요일에 자사의 가장 진보된 AI 로봇 모델을 공개했으며, 이러한 시스템은 복잡한 작업을 실행하기 전에 “생각”을 할 수 있고 문제 해결을 위해 실시간 정보 검색까지 할 수 있습니다.새로운 두 모델인 Gemini Robotics 1.5와 Gemini Robotics-ER 1.5는, 구글 딥마인드 로보틱스 책임자인 Carolina Parada에 따르면, 광범위한 재프로그래밍 없이 새로운 환경에 적응할 수 있는 다재다능한 로봇을 만드는 데 있어 상당한 진전을 보여줍니다.행동하기 전에 생각하는 로봇들이번 혁신은 Gemini Robotics-ER 1.5에 초점을 맞추고 있으며, DeepMind는 이를 현대의 텍스트 기반 챗봇과 유사한 시뮬레이션 추론이 가능한 최초의 로봇 AI라고 설명합니다. “ER”은 “구체적 추론(embodied reasoning)“을 의미하며, 이를 통해 로봇이 물리적 행동을 실행하기 전에 여러 단계를 미리 계획할 수 있습니다.시연 동안 연구원들은 로봇에게 “현지 규정에 따라” 쓰레기를 분류하라는 요청을 하고, 로봇이 재활용품을 성공적으로 분류하는 모습을 보여주었습니다. 로봇은 연구원이 샌프란시스코에 있다는 사실을 파악하고, 온라인에서 현지 재활용 규정을 검색한 후, 올바르게 물품을 분류했습니다. 또 다른 실험에서는 런던 여행을 위해 짐을 싸라는 요청을 받은 후, 로봇이 날씨 예보를 검색하고 비니와 같은 적절한 아이템을 챙기기도 했습니다.“현대 로봇은 매우 특수화되어 있으며 구현이 어려워, 단일 용도의 로봇 한 대를 도입하는 데 수개월이 걸리는 경우가 많다”고 파라다는 밝혔습니다. 새로운 생성형 AI 접근법은 로봇이 재프로그래밍 없이 완전히 새로운 상황을 처리할 수 있게 합니다.행동하기 전에 생각하는 로봇들이번 혁신은 Gemini Robotics-ER 1.5에 초점을 맞추고 있으며, DeepMind는 이를 현대의 텍스트 기반 챗봇과 유사한 시뮬레이션 추론이 가능한 최초의 로봇 AI라고 설명합니다. “ER”은 “구체적 추론(embodied reasoning)“을 의미하며, 이를 통해 로봇이 물리적 행동을 실행하기 전에 여러 단계를 미리 계획할 수 있습니다.시연 동안 연구원들은 로봇에게 “현지 규정에 따라” 쓰레기를 분류하라는 요청을 하고, 로봇이 재활용품을 성공적으로 분류하는 모습을 보여주었습니다. 로봇은 연구원이 샌프란시스코에 있다는 사실을 파악하고, 온라인에서 현지 재활용 규정을 검색한 후, 올바르게 물품을 분류했습니다. 또 다른 실험에서는 런던 여행을 위해 짐을 싸라는 요청을 받은 후, 로봇이 날씨 예보를 검색하고 비니와 같은 적절한 아이템을 챙기기도 했습니다.“현대 로봇은 매우 특수화되어 있으며 구현이 어려워, 단일 용도의 로봇 한 대를 도입하는 데 수개월이 걸리는 경우가 많다”고 파라다는 밝혔습니다. 새로운 생성형 AI 접근법은 로봇이 재프로그래밍 없이 완전히 새로운 상황을 처리할 수 있게 합니다.
2979 조회
0 추천
2025.09.26 등록
(퍼플렉시티가 정리한 기사)일론 머스크의 인공지능 스타트업 xAI는 수요일 캘리포니아 연방법원에 경쟁사인 오픈AI를 상대로 소송을 제기했으며, 오픈AI가 전 xAI 직원을 고용해 Grok 챗봇과 관련된 영업 비밀을 훔치는 “심각하게 우려스러운 패턴”에 관여했다는 주장을 하고 있다. 이번 소송은 머스크와 그가 2015년에 공동 설립한 회사 간의 ongoing한 법적 분쟁에서 최근의 격화된 조치다.소장은 오픈AI가 “xAI의 핵심 기술과 사업 계획에 대한 지식을 가진 인물들을 표적으로 삼고, xAI의 소스 코드와 데이터 센터 개시에 있어서의 운영상 강점 등을 포함하여, 그러한 직원들이 xAI에 대한 비밀 유지 및 기타 의무를 불법적인 수단을 통해 위반하도록 유도했다”고 주장하고 있다.사건의 중심에 선 전직 엔지니어이번 소송은 특히 전 xAI 엔지니어 쉬에천 리(Xuechen Li)의 사례를 강조하고 있습니다. 그는 OpenAI에 합류하기 전에 회사의 전체 Grok 코드베이스를 무단 유출한 혐의를 받고 있습니다. 리는 2024년 스탠포드 대학교에서 컴퓨터 과학 박사 학위를 받았으며, xAI의 첫 20명의 엔지니어 중 한 명으로 Grok 챗봇 개발에 직접 참여했습니다.법원 문서에 따르면 리는 2025년 7월 OpenAI에 직위를 수락한 직후 약 700만 달러 상당의 xAI 주식을 매도했습니다. 2025년 7월 25일, 마지막 주식 매각 대금 220만 달러를 수령한 바로 그날, 리는 회사에서 지급한 노트북에서 개인 시스템으로 기밀 정보를 “고의적이고 악의적으로” 복사한 혐의를 받고 있습니다. 그는 3일 뒤 사직했으며, 8월 19일에 OpenAI에서 근무를 시작할 예정이었습니다.연방 판사는 9월 2일 임시 금지 명령을 내려, xAI가 모든 기밀 정보가 반환되었거나 삭제되었음을 확인할 때까지 리가 OpenAI에서 생성형 AI 프로젝트에 참여하는 것을 금지시켰습니다. 해당 명령은 리가 OpenAI 직원과 생성형 AI에 관해 논의하는 것도 제한합니다.더욱 치열해진 AI 인재 전쟁이 사건은 실리콘 밸리에서 특히 중국계 전문가들 사이에서 치열한 경쟁이 벌어지고 있는 엘리트 AI 엔지니어 인재 확보전을 강조한다. xAI에는 유화이 토니 우(Yuhuai Tony Wu)를 비롯해 여러 저명한 중국계 엔지니어들이 핵심 역할을 맡고 있는데, 그는 머스크와 함께 Grok 제품 출시 행사에 자주 등장한다.이번 소송은 머스크가 오픈AI(OpenAI)와 벌이고 있는 지속적인 법적 분쟁에 추가되는 것으로, 8월에 오픈AI와 애플를 상대로 제기된 별도의 반독점 소송도 포함된다. AI 챗봇 시장에서의 독점 행위가 주장되고 있다. 오픈AI는 머스크에게 괴롭힘 혐의로 역소송을 제기했다. 오픈AI와 두 회사의 대변인은 이번 최신 사건에 대한 논평 요청에 즉각적으로 답변하지 않았다.
2978 조회
0 추천
2025.09.26 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입