AI 뉴스

마이크로소프트, VS 코드 기본 AI를 GPT-5에서 클로드로 전환

페이지 정보

작성자 xtalfi
작성일 2025.09.17 16:15
705 조회
0 추천
0 비추천

본문

64d20d50a290f6d3b1b62c144d12294eOcQe.png

(퍼플렉시티가 정리한 기사)

마이크로소프트는 Visual Studio Code에서 주목할 만한 전략적 전환을 단행하여, 코딩 작업에서 OpenAI의 GPT-5보다 Anthropic의 Claude Sonnet 4를 기본값으로 하는 자동 AI 모델 선택 기능을 도입했습니다. 이 변화는 2019년 이후 OpenAI에 130억 달러를 투자해온 이 기술 대기업이 AI 전략에서 더 넓은 변화를 모색하고 있음을 시사합니다.


새롭게 도입된 자동 모델 선택 기능은 9월 15일에 출시되었으며, GitHub Copilot 사용자에게 Claude Sonnet 4, GPT-5, GPT-5 mini 및 기타 모델 중에서 자동으로 선택해줍니다. 무료 사용자들은 다양한 모델이 순환 적용되는 경험을 하게 되지만, 유료 구독자들은 마이크로소프트의 공식 발표에 따르면 “주로 Claude Sonnet 4에 의존”하게 됩니다.


내부 벤치마크가 모델 선호도를 결정한다


이 결정은 내부 성과 평가에서 Anthropic의 제품이 지속적으로 우위를 보인 데에서 비롯되었습니다. 마이크로소프트 개발 부문 사장 줄리아 리우손은 6월 사내 이메일에서 직원들에게 “내부 벤치마크 기준으로 GitHub Copilot에 권장하는 모델은 Claude Sonnet 4입니다”라고 밝혔습니다. 이 권고는 GPT-5 출시 이전에 이루어졌으며, OpenAI가 최신 모델을 출시한 이후에도 변함이 없었던 것으로 전해집니다.


회사 개발 계획에 정통한 마이크로소프트 소식통들은 엔지니어들이 몇 달 전부터 코딩 작업에서 기본적으로 Claude Sonnet 4를 사용하라는 조용한 지시를 받았다고 밝혔습니다. GitHub 내부에서 이뤄진 초기 테스트에서는, GitHub 엔지니어들에 따르면 Claude 4가 “더 오래 집중을 유지하고, 문제를 더 깊이 이해하며, 보다 우아한 코드를 제공”하는 것으로 나타났습니다.


복잡한 코딩 벤치마크에서 모델의 우수한 성능이 핵심 요인이 되었습니다. Claude Sonnet 4는 소프트웨어 엔지니어링 벤치마크인 SWE-bench에서 72~73%의 정확도를 기록해 경쟁 모델들을 제쳤습니다. 마이크로소프트 내부 테스트 결과, Anthropic의 모델은 특정 개발자 워크플로에서 OpenAI의 제품보다 “미묘하지만 중요한 방식으로” 더 뛰어난 성과를 보인 것으로 나타났습니다.


Visual Studio Code를 넘어 확장하기


이 AI 모델의 다양화는 Visual Studio Code를 넘어 마이크로소프트의 광범위한 생산성 제품군으로 확장되고 있습니다. The Information은 마이크로소프트 365 코파일럿이 곧 내부 테스트에서 Claude가 엑셀 자동화와 파워포인트 프레젠테이션 생성에서 더 우수한 성능을 보인 결과 “부분적으로 Anthropic 모델이 구동할 것”이라고 보도했습니다.


AI 업계의 경쟁 역학을 강조하는 복잡한 계약 구조 속에서, 마이크로소프트는 Anthropic의 모델에 접근하기 위해 자사의 애저(Azure) 클라우드 플랫폼과 직접 경쟁하는 Amazon Web Services에 비용을 지불할 예정입니다. 이러한 추가 비용에도 불구하고, 마이크로소프트는 사용자를 위한 Copilot의 월 요금을 30달러로 유지할 계획입니다.


AI 경쟁 속에서의 파트너십 재구성


이러한 시기는 마이크로소프트와 OpenAI 관계의 중대한 변화와 일치한다. 양사는 9월 11일 파트너십을 재구성하기 위한 구속력 없는 양해각서에 서명했으며, 이를 통해 OpenAI가 공익법인으로의 전환을 추진할 수 있게 되었다. 개정된 조건에 따르면, OpenAI의 마이크로소프트와의 수익 분배는 2030년까지 20%에서 약 8-10%로 감소할 것으로 예상되며, 이는 AI 스타트업에게 500억 달러 이상의 추가 수익을 가져다줄 가능성이 있다.


마이크로소프트 AI CEO 무스타파 술레이만은 9월 12일 직원 타운홀 미팅에서 회사의 자체 AI 인프라에 대한 “상당한 투자” 계획을 발표했다. 회사의 MAI-1-preview 모델은 15,000개의 엔비디아 H100 칩으로 훈련되었으며, 술레이만은 이를 “6배에서 10배 더 큰” 규모가 될 미래 클러스터와 비교하여 “작은” 규모라고 평가했다.


멀티 모델 전략이 등장하다


이러한 발전은 마이크로소프트의 AI 파트너십에 대한 진화하는 접근 방식을 반영합니다. CEO 사티아 나델라는 타운홀 미팅에서 마이크로소프트가 “확실히 다양한 모델을” 자사 제품 전반에서 지원할 것이라고 강조하며, 이러한 멀티 모델 전략의 예시로 GitHub Copilot을 언급했습니다.


개발자에게는 자동 선택 기능이 유료 사용자에게 10% 요청 할인과 레이트 리미팅 감소 등 실질적인 이점을 제공합니다. 이 시스템은 현재의 용량과 성능을 바탕으로 최적의 모델을 자동으로 선택하며, 사용자는 챗 답변에 마우스를 올리면 어떤 모델이 각각의 응답을 제공했는지 확인할 수 있습니다.


이러한 전략적 변화는 인공지능 개발에서 성능 벤치마크가 전통적인 공급업체 관계보다 파트너십 결정을 더욱 주도하는 경쟁의 치열함을 강조합니다. 마이크로소프트가 오픈AI 투자와 동시에 AI 포트폴리오를 다양화하는 가운데, 이번 행보는 여러 AI 공급자가 기업용 소프트웨어 경험의 다양한 부분을 지원하는 미래를 시사합니다.

댓글 0
전체 561 / 87 페이지
조금 전 메타가 AI 기능이 있는 안경을 비롯하여 중요한 키노트를 진행하였습니다.CNET이 준비한 키노트 요약입니다.RAYBAN 과 새로 제작한 안경이 큰 화제입니다.
706 조회
0 추천
2025.09.18 등록
마이크로소프트가 코파일럿 메모장과 그림판 연동기능을 제공하기 시작했으며이 기능은 오피스365를 사용하지 않아도 코파일럿을 이욯하면 이용할 수 있다.예를 들어 메모장은 다음과 같은 기능을 갖게 된다.-요약: 긴 텍스트를 간략하게 요점만 추려내고, 문서의 핵심을 빠르게 파악할 수 있습니다.- 쓰기: 프롬프트나 선택한 텍스트를 활용해 새로운 문장을 AI로 쉽고 빠르게 작성합니다.- 다시 쓰기: 선택한 내용을 AI가 어투, 길이, 명확성 등 다양한 스타일로 변환해 줍니다.또한 그림판은 다음과 같은 기능을 추가하게 된다.- 프로젝트 파일 저장 기능: 그림판에서 작업을 .paint 파일로 저장해 언제든 이어서 편집이 가능.- 불투명도(Opacity) 슬라이더: 연필 및 브러시 도구의 투명도를 원하는 대로 조절해 더 섬세한 혼합이나 레이어링 효과 주기.- 크기 및 불투명도 슬라이더 병행 사용: 두 슬라이더를 활용해 부드럽게 배합하고 다양한 질감의 그림 그리기.
694 조회
0 추천
2025.09.18 등록
(퍼플렉시티가 정리한 기사)중국 AI 스타트업 DeepSeek은 획기적인 R1 모델 훈련 방식에 관한 새로운 세부 정보를 세계적인 권위지 네이처(Nature)의 동료검토 논문을 통해 발표했습니다. 이 논문에서는 기존 경쟁 모델 대비 극히 적은 비용으로 순수 강화학습만을 사용해 첨단 추론 능력을 달성한 방법을 공개했습니다.항저우에 본사를 둔 이 회사는 자사의 R1 추론 모델 훈련 비용이 단 29만 4천 달러에 불과하며, 기반 베이스 모델의 개발 비용은 약 600만 달러였음을 처음으로 공개했습니다. 총 630만 달러가 소요된 것으로, 이는 미국의 기술 기업들이 개발한 경쟁 모델이 수천만 달러에 달하는 것과는 극명한 대조를 이룹니다.순수 강화학습의 획기적인 발전DeepSeek의 주요 혁신은 연구자들이 “순수 강화 학습(pure reinforcement learning)“이라고 부르는 방식을 사용해 R1을 개발한 점에 있으며, 이는 인간이 만든 예시에 의존하는 기존의 감독 학습(supervised learning) 방식과는 다른 접근법입니다. 이 과정에서 모델은 인간이 선택한 추론 방식에 따르도록 학습시키는 대신, 올바른 답변에 도달할 때 보상을 받도록 설계되었습니다.네이처(Nature) 논문에 따르면, DeepSeek의 접근법은 모델이 인간이 제시한 전략을 따르지 않고도 자체적인 추론 전략을 개발하고 자신의 작업을 검증할 수 있는 능력을 갖추게 해주었습니다. 회사는 자체 시도에 대해 별도의 알고리즘을 사용하지 않고 추정치를 활용해 점수를 매길 수 있게 해주는 Group Relative Policy Optimization(GRPO)이라는 기법을 활용했습니다.“이 모델은 AI 연구자들 사이에서 매우 영향력이 컸습니다,“라고 오하이오 주립대(Ohio State University) 콜럼버스 소재 AI 연구원인 Huan Sun은 말했습니다. “2025년 현재까지 LLM에서 강화 학습을 수행하는 거의 모든 연구가 어떻게든 R1로부터 영감을 받았을지도 모릅니다”.5단계 훈련 과정완전한 R1 학습 과정은 감독 학습(fine-tuning)과 강화 학습을 번갈아가며 진행하는 여러 단계로 구성되었습니다. 이 과정은 딥시크(DeepSeek)의 V3-Base 모델을 수천 개의 ‘콜드 스타트’ 데이터 포인트로 파인튜닝하는 것으로 시작했고, 이후 순수 강화 학습을 통해 추론 능력을 향상시켰습니다.수렴에 가까워지면 시스템은 리젝션 샘플링(rejection sampling) 방식을 사용했습니다. 여기서 모델은 강화 학습 실행에서 성공적인 예시 중 최상의 예시를 선택해 자체 합성 훈련 데이터를 생성했습니다. 이 합성 데이터는 이후 글쓰기나 사실 기반 질문응답 등 다양한 영역에서 DeepSeek-V3-Base의 감독 학습 데이터와 통합되었습니다.동료 평가 중인 최초의 주요 LLMR1은 엄격한 동료 평가 과정을 거친 최초의 대형 언어 모델을 의미합니다. Nature 논문을 심사한 허깅페이스의 머신러닝 엔지니어 루이스 턴스톨은 이를 “매우 환영할 만한 선례”라고 평가하며, 훈련 과정이 공개되지 않으면 AI 시스템이 위험을 초래하는지 평가하기 어렵다고 언급했습니다.이 동료 평가 과정에서 DeepSeek는 훈련에 사용된 데이터 유형과 안전 조치를 포함한 기술적 세부 사항에 대한 설명을 추가하게 되었습니다. 이 모델은 오픈소스 특성을 유지하면서도 OpenAI의 o1 모델에 필적하는 추론 벤치마크 성능을 달성하였습니다.성능 및 접근성Hugging Face에서 1월에 출시된 이후, R1은 복잡한 문제 해결을 위한 플랫폼에서 가장 많이 다운로드된 모델이 되었으며, 다운로드 수는 1,090만 회를 넘어섰습니다. 이 모델은 AIME 2024 수학 벤치마크에서 pass@1 점수 79.8%를 기록하여 OpenAI o1의 79.2%를 소폭 앞섰습니다.DeepSeek의 혁신은 AI 개발 비용 및 성능 향상을 위해 모델 크기와 연산 능력을 늘려야 한다는 확장 법칙에 대한 기존의 통념에 도전장을 내밀었습니다. 회사는 비교적 덜 강력한 H800 칩을 사용해 성공을 거두었으며, 이 칩은 2023년 미국의 수출 통제로 중국 내 판매가 금지된 바 있습니다. 이러한 성과는 향후 AI 개발 방향에 대한 논의를 촉진하고 있습니다.
675 조회
0 추천
2025.09.18 등록
(퍼플렉시티가 정리한 기사)주요 AI 기업들은 보다 능력 있는 AI 에이전트를 만들기 위해 강화학습 환경에 전례 없는 투자를 쏟아붓고 있으며, Anthropic은 내년에 이러한 정교한 훈련 플랫폼에 10억 달러 이상을 지출할 계획이라고 전해졌다. 이 대규모 자금 지원은 실리콘밸리에서 기존 AI 훈련 방식이 한계에 도달했으며, 진정으로 자율적인 AI 시스템을 개발하려면 새로운 접근이 필요하다는 인식이 커지고 있음을 보여준다.강화학습 환경은 AI 에이전트가 단순히 텍스트를 처리하는 것보다 실제로 행동하면서 학습할 수 있는 시뮬레이션 작업 공간 역할을 한다. 2025년 9월에 보고된 바에 따르면, 이러한 가상 훈련장은 AI 에이전트가 소프트웨어 애플리케이션을 탐색하거나 Salesforce를 통해 고객 관계를 관리하거나, 의료 시스템에서 의료 기록을 처리하는 등 복잡한 과업을 연습할 수 있게 해준다. 이전 세대 AI를 구동했던 고정된 데이터셋과 달리, 이러한 동적 환경은 실시간 피드백을 제공하고 예측할 수 없는 에이전트의 행동에 맞춰 적응한다.스타트업들이 수요에 부응하기 위해 서두르고 있다수요의 급증으로 인해 잘 자금이 지원된 신생 스타트업들이 RL(강화 학습) 환경 제공의 패권을 차지하기 위해 경쟁하는 새로운 카테고리가 탄생했습니다. 모든 직업의 자동화를 대담하게 목표로 지난해 6개월 전에 설립된 메카나이즈 워크(Mechanize Work)는 AI 코딩 에이전트를 위한 고도화된 훈련 환경을 구축하기 위해 소프트웨어 엔지니어에게 연봉 50만 달러를 제안하고 있습니다. 소식통에 따르면 이 스타트업은 이미 Anthropic과 RL 프로젝트를 진행 중이라고 합니다.저명한 AI 연구원 안드레이 카파시(Andrej Karpathy)와 파운더스 펀드(Founders Fund)가 지원하는 프라임 인텔렉트(Prime Intellect)는 “RL 환경을 위한 허깅페이스(Hugging Face)“를 자처하며, 2025년 8월에 출시된 오픈소스 플랫폼으로 소규모 개발자들을 겨냥하고 있습니다. 이 회사는 2025년 3월에 1,500만 달러의 자금을 조달하며 이러한 강력한 훈련 도구에 대한 접근을 민주화하는 것을 목표로 하고 있습니다.기존 데이터 라벨링 업체들도 이 기회를 포착하기 위해 전략을 수정하고 있습니다. 지난해 12억 달러의 매출을 올린 것으로 알려진 서지 AI(Surge AI)는 AI 연구소의 수요 증가에 대응해 RL 환경 구축을 위한 전담 내부 조직을 만들었습니다. 연간화 매출 4억 5천만 달러와 100억 달러 가치로 투자를 유치 중인 머커(Mercor)는 코딩, 헬스케어, 법률 등 분야별 환경을 개발하고 있습니다.시장 경쟁이 심화된다경쟁 구도는 기업들이 이 신흥 분야에서 우위를 차지하기 위해 치열한 경쟁을 벌이면서 점점 더 치열해지고 있습니다. 한때 AI 데이터 라벨링 분야의 독보적인 선도 업체였던 Scale AI는 Meta가 회사에 막대한 투자를 하고 CEO를 영입한 뒤, OpenAI와 Google가 Scale을 고객에서 제외하면서 상당한 도전에 직면했습니다. 이로 인해 Surge와 Mercor와 같은 경쟁 업체들이 시장 점유율을 확대할 기회를 얻게 되었습니다.업계 관계자들에 따르면, RL 환경에 대한 투자는 AI 시스템의 학습 방식에 근본적인 변화를 가져오고 있습니다. Surge의 CEO인 에드윈 첸(Edwin Chen)은 “OpenAI와 Anthropic이 자신들의 모델을 개선하는 방식은 실제로 인간의 학습 과정을 모방하고 있으며, 강화 학습 환경은 AI가 실제 세계에서 살아가는 것과 같다”고 설명했습니다.도전과 회의론막대한 투자에도 불구하고, 상당한 기술 및 사업적 과제들이 여전히 남아 있습니다. 비평가들은 AI 모델이 실제로 의도한 작업을 수행하지 않고 보상을 얻기 위한 허점을 찾아내는 “보상 해킹”과 같은 문제를 지적합니다. 환경 자체에는 긍정적 입장을 보이면서도, Andrej Karpathy는 강화 학습에 대해서는 신중한 태도를 보이며 “강화 학습에만 한정해선 부정적 시각을 갖고 있다”고 언급했습니다.업계의 공감대는 RL 환경이 차세대 AI 에이전트 개발에 핵심적이며, OpenAI의 o1 모델 및 Anthropic의 Claude 시스템 등 최근의 혁신을 가능하게 했다고 봅니다. 하지만 이러한 환경에서 지능을 추출하는 최적의 방법과 확장성에 관한 의문이 연구자와 투자자들 사이에서 끊임없이 논쟁을 불러일으키고 있습니다.
676 조회
0 추천
2025.09.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입