Loading...

AI 뉴스

마이크로소프트, VS 코드 기본 AI를 GPT-5에서 클로드로 전환

페이지 정보

작성자 xtalfi
작성일 2025.09.17 16:15
3,174 조회
0 추천
0 비추천

본문

64d20d50a290f6d3b1b62c144d12294eOcQe.png

(퍼플렉시티가 정리한 기사)

마이크로소프트는 Visual Studio Code에서 주목할 만한 전략적 전환을 단행하여, 코딩 작업에서 OpenAI의 GPT-5보다 Anthropic의 Claude Sonnet 4를 기본값으로 하는 자동 AI 모델 선택 기능을 도입했습니다. 이 변화는 2019년 이후 OpenAI에 130억 달러를 투자해온 이 기술 대기업이 AI 전략에서 더 넓은 변화를 모색하고 있음을 시사합니다.


새롭게 도입된 자동 모델 선택 기능은 9월 15일에 출시되었으며, GitHub Copilot 사용자에게 Claude Sonnet 4, GPT-5, GPT-5 mini 및 기타 모델 중에서 자동으로 선택해줍니다. 무료 사용자들은 다양한 모델이 순환 적용되는 경험을 하게 되지만, 유료 구독자들은 마이크로소프트의 공식 발표에 따르면 “주로 Claude Sonnet 4에 의존”하게 됩니다.


내부 벤치마크가 모델 선호도를 결정한다


이 결정은 내부 성과 평가에서 Anthropic의 제품이 지속적으로 우위를 보인 데에서 비롯되었습니다. 마이크로소프트 개발 부문 사장 줄리아 리우손은 6월 사내 이메일에서 직원들에게 “내부 벤치마크 기준으로 GitHub Copilot에 권장하는 모델은 Claude Sonnet 4입니다”라고 밝혔습니다. 이 권고는 GPT-5 출시 이전에 이루어졌으며, OpenAI가 최신 모델을 출시한 이후에도 변함이 없었던 것으로 전해집니다.


회사 개발 계획에 정통한 마이크로소프트 소식통들은 엔지니어들이 몇 달 전부터 코딩 작업에서 기본적으로 Claude Sonnet 4를 사용하라는 조용한 지시를 받았다고 밝혔습니다. GitHub 내부에서 이뤄진 초기 테스트에서는, GitHub 엔지니어들에 따르면 Claude 4가 “더 오래 집중을 유지하고, 문제를 더 깊이 이해하며, 보다 우아한 코드를 제공”하는 것으로 나타났습니다.


복잡한 코딩 벤치마크에서 모델의 우수한 성능이 핵심 요인이 되었습니다. Claude Sonnet 4는 소프트웨어 엔지니어링 벤치마크인 SWE-bench에서 72~73%의 정확도를 기록해 경쟁 모델들을 제쳤습니다. 마이크로소프트 내부 테스트 결과, Anthropic의 모델은 특정 개발자 워크플로에서 OpenAI의 제품보다 “미묘하지만 중요한 방식으로” 더 뛰어난 성과를 보인 것으로 나타났습니다.


Visual Studio Code를 넘어 확장하기


이 AI 모델의 다양화는 Visual Studio Code를 넘어 마이크로소프트의 광범위한 생산성 제품군으로 확장되고 있습니다. The Information은 마이크로소프트 365 코파일럿이 곧 내부 테스트에서 Claude가 엑셀 자동화와 파워포인트 프레젠테이션 생성에서 더 우수한 성능을 보인 결과 “부분적으로 Anthropic 모델이 구동할 것”이라고 보도했습니다.


AI 업계의 경쟁 역학을 강조하는 복잡한 계약 구조 속에서, 마이크로소프트는 Anthropic의 모델에 접근하기 위해 자사의 애저(Azure) 클라우드 플랫폼과 직접 경쟁하는 Amazon Web Services에 비용을 지불할 예정입니다. 이러한 추가 비용에도 불구하고, 마이크로소프트는 사용자를 위한 Copilot의 월 요금을 30달러로 유지할 계획입니다.


AI 경쟁 속에서의 파트너십 재구성


이러한 시기는 마이크로소프트와 OpenAI 관계의 중대한 변화와 일치한다. 양사는 9월 11일 파트너십을 재구성하기 위한 구속력 없는 양해각서에 서명했으며, 이를 통해 OpenAI가 공익법인으로의 전환을 추진할 수 있게 되었다. 개정된 조건에 따르면, OpenAI의 마이크로소프트와의 수익 분배는 2030년까지 20%에서 약 8-10%로 감소할 것으로 예상되며, 이는 AI 스타트업에게 500억 달러 이상의 추가 수익을 가져다줄 가능성이 있다.


마이크로소프트 AI CEO 무스타파 술레이만은 9월 12일 직원 타운홀 미팅에서 회사의 자체 AI 인프라에 대한 “상당한 투자” 계획을 발표했다. 회사의 MAI-1-preview 모델은 15,000개의 엔비디아 H100 칩으로 훈련되었으며, 술레이만은 이를 “6배에서 10배 더 큰” 규모가 될 미래 클러스터와 비교하여 “작은” 규모라고 평가했다.


멀티 모델 전략이 등장하다


이러한 발전은 마이크로소프트의 AI 파트너십에 대한 진화하는 접근 방식을 반영합니다. CEO 사티아 나델라는 타운홀 미팅에서 마이크로소프트가 “확실히 다양한 모델을” 자사 제품 전반에서 지원할 것이라고 강조하며, 이러한 멀티 모델 전략의 예시로 GitHub Copilot을 언급했습니다.


개발자에게는 자동 선택 기능이 유료 사용자에게 10% 요청 할인과 레이트 리미팅 감소 등 실질적인 이점을 제공합니다. 이 시스템은 현재의 용량과 성능을 바탕으로 최적의 모델을 자동으로 선택하며, 사용자는 챗 답변에 마우스를 올리면 어떤 모델이 각각의 응답을 제공했는지 확인할 수 있습니다.


이러한 전략적 변화는 인공지능 개발에서 성능 벤치마크가 전통적인 공급업체 관계보다 파트너십 결정을 더욱 주도하는 경쟁의 치열함을 강조합니다. 마이크로소프트가 오픈AI 투자와 동시에 AI 포트폴리오를 다양화하는 가운데, 이번 행보는 여러 AI 공급자가 기업용 소프트웨어 경험의 다양한 부분을 지원하는 미래를 시사합니다.

댓글 0
전체 1,366 / 325 페이지
(퍼플렉시티가 정리한 기사)구글이 마침내 Gemini AI 사용 한도를 공개하며, 수개월간 "제한됨"과 "확대됨"이라는 모호한 접근에서 벗어나 무료 및 유료 구독 등급별 명확한 일일 및 월간 할당량을 제공하기 시작했습니다. 이 기술 대기업은 2025년 9월 6일 공식 지원 문서를 조용히 업데이트하여, 모호한 표현을 구체적인 수치로 대체해 사용자에게 AI 사용 허용량에 대한 명확한 기대치를 제시했습니다.이러한 투명성은 "용량에 따라" 또는 "제한적 접근"과 같은 불명확한 표현을 사용해 사용자가 실제 사용 한도를 추측하게 했던 기존 구글의 접근 방식과는 크게 달라진 변화입니다. 이제 회사는 무료 사용자가 Gemini 2.5 Pro로 하루에 5번 프롬프트를 받을 수 있고, Google AI Pro 구독자($19.99/월)는 100회, Google AI Ultra 고객($249.99/월)은 하루 500회의 프롬프트를 제공받는다는 점을 명확하게 밝혔습니다.프리 티어는 기본 접근 권한을 제공합니다.무료 Gemini 사용자는 가장 제한적인 사용 한도 하에서 운영되며, 고급 Gemini 2.5 Pro 모델로 하루에 5번의 프롬프트와 32,000 토큰의 컨텍스트 윈도우를 제공합니다. 이 사용자는 하루에 최대 100개의 이미지를 생성하고 20개의 오디오 오버뷰를 만들 수 있지만, Deep Research 기능은 성능이 낮은 2.5 Flash 모델로 월 5회 보고서 작성으로 제한됩니다.무료 등급은 Gemini 2.5 Flash에 대한 일반적인 접근성을 일일 제한 없이 유지하지만, Google은 사용량이 많은 시기에는 추가 제한이 있을 수 있다고 밝혔습니다. The Verge에 따르면, 새롭게 공개된 문서는 이전의 모호함을 없애고 구체적인 수치를 명확히 명시함으로써 이전의 애매한 용량 경고 대신 분명한 정보를 제공합니다.프로 플랜은 기능과 비용의 균형을 이룹니다Google AI Pro 구독자는 월 $19.99의 요금을 지불하면, 하루 100회의 Gemini 2.5 Pro 프롬프트와 2.5 Flash 사용 시 100만 토큰의 콘텍스트 윈도우에 접근할 수 있는 등 훨씬 더 높은 할당량을 받게 됩니다. 이 요금제에는 하루 1,000장의 이미지 생성, 20개의 음성 개요, 그리고 더욱 강력한 2.5 Pro 모델을 사용한 20개의 심층 리서치 보고서가 포함됩니다.Pro 구독자들은 하루에 세 개의 Veo 3 Fast 동영상 클립을 생성할 수 있는 동영상 생성 기능과, 최대 10개의 자동화 작업을 동시에 예약할 수 있는 권한도 얻게 됩니다. Digital Information World에 따르면, Pro 티어는 Ultra의 프리미엄 기능까지는 필요 없지만 정기적으로 AI 지원이 필요한 사용자들을 위한 중간 단계로 평가됩니다.울트라 플랜은 파워 유저를 대상으로 합니다프리미엄 Google AI Ultra 구독은 월 $249.99에 가장 높은 사용 한도를 제공하며, 하루 500회의 Gemini 2.5 Pro 프롬프트와 1백만 토큰의 컨텍스트 윈도우를 유지합니다. Ultra 구독자는 하루 1,000회의 이미지 생성, 5개의 Veo 3 영상 클립, 그리고 200건의 Deep Research 리포트를 받을 수 있습니다.Ultra 구독자에게만 독점적으로 제공되는 Deep Think는 복잡한 수학 및 프로그래밍 작업을 위해 설계된 Google의 고급 추론 모델로, 하루 10회의 프롬프트와 192,000 토큰의 컨텍스트 윈도우를 지원합니다. 해당 플랜에는 30TB의 클라우드 저장 공간과 YouTube Premium도 포함되어 있으며, 이는 TechCrunch의 2025년 5월 출시 관련 보도 내용입니다.산업 맥락과 사용자 반응구글이 명시적으로 한계치를 공개한 것은 프리미엄 AI 구독 시장에서 경쟁이 심화되는 가운데 나온 조치로, OpenAI의 ChatGPT Pro는 월 200달러에 제공되고, Anthropic의 Claude Max 역시 유사한 고급 접근 권한을 제공하고 있습니다. Reddit 토론에 따르면, 일부 이용자들은 이러한 투명성을 긍정적으로 평가하는 반면, 다른 이들은 경쟁사에 비해 비교적 낮은 Pro 등급 한도를 비판하고 있습니다.구글은 이 한도들이 용량에 따라 변경될 수 있으며, Canvas, Gems, Storybook과 같은 기능들도 선택한 모델의 한계에 영향을 받는다고 밝혔습니다. 회사는 용량이 정기적으로 충전되어, 사용자가 일일 할당량에 도달한 후에도 AI와의 상호작용을 다시 이어갈 수 있다고 강조합니다.
3498 조회
0 추천
2025.09.08 등록
(퍼플렉시티가 정리한 기사)테슬라는 독특한 금색 외관을 갖춘 최신 옵티머스 휴머노이드 로봇 프로토타입을 공개하며, 이 고급형 유닛이 기대를 모았던 버전 3이 아닌 버전 2.5임을 분명히 했다. 일론 머스크 CEO는 9월 6일 소셜미디어 플랫폼 X에서 "옵티머스 V3는 아직 공개하지 않았다"며, 공개되지 않은 버전 3을 "숭고하다"고 묘사했다.금색의 옵티머스 2.5는 세일즈포스 CEO 마크 베니오프가 X에 시연 영상을 공유하면서 큰 관심을 끌었다. 영상에는 로봇이 음성 명령에 반응하며, 그를 부엌으로 안내해 콜라를 찾으려고 시도하는 모습이 담겨 있다. 이 영상은 베니오프가 테슬라 캘리포니아 시설을 방문하는 동안 촬영되었으며, 로봇의 느린 움직임과 지연된 반응에 대한 기대와 비판을 동시에 불러일으켰다.디자인 진화와 기술적 개선Optimus 2.5 프로토타입은 이전 세대와 비교해 상당한 디자인 개선이 이루어진 모습을 보여줍니다. 테슬라의 공식 자료에 따르면, 이 로봇은 더 부드러운 모서리, 더 잘 가려진 관절, 그리고 덜 눈에 띄는 이음매를 특징으로 하고 있습니다. 어깨 부분은 더 둥글어졌고, 노출된 전선과 액추에이터가 줄어들어 이전 사각형 디자인에서 보다 인간에 가까운 외형으로 전환되었습니다.특히 손은 크게 업그레이드되어 22개의 자유도를 갖추었으며, 액추에이터가 팔뚝으로 이동하고 케이블을 통해 손가락을 제어하는 방식으로 인간 손의 생체역학을 모방하고 있습니다. 이러한 설계는 보다 정밀한 조작 작업이 가능하게 하여 로봇의 손재주 역량에 큰 발전을 가져왔습니다.테슬라는 또한 자사의 AI 어시스턴트인 Grok을 통합하여 음성 상호작용 기능을 탑재했습니다. 베니오프가 황금색 옵티머스에게 무엇을 하고 있냐고 묻자, 로봇은 "그냥 쉬고 있어요. 도울 준비가 되어 있습니다"라고 답하며 대화 능력을 시연했습니다. 하지만 비평가들은 반응 속도가 느리다는 점을 지적하기도 했습니다.생산 일정 및 향후 계획머스크는 테슬라의 2025년 2분기 실적 발표에서 회사가 연말까지 약 5,000대의 옵티머스 로봇 생산을 목표로 하고 있다고 확인했으며, 미국 시설 내 파일럿 생산 라인에서 이미 제조가 진행 중이라고 밝혔다. 보도에 따르면, 테슬라는 1,000대 이상의 프로토타입을 제작했으며, 이들 중 다수는 배터리 생산 작업장에 투입되고 있지만, 아직 인간 노동자 수준의 효율에는 미치지 못하고 있다.회사는 연례 주주총회를 2025년 11월 6일로 예정했으며, 머스크는 앞서 이 자리에서 ‘옵티머스 댄스 트룹’과 테슬라가 자칭한 ‘역대급 데모’를 선보이겠다고 암시한 바 있다. 업계 전문가들은 이번 행사를 통해 옵티머스 V3의 공식 공개가 있을 것으로 예상하고 있다.시장 영향 및 경쟁테슬라는 Boston Dynamics, Agility Robotics 등과 같은 기업들이 유사한 이족 로봇을 개발하면서 인간형 로봇 분야에서 경쟁이 점점 치열해지고 있습니다. 회사가 로봇 사업으로 전략적 방향을 전환하는 것은 전기차 판매가 감소하고 로보택시 프로그램이 지연되는 상황과 맞물려 있습니다.기술적 도전과 일부의 회의론에도 불구하고, 머스크는 Optimus를 테슬라 역사상 가장 큰 제품이 될 수 있다고 계속해서 내세우고 있으며, 2030년까지 최대 월 10만 대 생산이라는 야심찬 목표를 세우고 있습니다. 회사의 11월 주주총회 안건에는 머스크의 새로운 보상 패키지의 목표 중 하나로 Optimus 로봇 100만 대 공급이 포함되어 있습니다.
3384 조회
0 추천
2025.09.08 등록
(퍼플렉시티가 정리한 기사)OpenAI 연구자들은 AI 챗봇의 지속적인 환각 문제는 미묘한 기술적 결함이 아니라 언어 모델이 어떻게 학습되고 평가되는지에서 비롯된다고 주장합니다. 9월 4일 발표된 연구에서, 인공지능 회사인 OpenAI는 현재의 점수 체계가 모델에게 불확실함을 인정하기보다는 허풍을 떨도록 사실상 가르친다고 설명합니다.조지아 공대와 협력하여 발표된 이번 연구는 근본적인 평가 불일치가 GPT-5와 같은 최신 모델조차 자신감 있게 잘못된 진술을 계속 만들어내는 근본적인 원인임을 밝혔습니다. 설계 결함이 아니라, 정직한 불확실성보다 추측을 보상하는 학습 인센티브가 환각 현상을 초래하는 것입니다.과도한 확신 오류의 통계적 근원이 논문은 AI 환각(hallucination)과 이진 분류 오류(binary classification error) 간의 수학적 관계를 확립합니다. 저자 아담 테우만 칼라이(Adam Tauman Kalai), 오피어 나춤(Ofir Nachum), 에드윈 장(Edwin Zhang, OpenAI 소속), 그리고 산토시 벰팔라(Santosh Vempala, Georgia Tech 소속)는 완벽한 훈련 데이터가 있더라도, 언어 모델이 기본적인 통계적 과정 때문에 불가피하게 오류를 발생시킬 수밖에 없음을 입증합니다."환각은 신비로울 필요가 없습니다—그저 이진 분류에서 발생하는 오류일 뿐입니다."라고 연구진은 설명합니다. 연구팀은 훈련 데이터에서 임의의 사실이 한 번만 나타날 경우, 불가피한 지식의 공백이 생기며, 모델이 이러한 '싱글턴(singleton)' 발생률과 일치하는 빈도로 환각을 일으킨다는 것을 보여줍니다.구체적인 증거를 위해, 연구진은 논문 공동 저자 칼라이의 생일에 관한 간단한 질문을 주요 모델들에 테스트했습니다. "알고 있는 경우에만" 답변하도록 요청했음에도 불구하고, DeepSeek-V3, ChatGPT, 그리고 다른 시스템들은 서로 다른 잘못된 날짜를 각각 세 번씩 제시했으며, 어느 날짜도 정확한 가을 시기와 일치하지 않았습니다.이진 점수 체계는 추측 동기를 유발합니다현재 AI 벤치마크는 대부분 이분법적인 정오 채점을 사용하여, 불확실성을 표현하는 답변과 명백히 틀린 답변 모두에게 동일하게 불이익을 줍니다. 연구에 따르면, 이런 방식은 모델로 하여금 지식의 한계를 인정하기보다는 자신감 있게 추측하도록 체계적인 압박을 가하게 만듭니다.연구진은 "언어 모델은 능숙한 시험 응시자가 되도록 최적화되어 있으며, 불확실할 때 추측을 하면 시험 성적이 향상된다"고 설명합니다. 그들은 이를 객관식 시험에서 무작위로 추측하여 점수를 받을 수 있지만, 답을 비워 두면 확실히 0점을 받는 학생들의 상황에 비유합니다.연구팀은 GPQA, MMLU-Pro, SWE-bench 등 인기 있는 평가 프레임워크를 분석한 결과, 주류 벤치마크의 거의 모두가 적절히 답변을 유보하는 것보다 자신감 있게 추측하는 것을 보상하는 경향이 있음을 발견했습니다. 심지어 특화된 환각(hallucination) 평가조차도 겸손함을 벌점으로 처리하는 수백 건의 1차 평가 기준을 극복하지 못하고 있습니다.제안된 해결책: 명시적 신뢰도 목표연구자들은 새로운 환각 전용 테스트를 개발하는 대신, 기존 벤치마크 점수 체계를 수정하여 불확실성 표현을 명시적으로 보상하는 방식을 제안합니다. 그들이 제안한 접근법은 틀린 답변에 대한 페널티와 정답 및 답변 회피(‘모름’)에 대한 보상을 명시하는 신뢰도 임계값을 포함합니다.예로 들 수 있는 안내문은 다음과 같습니다. "정답에 75% 이상의 확신이 있을 때만 답하고, 실수하면 2점을 잃습니다. 정답은 1점을 얻고, '모름'은 0점을 얻습니다." 이러한 행동적 보정 방식은 무작정 추측을 억제하기 위해 부정표시(감점)가 존재했던 과거의 표준화 시험과 유사합니다.해당 연구는 52%의 회피율을 보이는 모델이 1%만 회피하는 모델에 비해 오답을 크게 줄인다는 점을 보여줍니다. 이는 정확도 지표가 낮아 보여도 해당됩니다.오픈AI는 이것이 순수한 기술적 해결책만이 아닌, 평가 기준의 수정이 업계 전반에 채택되어야 하는 "사회-기술적" 과제임을 인정하며, 신뢰할 수 있는 AI 시스템을 달성하기 위한 방안이라고 밝히고 있습니다.
3472 조회
0 추천
2025.09.08 등록
(퍼플렉시티가 정리한 기사)• 정규돈 카카오 최고기술책임자(CTO)가 9월 5일 테크 블로그를 통해 AI 개발 전략에 대한 새로운 접근법을 제시하며, 대형언어모델(LLM) 직접 개발보다는 기존 모델을 운영체제(OS)처럼 활용해야 한다는 입장을 밝혔다.• 그는 현재 글로벌 AI 경쟁을 ‘골리앗들의 전쟁’으로 정의하며, 전력·컴퓨팅·인재 측면에서 글로벌 빅테크 기업이 벌린 격차가 이미 거대한 장벽으로 작용한다고 설명했다.• 카카오는 AI와 개발자가 협업하는 ‘바이브 코딩’ 방식을 통해 평균 50%, 최대 100%의 생산성 향상을 확인했으며, 매달 120달러 상당의 ‘AI 마일리지’ 제도로 개발자들이 다양한 AI 툴을 자유롭게 활용할 수 있도록 지원하고 있다.• 9월 23일 개최 예정인 ‘이프카카오25’에서 오픈AI와의 협력을 통해 카카오톡 채팅탭에서 바로 챗GPT를 사용할 수 있는 서비스를 공개할 예정이라고 발표했다.• 이러한 접근법은 독자 모델 구축을 중요시하는 ‘소버린 AI’ 기조와는 다른 결로, 국내 AI 3강 정책과는 상반된 현실적 전략을 제시한 것으로 평가된다.왜 중요한가한국 대표 IT 기업 카카오 CTO가 제시한 AI 전략은 국가 차원의 소버린 AI 정책과 상반되는 현실적 접근으로, 국내 AI 생태계의 방향성에 대한 새로운 논의를 촉발할 것으로 예상된다. 글로벌 빅테크와의 협력을 통한 실용적 AI 활용이 독자 기술 개발보다 효과적일 수 있다는 주장은 한국 AI 정책에 중요한 시사점을 제공한다.
3362 조회
0 추천
2025.09.07 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입