Loading...

AI 뉴스

중국 스타트업, 오픈소스 AI가 GPT-5를 능가한다고 주장

페이지 정보

작성자 xtalfi
작성일 2025.11.08 14:59
1,619 조회
0 추천
0 비추천

본문

f43ee9a7735c9322763d602776200742_1762581565_2634.jpg
 

(퍼플렉시티가 정리한 기사)


중국 스타트업 Moonshot AI는 목요일 Kimi K2 Thinking 모델을 출시하며, 1조 개의 매개변수를 가진 이 오픈소스 시스템이 추론, 코딩 및 자율 에이전트 작업에 대한 여러 벤치마크에서 OpenAI의 GPT-5, Anthropic의 Claude Sonnet 4.5, 그리고 이전 오픈소스 선두주자인 MiniMax-M2를 능가한다고 주장했다.​

이번 출시는 Nvidia CEO Jensen Huang이 중국이 "AI에서 미국보다 나노초 뒤처져 있다"고 경고하며 미국의 개발 가속화 필요성을 강조한 시점에 이루어졌다. 이 타이밍은 OpenAI CFO Sarah Friar가 미국 정부가 1.4조 달러를 초과하는 AI 인프라 투자에 대해 "안전망"을 제공해야 한다고 제안한 발언으로 인한 최근 논란을 고려할 때 특히 주목할 만하다—이 발언은 그녀와 CEO Sam Altman이 신속히 철회했다.​


벤치마크 성능이 독점 모델에 도전하다

Kimi K2 Thinking은 AI가 발전함에 따라 계속 도전적으로 유지되도록 설계된 2,500개의 전문가 검증 질문으로 구성된 최전선 수준의 벤치마크인 Humanity's Last Exam에서 44.9%를 달성했습니다. 이 모델은 GPT-5가 54.9%를 기록하고 Claude Sonnet 4.5가 24.1%에 도달한 웹 연구 벤치마크인 BrowseComp에서 60.2%를 기록했습니다. 실제 소프트웨어 엔지니어링 문제 해결을 테스트하는 SWE-Bench Verified에서 K2 Thinking은 71.3%를 기록했습니다.​

제3자 평가 기관인 Artificial Analysis에 따르면, K2 Thinking은 도구 사용이 필요한 고객 서비스 시나리오에서 AI 성능을 측정하는 Tau2 Bench Telecom 에이전트 벤치마크에서 최고 점수를 달성했습니다. 이 모델은 인간의 개입 없이 수백 단계에 걸쳐 일관된 추론을 유지하면서 200-300개의 순차적 도구 호출을 자율적으로 실행할 수 있습니다.​


독점 시스템 대비 비용 우위

Moonshot AI는 K2 Thinking의 API 가격을 캐시된 입력의 경우 백만 토큰당 $0.15, 캐시 미스의 경우 백만 토큰당 $0.60, 출력의 경우 백만 토큰당 $2.50로 책정했습니다. 이는 GPT-5의 백만 입력 토큰당 $1.25, 백만 출력 토큰당 $10의 가격과 비교됩니다. Claude Sonnet 4.5는 백만 입력 토큰당 $3, 백만 출력 토큰당 $15입니다.​

CNBC가 인용한 소식통에 따르면 훈련 비용은 총 460만 달러로 보고되었습니다. 이는 OpenAI와 다른 미국 기업들이 모델 개발에 지출한 수십억 달러와 대조를 이룹니다.​


수정된 MIT 라이선스 하의 오픈 액세스

이 모델은 Hugging Face에서 수정된 MIT 라이선스로 제공되며, 한 가지 조건과 함께 완전한 상업적 및 파생 권리를 제공합니다: 월간 활성 사용자 100만 명을 초과하거나 월 2천만 달러 이상의 수익을 창출하는 제품은 사용자 인터페이스에 "Kimi K2"를 눈에 띄게 표시해야 합니다. 개발자들은 Moonshot의 플랫폼인 platform.moonshot.ai와 kimi.com을 통해 모델에 접근할 수 있습니다.​

이번 출시는 중국 기업들이 오픈소스 AI를 배포하여 서구의 독점 시스템에 도전하는 패턴을 확장합니다. Airbnb CEO 브라이언 체스키(Brian Chesky)는 최근 자신의 회사가 AI 고객 서비스를 위해 Alibaba의 Qwen 모델에 "크게 의존"하고 있으며, ChatGPT에 비해 "매우 좋고" "또한 빠르고 저렴하다"고 칭찬했습니다.​

2023년에 설립되고 Alibaba와 Tencent의 지원을 받는 Moonshot AI는 2024년 2월에 25억 달러 기업 가치로 10억 달러를 조달했고, 2024년 8월에는 추가로 3억 달러를 조달했습니다.

댓글 0
전체 1,366 / 35 페이지
• Rodney Brooks, 70세의 전 MIT 연구소 소장이자 Roomba의 공동 개발자는, 휴머노이드 로봇이 최소 15년 동안은 안전하게 가정에 도입되지 않을 것이라고 경고하며, Tesla [TSLA +2.71%]와 Figure AI 같은 회사들이 비용을 정당화하는 데 필요한 정교함을 달성하지 못해 수십억 달러가 사라질 것이라고 예측했다.[nytimes +1]• Brooks는 인간 비디오의 시각 데이터를 사용하는 현재의 훈련 방식이 근본적으로 결함이 있다고 주장하는데, 이는 인간이 조작을 위해 의존하는 필수적인 촉각 및 힘 감지 데이터가 부족하기 때문이며, Figure AI의 전 제품 안전 책임자가 11월에 회사의 로봇이 인간에게 위험을 초래할 수 있다고 경고했다가 해고되었다며 부당 해고 소송을 제기한 이후 안전 우려가 증폭되었다.[nytimes +1]• Brooks의 회의론에도 불구하고, 벤처 캐피탈리스트들과 기술 기업들은 휴머노이드 로봇 공학에 계속해서 수십억 달러를 쏟아붓고 있으며, Figure AI는 390억 달러 가치 평가로 10억 달러 이상을 모금했고, Elon Musk는 Tesla의 Optimus 로봇을 연속 작동으로 인간 생산성의 5배를 달성할 수 있는 “무한 돈 버그”라고 칭했다.[nytimes]
812 조회
0 추천
2025.12.15 등록
OpenAI의 코딩 에이전트 Codex의 제품 개발을 이끌고 있는 Alexander Embiricos는 일요일에 공개된 Lenny’s Podcast에서 인간의 타이핑 속도와 프롬프트를 지속적으로 작성하고 AI 작업을 검증해야 하는 필요성이 인공 일반 지능을 달성하는 데 있어 “현재 과소평가되고 있는 제한 요인”이라고 말했다.Codex는 8월 출시 이후 20배 성장했으며 현재 매주 수조 개의 토큰을 처리하고 있다. Embiricos는 시스템이 AI 에이전트가 지속적인 인간의 감독 없이 기본적으로 작동할 수 있도록 하면 생산성 향상이 가속화될 것이라고 주장했다.Embiricos는 얼리 어답터들이 2026년부터 극적인 생산성 증가를 경험할 것이며, AGI는 이러한 초기 성과와 주요 기업들이 AI 에이전트를 통해 완전한 자동화를 달성하는 시점 사이 어딘가에 도래할 것이라고 예측했다.
838 조회
0 추천
2025.12.15 등록
한국은 2026년 1월 22일부터 국가 인공지능 기본법을 시행할 예정이며, 2026년 8월부터 대부분의 AI 규칙을 시행할 유럽연합보다 앞서 포괄적인 인공지능 규제를 시행하는 세계 최초의 국가가 됩니다. 이러한 움직임은 최근 조사에서 한국 AI 스타트업의 98%가 대대적인 변화에 여전히 준비되지 않은 것으로 나타나면서, 국내 급성장하는 기술 부문에서 중소기업의 생존에 대한 우려를 불러일으키고 있습니다.​2025년 1월에 법률로 서명된 인공지능 육성 및 신뢰 기반 조성 등에 관한 기본법은 국가 AI 위원회 설립, 기본 3개 년 AI 계획 수립, 특정 AI 시스템에 대한 공개 의무를 포함한 안전성 및 투명성 요구사항 부과를 의무화하고 있습니다. 이 법은 위험 기반 접근 방식을 적용하며, 특히 의료, 교육, 공공 서비스와 같은 중요 부문에서 운영되는 고영향 AI 시스템에 대해서는 엄격한 규칙을 적용합니다.스타트업들, 준비 시간 부족에 경보 발령스타트업 얼라이언스가 2025년 12월 국내 AI 기업 101곳을 대상으로 실시한 조사에 따르면, 신규 규제를 준수하기 위한 대응 시스템을 구축한 기업은 단 2%에 불과한 것으로 나타났다. 나머지 기업 중 48.5%는 법에 대해 익숙하지 않고 준비가 되어 있지 않다고 답했으며, 다른 48.5%는 인지하고 있으나 준비가 부족하다고 응답했다. 조사는 불명확한 기준, 특히 통지 범위, 생성형 AI의 정의, 고영향 AI 시스템 지정 기준 등을 주요 부담 요인으로 지적했다.​한국인터넷기업협회 관계자는 현지 언론에 "절차상 요건으로 인해 시행령이 법 시행 직전에야 확정될 것으로 예상되어 기업들이 새로운 규정에 대비할 충분한 시간을 갖지 못할 수 있다"고 말했다. "특히 스타트업에게는 매우 부담스러울 것이다."​업계 관계자들은 일부 기업들이 1월 22일 이후 서비스를 갑작스럽게 수정하거나 중단해야 할 수도 있다고 경고한다. 이러한 규제 압박은 엄격한 준수 요건보다 혁신 촉진에 초점을 맞춘 부드러운 자율 거버넌스 접근 방식을 채택한 일본으로의 이전을 고려하는 한국 AI 스타트업의 수를 증가시키는 것으로 여겨진다.워터마크 요구사항이 논란을 촉발하다AI 생성 콘텐츠에 라벨을 표시하도록 요구하는 의무적 워터마킹 조항은 새로운 프레임워크에서 특히 논란이 되는 측면으로 부상했습니다. 딥페이크와 허위정보를 억제하기 위한 목적이지만, 업계 관계자들은 요구사항이 너무 모호하며 소비자들이 AI 생성 제품을 기피하게 만들 수 있다고 주장합니다.​"AI 생성 콘텐츠라도 일반적으로 품질을 향상시키기 위해 수많은 개인들이 협력하지만, 'AI 생성'으로 표시되면 소비자들이 꺼릴 수 있습니다"라고 한 AI 콘텐츠 기업의 관계자가 밝혔습니다. 2025년 12월에 발표된 AI 생성 광고에 대한 모니터링 강화 계획은 소셜 미디어 플랫폼 전반에 걸쳐 확산되는 조작된 콘텐츠와 딥페이크에 대한 우려를 더욱 강조합니다.​우려에도 불구하고, 과학기술정보통신부는 행정 벌금을 부과하기 전에 최소 1년의 유예 기간을 발표하여 기업들에게 추가 준비 시간을 제공했습니다. 배경훈 장관은 시행령이 "대한민국이 글로벌 AI 강국 3위로 도약하기 위한 제도적 초석"이 될 것이라고 강조했습니다.
800 조회
0 추천
2025.12.15 등록
인공지능(AI) 모델들의 성능 경쟁이 치열해지면서, 추론, 수리 등 종합적인 역량을 객관적으로 평가하는 다양한 벤치마크에 대한 관심이 높아지고 있습니다. 사용자의 직접적인 평가를 반영하는 '엘엠아레나(LMArena)'는 익명으로 받은 두 개의 AI 답변 중 더 우수한 것을 고르거나 무승부를 선언하여 순위를 매기는 방식입니다.기존 벤치마크의 한계를 극복하기 위해 만들어진 '인류의 마지막 시험(HLE)'은 수학, 물리학 등 100개 이상 과목의 고난도 문제를 통해 AI의 정답률을 측정합니다. 또한, AI의 자율적인 경제활동 능력을 측정하는 '벤딩 벤치(Vending-Bench)'는 AI가 재고 관리와 가격 책정 등을 얼마나 잘 수행하는지 평가합니다.이 외에도 코딩 오류 해결 능력을 평가하는 'SWE벤치'와 수학 올림피아드 난이도의 '매스아레나 에이펙스' 등 다양한 전문 벤치마크들이 활용됩니다. 하지만 이러한 AI 벤치마크는 윤리나 안전보다는 높은 경제적 보상이 기대되는 과업에만 초점을 맞춘다는 비판도 제기됩니다.
813 조회
0 추천
2025.12.14 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입