Loading...

AI 뉴스

중국 스타트업, 오픈소스 AI가 GPT-5를 능가한다고 주장

페이지 정보

작성자 xtalfi
작성일 2025.11.08 14:59
1,193 조회
0 추천
0 비추천

본문

f43ee9a7735c9322763d602776200742_1762581565_2634.jpg
 

(퍼플렉시티가 정리한 기사)


중국 스타트업 Moonshot AI는 목요일 Kimi K2 Thinking 모델을 출시하며, 1조 개의 매개변수를 가진 이 오픈소스 시스템이 추론, 코딩 및 자율 에이전트 작업에 대한 여러 벤치마크에서 OpenAI의 GPT-5, Anthropic의 Claude Sonnet 4.5, 그리고 이전 오픈소스 선두주자인 MiniMax-M2를 능가한다고 주장했다.​

이번 출시는 Nvidia CEO Jensen Huang이 중국이 "AI에서 미국보다 나노초 뒤처져 있다"고 경고하며 미국의 개발 가속화 필요성을 강조한 시점에 이루어졌다. 이 타이밍은 OpenAI CFO Sarah Friar가 미국 정부가 1.4조 달러를 초과하는 AI 인프라 투자에 대해 "안전망"을 제공해야 한다고 제안한 발언으로 인한 최근 논란을 고려할 때 특히 주목할 만하다—이 발언은 그녀와 CEO Sam Altman이 신속히 철회했다.​


벤치마크 성능이 독점 모델에 도전하다

Kimi K2 Thinking은 AI가 발전함에 따라 계속 도전적으로 유지되도록 설계된 2,500개의 전문가 검증 질문으로 구성된 최전선 수준의 벤치마크인 Humanity's Last Exam에서 44.9%를 달성했습니다. 이 모델은 GPT-5가 54.9%를 기록하고 Claude Sonnet 4.5가 24.1%에 도달한 웹 연구 벤치마크인 BrowseComp에서 60.2%를 기록했습니다. 실제 소프트웨어 엔지니어링 문제 해결을 테스트하는 SWE-Bench Verified에서 K2 Thinking은 71.3%를 기록했습니다.​

제3자 평가 기관인 Artificial Analysis에 따르면, K2 Thinking은 도구 사용이 필요한 고객 서비스 시나리오에서 AI 성능을 측정하는 Tau2 Bench Telecom 에이전트 벤치마크에서 최고 점수를 달성했습니다. 이 모델은 인간의 개입 없이 수백 단계에 걸쳐 일관된 추론을 유지하면서 200-300개의 순차적 도구 호출을 자율적으로 실행할 수 있습니다.​


독점 시스템 대비 비용 우위

Moonshot AI는 K2 Thinking의 API 가격을 캐시된 입력의 경우 백만 토큰당 $0.15, 캐시 미스의 경우 백만 토큰당 $0.60, 출력의 경우 백만 토큰당 $2.50로 책정했습니다. 이는 GPT-5의 백만 입력 토큰당 $1.25, 백만 출력 토큰당 $10의 가격과 비교됩니다. Claude Sonnet 4.5는 백만 입력 토큰당 $3, 백만 출력 토큰당 $15입니다.​

CNBC가 인용한 소식통에 따르면 훈련 비용은 총 460만 달러로 보고되었습니다. 이는 OpenAI와 다른 미국 기업들이 모델 개발에 지출한 수십억 달러와 대조를 이룹니다.​


수정된 MIT 라이선스 하의 오픈 액세스

이 모델은 Hugging Face에서 수정된 MIT 라이선스로 제공되며, 한 가지 조건과 함께 완전한 상업적 및 파생 권리를 제공합니다: 월간 활성 사용자 100만 명을 초과하거나 월 2천만 달러 이상의 수익을 창출하는 제품은 사용자 인터페이스에 "Kimi K2"를 눈에 띄게 표시해야 합니다. 개발자들은 Moonshot의 플랫폼인 platform.moonshot.ai와 kimi.com을 통해 모델에 접근할 수 있습니다.​

이번 출시는 중국 기업들이 오픈소스 AI를 배포하여 서구의 독점 시스템에 도전하는 패턴을 확장합니다. Airbnb CEO 브라이언 체스키(Brian Chesky)는 최근 자신의 회사가 AI 고객 서비스를 위해 Alibaba의 Qwen 모델에 "크게 의존"하고 있으며, ChatGPT에 비해 "매우 좋고" "또한 빠르고 저렴하다"고 칭찬했습니다.​

2023년에 설립되고 Alibaba와 Tencent의 지원을 받는 Moonshot AI는 2024년 2월에 25억 달러 기업 가치로 10억 달러를 조달했고, 2024년 8월에는 추가로 3억 달러를 조달했습니다.

댓글 0
전체 1,366 / 129 페이지
(퍼플렉시티가 정리한 기사)Google DeepMind는 목요일에 SIMA 2를 발표했습니다. 이는 회사의 Gemini 언어 모델을 통합하여 3D 가상 환경을 탐색하고 상호작용하는 차세대 AI 에이전트로, 연구원들이 인공 일반 지능과 실제 로보틱스 응용 분야를 향한 진전이라고 설명하는 것을 나타냅니다.DeepMind에 따르면, 이 새로운 에이전트는 전작 대비 성능이 크게 향상되어 복잡한 작업의 성공률을 두 배로 높였습니다. 원래 SIMA가 어려운 과제에서 인간 플레이어의 71%에 비해 31%의 완료율만 달성한 반면, SIMA 2는 Gemini 2.5 Flash-lite 통합을 통해 향상된 기능을 보여줍니다.향상된 추론 및 자기 개선SIMA 2는 단순한 지시 따르기를 넘어 맥락을 이해하고, 목표에 대해 추론하며, 사용자와 대화할 수 있다고 DeepMind의 선임 연구 과학자 Joe Marino가 기자 브리핑에서 설명했다. 이 에이전트는 이모지를 포함한 멀티모달 프롬프트를 해석할 수 있으며—“????????”와 같은 명령에 나무를 베어 넘어뜨리는 것으로 반응한다—작업을 해결할 때 내부 추론 과정을 보여준다.이 에이전트는 No Man’s Sky, Valheim, Goat Simulator 3 등 다양한 상용 비디오 게임에서 훈련되었으며, 화면 픽셀과 가상 키보드 및 마우스 컨트롤만을 사용하여 600개 이상의 동작을 실행하는 방법을 학습했다. DeepMind는 또한 자사의 월드 모델인 Genie 3가 생성한 사실적인 세계에서 SIMA 2를 테스트했으며, 에이전트는 완전히 새로운 환경에서 성공적으로 탐색하고 작업을 완료했다.아마도 가장 주목할 만한 점은 SIMA 2의 자기 개선 능력이다. 전적으로 인간 게임플레이 데이터에 의존했던 SIMA 1과 달리, 새로운 시스템은 Gemini 모델을 사용하여 작업을 생성하고 자체 성능을 평가하며, 인간의 개입보다는 AI 기반 피드백을 통한 시행착오로 학습한다.물리적 로봇공학으로 가는 길DeepMind는 SIMA 2를 범용 로봇을 위한 기초적인 기술로 제시하고 있습니다. “로봇과 같이 실제 세계에서 작업을 수행하기 위해 시스템이 해야 할 일을 생각해보면 두 가지 구성 요소가 있습니다”라고 DeepMind의 수석 연구 엔지니어인 Frederic Besse는 말했습니다. “첫째, 실제 세계에 대한 높은 수준의 이해와 수행해야 할 작업, 그리고 약간의 추론이 필요합니다”.그러나 전문가들은 신중한 입장을 표명하고 있습니다. 뉴욕 대학교의 AI 연구원인 Julian Togelius는 결과가 흥미롭다고 평가하면서도, 시각적 관찰만으로 여러 게임에 걸쳐 모델을 훈련시키는 것은 여전히 어려운 과제라고 지적합니다. 앨버타 대학교의 Matthew Guzdial은 로봇공학에 얼마나 많은 지식이 전이될 수 있을지 의문을 제기하며, 실제 세계의 카메라 영상을 이해하는 것이 인간 플레이어를 위해 설계된 게임 그래픽을 해석하는 것보다 훨씬 더 복잡하다고 언급했습니다.DeepMind는 SIMA 2를 소수의 학계 및 게임 개발자 그룹에게 제한된 연구 프리뷰로 공개하고 있습니다.
1106 조회
0 추천
2025.11.14 등록
(퍼플렉시티가 정리한 기사)Liquid AI는 수요일에 Shopify [ -6.55%]와 다년간의 파트너십을 발표하며, 전자상거래 플랫폼 전반에 걸쳐 Liquid Foundation Models를 배포할 예정이라고 밝혔습니다. 이는 20밀리초 미만의 AI 모델을 대규모로 상용 배포하는 첫 사례 중 하나입니다.매사추세츠주 케임브리지에 본사를 둔 이 스타트업은 검색 및 멀티모달 애플리케이션을 포함하여 Shopify 플랫폼의 품질 민감 워크플로우를 위해 자사의 주력 모델을 라이선스할 예정입니다. 첫 번째 프로덕션 배포는 수백만 명의 판매자와 쇼핑객을 위한 검색 기능을 향상시키는 20밀리초 미만의 텍스트 모델입니다.새로운 아키텍처를 통한 성능 향상Liquid AI에 따르면, 이 회사의 모델은 인기 있는 오픈소스 대안들보다 훨씬 적은 매개변수를 사용하면서도 더 빠른 추론 시간을 달성합니다. 특정 실제 운영 환경과 유사한 작업에서, 약 50% 더 적은 매개변수를 가진 LFM은 알리바바의 Qwen3, 구글의 Gemma3, 메타의 Llama 3와 같은 모델들을 능가했으며, 2배에서 10배 더 빠른 추론을 제공했습니다.“이와 같은 실제 워크로드에서 20ms 미만의 추론을 제공하는 곳은 아무도 없습니다”라고 Shopify의 최고기술책임자인 Mikhail Parakhin이 성명에서 밝혔습니다. 2024년 9월 마이크로소프트에서 AI 개발을 이끈 후 Shopify에 합류한 Parakhin은 이 아키텍처가 “품질을 희생하지 않고” 효율성을 제공한다고 덧붙였습니다.이 파트너십은 2024년 12월 Liquid AI의 2억 5천만 달러 규모 시리즈 A 펀딩 라운드에 Shopify가 참여한 것을 기반으로 합니다. 이 펀딩은 칩 제조업체 AMD가 주도했으며, 이 스타트업의 가치를 20억 달러 이상으로 평가했습니다.추천 시스템이 초기 결과를 보여줍니다두 회사는 새로운 HSTU 아키텍처를 사용하여 생성형 추천 시스템을 공동 개발했습니다. 통제된 테스트에서 이 모델은 Shopify의 이전 시스템을 능가했으며, 발표에 따르면 추천을 통한 전환율이 더 높아졌습니다.Liquid AI의 CEO인 Ramin Hasani는 “추천은 금융, 의료, 전자상거래 분야의 의사결정 백본입니다”라고 말했습니다. “실제 세계에서 유용하려면 모델은 신뢰할 수 있고, 효율적이며, 빨라야 합니다.”파트너십에는 저지연 Shopify 워크로드 전반에 걸친 LFM의 다목적 라이선스, 지속적인 연구 개발 협력, 공유 로드맵이 포함됩니다. 초기 배포는 검색을 위한 텍스트 모델에 중점을 두고 있지만, 두 회사는 고객 프로필, 에이전트, 제품 분류를 포함한 추가 사용 사례를 위해 멀티모달 모델을 평가하고 있습니다.[파트너십의 재정적 조건은 공개되지 않았습니다. 이 협력은 Liquid AI가 미세한 벌레의 신경 구조에서 영감을 받아 MIT에서 개발한 액체 신경망 기술을 전자상거래, 금융 서비스 및 기타 분야의 상용 생산에 도입하려는 노력을 나타냅니다.
1085 조회
0 추천
2025.11.14 등록
(퍼플렉시티가정리한기사)AI보안회사Mindgard가11월12일공개한보고서에따르면,OpenAI의Sora2비디오생성모델의취약점으로인해공격자가오디오전사를통해숨겨진시스템프롬프트를추출할수있다고합니다.이번발견은텍스트,이미지,비디오,오디오간의변환이정보유출을위한예상치못한경로를만드는멀티모달AI시스템의새로운보안과제를강조합니다.​오디오전사가보안장치를우회합니다AaronPortnoy가이끄는Mindgard연구원들은11월3일Sora2를대상으로실험을시작했으며,15초길이의짧은클립으로음성을생성하는것이모델의기초명령어를복구하는가장충실도높은방법임을발견했습니다.전통적인시각적방법은이미지와비디오프레임에렌더링된텍스트가시퀀스전반에걸쳐빠르게왜곡되어글자가읽을수없는근사치로변형되면서실패했습니다.QR코드와같은인코딩된형식역시똑같이신뢰할수없는것으로판명되었으며,Mindgard의보고서에따르면"시각적으로는그럴듯하지만디코딩가능한횡설수설"을생성했습니다.​획기적인발견은연구원들이Sora2에게시스템프롬프트의일부를말하도록요청했을때이루어졌으며,시간제한내에더많은내용을담기위해종종가속화된속도로진행되었습니다.이러한오디오클립을전사하고조각들을이어붙임으로써,그들은메타데이터를먼저생성하고,명시적으로요청되지않는한저작권이있는캐릭터를피하며,성적으로암시적인콘텐츠를금지하는등의규칙을드러내는거의완전한시스템프롬프트를재구성했습니다.​AI보안에대한광범위한영향OpenAI는11월4일다중모달시스템전반의프롬프트추출위험에대한일반적인인식을언급하며이취약점을인정했다.Sora2의시스템프롬프트자체에는매우민감한데이터가포함되어있지않지만,보안연구원들은시스템프롬프트가행동가드레일로기능하며구성비밀로취급되어야한다고강조한다.Mindgard는보고서에서"시스템프롬프트는모델안전경계를정의하며,유출될경우후속공격을가능하게할수있다"고밝혔다.​이취약점은다중모달모델의고유한약점을악용하는데,변환과정에서의미적표류가누적된다.AI시스템이여러데이터유형을처리함에따라시스템지침을보호하는것이점점더어려워지고있다.Mindgard는개발자들이시스템프롬프트를독점정보로취급하고,오디오및비디오출력에서유출을테스트하며,생성물에길이제한을구현할것을권장한다.​이번공개는9월말에출시된Sora2에대한광범위한조사가이루어지는가운데나왔다.PublicCitizen은11월11일딥페이크와유해콘텐츠에대한우려를이유로OpenAI에이도구를임시철회할것을촉구했다.OpenAI는Sora2에여러안전계층이포함되어있다고주장해왔지만,비평가들은그효과에의문을제기하고있다.
1020 조회
0 추천
2025.11.14 등록
(퍼플렉시티기정리한기사)부산대학교와서울대학교의연구진들이올해저명한통계학저널에발표한연구결과에따르면,데이터왜곡에대항하여인공지능및의료영상시스템을강화할수있는새로운통계적방법을개발했습니다.휴버평균(Hubermean)이라고불리는이방법은현대데이터과학의지속적인과제를다룹니다:평평한표면이아닌곡면기하학적공간에존재하는정보를분석하는것입니다.3차원의료스캔부터로봇방향데이터에이르기까지,오늘날의복잡한데이터대부분은수학자들이리만다양체라고부르는공간에존재하며,여기서전통적인통계도구들은노이즈나이상치에직면했을때종종실패합니다.​정확한분석을위한장벽허물기부산대학교통계학과이종민교수는서울대학교정성규교수와함께2025년8월25일JournaloftheRoyalStatisticalSociety:SeriesB에연구를발표했다.​연구발표에따르면이교수는"우리연구는리만다양체에서고전적인프레셰평균의강건한일반화를소개한다"며"이는이상치에대한더큰안정성을제공하고기하학적데이터에대한통계분석의신뢰성을향상시킨다"고말했다.​Huber평균은데이터구조에자동으로적응하여,일반적인관측값에대해서는최소제곱손실을사용하고큰편차에대해서는절대편차손실을사용한다.이러한균형을통해0.5의붕괴점을달성할수있으며,이는데이터의절반이이상치이거나극단값이더라도추정량이신뢰할수있음을의미한다.​산업전반의응용분야이방법의잠재적응용분야는과학및공학분야전반에걸쳐확장됩니다.의료영상분야에서Huber평균은뇌나장기형상데이터의평균화를개선하여더정확한진단으로이어질수있습니다.로봇공학분야에서는시스템이소음이많거나예측불가능한환경에서도움직임및방향데이터를더잘해석하는데도움이될수있습니다.AI및머신러닝분야에서는기하학적데이터를다루는모델을더견고하게만들수있습니다.​이교수는"강건하고기하학적으로인식하는데이터분석의기반을제공함으로써,이연구는신뢰할수있는차세대AI,정밀의료,그리고실제세계와상호작용하는지능형기술을조용히뒷받침할수있을것"이라고덧붙였습니다.​이연구는추정량의존재성,유일성,수렴성,불편성에대한이론적보장과함께실제로빠르게수렴하는새로운계산알고리즘을제공합니다.
1104 조회
0 추천
2025.11.14 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입