Loading...

AI 뉴스

새로운 LLM 평가가 점점 더 어려워지는 이유

페이지 정보

작성자 xtalfi
작성일 2025.11.25 17:06
628 조회
0 추천
0 비추천

본문

c184c81ab6c6d2be9216614dd65aaca9_1764057908_7253.png
 

개발자 Simon Willison은 최상위 모델들이 현재 너무나 유사하게 작동하여 실제 작업에서는 기업들이 각 릴리스마다 개선을 주장함에도 불구하고 의미 있는 성능 차이를 드러내지 못하기 때문에, 최첨단 AI 모델 평가가 점점 더 어려워지고 있다고 주장한다.

Willison은 Anthropic에서 새로 출시한 Claude Opus 4.5를 사용하여 이틀 동안 39개 파일에 걸쳐 2,022개의 코드 추가를 포함하는 광범위한 코딩 작업을 완료한 후, 이전 Claude Sonnet 4.5 모델로 다시 전환했을 때도 동일한 속도로 작업을 계속할 수 있었으며, 두 모델 간의 구체적인 성능 차이를 식별할 수 없었다고 밝혔다.

Willison은 AI 연구소들이 새로운 모델을 출시할 때 이전 모델에서는 실패했지만 새 모델에서는 성공하는 프롬프트의 구체적인 예시를 함께 제공할 것을 요구하며, 이러한 시연이 MMLU나 GPQA Diamond와 같은 테스트에서 한 자릿수 백분율 포인트 개선을 보여주는 벤치마크보다 더 가치 있을 것이라고 주장한다—이는 최첨단 모델들이 전통적인 평가 지표를 점점 더 포화시키면서 업계 전반이 겪고 있는 어려움을 반영하는 과제이다.

댓글 0
전체 1,366 / 42 페이지
• Nvidia는 NeurIPS 컨퍼런스에서 Alpamayo-R1을 공개했으며, 이는 사고 연쇄(chain-of-thought) AI 추론과 경로 계획을 통합하여 자율주행 자동차가 실시간으로 자신의 결정을 설명할 수 있도록 하는 세계 최초의 개방형 산업 규모 추론 비전 언어 행동 모델로 설명되었습니다.[quantumzeitgeist +1]• 이 모델은 센서 데이터를 자연어 설명으로 변환하고 주행 결정을 단계별로 추론함으로써 자율주행 차량 소프트웨어의 “블랙박스” 문제를 해결하며, 강화 학습 후처리 후 추론 품질이 45% 향상되었습니다.[quantumzeitgeist +1]• Nvidia는 비상업적 연구 용도로 GitHub와 Hugging Face에 이 모델을 공개했으며, 개발자들이 자율주행 차량 및 로봇공학을 위한 물리적 AI 모델을 맞춤화할 수 있도록 Cosmos Cookbook과 AlpaSim 평가 프레임워크도 함께 제공했습니다.[quantumzeitgeist +1]
500 조회
0 추천
2025.12.02 등록
Runway는 월요일에 Gen 4.5를 공개했으며, 이는 독립 벤치마킹 업체 Artificial Analysis가 관리하는 Video Arena 리더보드에서 1위를 차지한 새로운 AI 비디오 생성 모델로, 2위인 Google의 Veo 3 모델과 7위인 OpenAI의 Sora 2 Pro를 능가했다.PitchBook에 따르면 35억 5천만 달러의 가치를 평가받은 이 100명 규모의 스타트업은 블라인드 테스트를 사용하며, 투표자들이 어느 회사가 제작했는지 모르는 상태에서 비디오 결과물을 비교하여 순수한 사용자 선호도를 기반으로 편향되지 않은 순위를 보장한다.CEO Cristóbal Valenzuela는 CNBC에 Runway가 “100명의 팀으로 수조 달러 규모의 기업들을 능가하는 데 성공했다”고 말했으며, “David”라는 코드명의 이 모델은 주말까지 회사의 플랫폼, API 및 파트너 통합을 통해 모든 고객에게 제공될 예정이다.
463 조회
0 추천
2025.12.02 등록
Google은 12월 8일 오전 10시(태평양 표준시)에 30분간 라이브스트림을 개최하여 확장 현실 플랫폼인 Android XR의 업데이트를 공개할 예정이며, Gemini AI 통합이 적용된 헤드셋 및 스마트 안경의 새로운 기능에 중점을 둘 것입니다.이 행사는 10월에 출시된 Samsung의 Galaxy XR 헤드셋 출시에 이어 진행되는 것으로, 이는 1,799달러 가격의 첫 번째 Android XR 기기로서 4K 디스플레이와 손동작, 시선 추적, 음성 명령을 통한 AI 기반 상호작용을 특징으로 합니다.티저 자료에 따르면 Google은 2026년 출시 예정인 Samsung의 차기 스마트 안경을 선보일 가능성이 있으며, 이는 Apple의 부진한 Vision Pro 및 Meta의 보다 성공적인 Ray-Ban 스마트 안경과 경쟁하기 위한 것입니다.
475 조회
0 추천
2025.12.02 등록
• 한국 정부는 엔비디아로부터 약 1만3천 개의 GPU를 공급받아 국내 반입을 완료했으며, 이는 지난 5월 추경예산에서 확보한 1조4600억 원으로 집행됐다고 과학기술정보통신부가 1일 밝혔다.• 도입된 GPU에는 최신 B200 모델과 이전 세대 제품이 포함되어 있으며, 정부는 내년 초부터 대학·연구소·스타트업 등에 우선 배정하고 공공 분야에도 투입할 계획이다.• 이는 젠슨 황 CEO가 지난 10월 방한 시 약속한 총 26만여 장 규모(정부 5만 개, 삼성·SK·현대차 각 최대 5만 개, 네이버클라우드 6만 개)의 GPU 공급 계획 중 첫 물량이다.
494 조회
0 추천
2025.12.02 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입