AI 뉴스

제미나이 1위·지피티 2위?...인공지능 ‘등수’는 어떻게 매기는 걸까

페이지 정보

작성자 SH5
작성일 2025.12.14 18:42
373 조회
0 추천
0 비추천

본문

1ece9ff1a368caa765c01d04a5625bcdiL2e.webp

 

인공지능(AI) 모델들의 성능 경쟁이 치열해지면서, 추론, 수리 등 종합적인 역량을 객관적으로 평가하는 다양한 벤치마크에 대한 관심이 높아지고 있습니다. 사용자의 직접적인 평가를 반영하는 '엘엠아레나(LMArena)'는 익명으로 받은 두 개의 AI 답변 중 더 우수한 것을 고르거나 무승부를 선언하여 순위를 매기는 방식입니다.

기존 벤치마크의 한계를 극복하기 위해 만들어진 '인류의 마지막 시험(HLE)'은 수학, 물리학 등 100개 이상 과목의 고난도 문제를 통해 AI의 정답률을 측정합니다. 또한, AI의 자율적인 경제활동 능력을 측정하는 '벤딩 벤치(Vending-Bench)'는 AI가 재고 관리와 가격 책정 등을 얼마나 잘 수행하는지 평가합니다.

이 외에도 코딩 오류 해결 능력을 평가하는 'SWE벤치'와 수학 올림피아드 난이도의 '매스아레나 에이펙스' 등 다양한 전문 벤치마크들이 활용됩니다. 하지만 이러한 AI 벤치마크는 윤리나 안전보다는 높은 경제적 보상이 기대되는 과업에만 초점을 맞춘다는 비판도 제기됩니다.

댓글 0
전체 1,366 / 15 페이지
어원학자AdamAleksic은TED강연에서알고리즘과AI는중립적인도구가아니라수익중심플랫폼의이익을위해현실을적극적으로왜곡하며,사람들이인식하지못하는방식으로언어,문화적트렌드,정체성을무의식적으로재구성한다고주장한다.360,000개이상의YouTube동영상과771,000개의팟캐스트에피소드를분석한연구에따르면,ChatGPT가자주사용하는단어들—챗봇이나이지리아훈련작업자들로부터습득했을가능성이있는“delve”를포함하여—이해당도구의출시이후자발적인구어대화에서크게증가한것으로나타났다.Spotify는자사알고리즘에서유사한청취자들의신흥클러스터를식별하고“hyperpop”재생목록을만들었으며,이는미학적방향을제시하고음악가들이hyperpop음악을만들도록촉진했다.이는플랫폼이알고리즘적현실표현이현실그자체가되는자기강화피드백루프를어떻게만드는지를보여준다.
319 조회
0 추천
2025.12.28 등록
Wired는2026년이OpenAI의GPT-5가아닌Alibaba의QwenAI모델에의해주도될것이라고선언했습니다.이는2025년8월에출시된미국모델들이기본적인오류를겪고기대에미치지못하는실망스러운결과를보인데따른것입니다.중국AI모델다운로드는2025년7월HuggingFace에서미국모델을추월했으며,Qwen은전세계적으로두번째로많이사용되는오픈모델이되었고Airbnb,Nvidia,심지어Meta로부터도새로운모델훈련을위해채택되었습니다.기사에따르면,Qwen의부상은쉬운맞춤화를가능하게하는오픈웨이트아키텍처,NeurIPS2025에서최우수논문상을받은투명한연구관행,그리고스마트안경부터전기차대시보드에이르는애플리케이션에서의실제배포에서비롯된것입니다.
327 조회
0 추천
2025.12.28 등록
소형모듈식원자로(SMR)는기존원전의위험성을안고있으면서도규모의경제를실현하지못해실제경제성은오히려떨어진다는전문가들의경고가나오고있습니다.실제로미국최초의SMR사업이었던뉴스케일(NuScale)프로젝트는건설비용이초기예상보다3배가까이폭등하며작년11월에최종적으로좌초되었습니다.구글과아마존등빅테크기업들이AI데이터센터전력확보를위해SMR에투자하고있으나,재생에너지대비높은비용과기술적실체부족에대한회의론은여전히지속되고있습니다.
316 조회
0 추천
2025.12.28 등록
• SK텔레콤 [SKM +0.98%]은 12월 27일, 미국 및 중국과 함께 글로벌 AI 강국 3위권 진입을 목표로 하는 한국 정부의 초거대 AI 기반 모델 프로젝트의 일환으로 5,190억 개의 매개변수를 가진 한국 최초의 초거대 AI 모델 A.X K1을 공개했습니다.[barchart +1]• 이 모델은 단순히 정보를 소비하는 것이 아니라 더 작은 AI 모델에 지식을 전달하는 “티처 모델”로 기능하며, 1,000만 명 이상의 가입자를 보유한 SK텔레콤의 A-Dot 서비스와 전 세계 1,100만 명 이상의 사용자를 보유한 Liner의 플랫폼에 통합되어 “모두를 위한 AI” 프레임워크를 발전시킬 예정입니다.[barchart +1]• SK하이닉스 [HY9H.F -2.60%], 크래프톤 [259960.KS -2.22%], 리벨리온, 서울대학교를 포함한 8개 기관 컨소시엄은 독자적인 한국 기술을 사용하여 풀스택 AI 생태계를 구축했으며, 국가의 AI 경쟁력을 높이기 위해 A.X K1을 오픈소스로 공개할 계획입니다.[barchart +1]
320 조회
0 추천
2025.12.28 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입