Loading...

AI 뉴스

제미나이 1위·지피티 2위?...인공지능 ‘등수’는 어떻게 매기는 걸까

페이지 정보

작성자 SH5
작성일 2025.12.14 18:42
378 조회
0 추천
0 비추천

본문

1ece9ff1a368caa765c01d04a5625bcdiL2e.webp

 

인공지능(AI) 모델들의 성능 경쟁이 치열해지면서, 추론, 수리 등 종합적인 역량을 객관적으로 평가하는 다양한 벤치마크에 대한 관심이 높아지고 있습니다. 사용자의 직접적인 평가를 반영하는 '엘엠아레나(LMArena)'는 익명으로 받은 두 개의 AI 답변 중 더 우수한 것을 고르거나 무승부를 선언하여 순위를 매기는 방식입니다.

기존 벤치마크의 한계를 극복하기 위해 만들어진 '인류의 마지막 시험(HLE)'은 수학, 물리학 등 100개 이상 과목의 고난도 문제를 통해 AI의 정답률을 측정합니다. 또한, AI의 자율적인 경제활동 능력을 측정하는 '벤딩 벤치(Vending-Bench)'는 AI가 재고 관리와 가격 책정 등을 얼마나 잘 수행하는지 평가합니다.

이 외에도 코딩 오류 해결 능력을 평가하는 'SWE벤치'와 수학 올림피아드 난이도의 '매스아레나 에이펙스' 등 다양한 전문 벤치마크들이 활용됩니다. 하지만 이러한 AI 벤치마크는 윤리나 안전보다는 높은 경제적 보상이 기대되는 과업에만 초점을 맞춘다는 비판도 제기됩니다.

댓글 0
전체 1,366 / 43 페이지
• ChatGPT는 11월 30일 3주년을 맞아 주간 활성 사용자 8억 명을 기록하며, 2022년 출시 이후 역사상 가장 빠르게 성장한 소비자 애플리케이션 중 하나가 되었습니다.[kmph +1]• Google의 Gemini 3 Pro는 11월 18일 출시되어 현재 벤치마크 리더보드 1위를 차지하고 있으며, 경쟁이 심화됨에 따라 OpenAI CEO Sam Altman이 직원들에게 “어려운 시기”와 “일시적인 경제적 장애물”에 대해 경고하게 만들었습니다.[axios +1]• Deakin University 연구에 따르면 ChatGPT는 학술 인용의 약 5분의 1을 조작했으며, 전체 인용의 56%가 가짜이거나 오류를 포함하고 있어 지속적인 정확성 문제를 부각시켰습니다.[studyfinds]
453 조회
0 추천
2025.12.01 등록
네이버클라우드가 전문 지식 없이도 사내 데이터 기반으로 맞춤형 AI 어시스턴트를 제작할 수 있는 ‘네이버웍스 AI 스튜디오’를 1일 출시했다고 밝혔다.이 도구는 메시지 검색, 보고서 작성 등 업무용 어시스턴트뿐 아니라 점심 메뉴 추천, MBTI 분석 등 창의적인 어시스턴트 제작도 가능하며, 메일 답장 제안과 드라이브 파일 번역 등 AI 기능도 대폭 강화됐다.네이버웍스는 일본에서 8년 연속 유료 비즈니스 챗 시장 1위를 차지했으며, 회의록 정리 시간을 2시간에서 30분으로 단축하는 등 업무 효율 70% 이상 개선 효과를 입증했다고 밝혔다.
466 조회
0 추천
2025.12.01 등록
SK텔레콤이 1일 AI 전화 서비스 ‘에이닷 전화’에 통화 중 보이스피싱을 실시간 탐지하는 ‘AI 보이스피싱 탐지’ 기능을 추가했다고 밝혔다.온디바이스 AI 기술로 통화 내용을 단말 내에서 분석해 의심 전화 발견 시 즉시 경고하며, 통화 데이터가 서버를 거치지 않아 정보 유출 우려가 없다고 회사 측은 설명했다.2025년 1~8월 보이스피싱 피해액이 8856억 원에 달해 전년 연간 피해액에 육박하는 등 피해가 급증하면서 보안 강화의 필요성이 커진 가운데 나온 조치다.
476 조회
0 추천
2025.12.01 등록
Silicon Valley Girl은 AI가 전체 분야가 아닌 직업의 “피상적인 버전”을 제거하고 있다고 주장하며, 기업들이 일상적인 업무를 수행하는 것이 아니라 AI를 사용하여 복잡한 문제를 해결할 수 있는 인력을 요구함에 따라 2025년 Amazon, Microsoft, Meta 등에서 10만 건 이상의 기술 분야 해고가 발생했다고 지적합니다.이 영상은 어떤 직업이 위험에 처해 있는지에 대한 명확한 패턴을 확인합니다: 단순히 목록에서 뮤추얼 펀드를 추천하는 재무 고문, 템플릿만 다시 작성하는 변호사, Zillow 링크만 보내는 부동산 중개인은 자동화될 수 있는 반면, 거래를 협상하고, 독점적인 접근을 제공하거나, 복잡한 인간 상황을 해결하는 전문가들은 여전히 필수적입니다.영상에 등장하는 기업가 Daniel Priestley는 향후 2~3년 내에 2,000명에서 20,000명의 헌신적인 팔로워를 가진 개인 브랜드를 구축하는 것이 중요해질 것이라고 경고하며, 이를 안개 속의 비행기에 비유합니다—이미 이륙한 비행기는 계속 비행할 수 있지만, 여전히 지상에 있는 비행기는 이륙할 수 없게 될 것입니다.
478 조회
0 추천
2025.11.30 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입