Loading...

AI 뉴스

오픈AI, AI 모델을 인간 전문가와 비교 평가하는 벤치마크 공개

페이지 정보

작성자 xtalfi
작성일 2025.09.26 17:58
1,528 조회
0 추천
0 비추천

본문

1c35d95bc361b4ca712690a2bf82bac0RgwU.png

(퍼플렉시티가 정리한 기사)

OpenAI는 목요일에 획기적인 벤치마크를 공개하며, 인공지능 모델이 주요 산업 전반에서 전문적인 업무에서 인간 수준의 성능에 빠르게 접근하고 있음을 보여주었습니다. 회사의 GDPval 평가 시스템에 따르면, AI 모델은 이제 테스트된 작업의 거의 절반에서 인간 전문가와 동등하거나 그 이상의 성과를 내고 있어, 기계가 인간의 경제적 산출에 가장 근접한 시점에 도달했음을 시사합니다.


이 벤치마크는 미국 국내총생산에 가장 크게 기여하는 9개 산업의 44개 직업에 걸쳐 주요 AI 모델을 숙련된 전문가들과 비교 평가했습니다. 여기에는 의료, 금융, 제조, 정부 등이 포함됩니다. 블라인드 비교에서 Anthropic의 Claude Opus 4.1이 인간 전문가와의 대결에서 47.6%의 승리 또는 동률 비율로 최고의 성과를 보였으며, OpenAI의 자체 GPT-5는 40.6%를 기록했습니다.

 

극적인 성능 향상, 인공지능의 경제적 영향 신호


이 결과는 AI 능력의 놀라운 가속을 보여줍니다. 15개월 전 공개된 OpenAI의 GPT-4o 모델은 유사한 과제에서 단 13.7%의 성공률을 기록했는데, 이는 GPT-5의 성능이 같은 기간 동안 거의 세 배 가까이 향상되었음을 의미합니다. “이러한 발전 속도는 정말 고무적입니다,“라고 OpenAI 평가 책임자인 테잘 파트워드한은 TechCrunch에 말했습니다.


GDPval 평가는 기존의 AI 벤치마크와 달리 학술 시험이 아닌 실제 작업 결과물에 초점을 맞춥니다. 전문 평가자들은 사람이 만든 작업과 AI가 생성한 보고서, 법률 의견서, 엔지니어링 계획, 간호 돌봄 전략을 무엇이 AI 작품인지 모른 채 비교 평가했습니다. 과제들은 평균 14년 경력의 전문가들이 현실 직장 환경의 산출물을 반영할 수 있도록 설계했습니다.

 

속도와 비용 이점이 직장 통합을 촉진한다


품질 측면을 넘어, AI 모델은 놀라운 효율성 향상을 보여주었습니다. OpenAI는 첨단 모델이 GDPval 작업을 업계 전문가들보다 약 100배 더 빠르고 100배 더 저렴하게 완료할 수 있다고 밝혔습니다. 단, 이 수치는 반드시 필요한 인간의 감독 및 통합 단계를 고려하지 않은 수치입니다. OpenAI는 “특히 모델이 강점을 보이는 특정 작업에서는 인간에게 먼저 맡기기보다 모델에게 먼저 작업을 맡기는 것이 시간과 비용을 절감할 수 있을 것”이라고 밝혔습니다.


OpenAI의 최고 이코노미스트인 Dr. Aaron Chatterji는 이러한 결과가 AI가 인간 노동자를 대체하기보다는 보완할 것임을 시사한다고 강조했습니다. “그 직업에 종사하는 사람들은 이제 모델을 사용할 수 있게 되었고, 모델의 역량이 점점 좋아지면서 일부 업무를 모델에 맡기고 잠재적으로 더 높은 가치의 일을 할 수 있게 될 것입니다”라고 그는 설명했습니다. 하지만 OpenAI는 현재 GDPval이 실제 직장 내 업무의 일부만을 테스트하고 있다고 인정하며, 향후 기준을 더 넓은 범위로 확장할 계획임을 밝혔습니다.

댓글 0
전체 1,262 / 296 페이지
Yomiuri Sues U.S. AI Startup over Use of Articles; Perplexity Allegedly Used Over 100,000 News Stories요미우리 신문 3개 자회사가 미국 AI 스타트업인 Perplexity를 상대로 기사와 이미지를 무단으로 이용했다며 소송을 제기했다미우리 측은 퍼플렉시티가 약 12만 건의 디지털 기사와 이미지를 무단으로 복제해 검색엔진 답변에 사용했다고 주장했다.신문사 측은 약 21억7000만 엔의 손해배상을 요구했으며, 기사와 이미지 무단 복제가 저작권법상 복제권 및 공중송신권을 침해했다고 주장했다. 신문사에 따르면, 퍼플렉시티는 기존 검색엔진과 달리 직접 답변을 제공해 언론사 사이트 유입 감소로 광고 수입이 줄었다고 했다.요미우리 측은 언론의 노력과 투자가 AI 기업에 무단으로 이용되고, 공정한 보도를 해치는 결과가 된다고 했다. 이에 대해 퍼플렉시티는 일본 내 오해에 유감을 표하며 사실관계 확인에 노력 중이고, 언론사와의 협력 의향을 밝혔다.요미우리는 이번 소송이 일본 언론사로서는 최초 사례라고 했다. 미국에서도 유사한 소송이 진행 중이라고 밝혔다.
2272 조회
0 추천
2025.08.12 등록
애플이 새로운 시리(Siri) 업그레이드를 준비하고 있으며, 이는 서드파티 앱(Uber, YouTube, Facebook, WhatsApp 등)과 자체 앱(메일, 메시지 등)에서 깊이 있는 통합과 제어가 가능할 것으로 알려졌다..사용자는 음성만으로 사진 검색 및 편집, 인스타그램 댓글 작성, 쇼핑 앱 탐색 및 장바구니 추가 등 앱 내 세부 기능을 조작할 수 있게 된다. 이번 개선의 핵심은 'App Intents' 시스템과 애플의 생성형 AI 'Apple Intelligence'에 있다사실 새로운 시리의 출시는 여러 차례 연기되어 왓다. . 잦은 지연의 원인은 구형 시리 시스템과 신형 LLM(대규모 언어 모델) 아키텍처가 결합된 하이브리드 구조의 버그, 약 1/3 확률의 실패율 등 기술적 문제가 컸던 것으로 알려졌다.
2279 조회
1 추천
2025.08.11 등록
GPT-5 가 나왔어요.영상으로 모든 걸 보여줍니다.자막이 있으니 편하게 보세요.
2084 조회
1 추천
2025.08.08 등록
AI 전문가 Daniel Lozovsky의 분석에 따르면, 2025년 7월 27일부터 8월 1일까지의 단 5일간이 AI 역사상 가장 극적인 변화를 가져온 기간이었습니다. 빌 게이츠조차 이 급격한 변화의 속도에 놀랐다고 할 정도였습니다.이 기간 동안 구글은 Gemini 2.5 Deep Think라는 월 250달러짜리 프리미엄 AI 모델을 출시했는데, 너무 강력해서 하루에 단 5회만 사용할 수 있도록 제한했습니다. 이 AI는 화학, 생물학, 방사능, 핵 관련 위험한 정보까지 생성할 수 있어서 구글이 안전상의 이유로 직접 사용을 제한한 것입니다.반면 중국의 Zhipu AI는 GLM 4.5라는 모델을 완전 무료로 공개했는데, 이 AI는 정말 놀라운 성능을 보여줬습니다. "새는 진짜가 아니다"라는 음모론에 대한 프레젠테이션을 완벽하게 만들어내거나, 뱀파이어 서바이버라는 게임을 자바스크립트로 완전히 구현해내는 등 유료 모델 못지않은 능력을 발휘했습니다.창작 도구 분야에서도 혁신이 쏟아졌습니다. Runway의 ALF라는 도구는 음성 명령만으로 비디오를 편집할 수 있게 해주고, 구글의 Veo는 이미지에 직접 텍스트를 써넣으면 그대로 비디오를 생성해주는 마법 같은 기능을 선보였습니다. Ideogram의 새로운 기능은 단 한 장의 사진만 있으면 어떤 이미지에든 얼굴을 바꿔넣을 수 있게 해줍니다.경제적으로도 엄청난 변화가 있었습니다. 빅테크 기업들이 올해만 AI에 1,550억 달러를 투자했고, 메타는 AI 투자 발표 후 주식이 11%나 급등했습니다.
2285 조회
0 추천
2025.08.08 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입