Loading...

AI 뉴스

오픈AI, AI 모델을 인간 전문가와 비교 평가하는 벤치마크 공개

페이지 정보

작성자 xtalfi
작성일 2025.09.26 17:58
240 조회
0 추천
0 비추천

본문

1c35d95bc361b4ca712690a2bf82bac0RgwU.png

(퍼플렉시티가 정리한 기사)

OpenAI는 목요일에 획기적인 벤치마크를 공개하며, 인공지능 모델이 주요 산업 전반에서 전문적인 업무에서 인간 수준의 성능에 빠르게 접근하고 있음을 보여주었습니다. 회사의 GDPval 평가 시스템에 따르면, AI 모델은 이제 테스트된 작업의 거의 절반에서 인간 전문가와 동등하거나 그 이상의 성과를 내고 있어, 기계가 인간의 경제적 산출에 가장 근접한 시점에 도달했음을 시사합니다.


이 벤치마크는 미국 국내총생산에 가장 크게 기여하는 9개 산업의 44개 직업에 걸쳐 주요 AI 모델을 숙련된 전문가들과 비교 평가했습니다. 여기에는 의료, 금융, 제조, 정부 등이 포함됩니다. 블라인드 비교에서 Anthropic의 Claude Opus 4.1이 인간 전문가와의 대결에서 47.6%의 승리 또는 동률 비율로 최고의 성과를 보였으며, OpenAI의 자체 GPT-5는 40.6%를 기록했습니다.

 

극적인 성능 향상, 인공지능의 경제적 영향 신호


이 결과는 AI 능력의 놀라운 가속을 보여줍니다. 15개월 전 공개된 OpenAI의 GPT-4o 모델은 유사한 과제에서 단 13.7%의 성공률을 기록했는데, 이는 GPT-5의 성능이 같은 기간 동안 거의 세 배 가까이 향상되었음을 의미합니다. “이러한 발전 속도는 정말 고무적입니다,“라고 OpenAI 평가 책임자인 테잘 파트워드한은 TechCrunch에 말했습니다.


GDPval 평가는 기존의 AI 벤치마크와 달리 학술 시험이 아닌 실제 작업 결과물에 초점을 맞춥니다. 전문 평가자들은 사람이 만든 작업과 AI가 생성한 보고서, 법률 의견서, 엔지니어링 계획, 간호 돌봄 전략을 무엇이 AI 작품인지 모른 채 비교 평가했습니다. 과제들은 평균 14년 경력의 전문가들이 현실 직장 환경의 산출물을 반영할 수 있도록 설계했습니다.

 

속도와 비용 이점이 직장 통합을 촉진한다


품질 측면을 넘어, AI 모델은 놀라운 효율성 향상을 보여주었습니다. OpenAI는 첨단 모델이 GDPval 작업을 업계 전문가들보다 약 100배 더 빠르고 100배 더 저렴하게 완료할 수 있다고 밝혔습니다. 단, 이 수치는 반드시 필요한 인간의 감독 및 통합 단계를 고려하지 않은 수치입니다. OpenAI는 “특히 모델이 강점을 보이는 특정 작업에서는 인간에게 먼저 맡기기보다 모델에게 먼저 작업을 맡기는 것이 시간과 비용을 절감할 수 있을 것”이라고 밝혔습니다.


OpenAI의 최고 이코노미스트인 Dr. Aaron Chatterji는 이러한 결과가 AI가 인간 노동자를 대체하기보다는 보완할 것임을 시사한다고 강조했습니다. “그 직업에 종사하는 사람들은 이제 모델을 사용할 수 있게 되었고, 모델의 역량이 점점 좋아지면서 일부 업무를 모델에 맡기고 잠재적으로 더 높은 가치의 일을 할 수 있게 될 것입니다”라고 그는 설명했습니다. 하지만 OpenAI는 현재 GDPval이 실제 직장 내 업무의 일부만을 테스트하고 있다고 인정하며, 향후 기준을 더 넓은 범위로 확장할 계획임을 밝혔습니다.

댓글 0
전체 427 / 30 페이지
(퍼플렉시티가 정리한 기사)애플이 차세대 혼합현실(MR) 기기인 ‘비전 에어(Vision Air)’ 개발을 사실상 중단하고, 메타와의 경쟁에서 우위를 점하기 위해 스마트 글래스 개발에 집중하기로 했다고 블룸버그가 10월 1일 보도했다.애플은 지난주 비전프로의 경량화 프로젝트에서 개발자들을 스마트 글래스 개발팀으로 이동시키며 개발 방향을 급선회했다. 당초 2027년 출시를 목표로 개발 중이던 코드명 N100(비전 에어)는 현재 비전프로보다 40% 이상 가벼워지고 50% 이상 저렴한 가격으로 책정될 예정이었다.메타와의 스마트 글래스 경쟁 본격화애플의 전략 변경은 메타의 스마트 글래스 시장 선점에 대한 직접적인 대응으로 해석된다. 메타는 이미 레이밴 스마트 글래스를 200만 대 이상 판매하며 시장에서 성과를 내고 있으며, 지난 9월 30일 디스플레이가 탑재된 ‘메타 레이밴 디스플레이(Meta Ray-Ban Display)’ 모델을 799달러에 출시했다.메타의 새로운 스마트 글래스는 렌즈에 내장된 디스플레이를 통해 메시지 확인, 사진 미리보기, 실시간 자막 제공 등의 기능을 제공하며, 손목에 착용하는 신경 밴드(Neural Band)를 통한 제스처 컨트롤이 가능하다.애플의 스마트 글래스 개발 로드맵현재 애플은 최소 2종류의 스마트 글래스를 개발 중이다. 첫 번째 모델인 ‘N50’은 아이폰과 연동되며 자체 디스플레이가 없는 모델로, 애플은 내년 이 제품을 공개하고 2027년 출시를 목표로 하고 있다.두 번째 모델은 디스플레이가 탑재된 버전으로 당초 2028년 출시 예정이었으나, 메타와의 경쟁에서 우위를 점하기 위해 개발 일정을 앞당기고 있다고 블룸버그는 전했다.애플의 스마트 글래스는 카메라, 마이크, 스피커를 탑재하고 시리(Siri)와 인공지능을 통한 음성 상호작용에 크게 의존할 것으로 예상된다고 업계는 분석하고 있다.비전프로 생산 중단과 시장 전망한편 애플은 올해 말 현재 비전프로 생산을 중단한 것으로 알려졌다. 맥루머스에 따르면 애플은 2025년까지 수요를 충족할 수 있는 충분한 재고를 확보했다고 판단해 생산을 중단했다고 전했다. 3499달러에 출시된 비전프로는 높은 가격과 제한적인 콘텐츠로 인해 판매 부진을 겪고 있다.업계 전문가들은 헤드셋형 기기보다 일상 착용이 가능한 안경형 기기가 더 큰 시장성을 가질 것으로 전망하고 있다. S&P 글로벌 마켓 인텔리전스는 디스플레이 기반 스마트 글래스 시장이 2025년 120만 대에서 2029년 420만 대로 성장할 것으로 예측했다.
151 조회
0 추천
10.02 등록
오픈AI가 ChatGPT 에 더이상 레딧을 참고하지 않는다는 소식이 알려졌다.또한 마케팅 전략가 안드레아보소니가 X에 아래와 같은 트윗과 함께Apparently ChatGPT is not using Reddit much anymore for their answers. I guess they realized that what random people say can’t be considered a trusted source after all. You can all stop spamming it with your fake brand mentions now.레딧의 트래픽이 줄어든 것으로 보이는 그래프를 올렸다.원래 챗GPT는 지난해 5월 레딧과 파트너십을 맺고 레딧의 콘텐츠를 사용해 왔다.하지만 레딧에 올라온 게시글의 진위와 품질에 문제를 제기하는 경우가 늘어나면서 챗GPT가 이러한 결정을 하게 된 것으로추측된다. 이로써 레딧의 트래픽이 줄어들었고, 주가도 크게 하락했다고.
157 조회
0 추천
10.02 등록
비즈니스 인사이더는 바이브 코딩에 대한 관심이 떨어지고 있는 것으로 보인다고 보도했다.AI 기술로 텍스트 프롬프트만으로 앱이나 웹사이트를 만들 수 있는 바이브 코딩 툴들의 사용 트래픽이 올해 초 정점을 찍은 뒤 최근 급격히 감소하는 추세를 보이고 있습니다.Lovable, Vercel의 v0 등 대표적인 바이브 코딩 서비스들의 트래픽이 각각 40%, 64% 하락하는 등 눈에 띄는 감소가 나타나고 있습니다. Bolt.new와 Replit도 각각 27%, 소폭 감소를 기록했습니다.많은 스타트업들이 매출(ARR) 급증을 내세웠지만, 월 단위 구독자 이탈이 높아 수익성에 의문이 제기되고 있습니다. 특히 헤비 유저의 높은 비용 부담과 가격 인상 등이 신규 고객 유입과 유지에 장애가 되고 있습니다. Bolt.new는 고객 이탈을 막기 위해 신규 기능과 구독 모델을 도입하는 등 대응에 나서고 있고, Wix·GoDaddy와 같은 기존 대형 업체들도 인수합병이나 신규 서비스 도입으로 시장 가능성을 모색하고 있습니다.바이브 코딩 툴은 현재 AI 친화적인 얼리어답터 중심의 실험 단계에 머물러 있으면, '마지막 5%'의 완성도 문제 등 대중화에는 한계가 있다는 평가입니다. 다만, 관련 논의와 시장은 당분간 지속될 것으로 보입니다.
166 조회
0 추천
10.02 등록
OpenAI가 최근 초대제로 공개한 틱톡 스타일 소셜 앱 'Sora'가 출시 하루 만에 매우 사실적인 샘 올트먼 딥페이크 영상이 급속히 퍼지고 있다. 사용자는 올트먼이 가상 돼지농장, 포켓몬 필드 등에서 기상천외한 행동을 하는 모습을 볼 수 있으며, 저작권 침해가 의심되는 콘텐츠가 다수 포함되어 있다.'Sora'의 핵심 기능 중 하나는 사용자 본인의 얼굴 데이터를 업로드해 '카메오' 영상, 즉 자가 딥페이크를 만들 수 있다는 점이다. 초기 등록 과정에서 카메오 생성 가능 대상을 '나만', '승인된 사람', '상호 친구', '모든 사람' 등으로 선택할 수 있으며, 샘 올트먼은 모든 사용자에게 카메오 허용을 해 논란이 커지고 있다.앱은 부적절한 복장이나 상황을 걸러내는 안전 장치를 가지고 있지만, 실제로 완벽하게 이를 막지 못하는 사례도 발견되었다. 사용자는 자신의 딥페이크를 쉽게 만들어 공개할 수 있고, IP 및 ChatGPT 사용 이력 등 개인정보 기반에서 추천 영상이 만들어진다.앱은 콘텐츠 저작권자에게 명시적 동의가 없어도 자료를 사용할 수 있게 설계되어 법적·윤리적 문제가 제기되고 있다. 유명 인물이나 캐릭터를 무분별하게 활용한 영상이 급속히 확산되며, 저작권자들이 직접 미사용 요청을 해야만 해당 자료 사용이 제한된다.딥페이크 기술이 대중화되며 사기, 괴롭힘, 허위 정보 유포 등 부작용의 우려가 커지고 있다. 실제로 대통령 도널드 트럼프도 자신의 SNS에 민주당 의원 딥페이크 영상을 올리는 등 정치적 악용 사례가 발생 중이며, Sora가 대중에게 완전히 공개될 경우 사회적 파장이 뒤따를 것으로 예상된다.
184 조회
0 추천
10.02 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입