AI 뉴스

오픈AI, AI 모델을 인간 전문가와 비교 평가하는 벤치마크 공개

페이지 정보

작성자 xtalfi
작성일 2025.09.26 17:58
92 조회
0 추천
0 비추천

본문

1c35d95bc361b4ca712690a2bf82bac0RgwU.png

(퍼플렉시티가 정리한 기사)

OpenAI는 목요일에 획기적인 벤치마크를 공개하며, 인공지능 모델이 주요 산업 전반에서 전문적인 업무에서 인간 수준의 성능에 빠르게 접근하고 있음을 보여주었습니다. 회사의 GDPval 평가 시스템에 따르면, AI 모델은 이제 테스트된 작업의 거의 절반에서 인간 전문가와 동등하거나 그 이상의 성과를 내고 있어, 기계가 인간의 경제적 산출에 가장 근접한 시점에 도달했음을 시사합니다.


이 벤치마크는 미국 국내총생산에 가장 크게 기여하는 9개 산업의 44개 직업에 걸쳐 주요 AI 모델을 숙련된 전문가들과 비교 평가했습니다. 여기에는 의료, 금융, 제조, 정부 등이 포함됩니다. 블라인드 비교에서 Anthropic의 Claude Opus 4.1이 인간 전문가와의 대결에서 47.6%의 승리 또는 동률 비율로 최고의 성과를 보였으며, OpenAI의 자체 GPT-5는 40.6%를 기록했습니다.

 

극적인 성능 향상, 인공지능의 경제적 영향 신호


이 결과는 AI 능력의 놀라운 가속을 보여줍니다. 15개월 전 공개된 OpenAI의 GPT-4o 모델은 유사한 과제에서 단 13.7%의 성공률을 기록했는데, 이는 GPT-5의 성능이 같은 기간 동안 거의 세 배 가까이 향상되었음을 의미합니다. “이러한 발전 속도는 정말 고무적입니다,“라고 OpenAI 평가 책임자인 테잘 파트워드한은 TechCrunch에 말했습니다.


GDPval 평가는 기존의 AI 벤치마크와 달리 학술 시험이 아닌 실제 작업 결과물에 초점을 맞춥니다. 전문 평가자들은 사람이 만든 작업과 AI가 생성한 보고서, 법률 의견서, 엔지니어링 계획, 간호 돌봄 전략을 무엇이 AI 작품인지 모른 채 비교 평가했습니다. 과제들은 평균 14년 경력의 전문가들이 현실 직장 환경의 산출물을 반영할 수 있도록 설계했습니다.

 

속도와 비용 이점이 직장 통합을 촉진한다


품질 측면을 넘어, AI 모델은 놀라운 효율성 향상을 보여주었습니다. OpenAI는 첨단 모델이 GDPval 작업을 업계 전문가들보다 약 100배 더 빠르고 100배 더 저렴하게 완료할 수 있다고 밝혔습니다. 단, 이 수치는 반드시 필요한 인간의 감독 및 통합 단계를 고려하지 않은 수치입니다. OpenAI는 “특히 모델이 강점을 보이는 특정 작업에서는 인간에게 먼저 맡기기보다 모델에게 먼저 작업을 맡기는 것이 시간과 비용을 절감할 수 있을 것”이라고 밝혔습니다.


OpenAI의 최고 이코노미스트인 Dr. Aaron Chatterji는 이러한 결과가 AI가 인간 노동자를 대체하기보다는 보완할 것임을 시사한다고 강조했습니다. “그 직업에 종사하는 사람들은 이제 모델을 사용할 수 있게 되었고, 모델의 역량이 점점 좋아지면서 일부 업무를 모델에 맡기고 잠재적으로 더 높은 가치의 일을 할 수 있게 될 것입니다”라고 그는 설명했습니다. 하지만 OpenAI는 현재 GDPval이 실제 직장 내 업무의 일부만을 테스트하고 있다고 인정하며, 향후 기준을 더 넓은 범위로 확장할 계획임을 밝혔습니다.

댓글 0
전체 332 / 1 페이지
(퍼플렉시티가 정라한 기사)여러 소식통에 따르면 OpenAI와 조니 아이브의 야심찬 AI 디바이스 협력이 상당한 기술적 난관에 부딪혀, 기대를 모았던 제품 출시가 지연될 수 있는 상황에 놓였다. 올해 초 OpenAI가 아이브의 디자인 스튜디오 io를 65억 달러에 인수하면서 체결된 이번 파트너십은, 양사가 2026년 목표를 향해 나아가는 과정에서 근본적인 인프라 문제로 어려움을 겪고 있다.컴퓨팅 파워가 주요 장애물로 부상하다손바닥 크기의 스크린이 없는 이 기기가 직면한 가장 중요한 장애물은 오픈AI가 대규모 배포를 위해 충분한 연산 능력을 제공할 수 있는지 여부입니다. 프로젝트에 정통한 소식통들은 파이낸셜 타임즈에 “연산 능력 역시 지연의 또 다른 큰 요인”이라며, 한 사람은 “오픈AI는 이미 ChatGPT에 충분한 연산 자원을 확보하는 데에도 어려움을 겪고 있다. AI 기기는 말할 것도 없으니, 그 문제부터 먼저 해결해야 한다”고 언급했습니다.이 문제는 기기가 항상 켜져 있으며 센서와 카메라를 통해 지속적으로 데이터를 수집하여 과거 상호작용의 맥락을 유지하도록 설계되었기 때문에 특히 심각합니다. 아마존이나 구글의 기존 스마트 스피커들은 각 모회사의 잘 갖춰진 클라우드 인프라를 활용할 수 있지만, 오픈AI는 수백만 대의 항상 듣고 있는 기기를 지원할 수 있는 방대한 연산 자원을 갖추고 있지 않습니다.소프트웨어 및 디자인 과제가 늘어나고 있다인프라 한계를 넘어서서, 개발자들은 어시스턴트의 성격과 행동에 대한 근본적인 질문들과 씨름하고 있다. “모델 성격을 균형 있게 만드는 것은 매우 어려운 일입니다,” 라고 프로젝트에 정통한 한 소스가 설명했다. 팀은 “도움이 되지만 피드백 루프에서 계속 말을 이어가지 않고,” 동시에 “지나치게 아첨하거나 너무 직설적이지 않은” AI를 만들기 위해 고군분투하고 있다.내부자들이 설명한 이 개념은 “이상한 AI 여자친구가 아닌, 컴퓨터지만 친구 같은 존재…애플의 디지털 음성 어시스턴트 시리보다 더 나은 것”을 만드는 것을 목표로 한다. 하지만 이러한 비전을 소프트웨어에 반영하는 것은 아이브 팀이 주도하는 물리적 디자인 작업보다 더 어려운 것으로 드러났다.법적 및 제조상의 복잡성이 프로젝트는 예상치 못한 법적 장애물에도 직면했습니다. 오디오 스타트업 Iyo와의 상표권 분쟁으로 인해 OpenAI는 홈페이지에서 “io” 브랜드에 대한 언급을 일시적으로 삭제해야 했습니다. 이 소송의 법원 제출 문서에 따르면, 이 기기는 일부 초기 추측과 달리 웨어러블이나 인이어 기기가 아닐 것임이 드러났습니다.중국 기업 럭스쉐어(Luxshare) 및 기타 공급업체와의 제조 파트너십은 진행 중이지만, 최종 조립은 중국 외부에서 이루어질 수 있습니다. 인수 후 영입된 20명 이상의 전(前) 애플 엔지니어들로 구성된 팀은 아이브(Ive)와 함께 io를 공동 창업한 전 애플 임원 탕 탄(Tang Tan)과 협업하고 있습니다.OpenAI는 CEO 샘 알트먼(Sam Altman)과 아이브가 “AI 시대의 빌딩 크래프트”에 대해 라운드파이어 토크를 진행할 DevDay 2025 컨퍼런스를 월요일 준비하고 있는 가운데, 애플, 구글 등 경쟁사들이 자체 AI 프로젝트를 꾸준히 진전시키고 있어, 자사의 하드웨어 야심에 대한 진전을 입증해야 하는 압박이 점차 커지고 있습니다.
1 조회
0 추천
04:17 등록
(퍼플렉시티가 정리한 기사)테슬라 CEO 일론 머스크는 10월 4일 회사의 옵티머스 휴머노이드 로봇이 인간 지도자와 함께 무술 동작을 연습하는 인상적인 36초 영상을 공개하며, 단순한 전기차 제조사를 넘어 AI 및 로보틱스 강자로 자리매김하려는 회사의 또 하나의 이정표를 기록했다.시연에서 옵티머스는 블록, 킥, 전투자세 등 일련의 쿵푸 기술을 선보였으며, 머스크는 이 로봇이 원격 조종이 아닌 온보드 인공지능을 이용해 동작한다고 확인했다. 이는 이전에 옵티머스가 테슬라 행사에서 팝콘을 서빙하는 등 인간 조작자가 움직임을 통제하던 초기 시연보다 상당한 진전을 의미한다.AI 기반 성능이 기술적 진보를 보여준다이 무술 영상은 로봇의 균형 감각과 다이내믹한 움직임 능력의 눈에 띄는 향상을 보여줍니다. 옵티머스는 인간의 스파링 파트너로부터 밀렸을 때에도 안정적으로 버티며, 실시간 처리와 반응이 필요한 조정된 동작도 수행합니다.“테슬라 옵티머스가 쿵푸를 배우고 있다”고 머스크는 X에 올린 글에서 말하며, 그가 테슬라의 가장 중요한 제품 중 하나라고 언급한 점을 강조했습니다. 테슬라 AI 소프트웨어 부사장 아쇼크 엘루스와미는 이것이 “단지 시작일 뿐”이라며 자율주행차와 옵티머스 로봇 모두에 통합 AI 모델을 적용할 계획이 있다고 밝혔습니다.옵티머스 AI 프로그램을 담당하는 테슬라 엔지니어 무르타자 달랄은 과학소설 영화 “매트릭스”와의 유사점을 언급하며, 이제 팀이 옵티머스의 뇌에 기술을 ‘다운로드’할 수 있게 되었다고 포스팅했습니다. 이는 영화에서 유명한 “나 쿵푸할 줄 알아”라는 장면과 비교된 것입니다.리더십 변화 속에서 로봇공학 추진쿵푸 시범은 최근 핵심 리더십 인재를 잃은 테슬라 로봇 부서에게 중요한 시기에 이루어졌습니다. 아시시 쿠마르는 2년 넘게 테슬라 옵티머스 AI 팀을 이끌다가 9월에 메타 의 연구 과학자로 이직했습니다. 쿠마르는 재정적인 이유가 퇴직 결정에 영향을 미치지 않았다고 밝혔으며, 테슬라의 “재정적 이익이 월등히 더 컸다”고 설명했습니다.이러한 어려움에도 불구하고, 테슬라는 머스크가 향후 회사 가치의 약 80%를 차지할 수 있다고 주장하는 휴머노이드 로봇 프로그램을 계속 발전시키고 있습니다. 머스크 CEO는 야심찬 생산 목표를 제시하며, 앞으로 5년 내에 연간 최대 100만 대의 옵티머스 생산을 목표로 하고 있습니다. 그리고 2025년 말까지 수천 대가 테슬라 공장에 배치될 것으로 기대하고 있습니다.현재 테슬라는 옵티머스 V3를 개발 중이며, 2025년 말까지 프로토타입이 나올 예정이고 2026년 초에는 본격적인 생산이 계획되어 있습니다. 최신 버전은 테슬라가 설계한 액추에이터, 22개 자유도를 갖춘 손의 유연성 향상, 그리고 더욱 인간에 가까운 비율이 특징입니다.
13 조회
1 추천
10.05 등록
(퍼플렉시티가 정리한 기사)억만장자 마크 큐반은 테슬라(Tesla, Inc.) CEO 일론 머스크의 인간형 로봇에 대한 대담한 비전에 공개적으로 도전하면서, 로봇 혁명에서는 인간과 유사한 외형보다 기능 중심의 설계가 우위를 점할 것이라고 주장했습니다.이번 주 Prof G Markets 팟캐스트에서 큐반은 머스크의 지성을 칭찬하면서도, 인간형 로봇이 4~5년 내에 전 세계 GDP에 상당한 영향을 미칠 것이라는 그의 예측에는 동의하지 않았습니다. 큐반은 머스크가 비디오 기반 AI 기술에서 우위를 갖고 있다는 점을 인정하며, “로봇공학 분야에서 그들은 비디오를 포착해야 합니다. 바로 그 부분에서 일론이 똑똑하고 앞서 있습니다”라고 밝혔습니다.로봇 설계에서 기능이 형태보다 우선이다하지만 큐번은 테슬라의 옵티머스와 같은 휴머노이드 기계보다 작업 중심의 로봇에 미래가 있다고 믿는다. 큐번은 머스크의 C-3PO와 같은 비전에 대해 “그게 미래라고 생각하지 않는다”고 말했다. 대신 그는 특정 목적을 위해 설계된 로봇을 상상하며, “거미처럼 생길 수도 있고 어떤 모습이든 나올 수 있다”고 덧붙였다.큐번은 “어떤 양말이 한 쌍인지 알고, 얼마나 오랫동안 세탁해야 하는지, 침대 밑에 먼지가 있는지도 확인하는” 자율적인 가정용 로봇을 묘사했다. 인간 같은 외형보다 실질적인 기능성에 중점을 둔 큐번의 견해는 휴머노이드 로봇이 스마트폰만큼 보편화되고 현재 글로벌 경제 규모의 “10배로 경제를 성장시킬 수 있다”고 예측하는 머스크의 전망과 크게 대조된다.실제 세계의 AI 적용 사례큐반의 회의론은 부분적으로 그가 AI 기반 자동화와 직접적으로 겪은 경험에서 비롯된다. 그의 회사인 코스트 플러스 드럭스는 로봇과 AI를 활용하여 댈러스에서 의약품을 인도나 중국보다 효율적으로 제조하고 있다. “많은 사람이 필요하지 않습니다,“라고 큐반은 언급하며, 이 시설이 “몇 시간 만에 한 약에서 다음 약으로 바꿀 수 있다”고 덧붙였다.이런 실용적인 접근은 AI가 중소기업에 가장 큰 영향을 미칠 것이고, 전례 없는 효율성 향상과 젊은 학습자들을 위한 교육 기회를 제공할 것이라는 큐반의 보다 넓은 신념을 반영한다.로봇 디자인에 대한 철학적 차이에도 불구하고, 두 억만장자는 AI의 변혁적 잠재력에 동의한다. 머스크가 최근 테슬라의 미래 가치 중 80%가 옵티머스 로봇에서 나올 것이라고 주장한 반면, 큐반은 인간형 외형보다는 실용성을 우선시하는 검증된 활용 사례에 집중하며 새로운 로봇 경제에서 실질적인 성과에 주목하고 있다.
16 조회
0 추천
10.05 등록
(퍼플렉시티가 정리한 기사)오픈AI는 금요일에 Sora AI 비디오 앱의 논란이 된 저작권 정책을 철회하고, 권리 보유자들이 자신들의 캐릭터가 어떻게 사용되는지에 대해 더 많은 권한을 가지도록 하는 새로운 제어 기능을 발표했으며, 이러한 사용을 허락한 이들과 수익을 공유하겠다고 약속했다.이 조치는 소셜 비디오 앱이 출시된 후, 할리우드로부터 “옵트아웃(opt-out)” 방식에 대한 광범위한 비판이 제기된 지 불과 며칠 만에 이뤄진 것이다. 기존에는 스튜디오와 저작권 소유자가 AI 생성 영상에서 자신의 콘텐츠 제거를 직접 요청해야 했다.“우리는 권리 보유자들에게 캐릭터 생성에 대해 더 세밀한 통제권을 제공할 것입니다,“라고 오픈AI CEO 샘 알트먼은 금요일 블로그 게시글에서 밝혔다. “우리는 매우 빠르게 배우고 있으며, 이 새로운 형태의 ‘상호작용형 팬 픽션’에 대해 흥분하는 많은 권리 보유자들로부터 피드백을 받고 있습니다. 이 참여가 그들에게 상당한 가치를 제공할 수 있다고 생각하지만, 자신들의 캐릭터가 어떻게 사용되는지(사용되지 않는 것도 포함) 제어할 수 있기를 원합니다.”할리우드의 반발이번 개정은 이번 주 소라(Sora) 출시 이후 엔터테인먼트 기업들의 강력한 반발에 따른 것이다. 소식통에 따르면 디즈니(월트 디즈니 컴퍼니)는 이미 해당 앱에 자사의 콘텐츠가 등장하지 않도록 거부했다. 소속사 WME는 에이전트들에게 보낸 메모에서 클라이언트의 작품을 보호할 의사를 밝히며, “아티스트와 크리에이티브들이 자신들의 지적 재산권뿐 아니라 이름, 이미지, 초상권을 침해할 수 있는 AI 모델을 마주할 때 진정한 보호 장치가 절실히 필요하다”고 밝혔다.사용자들은 즉시 ‘사우스파크’, ‘릭 앤 모티’, 닌텐도의 마리오와 피카츄 등 저작권이 있는 캐릭터가 등장하는 AI 생성 영상을 플랫폼에 대거 업로드했다. 사용자가 오디오와 대사가 동기화된 10초 분량의 영상을 생성할 수 있는 이 앱은 출시 며칠 만에 iOS 앱스토어 1위에 올랐다.수익 분배 모델OpenAI는 또한 사용자가 캐릭터를 생성하도록 허용한 저작권 보유자들과 수익을 공유하는 시스템을 도입할 계획도 발표했다. “사람들이 예상보다 훨씬 더 많은 콘텐츠를 생성하고 있으며, 매우 적은 관객을 위해 생성되는 영상도 많다”고 알트만은 설명했다. “우리는 자신의 캐릭터가 사용자에 의해 생성되기를 원하는 저작권자들과 이 수익의 일부를 공유하려고 합니다.”회사는 이러한 수익 공유 프레임워크가 “시행착오가 필요할 것”임을 인정했지만, 우선 Sora 내에서 다양한 방식을 테스트하며 곧 도입을 시작할 것이고, 효과적인 모델이 확립되면 이를 자사의 전 제품군에 일관되게 적용하겠다고 밝혔다.이러한 변화는 Microsoft 이 지원하는 OpenAI가 AI 생성 콘텐츠와 지적 재산권에 대한 감시가 커지는 가운데 이를 헤쳐나가며 큰 변화를 시도하고 있음을 보여준다. 회사는 저자들과 The New York Times와 같은 주요 출판사들의 소송을 포함해 여러 저작권 소송에 직면해 있다.
22 조회
1 추천
10.04 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입