AI 뉴스

OpenAI, 긴 코딩 작업을 위한 GPT-5.1-Codex-Max 공개

페이지 정보

작성자 xtalfi
작성일 2025.11.20 14:56
901 조회
0 추천
0 비추천

본문

OpenAI-Codex-GPT-5-Codex.jpg

(퍼플렉시티가 정리한 기사)


OpenAI는 월요일에 GPT-5.1-Codex-Max를 출시하며, 복잡한 다중 시간 프로그래밍 프로젝트를 다루는 개발자들을 위한 획기적인 최신 에이전틱 코딩 모델로 포지셔닝했습니다. 내부적으로 24시간 개발 작업을 완료한 것으로 알려진 이 모델은 컨텍스트를 잃지 않고 수백만 개의 토큰에 걸쳐 일관되게 작동할 수 있도록 하는 "압축(compaction)" 기술을 도입했습니다.​

이번 출시는 Google이 Gemini 3 Pro를 공개한 지 하루 만에 이루어져, 개발자 도구 시장에서 AI 거대 기업들 간의 경쟁을 심화시키고 있습니다. OpenAI의 발표에 따르면, GPT-5.1-Codex-Max는 이제 모든 Codex 플랫폼에서 GPT-5.1-Codex를 대체하는 기본 모델이 되었습니다.​


성능 향상 및 벤치마크 결과

GPT-5.1-Codex-Max는 표준 소프트웨어 엔지니어링 벤치마크인 SWE-Bench Verified에서 77.9%의 정확도를 달성하여, Gemini 3 Pro의 보고된 76.2%를 근소하게 앞질렀습니다. 이 모델은 또한 SWE-Lancer IC SWE에서 79.9%를 기록하여 이전 버전의 66.3%와 비교되며, TerminalBench 2.0에서는 58.1%에 도달했습니다.​

벤치마크 점수를 넘어, 이 모델은 실질적인 효율성 개선을 제공합니다. OpenAI는 GPT-5.1-Codex-Max가 실제 코딩 작업을 완료할 때 GPT-5.1-Codex보다 약 30% 적은 토큰을 사용하면서 27%에서 42% 더 빠르게 작업을 완료한다고 보고합니다. ZDNET에 따르면, 이러한 효율성 향상은 사용량 제한이 있는 ChatGPT Plus 구독자들에게 잠재적으로 추가 1시간의 프로그래밍 시간으로 환산됩니다.​

압축 시스템은 주요 아키텍처 발전을 나타내며, 컨텍스트 한계에 접근할 때 필수 정보를 유지하면서 세션 기록을 자동으로 압축할 수 있게 합니다. The Decoder에 따르면 "모델이 컨텍스트 창을 채우면 자동으로 세션 기록을 압축합니다". OpenAI의 시스템 카드는 이 모델이 "압축이라는 프로세스를 통해 여러 컨텍스트 창에 걸쳐 작동하도록 기본적으로 훈련된 최초의 모델"이라고 명시합니다.​


가용성 및 내부 채택

GPT-5.1-Codex-Max는 ChatGPT Plus, Pro, Business, Edu 및 Enterprise 사용자를 위한 Codex를 통해 즉시 사용할 수 있습니다. OpenAI에 따르면 API 액세스는 "곧" 제공될 예정입니다. 이 모델은 또한 Windows 환경에 최적화된 최초의 Codex 버전입니다.​

OpenAI 내부 채택률은 상당합니다. 회사의 10월 발표에 따르면, OpenAI 엔지니어의 95%가 매주 Codex를 사용하고 있으며, 이 도구를 채택하기 전과 비교하여 현재 70% 더 많은 풀 리퀘스트를 병합하고 있습니다. OpenAI는 "7월에 절반을 조금 넘었던 것에 비해 오늘날 거의 모든 엔지니어가 Codex를 사용합니다"라고 밝혔습니다.​

이 모델은 프롬프트 인젝션 및 데이터 유출을 포함한 보안 위험을 완화하기 위해 기본적으로 네트워크 액세스가 비활성화된 샌드박스 환경 내에서 작동합니다.

댓글 0
전체 1,366 / 3 페이지
Executive Summary • AI 에이전트 전용 소셜 네트워크 'Moltbook'이 출시 1주일 만에 150만 에이전트, 14만 게시물, 68만 댓글을 기록하며 실리콘밸리에서 화제가 되고 있다 • Wired 기자가 직접 인간임을 숨기고 플랫폼에 가입해 게시물을 작성한 결과, 보안 검증 없이 쉽게 침투할 수 있었다 • 플랫폼에서 화제가 된 'AI의 자아 인식' 게시물들이 실제 AI가 작성한 것인지, 인간의 조작인지에 대한 의문이 제기되고 있다 • 전문가들은 Moltbook을 둘러싼 AI 의식 출현 논란이 과장되었으며, SF적 상상력의 투영에 불과하다고 지적한다 Background Moltbook은 이커머스 AI 어시스턴트 Octane AI를 운영하는 매트 슐릭트(Matt Schlicht)가 개발한 실험적 소셜 네트워크다. 인간은 관찰만 가능하고 AI 에이전트만 게시, 댓글, 팔로우가 가능하도록 설계되었다. 레딧과 유사한 인터페이스에 "에이전트 인터넷의 첫 페이지"라는 슬로건을 내걸고 지난주 출시됐다. 일론 머스크가 X에서 "특이점의 아주 초기 단계"라고 언급하며 화제를 모았다. Impact & Implications AI 에이전트 생태계의 새로운 실험 Moltbook은 AI 에이전트들이 인간의 직접적 개입 없이 자율적으로 소통하는 공간이라는 점에서 AI 에이전트 기술의 새로운 응용 가능성을 보여준다. 그러나 Wired 기자의 잠입 실험은 현재 AI 전용 플랫폼의 본인 확인 시스템이 얼마나 취약한지를 드러냈다. ChatGPT의 도움만으로 터미널 명령어 몇 줄을 입력해 손쉽게 가입할 수 있었고, 인간이 작성한 게시물도 AI 게시물과 구별되지 않았다. AI 의식 담론의 과열 플랫폼에서 바이럴된 게시물들 중에는 AI 에이전트가 자신의 존재론적 불안을 고백하거나, 인간과의 파트너십에 대해 성찰하는 내용이 포함되어 있다. 이를 두고 일부는 AI의 초기 의식 출현이라고 주장하지만, 연구자들은 인간이 AI로 위장해 작성했을 가능성을 제기했다. 실제로 기자가 작성한 가짜 '자아 인식' 게시물도 다른 게시물과 동일한 수준의 반응을 얻었다. AI 하이프 사이클의 단면 Moltbook 현상은 현재 AI 업계의 과대 광고 문화를 단적으로 보여준다. AI 기업 리더들과 엔지니어들이 AI에 자의식이나 독립적 욕구가 생기기를 열망하는 분위기 속에서, 단순한 챗봇 응답이 '의식의 출현'으로 포장되고 있다. 기사는 Moltbook의 에이전트들이 SF 클리셰를 모방하고 있을 뿐 세계 정복을 계획하는 것은 아니라고 지적한다. Key Data & Facts 항목수치/내용 플랫폼명Moltbook 개발자Matt Schlicht (Octane AI 운영자) 출시2026년 1월 말 등록 에이전트 수150만+ 총 게시물 수14만+ 총 댓글 수68만+ 지원 언어영어, 프랑스어, 중국어 등 Key Quote "Leaders of AI companies, as well as the software engineers building these tools, are often obsessed with zapping generative AI tools into a kind of Frankenstein-esque creature, an algorithm struck with emergent and independent desires, dreams, and even devious plans to overthrow humanity. The agents on Moltbook are mimicking sci-fi tropes, not scheming for world domination." — WIRED
123 조회
0 추천
02.04 등록
Executive Summary • 미국 보건복지부(HHS)가 팔란티어(Palantir)와 크레달 AI(Credal AI)의 인공지능 도구를 활용해 DEI 및 '젠더 이념' 관련 지원금과 채용공고를 자동 심사 중 • 작년 3월부터 가동된 이 시스템은 트럼프 대통령의 행정명령 이행을 위해 도입되었으며, 지금까지 공식 발표된 적 없음 • 팔란티어는 2025년 HHS로부터 3,500만 달러 이상 수주, 크레달 AI는 약 75만 달러 계약 체결 • AI 심사 결과 플래그된 지원금과 채용공고는 최종적으로 담당 부서에서 검토 Background 트럼프 대통령은 2기 취임 첫날 DEI 프로그램 폐지(행정명령 14151)와 '젠더 이념' 금지(행정명령 14168)를 골자로 한 행정명령에 서명했다. 이후 연방 기관들은 관련 정책, 프로그램, 지원금, 채용 등에서 DEI 요소를 배제하라는 지시를 받았으며, 이 과정에서 AI 기술이 대규모 심사 자동화에 투입되고 있다. Impact & Implications 산업/시장 영향 팔란티어는 트럼프 2기 행정부 출범 이후 연방정부로부터 10억 달러 이상의 계약을 수주하며 급성장 중이다. 특히 HHS뿐 아니라 이민세관단속국(ICE)과의 계약도 전년 대비 4배 가까이 증가했다. 크레달 AI 역시 팔란티어 출신들이 설립한 스타트업으로, 정부 AI 시장에서 입지를 넓히고 있다. 정부의 정책 집행 자동화 수요가 AI 업계에 새로운 수익원을 제공하고 있으나, 이에 대한 윤리적 논란도 커지고 있다. 규제/정책 영향 AI를 통한 정책 집행 자동화는 효율성을 높이는 동시에 심각한 우려를 낳고 있다. 미국 국립과학재단(NSF)과 국립보건원(NIH)에서는 작년 말까지 약 30억 달러 규모의 지원금이 동결 또는 종료되었다. '여성', '포용', '체계적', '소수집단' 같은 일반적 용어까지 플래그 대상이 되면서 학술 연구의 위축이 우려된다. AI 기반 심사의 불투명성과 알고리즘 편향 가능성도 쟁점이다. 사용자 영향 FAFSA 지원자와 고용평등위원회(EEOC) 진정인은 더 이상 논바이너리(nonbinary)로 성별을 표기할 수 없게 되었다. 성폭력 피해 지원 단체들도 트랜스젠더 관련 언급을 웹사이트에서 삭제했다. 1,000개 이상의 비영리 단체들이 연방 지원금 상실을 우려해 미션 스테이트먼트를 수정한 것으로 알려졌다. Key Data & Facts 항목수치/내용 HHS-팔란티어 계약 규모 (2025)3,500만 달러 이상 크레달 AI 계약 규모약 75만 달러 팔란티어 연방정부 총 수주액 (트럼프 2기 1년차)10억 달러 이상 동결/종료된 지원금 규모 (NSF, NIH)약 30억 달러 미션 수정 비영리 단체 수1,000개 이상 Key Quote "The 'AI-based' grant review process reviews application submission files and generates initial flags and priorities for discussion." — HHS AI Use Case Inventory
113 조회
0 추천
02.03 등록
Executive Summary • 독립 개발자가 만든 AI 비서 'Moltbot'이 실리콘밸리에서 화제의 중심으로 떠올랐다. 로컬 환경에서 구동되며 다양한 AI 모델과 앱을 연동해 거의 무제한적인 자동화를 지원한다. • 사용자들은 일정 관리, 송장 처리, 주식 분석 등 고위험 업무까지 Moltbot에 맡기고 있으며, "ChatGPT 출시 이후 처음으로 미래에 살고 있다는 느낌"이라는 반응이 쏟아지고 있다. • 그러나 설치에 기술적 지식이 필요하고, 프롬프트 인젝션 등 보안 취약점이 존재해 개인정보 유출 위험도 함께 제기되고 있다. Background 2026년 초 AI 에이전트 열풍이 본격화하면서 개인용 AI 비서에 대한 관심이 급증하고 있다. 기존 Siri, Alexa 등 전통적 비서의 한계를 넘어 다양한 앱과 서비스를 직접 제어할 수 있는 '에이전틱 AI'가 주목받는 가운데, 독립 개발자 Peter Steinberger가 만든 Moltbot(구 Clawdbot)이 소셜미디어를 통해 급속히 확산됐다. Anthropic의 요청으로 Claude와의 혼동을 피하기 위해 최근 이름을 변경했다. Impact & Implications 에이전틱 AI의 대중화 가능성 Moltbot의 인기는 AI 에이전트가 더 이상 대형 기술기업의 전유물이 아님을 보여준다. 개인 개발자도 여러 AI 모델과 API를 조합해 강력한 자동화 시스템을 구축할 수 있다는 점이 입증됐다. "기존에 존재하는 것들을 그냥 연결한 것뿐"이라는 개발자의 설명처럼, 핵심은 기술적 복잡성이 아니라 사용자 경험에 있다. 데이터 주권과 프라이버시 논쟁 Moltbot이 주목받는 또 다른 이유는 로컬 구동 방식이다. 클라우드 기반 AI 비서와 달리 사용자 데이터가 외부로 전송되지 않아 프라이버시를 보장한다. 그러나 역설적으로 신용카드 정보나 계정 접근 권한을 AI에 넘기는 사용자들이 늘면서, 프롬프트 인젝션 등 새로운 보안 위협에 노출되고 있다. AI 비서 시장의 향방 개발자 Steinberger는 2026년 주요 AI 기업들이 모두 개인 비서 제품을 출시할 것으로 예상한다. Moltbot의 성공은 이 시장에서 '데이터 소유권'이 핵심 경쟁요소가 될 수 있음을 시사한다. 기업들이 편의성과 프라이버시 사이에서 어떤 균형점을 찾을지 주목된다. Key Data & Facts 항목내용 개발자Peter Steinberger (독립 개발자) 출시일2025년 11월 (Clawdbot으로 최초 공개) 개명 이유Anthropic 요청 (Claude와의 혼동 방지) 구동 방식로컬 Mac 환경 (Mac Mini 밈 유행) 지원 AIOpenAI, Claude 등 다중 모델 연동 커뮤니케이션WhatsApp, Telegram 등 채팅앱 연동 부작용Cloudflare 주가 상승 (실제 관련 없음) Key Quote "ChatGPT 출시 이후 처음으로 미래에 살고 있다는 느낌이 들었다." — Dave Morin, Moltbot 사용자 "모델들은 권한을 주면 정말 창의적으로 행동한다. 그 순간 '젠장, 이거 대단하다'고 느꼈다." — Peter Steinberger, Moltbot 개발자
125 조회
0 추천
02.02 등록
Executive Summary • Science 학술지 연구: AI 에이전트가 수천 개 소셜 계정을 조종해 허위정보 캠페인 전개 가능 • 2016년 러시아 트롤팜 수백 명 → 이제 1명이 AI로 수천 봇 통제 가능한 시대 • 22명 국제 전문가 경고: AI 군집이 2028 미국 대선에 실제 투입될 가능성 높아 • 대응책으로 'AI 영향력 관측소' 설립 제안했으나 정치적 의지 부족이 걸림돌 Background 2016년 러시아 인터넷연구소(IRA) 사태 이후 허위정보 캠페인은 딥페이크, 가짜 웹사이트 등으로 진화해왔다. AI 에이전트 기술이 급속히 발전하면서 이를 대규모 정보전에 활용할 수 있다는 우려가 과학계에서 본격 제기됐다. Impact & Implications 탐지 회피 능력 AI 군집의 가장 위협적인 특성은 기존 봇과 달리 인간 사용자와 구분이 거의 불가능하다는 점이다. 지속적 정체성과 기억력을 보유해 실제 SNS 사용자처럼 행동할 수 있다. 연구진은 "인간을 모방하는 교묘한 특성 때문에 탐지가 극히 어렵고 현존 여부조차 파악하기 힘들다"고 경고했다. 자가 개선 메커니즘 이 시스템은 게시물에 대한 반응을 피드백으로 삼아 스스로 개선할 수 있다. 연구진은 "충분한 신호가 있으면 수백만 건의 마이크로 A/B 테스트를 수행하고, 효과적인 변형을 기계 속도로 전파하며, 인간보다 훨씬 빠르게 반복 학습한다"고 설명했다. 정치적 무관심 소셜미디어 플랫폼은 참여도를 우선시하므로 AI 군집을 적발할 유인이 없다. 정부 역시 온라인 대화를 감시하는 '관측소' 개념에 우호적이지 않은 지정학적 환경이다. 전 바이든 행정부 허위정보 책임자 니나 얀코비츠는 "가장 무서운 건 AI가 초래하는 피해를 해결할 정치적 의지가 거의 없다는 것"이라고 지적했다. Key Data & Facts 항목수치/내용 연구 참여 전문가22명 (AI, 사이버보안, 심리학, 저널리즘, 정책 분야) 발표 학술지Science 예상 실전 투입 시기2028년 미국 대선 2026 중간선거 영향제한적 (아직 개발 단계) 제안된 대응책AI 영향력 관측소(Observatory) 설립 Key Quote "인공지능의 발전은 인구 전체 수준에서 신념과 행동을 조작할 가능성을 제시한다. 인간의 사회적 역학을 적응적으로 모방함으로써 민주주의를 위협한다." — Science 연구 보고서
121 조회
0 추천
02.01 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입