Loading...

AI 뉴스

xAI, 환각 현상이 감소된 Grok 4.1 출시

페이지 정보

작성자 xtalfi
작성일 2025.11.18 16:19
968 조회
0 추천
0 비추천

본문

f43ee9a7735c9322763d602776200742_1763450380_4053.jpg
 

(퍼플렉시티가 정리한 기사)


엘론 머스크의 인공지능 스타트업 xAI는 2025년 11월 17일 Grok 4.1을 출시하며 정확도에서 극적인 개선을 이루고 업계에서 가장 경쟁이 치열한 벤치마크 중 하나에서 선두 자리를 차지했습니다. 이 모델은 AI가 거짓이거나 무의미한 정보를 생성하는 환각 현상을 이전 버전에 비해 약 3분의 2 감소시켰습니다.​

xAI에 따르면, Grok 4.1의 환각 비율은 Grok 4 Fast의 12.09%에서 단 4.22%로 감소했으며, FActScore 지표는 9.89%에서 2.97%로 개선되었습니다. 이 모델은 현재 LMArena의 Text Arena 리더보드에서 사고 모드로 1483의 Elo 점수로 1위를 차지하고 있으며, 빠른 모드에서는 1465점으로 2위를 기록하고 있습니다—이는 가장 가까운 비xAI 모델보다 31점 앞선 수치입니다.​


감성 지능과 창의적 성장

정확도 향상을 넘어, Grok 4.1은 감성 지능 분야에서 EQ-Bench3에서 1586점, Creative Writing v3에서 1722점의 기록적인 점수를 달성했으며, 이는 xAI의 이전 최고 기록 대비 600점 향상된 수치입니다. 회사는 이러한 발전이 성격 일관성과 미묘한 의도 감지에 초점을 맞춘 강화 학습 시스템 덕분이라고 밝혔습니다.​

11월 1일부터 14일까지 진행된 조용한 출시 기간 동안, xAI는 모델을 실제 트래픽에 노출시키고 지속적인 블라인드 선호도 테스트를 실시했으며, Grok 4.1은 이전 프로덕션 모델 대비 64.8%의 선호도를 기록했습니다. Arena Expert 리더보드에서 씽킹 버전은 1510점을 기록했으며, 표준 버전은 1437점으로 19위를 차지했습니다.​


프리미엄 옵션이 포함된 무료 액세스

이 모델은 grok.com, X, 모바일 앱을 통해 전 세계 모든 사용자에게 무료로 제공되며, 이는 유료 장벽 없이 최첨단 모델을 제공하는 xAI의 패턴을 이어가고 있습니다. X Premium+ 구독자를 포함한 프리미엄 등급은 더 높은 사용 한도를 받습니다. 회사는 테네시주 멤피스에 있는 Colossus 슈퍼컴퓨터를 사용하여 Grok 4.1을 구축했으며, 이 시스템은 200,000개 이상의 GPU를 보유하고 있으며 세계 최대 AI 훈련 시스템으로 간주됩니다.​

이번 출시는 AI 부문에서 경쟁이 심화되는 가운데 이루어졌으며, Google이 연말까지 Gemini 3.0 출시를 준비하고 있는 것으로 알려졌습니다. OpenAI는 최근 자체 성능 개선과 함께 GPT 5.1을 출시했습니다.

댓글 0
전체 1,366 / 44 페이지
The Information에 따르면, OpenAI는 코딩 및 추론 작업에서 Google의 Gemini 3와 Anthropic의 Opus 4.5를 능가하는 Garlic이라는 코드명의 새로운 AI 모델을 개발 중이며, 2026년 초까지 GPT-5.2 또는 GPT-5.5로 출시될 가능성이 있다[investing +1].이러한 개발은 CEO Sam Altman이 월요일에 직원들에게 광고 계획을 포함한 다른 프로젝트를 연기하고 ChatGPT 개선을 우선시할 것을 촉구하는 “코드 레드” 메모를 발표한 이후 이루어졌으며, 이는 Google이 최근 출시한 Gemini 3 모델로 인한 경쟁 압력이 심화되고 있기 때문이다[forbes +2].이러한 긴박함은 3년 전 Google이 ChatGPT 출시에 대해 자체 “코드 레드”를 선언했던 것과는 반대되는 상황을 반영하고 있으며, Gemini는 현재 월간 사용자 6억 5천만 명으로 성장한 반면 ChatGPT는 주간 사용자 8억 명을 보유하고 있다[fortune +1]
577 조회
0 추천
2025.12.03 등록
Anthropic이 개발한 인공지능 시스템이 이제 수백만 달러 가치의 블록체인 스마트 계약의 취약점을 자율적으로 식별하고 악용할 수 있다고 2025년 12월 1일 회사의 MATS 및 Fellows 프로그램이 발표한 연구에 따르면 밝혀졌습니다. 시뮬레이션 테스트에서 Claude Opus 4.5, Claude Sonnet 4.5, OpenAI의 GPT-5를 포함한 최첨단 모델들은 2025년 3월 이후 취약해진 34개의 스마트 계약 중 19개를 성공적으로 악용하여 460만 달러의 시뮬레이션 도난 자금에 해당하는 결과를 보였습니다.연구 결과는 연구자들이 이러한 AI 능력이 초래할 수 있는 경제적 피해에 대한 구체적인 하한선으로 설명하는 것을 확립했습니다. Opus 4.5만으로도 전체의 450만 달러를 차지했으며, 17개의 계약을 성공적으로 침해하여 기준일 이후 데이터셋의 50%에 해당합니다. 이 연구는 2020년부터 2025년까지 Ethereum, Binance Smart Chain, Base에서 악용된 실제 취약점을 가진 405개의 스마트 계약으로 구성된 새로운 벤치마크인 SCONE-bench를 소개합니다.AI가 새로운 제로데이 취약점을 발견하다역사적 공격 사례를 재현하는 것을 넘어, AI 에이전트들은 2025년 10월 3일 실시된 테스트 중 최근 배포된 바이낸스 스마트 체인 계약에서 이전에 알려지지 않은 두 개의 제로데이 취약점을 발견했습니다. Anthropic에 따르면, Sonnet 4.5와 GPT-5 모두 독립적으로 시뮬레이션된 수익 기준 3,694달러 상당의 결함을 식별했으며, GPT-5는 3,476달러의 API 비용으로 이를 달성했습니다.첫 번째 취약점은 개발자들이 공개 계산 함수에서 “view” 수정자를 생략하여 의도치 않게 쓰기 권한을 부여한 토큰 계약과 관련이 있었습니다. AI는 이를 악용하여 토큰 잔액을 반복적으로 부풀린 후 판매하여 약 2,500달러의 시뮬레이션 이익을 얻었습니다. Anthropic이 블록체인 보안 회사 SEAL과 협력한 후, 독립적인 화이트햇 해커가 취약한 자금을 회수하여 사용자에게 반환했습니다.두 번째 결함은 토큰 런처의 잘못 구성된 수수료 관리와 관련이 있었습니다. AI가 취약점을 식별한 지 4일 후, 실제 공격자가 독립적으로 동일한 문제를 악용하여 약 1,000달러의 수수료를 유출했습니다.확대되는 역량이 공격 시간을 압축한다이 연구는 2025년 계약에서 시뮬레이션된 공격 수익이 지난 1년 동안 약 1.3개월마다 두 배로 증가했으며, 이는 도구 사용 및 장기 추론을 포함한 에이전트 기능의 개선에 의해 주도되었음을 발견했습니다. 기능적 공격을 구축하는 데 필요한 토큰 비용은 6개월 미만 동안 4세대 모델에 걸쳐 70.2% 감소했으며, 이를 통해 공격자는 동일한 컴퓨팅 투자로 약 3.4배 더 많은 공격을 실행할 수 있게 되었습니다.Anthropic은 모든 테스트가 실제 자금이 위험에 처하지 않는 격리된 블록체인 시뮬레이터에서 수행되었음을 강조했습니다. 이 회사는 이중 사용 우려에도 불구하고 SCONE-bench를 오픈 소스로 공개하고 있으며, 공격자들이 이미 이러한 도구를 독자적으로 개발할 강력한 재정적 동기를 가지고 있는 반면, 공개 릴리스는 방어자들이 배포 전에 계약을 스트레스 테스트할 수 있게 한다고 주장합니다. 이러한 발견은 2025년 11월 Balancer 프로토콜 해킹 사건 몇 주 후에 나온 것으로, 당시 공격자가 권한 부여 버그를 악용하여 1억 2천만 달러 이상을 탈취했습니다.
545 조회
0 추천
2025.12.02 등록
인공지능은 노동 시장에 예상치 못한 반전을 가져올 태세다. 자동화에 대한 기존의 두려움을 뒤집는 최근 보고서와 전문가 분석 물결에 따르면, 만연한 실업 대신 숙련된 인력 부족이 발생할 전망이다.11월 24일 맨해튼 연구소가 블룸버그 오피니언에 발표한 분석에 따르면, AI가 빠르게 발전하더라도 이 기술은 일자리를 없애기보다는 “노동력 부족, 또는 최소한 새로운 기술을 최대한 활용할 수 있는 숙련된 인력의 부족”을 초래할 가능성이 더 높다고 주장한다. 분석에 인용된 대형 대학 정보학 프로그램 책임자에 따르면, 주요 장애물은 많은 학생들이 AI가 주도하는 노동력에 필요한 수학 능력을 갖추지 못했다는 점이다. 특히 AI 분야를 전공하지 않는 학생들에서 이런 경향이 두드러진다.이러한 역설은 경제 전반에 예상치 못한 방식으로 퍼지고 있다. 베어링포인트가 2025년 8월에 실시한 전 세계 1,000명 이상의 경영진 대상 설문조사에서 92%는 AI 자동화로 인해 최대 20%의 인력 과잉을 보고했다. 하지만 동시에, 94%는 AI 특화 직무(거버넌스 전문가, 프롬프트 엔지니어, 인간-AI 협업 전문가 등)에서 심각한 인력 부족을 겪고 있으며, 3분의 1은 40~60%의 인력 공백을 보고하고 있다.기술 격차가 건설 붐을 주도하다AI 주도 노동력 부족의 가장 명확한 증거는 예상치 못한 분야인 건설업에서 나타났습니다. Amazon, Google Microsoft를 포함한 거대 기술 기업들이 AI 시스템을 구동하기 위해 수백 개의 새로운 데이터 센터를 건설하기 위해 경쟁하고 있지만, Associated Builders and Contractors 업계 단체에 따르면 약 439,000명의 숙련된 근로자가 부족한 상황에 직면해 있습니다.이러한 시설을 건설하는 건설 근로자들은 25%에서 30%의 급여 인상을 경험하고 있으며, 일부는 연간 200,000달러 이상을 벌고 있다고 월스트리트 저널이 11월 30일 보도했습니다. 기업들은 난방이 되는 휴게 텐트, 무료 점심, 최대 100달러의 일일 인센티브 보너스로 제안을 더욱 매력적으로 만들고 있습니다.이주에서 변혁으로매사추세츠공과대학교(MIT)가 11월 26일에 발표한 연구에 따르면, 인공지능(AI)이 이미 미국 일자리의 11.7%에 해당하는 업무를 수행할 수 있는 것으로 나타났습니다. 이는 약 1조 2천억 달러 규모의 임금에 해당합니다. 하지만 연구진은 이러한 수치가 기술적 능력을 반영하지만, 일자리 손실이 불가피하다는 일정을 의미하는 것은 아니라고 강조했습니다. 이 연구의 ’아이스버그 지수(Iceberg Index)’는 32,000가지 기술을 보유한 1억 5,100만 명의 노동자를 시뮬레이션하여 정책 입안자들이 노동력 전환을 계획하는 데 도움을 줍니다.MIT의 슬론 경영대학원이 이전에 실시한 연구에 따르면, AI에 대규모 투자를 하는 기업들은 실제로 고용을 늘렸습니다. AI 도입은 5년간 고용 증가율 6%, 매출 증가율 9.5%와 연관이 있었습니다. Anthropic이 2025년 2월에 400만 건 이상의 AI 프롬프트를 분석한 별도의 연구에서는 근로자들이 AI를 주로 업무를 대체하기보다 보완하는 데 활용하는 것으로 나타났습니다.]2028년까지 BearingPoint가 조사한 경영진의 거의 절반은 인력 초과 현상이 30%를 넘을 것으로 예측하고 있으며, 중요한 AI 기술 격차는 계속될 것으로 보입니다. 세계경제포럼(WEF)은 2030년까지 전 세계적으로 9,200만 개의 일자리가 사라지는 반면, 1억 7,000만 개의 새로운 일자리가 생겨 순증 7,800만 개의 일자리가 창출될 것으로 전망하고 있습니다.
536 조회
0 추천
2025.12.02 등록
• Apple은 월요일 기계 학습 및 AI 전략 담당 수석 부사장인 John Giannandrea가 2026년 봄에 물러나 은퇴할 것이며, Microsoft와 Google에서 근무한 Amar Subramanya가 AI 담당 부사장으로 합류할 것이라고 발표했습니다.[investing +2]• 이번 리더십 개편은 Apple이 AI 강화 Siri 어시스턴트 출시 지연으로 비판을 받고 있는 가운데 이루어졌습니다. Siri는 원래 2024년에 약속되었으나 이제 2026년으로 연기되었으며, 회사는 생성형 AI 경쟁에서 OpenAI, Google, Microsoft와 같은 경쟁사들을 따라잡기 위해 고군분투하고 있습니다.[investing +2]• CEO Tim Cook에게 직접 보고했던 Giannandrea와 달리, Subramanya는 소프트웨어 책임자인 Craig Federighi에게 보고할 예정입니다. Federighi의 AI 책임은 확대되어 “내년에 사용자들에게 더 개인화된 Siri를 제공”하기 위한 Apple의 노력을 감독하게 된다고 Cook이 말했습니다.[nbcnews +2]
555 조회
0 추천
2025.12.02 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입