AI 뉴스

xAI, 환각 현상이 감소된 Grok 4.1 출시

페이지 정보

작성자 xtalfi
작성일 16:19
4 조회
0 추천
0 비추천

본문

f43ee9a7735c9322763d602776200742_1763450380_4053.jpg
 

(퍼플렉시티가 정리한 기사)


엘론 머스크의 인공지능 스타트업 xAI는 2025년 11월 17일 Grok 4.1을 출시하며 정확도에서 극적인 개선을 이루고 업계에서 가장 경쟁이 치열한 벤치마크 중 하나에서 선두 자리를 차지했습니다. 이 모델은 AI가 거짓이거나 무의미한 정보를 생성하는 환각 현상을 이전 버전에 비해 약 3분의 2 감소시켰습니다.​

xAI에 따르면, Grok 4.1의 환각 비율은 Grok 4 Fast의 12.09%에서 단 4.22%로 감소했으며, FActScore 지표는 9.89%에서 2.97%로 개선되었습니다. 이 모델은 현재 LMArena의 Text Arena 리더보드에서 사고 모드로 1483의 Elo 점수로 1위를 차지하고 있으며, 빠른 모드에서는 1465점으로 2위를 기록하고 있습니다—이는 가장 가까운 비xAI 모델보다 31점 앞선 수치입니다.​


감성 지능과 창의적 성장

정확도 향상을 넘어, Grok 4.1은 감성 지능 분야에서 EQ-Bench3에서 1586점, Creative Writing v3에서 1722점의 기록적인 점수를 달성했으며, 이는 xAI의 이전 최고 기록 대비 600점 향상된 수치입니다. 회사는 이러한 발전이 성격 일관성과 미묘한 의도 감지에 초점을 맞춘 강화 학습 시스템 덕분이라고 밝혔습니다.​

11월 1일부터 14일까지 진행된 조용한 출시 기간 동안, xAI는 모델을 실제 트래픽에 노출시키고 지속적인 블라인드 선호도 테스트를 실시했으며, Grok 4.1은 이전 프로덕션 모델 대비 64.8%의 선호도를 기록했습니다. Arena Expert 리더보드에서 씽킹 버전은 1510점을 기록했으며, 표준 버전은 1437점으로 19위를 차지했습니다.​


프리미엄 옵션이 포함된 무료 액세스

이 모델은 grok.com, X, 모바일 앱을 통해 전 세계 모든 사용자에게 무료로 제공되며, 이는 유료 장벽 없이 최첨단 모델을 제공하는 xAI의 패턴을 이어가고 있습니다. X Premium+ 구독자를 포함한 프리미엄 등급은 더 높은 사용 한도를 받습니다. 회사는 테네시주 멤피스에 있는 Colossus 슈퍼컴퓨터를 사용하여 Grok 4.1을 구축했으며, 이 시스템은 200,000개 이상의 GPU를 보유하고 있으며 세계 최대 AI 훈련 시스템으로 간주됩니다.​

이번 출시는 AI 부문에서 경쟁이 심화되는 가운데 이루어졌으며, Google이 연말까지 Gemini 3.0 출시를 준비하고 있는 것으로 알려졌습니다. OpenAI는 최근 자체 성능 개선과 함께 GPT 5.1을 출시했습니다.

댓글 0
전체 1,021 / 2 페이지
(퍼플렉시티가 정리한 기사)Philips는 일요일 최소 침습 심장 판막 수리를 수행하는 의사들을 실시간으로 지원하도록 설계된 인공지능 솔루션인 DeviceGuide를 소개했습니다. London Valves 2025에서 공개된 이 기술은 시술이 진행되는 동안 적극적으로 중재 시술을 안내하는 회사의 첫 번째 AI 기반 도구입니다.DeviceGuide는 AI 알고리즘을 사용하여 승모판 경카테터 엣지-투-엣지 수리 시술 중 박동하는 심장을 통과하는 수리 기기를 자동으로 추적하며, 실시간 심초음파 및 X-ray 영상을 지능적으로 융합합니다. 이 소프트웨어는 실시간 심장 영상에 중첩된 치료 기기의 가상 3D 모델을 생성하여 시술 중 임상의에게 정확한 기기 위치와 방향을 보여줍니다.기술적 과제 해결이 솔루션은 중재 심장학에서 가장 까다로운 시술 중 하나인 승모판 역류 복구를 다룹니다. 이는 전 세계적으로 3,500만 명 이상의 성인에게 영향을 미치는 질환입니다. 이 질환을 가진 환자들은 심장의 승모판을 통해 혈액이 역류하는 현상을 경험하며, 이는 종종 호흡 곤란과 피로를 유발합니다.M-TEER 시술 중, 의사들은 전통적으로 작은 절개를 통해 복구 장치를 조작하면서 별도의 X-레이와 초음파 화면을 보며, 심장의 해부학적 구조를 머릿속으로 재구성해야 합니다. 필립스의 진단 및 치료 부문 최고 의료 책임자인 Atul Gupta 박사는 시술의 복잡성을 설명하며 “회전하고 있고 벽이 투명한 움직이는 테니스 공 안의 목표물을 맞추려고 하는 것을 상상해 보십시오”라고 말했습니다.필립스의 EchoNavigator 플랫폼을 기반으로 구축된 DeviceGuide는 회사의 Azurion 이미지 유도 치료 시스템에서 실행됩니다. 이 기술은 임플란트가 움직일 때 자동으로 그 윤곽을 인식하고 강조하며, 모든 작은 움직임을 실시간으로 분석합니다.산업 협력Philips는 PASCAL Ace 수리 장치 제조업체인 Edwards Lifesciences와 협력하여 DeviceGuide를 개발했습니다. 이 솔루션은 현재 승모판 수리를 위한 Edwards의 PASCAL Ace 임플란트와 독점적으로 작동합니다.Philips의 Image Guided Therapy Systems 사업 책임자인 Mark Stoffels는 “DeviceGuide는 선도적인 이미징 및 치료 전문 기술을 결합하여 시술 워크플로우를 중심으로 설계된 솔루션을 개발하는 것의 영향력을 보여줍니다”라고 말했습니다.이 기술의 이용 가능 여부는 현지 규제 승인에 따라 달라지며, 아직 모든 국가에서 판매 승인을 받지 못했습니다. 이 시스템은 Philips가 심장을 위한 GPS와 유사한 내비게이션이라고 설명하는 기능을 제공하며, 시술 중 수동 조정을 잠재적으로 줄일 수 있습니다.11월 16-18일에 개최된 London Valves 2025는 판막 심장 질환에 대한 경카테터 치료에 초점을 맞춘 주요 연례 회의입니다.
6 조회
0 추천
17:50 등록
(퍼플렉시티가 정리한 기사)일본의 선도적인 연구기관인 RIKEN은 SC25 컨퍼런스에서 NVIDIA Blackwell GPU로 구동되는 두 대의 새로운 슈퍼컴퓨터를 배치할 것이며, 2026년 봄부터 운영을 시작할 예정이라고 발표했습니다. 이 시스템들은 일본의 자주적 AI 전략을 지원하고, 과학 컴퓨팅 및 양자 연구 분야에서 일본을 선도국가로 자리매김하게 할 것입니다.듀얼 시스템용 2,140개의 Blackwell GPU첫 번째 시스템은 RIKEN의 과학을 위한 AI 이니셔티브의 일환으로 GB200 NVL4 플랫폼을 사용하는 1,600개의 NVIDIA Blackwell GPU를 탑재하며, NVIDIA Quantum-X800 InfiniBand 네트워킹으로 상호 연결됩니다. NVIDIA에 따르면, 이 시스템은 생명과학, 재료과학, 기후 및 날씨 예측, 제조 및 실험실 자동화 분야의 연구를 발전시킬 것입니다.양자 컴퓨팅 전용인 두 번째 시스템은 동일한 플랫폼과 네트워킹 기술을 갖춘 540개의 Blackwell GPU를 배치할 예정입니다. 양자 중심 슈퍼컴퓨터는 양자 알고리즘, 하이브리드 시뮬레이션 및 양자-고전 컴퓨팅 방법의 연구를 가속화하는 것을 목표로 합니다.RIKEN 계산과학센터의 소장인 마쓰오카 사토시(Satoshi Matsuoka)는 “NVIDIA GB200 NVL4 가속 컴퓨팅 플랫폼을 차세대 슈퍼컴퓨터와 통합하는 것은 일본의 과학 인프라에 있어 중추적인 발전을 의미합니다”라고 말했습니다. “우리의 파트너십은 AI, 양자 및 고성능 컴퓨팅을 위한 세계 최고 수준의 통합 플랫폼 중 하나를 구축하여, 연구자들이 기초과학부터 비즈니스와 사회를 위한 산업 응용에 이르기까지 다양한 분야에서 발견을 실현하고 가속화할 수 있도록 할 것입니다.”Pathway to FugakuNEXT두 개의 새로운 시스템은 세계적으로 유명한 Fugaku 슈퍼컴퓨터의 후속 모델로 계획된 FugakuNEXT를 위한 하드웨어, 소프트웨어 및 애플리케이션의 코드 서명 및 개발을 위한 프록시 머신으로 사용될 예정입니다. 8월에 발표된 FugakuNEXT는 RIKEN, Fujitsu 및 NVIDIA 간의 협력 프로젝트로 2030년까지 운영을 목표로 하고 있습니다.2021년 3월에 전면 운영을 시작한 Fugaku는 2020년과 2021년 TOP500 슈퍼컴퓨터 순위에서 1위를 차지했습니다. 이 시스템은 현재 전 세계적으로 7위를 기록하고 있습니다.NVIDIA의 하이퍼스케일 및 고성능 컴퓨팅 부문 부사장인 Ian Buck은 “RIKEN은 오랫동안 세계 최고의 과학 기관 중 하나였으며, 오늘날 컴퓨팅의 새로운 시대 최전선에 서 있습니다”라고 말했습니다. “우리는 함께 일본이 세계에서 가장 복잡한 과학 및 산업 과제를 해결하기 위한 혁신을 주도할 주권적 혁신의 기반을 구축하도록 돕고 있습니다.”NVIDIA는 RIKEN과 협력하여 전통적인 과학 컴퓨팅을 위해 Tensor Core GPU 성능을 활용하는 부동 소수점 에뮬레이션 소프트웨어를 개발하고 있습니다. 이 연구소는 또한 400개 이상의 GPU 가속 라이브러리 및 도구를 제공하는 NVIDIA CUDA-X를 사용할 계획입니다.
9 조회
0 추천
17:46 등록
(퍼플렉시티가 정리한 기사)AlertD는 오늘 스텔스 모드를 벗어나며 사이트 신뢰성 엔지니어링 및 DevOps 팀에게 클라우드 운영에 대한 즉각적인 가시성을 제공하도록 설계된 에이전틱 인공지능 플랫폼을 출시했으며, True Ventures의 파트너 Puneet Agarwal이 주도한 300만 달러의 프리시드 펀딩을 유치했다고 발표했습니다.업계 베테랑인 Geoff Hendrey와 Freddy Mangum이 2024년에 설립한 샌프란시스코 베이 에리어 스타트업은, 창립자들이 레거시 관측성 및 모니터링 도구로는 적절히 해결할 수 없는 클라우드 환경의 증가하는 운영 복잡성이라고 설명하는 문제를 목표로 하고 있습니다. 이 플랫폼은 특화된 AI 에이전트와 자연어 쿼리를 사용하여 Amazon Web Services 환경에서 인사이트를 도출하며, DevOps 전문가들이 “toil”이라고 부르는 것—그들의 시간 중 거의 절반을 소비하는 반복적이고 가치가 낮은 작업—을 제거하는 것을 목표로 합니다.업계 베테랑들이 대시보드 피로 문제를 해결하다Hendrey는 AlertD의 최고경영자이자 Splunk의 전 수석 아키텍트, Cisco 산하 AppDynamics의 최고 아키텍트 출신으로, 전통적인 관찰성 도구들이 풍부한 데이터를 제공했지만 여전히 광범위한 수동 구성이 필요했다고 말했다. “이러한 레거시 도구들은 풍부한 계측 기능을 제공했지만, 프로덕션 문제의 조기 지표 역할을 할 수 있는 알림을 구성하기 위해 여전히 광범위한 수동 설정이 필요했습니다”라고 Hendrey는 PR Newswire에 따르면 말했다. “그러나 애플리케이션 개발 속도가 가속화되고 복잡한 마이크로서비스 아키텍처가 등장하면서, SRE와 DevOps 팀은 이제 프로덕션 가동 시간 유지의 규모와 요구 사항을 따라잡는 데 어려움을 겪고 있습니다.”이 플랫폼은 Unix 데몬에서 영감을 받은 백그라운드 프로세스를 실행하여 고객의 클라우드 환경을 지속적으로 인덱싱하고 AI 에이전트를 사용하여 정적 문서가 아닌 실제 AWS 배포 상태를 기반으로 대시보드를 동적으로 생성한다. 대화형 인터페이스는 데이터베이스 비용 최적화에서 규정 준수 검사에 이르기까지 특정 쿼리를 처리하는 150개 이상의 특화된 하위 에이전트에 작업을 할당한다.지리공간 정보 회사인 Privateer의 DevOps 선임 이사인 Ryan Raines는 개발 과정에서 설계 파트너로 참여했다. “SRE와 DevOps는 비효율성 때문이 아니라 프로덕션 가동 시간을 관리하기 위한 오늘날의 도구가 지나치게 복잡한 반면 우리의 환경은 계속 확장되고 있기 때문에 거의 50%의 시간을 저부가가치 작업에 소비합니다”라고 Raines는 말했다.조기 결과 및 가용성베타 테스트 기간 동안 AlertD는 비용 최적화 에이전트를 통해 이름을 밝히지 않은 한 기업 고객에게 10%의 비용 절감 효과를 제공했으며, DevOps 엔지니어가 쿼리를 위해 스크립트를 작성하는 데 8시간이 걸렸던 작업을 AlertD는 37초 만에 해결한 것을 포함하여 측정 가능한 성과를 보고했습니다.이 플랫폼은 AWS Marketplace에서 30일 무료 체험판으로 이용할 수 있으며, Stanford StartX 인큐베이터, Amazon Web Services 및 Meta Llama 프로그램의 지원을 받고 있습니다. AlertD의 아키텍처는 클라우드, 대규모 언어 모델 및 소프트웨어 제공 수명 주기에 구애받지 않으며, 초기 AWS 중심을 넘어 확장되도록 설계되었습니다.
6 조회
0 추천
17:42 등록
(퍼플렉시티가 정리한 기사)중국 기술 대기업 화웨이가 금요일 그래픽 처리 장치의 활용 효율성을 두 배로 높일 수 있는 첨단 인공지능 인프라 소프트웨어를 발표할 예정이라고 국영 언론이 보도했으며, 이는 하드웨어 한계를 소프트웨어 혁신으로 보완하려는 중국의 전략에서 또 다른 진전을 나타낸다.11월 21일 AI 산업 컨퍼런스에서 공개될 예정인 이 기술은 AI 칩 활용률을 현재 업계 평균인 30~40%에서 70%로 높일 것이라고 상하이 증권 뉴스가 전했다. 이 소프트웨어는 화웨이의 Ascend 칩, 엔비디아 GPU 및 타사 프로세서 전반에 걸쳐 컴퓨팅 리소스의 통합 관리를 가능하게 한다.서양 오케스트레이션 기법의 반영이번 발표 계획은 Huawei가 Nvidia가 2024년 7억 달러에 인수한 텔아비브 기반 소프트웨어 회사 Run:ai와 유사한 기능을 개발하고 있는 가운데 나온 것입니다. Run:ai의 Kubernetes 기반 플랫폼은 GPU 클러스터 전반에 걸쳐 대규모 AI 워크로드를 조율하여 기업들이 동적 리소스 할당을 통해 하드웨어 활용도를 극대화할 수 있도록 합니다.Nvidia는 2024년 12월 Run:ai 인수를 완료하고, 고객들이 AI 워크로드를 더욱 효율적으로 관리할 수 있도록 이 기술을 자사의 DGX Cloud 플랫폼에 통합했습니다. 이 소프트웨어는 분할 GPU 할당, 동적 스케줄링, 그리고 훈련, 튜닝, 추론 워크로드를 다르게 처리하는 워크로드 인식 오케스트레이션을 포함한 기능들을 제공합니다.중국의 양적 우선 접근 방식화웨이의 소프트웨어 중심 전략은 미국의 첨단 반도체 제조 장비 수출 규제로 인한 하드웨어 불리함을 상쇄하려는 중국의 광범위한 노력을 반영합니다. 엔비디아의 블랙웰 아키텍처에 필적하는 최첨단 칩에 접근할 수 없는 중국 기업들은 대량의 저성능 프로세서를 클러스터링하면서 서구 대안보다 훨씬 적은 컴퓨팅 파워를 필요로 하는 딥시크와 같은 효율적인 AI 모델을 실행하고 있습니다.이러한 접근 방식은 견인력을 얻고 있는 것으로 보입니다. 월간 활성 사용자 1억 5,700만 명 이상을 보유한 중국 최대 인기 AI 애플리케이션인 바이트댄스의 더우바오 챗봇은 일일 토큰 사용량이 2025년 3월 12.7조에서 9월 30조 이상으로 급증하여 글로벌 AI 컴퓨팅 소비 선두 그룹에 진입했습니다.이러한 성장으로 바이트댄스의 클라우드 인프라는 4월 기준 일일 50조 토큰을 처리한 마이크로소프트와 일일 약 43.3조 토큰을 처리한 알파벳의 구글에 근접한 수준에 도달했습니다.전략적 의미확인될 경우, 화웨이의 새로운 기술은 국내에서 Ascend AI 칩의 판매를 가속화하는 동시에 Nvidia 프로세서에 대한 중국의 의존도를 더욱 줄일 수 있습니다. 이 소프트웨어 기반 접근 방식은 중국이 반도체 제조 능력에서 “상대적으로 오랫동안” 뒤처질 가능성이 높다는 것을 인정하고, AI 인프라에서 경쟁하기 위한 대안적 전략이 필요하다는 화웨이 경영진의 발언과 일치합니다.
7 조회
0 추천
16:59 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입