구글, 사람처럼 웹사이트를 탐색하는 AI 출시

xtalfi

00:41

(퍼플렉시티가 정리한 기사)

Google의는 Gemini 2.5 Computer Use 모델을 출시했습니다. 이 모델은 웹사이트를 탐색하고 인간 사용자처럼 디지털 인터페이스와 상호작용할 수 있는 정교한 AI 시스템입니다. 2025년 10월 7일에 출시된 이 전문화된 모델은 AI 자동화 분야에서 중요한 진전을 이루었으며, 빠르게 발전하는 브라우저 에이전트 시장에서 경쟁사들과의 경쟁을 촉진하고 있습니다.

Computer Use 모델은 시각적 이해와 추론 역량을 활용하여 AI 에이전트가 버튼 클릭, 텍스트 입력, 페이지 스크롤, 양식 작성 등 복잡한 웹 작업을 수행할 수 있습니다. 기존의 구조화된 API에 의존하는 전통적인 자동화와 달리, 이 시스템은 그래픽 사용자 인터페이스(GUI)에서 작동하기 때문에 레이아웃이 바뀌는 동적 웹사이트 및 애플리케이션도 처리할 수 있습니다.

구글의 인공지능 에이전트 경쟁에 대한 전략적 대응

구글의 이번 발표 시점은 오픈AI의 ChatGPT 에이전트 개발과 Anthropic이 지난해 선보인 컴퓨터 사용 기능 이후에 이뤄진 것으로, 이들 흐름을 기반으로 한다. 경쟁사들은 전체 데스크톱 제어 기능을 제공하는 반면, 구글의 모델은 브라우저 기반 상호작용에 초점을 두고 있으며, 웹 탐색, 텍스트 입력, 드래그 앤 드롭 기능을 포함해 총 13가지의 개별 작업을 지원한다.

구글의 접근 방식은 여러 웹 및 모바일 벤치마크에서 선도적인 대안들을 능가하는 우수한 성능과 낮은 지연 시간을 보여준다. Online-Mind2Web 벤치마크에서 Gemini 2.5 Computer Use는 76.7%의 정확도를 기록해 Claude Sonnet(61.9%)와 OpenAI(44.3%)를 앞섰다. 또한, WebVoyager 테스트에서도 79.9%의 성능을 보여 경쟁사들의 69.5% 및 61.0% 대비 뛰어난 결과를 나타냈다.

이 모델은 Project Mariner와 검색 내 AI 모드 등 구글의 기존 제품에 이미 적용되고 있다. 내부 테스트 결과 역시 유망하며, 구글 결제팀은 본 모델이 과거 해결까지 수일이 걸렸던 실패 테스트 케이스 중 60% 이상을 해결했다고 보고했다.

시장 영향 및 개발자 접근

Google AI Studio와 Vertex AI를 통해 제공되는 Computer Use 모델은 Gemini 2.5 Pro와 유사한 토큰 기반 요금제를 따르며, 20만 토큰 미만의 프롬프트에 대해 입력 토큰 100만 개당 $1.25의 비용이 부과됩니다. 표준 Gemini 모델의 무료 요금제와 달리, Computer Use는 처음부터 유료 이용이 필요합니다.

이 출시는 2023년 37억 달러 규모였고 2025년에는 73억 8천만 달러에 이를 것으로 예상되는 AI 에이전트 시장에서 경쟁을 더욱 치열하게 만듭니다. Google은 검색, Android, YouTube, Workspace 등 전방위적 생태계 통합을 통해 순수 AI 제공업체 대비 전략적 이점을 확보하고 있으며, 2025년 상반기에만 Google Workspace에서 23억 건 이상의 문서 상호작용이 이루어졌습니다.

Google은 액션별 안전성 검토와 개발자 제어 등 다중 보호막을 도입해 무단 행위를 방지하는 등 안전을 최우선으로 하고 있습니다. 이 모델은 구매와 같은 민감한 행동에 대해 사용자 확인을 요구하며, 보안 침해 방지를 위한 보호 조치도 포함하고 있습니다.