Loading...

AI 뉴스

DeepSeek, 20배 텍스트 압축 기능을 갖춘 OCR 모델 공개

페이지 정보

작성자 xtalfi
작성일 2025.10.21 17:10
2,222 조회
0 추천
0 비추천

본문

5071e9f235bead1dc8a1f9a4b1561b65YOpq.png

(퍼플렉시티가 정리한 기사) 

중국 AI 기업 DeepSeek은 월요일에 DeepSeek-OCR을 공개했습니다. 이는 97%의 정확도를 유지하면서 최대 20배의 텍스트 압축을 달성하는 오픈소스 멀티모달 AI 모델로, AI 시스템의 문서 처리 효율성에 있어 중요한 돌파구를 마련했습니다.

 

시각적 텍스트 압축의 획기적 발전


30억 파라미터 비전-언어 모델은 텍스트를 압축을 위한 이미지로 취급하는 혁신적인 접근 방식을 활용하여, AI 시스템이 컴퓨팅 비용의 비례적 증가 없이 방대한 문서를 처리할 수 있도록 합니다. DeepSeek의 기술 논문에 따르면, 이 모델은 원본 정보의 97%를 유지하면서 텍스트를 최대 10배까지 압축할 수 있으며, 20배 압축 비율에서도 유용한 성능을 발휘합니다.


“DeepSeek-OCR을 통해 우리는 비전-텍스트 압축이 다양한 과거 컨텍스트 단계에서 7배에서 20배에 이르는 상당한 토큰 감소를 달성할 수 있음을 입증했으며, 이는 LLM의 긴 컨텍스트 문제를 해결하기 위한 유망한 방향을 제시합니다”라고 항저우에 본사를 둔 이 회사는 밝혔습니다.


이 시스템은 단일 Nvidia  A100 GPU에서 매일 200,000페이지 이상을 처리하며, 각각 8개의 A100을 장착한 20대의 서버를 사용하여 하루 3,300만 페이지에 달하는 처리량을 달성합니다. 이러한 처리 능력은 유사한 작업에 일반적으로 수천 개의 토큰을 필요로 하는 기존 OCR 방법을 훨씬 능가합니다.

 

기술 아키텍처 및 성능


DeepSeek-OCR은 두 가지 핵심 구성 요소로 이루어져 있습니다: 이미지 처리를 위한 DeepEncoder와 디코더로서의 DeepSeek3B-MoE-A570M입니다. 인코더는 Meta의  8천만 매개변수 SAM(Segment Anything Model)과 OpenAI의 3억 매개변수 CLIP을 결합하며, 1,024픽셀 이미지를 4,096개 토큰에서 단 256개 토큰으로 줄이는 16배 압축기를 활용합니다.


OmniDocBench 벤치마크 테스트에서 DeepSeek-OCR은 256개가 아닌 단 100개의 비전 토큰만 사용하여 GOT-OCR 2.0을 능가했으며, 페이지당 6,000개 이상의 토큰 대신 800개 미만의 토큰으로 MinerU 2.0을 초과했습니다. 이 모델은 약 100개 언어를 지원하며, 64개 토큰이 필요한 간단한 프레젠테이션부터 “건담 모드”에서 최대 800개 토큰이 필요한 복잡한 신문까지 다양한 문서 유형을 처리할 수 있습니다.


DeepSeek은 합성 다이어그램, 화학식, 기하학적 도형을 포함하여 약 100개 언어에 걸친 3천만 개의 PDF 페이지를 사용하여 시스템을 훈련했습니다. 이 모델은 현재 MIT 라이선스 하에 Hugging Face와 GitHub에서 이용 가능하며, OpenAI와 Google 의 모델에 대한 비용 효율적인 대안으로 업계를 혁신해 온 DeepSeek의 오픈소스 AI 개발에 대한 약속을 이어가고 있습니다.

댓글 0
전체 1,366 / 91 페이지
Capgemini가 화요일 발표한 보고서에 따르면, 마케팅 예산이 회사 매출의 단 5%로 축소되는 동안 중요한 비즈니스 의사결정에 참여하는 CMO의 비율이 2년 만에 70%에서 55%로 감소했으며, 이는 AI 기반 디지털 혁신을 주도해야 한다는 기대가 급증하고 있는 상황에서 발생했다.AI 및 마케팅 기술 이니셔티브의 절반 이상이 현재 마케팅 팀이 아닌 IT 부서에서 자금을 지원하고 통제하고 있으며, 마케팅 기술 투자에서 AI가 차지하는 비중이 2023년 64%에서 2025년 79%로 급증했지만, AI가 효과성을 개선했다고 강력히 동의하는 마케팅 리더는 7%에 불과하다.이러한 조사 결과는 측정 가능한 비즈니스 가치를 제공하기 위한 CMO-CIO 협업의 시급한 필요성을 강조하는데, 마케팅 기술 예산을 통제하는 CMO가 40% 미만이고 광범위한 AI 도입에도 불구하고 고객 상호작용을 성공적으로 개인화하는 비율은 18%에 불과하기 때문이다.
1235 조회
0 추천
2025.11.20 등록
Google은 미국 외 지역에서 최대 규모의 인공지능 인프라 하드웨어 엔지니어링 센터를 대만에 개설했으며, 라이칭더 총통은 이번 조치가 대만이 신뢰할 수 있는 기술 파트너이자 안전한 AI 개발을 위한 핵심 허브임을 입증하는 것이라고 설명했다.타이베이에 위치한 이 시설은 매일 수십억 명의 사람들이 사용하는 기기에 전력을 공급하는 전 세계 Google 데이터 센터에 배치되는 기술을 개발하고 테스트할 예정이라고 Google Cloud 부사장 아머 마흐무드가 밝혔다.대만은 전 세계 반도체의 60% 이상, 최첨단 칩의 90% 이상을 생산하고 있으며, AI 수요가 급증하는 가운데 TSMC만으로도 계약 칩 제조 분야에서 64%의 글로벌 시장 점유율을 차지하고 있다.
1239 조회
0 추천
2025.11.20 등록
**마이크로소프트(Microsoft)**의 AI CEO **무스타파 술레이만(Mustafa Suleyman)**은 Copilot과 Windows에 AI가 통합되는 것에 불만을 가진 비평가들에게 반박하며, 사람들이 AI와 유창하게 대화하고 이미지와 동영상을 생성할 수 있는 능력에 감명을 받지 않는다는 사실에 “정말 놀랐다”고 말했다.술레이만의 옹호는 최근 The Verge의 보고서에서 실제 Copilot의 기능이 **마이크로소프트(Microsoft)**가 광고에서 보여주는 것과 맞지 않는다는 점이 지적된 가운데 나왔으며, Windows 사장 **파반 다불루리(Pavan Davuluri)**가 “대리 OS(agentic OS)” 비전을 홍보하다가 심한 반발을 받아 자신의 게시물에서 답글 기능을 비활성화해야 했던 사건에 이어졌다.이 논란은 **마이크로소프트(Microsoft)**가 새로운 “AI를 위한 당신의 캔버스(Your canvas for AI)” 슬로건을 밀어붙이는 가운데, Windows의 평판이 해당 매체가 “역대 최저”라고 묘사할 정도로 떨어진 상황을 부각시킨다. 사용자들은 모든 인터페이스에 원하지 않는 AI 기능을 강제로 넣는 대신 회사가 근본적인 플랫폼 문제를 해결할 것을 요구하고 있다.
1242 조회
0 추천
2025.11.20 등록
Google DeepMind는 Boston Dynamics의 전 최고기술책임자(CTO)인 Aaron Saunders를 하드웨어 엔지니어링 부사장으로 영입했습니다. 이는 CEO Demis Hassabis가 Gemini를 Android가 여러 제조업체의 스마트폰을 구동하는 것처럼 범용 로봇 운영체제로 변모시키려는 비전을 발전시키기 위한 것입니다.Hassabis는 Gemini가 “거의 모든 물리적 구성으로 즉시 작동할 수 있는” AI 기반으로 기능하기를 목표로 하며, 이는 인간형 및 비인간형 로봇을 포함하여 회사가 AI 기반 로봇공학 분야로의 진출을 강화하고 있는 가운데 추진되고 있습니다.이러한 움직임은 Google DeepMind를 2035년까지 510억 달러 규모에 달할 것으로 예상되는 급속히 성장하는 시장에서 경쟁할 수 있는 위치에 올려놓습니다. 경쟁사인 Tesla는 향후 10년간 백만 대의 Optimus 인간형 로봇 생산을 목표로 하고 있으며, Unitree와 같은 중국 기업들은 경쟁력 있는 가격의 다리 달린 로봇을 제공하고 있습니다
1228 조회
0 추천
2025.11.20 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입