Loading...

AI 뉴스

DeepSeek, 20배 텍스트 압축 기능을 갖춘 OCR 모델 공개

페이지 정보

작성자 xtalfi
작성일 2025.10.21 17:10
2,052 조회
0 추천
0 비추천

본문

5071e9f235bead1dc8a1f9a4b1561b65YOpq.png

(퍼플렉시티가 정리한 기사) 

중국 AI 기업 DeepSeek은 월요일에 DeepSeek-OCR을 공개했습니다. 이는 97%의 정확도를 유지하면서 최대 20배의 텍스트 압축을 달성하는 오픈소스 멀티모달 AI 모델로, AI 시스템의 문서 처리 효율성에 있어 중요한 돌파구를 마련했습니다.

 

시각적 텍스트 압축의 획기적 발전


30억 파라미터 비전-언어 모델은 텍스트를 압축을 위한 이미지로 취급하는 혁신적인 접근 방식을 활용하여, AI 시스템이 컴퓨팅 비용의 비례적 증가 없이 방대한 문서를 처리할 수 있도록 합니다. DeepSeek의 기술 논문에 따르면, 이 모델은 원본 정보의 97%를 유지하면서 텍스트를 최대 10배까지 압축할 수 있으며, 20배 압축 비율에서도 유용한 성능을 발휘합니다.


“DeepSeek-OCR을 통해 우리는 비전-텍스트 압축이 다양한 과거 컨텍스트 단계에서 7배에서 20배에 이르는 상당한 토큰 감소를 달성할 수 있음을 입증했으며, 이는 LLM의 긴 컨텍스트 문제를 해결하기 위한 유망한 방향을 제시합니다”라고 항저우에 본사를 둔 이 회사는 밝혔습니다.


이 시스템은 단일 Nvidia  A100 GPU에서 매일 200,000페이지 이상을 처리하며, 각각 8개의 A100을 장착한 20대의 서버를 사용하여 하루 3,300만 페이지에 달하는 처리량을 달성합니다. 이러한 처리 능력은 유사한 작업에 일반적으로 수천 개의 토큰을 필요로 하는 기존 OCR 방법을 훨씬 능가합니다.

 

기술 아키텍처 및 성능


DeepSeek-OCR은 두 가지 핵심 구성 요소로 이루어져 있습니다: 이미지 처리를 위한 DeepEncoder와 디코더로서의 DeepSeek3B-MoE-A570M입니다. 인코더는 Meta의  8천만 매개변수 SAM(Segment Anything Model)과 OpenAI의 3억 매개변수 CLIP을 결합하며, 1,024픽셀 이미지를 4,096개 토큰에서 단 256개 토큰으로 줄이는 16배 압축기를 활용합니다.


OmniDocBench 벤치마크 테스트에서 DeepSeek-OCR은 256개가 아닌 단 100개의 비전 토큰만 사용하여 GOT-OCR 2.0을 능가했으며, 페이지당 6,000개 이상의 토큰 대신 800개 미만의 토큰으로 MinerU 2.0을 초과했습니다. 이 모델은 약 100개 언어를 지원하며, 64개 토큰이 필요한 간단한 프레젠테이션부터 “건담 모드”에서 최대 800개 토큰이 필요한 복잡한 신문까지 다양한 문서 유형을 처리할 수 있습니다.


DeepSeek은 합성 다이어그램, 화학식, 기하학적 도형을 포함하여 약 100개 언어에 걸친 3천만 개의 PDF 페이지를 사용하여 시스템을 훈련했습니다. 이 모델은 현재 MIT 라이선스 하에 Hugging Face와 GitHub에서 이용 가능하며, OpenAI와 Google 의 모델에 대한 비용 효율적인 대안으로 업계를 혁신해 온 DeepSeek의 오픈소스 AI 개발에 대한 약속을 이어가고 있습니다.

댓글 0
전체 1,366 / 154 페이지
(퍼플렉시티가정리한기사)JPMorganChaseCEO제이미다이먼은목요일인공지능이향후몇십년내에주당근무시간을3.5일로단축할수있을것이라고전망하면서,기업들이전환에따른일자리대체에대비해야한다고경고했다.11월6일마이애미에서열린AmericaBusinessForum에서다이먼은참석자들에게AI가"모든애플리케이션,모든직업,모든고객인터페이스에영향을미칠것"이라고Fortune에따르면말했다."제생각에는선진국은20년,30년,40년후에는주당3.5일근무하면서멋진삶을살게될것입니다"라고그는말했다.​JPMorgan의AI투자가성과를거두다Dimon의예측은Fortune지가"실전AI연구소"라고묘사한JPMorgan에서의직접적인경험에서비롯되었다.이은행은현재약2,000명의직원을고용하여AI시스템을개발하고있으며,약150,000명의직원이내부업무를위해매주대규모언어모델을사용하고있다.이시스템들은사기탐지부터법률검토,대사작업,마케팅최적화에이르기까지다양한업무를처리한다.​10월Bloomberg와의인터뷰에서Dimon은은행이AI개발에연간약20억달러를지출하며거의같은금액의비용절감을달성한다고밝혔다."20억달러의비용으로약20억달러의이익을얻었다는것을보여주었습니다"라고그는말하며"이것은빙산의일각입니다"라고덧붙였다.​일자리대체에대한경고그의낙관적인장기전망에도불구하고,다이먼은앞으로다가올고통스러운전환기를인정했다."일자리를없앨것입니다.사람들은현실을외면하는것을멈춰야합니다"라고그는포춘가장영향력있는여성컨퍼런스에서경고했다.그는기업과정부가재교육,소득지원,재배치,그리고경우에따라서는조기은퇴에투자하여사회적불안을예방함으로써인력변화에대비할것을촉구했다.​다이먼은AI의경제성이인터넷시대와다르다는점을강조하며,이기술이자본집약적이면서동시에전력집약적이라고언급했다.일부과대평가된프로젝트들은"필요한전력을얻지못할것"이라고그는말하며,투자자들에게테마전체를무분별하게매수하기보다는각AI인프라프로젝트를개별적으로평가할것을조언했다.​그의예측은다른기술리더들의유사한전망과일치한다.공동창립자빌게이츠는2023년에AI가"결국주3일만일하면되는사회를만들수있다"고제안했다.CEO에릭위안은9월뉴욕타임즈와의인터뷰에서AI가생산성을향상시킴에따라"모든회사가주3일,4일근무를지원할것"이라고말했다.
1612 조회
0 추천
2025.11.10 등록
(퍼플렉시티가 정리한 기사)챗GPT를 개발한 오픈AI가 지난달 27일 백악관에 서한을 보내 반도체 관련 세액공제 혜택을 AI 데이터센터 등 인프라 전반으로 확대해달라고 공식 요청했다. 크리스 리헤인 오픈AI 최고대외협력책임자 명의로 마이클 크라치오스 백악관 과학기술정책실장에게 전달된 이 서한은 7일(현지시간) 오픈AI 홈페이지를 통해 공개됐다.오픈AI는 2022년 제정된 반도체법(칩스법)에 따른 35% 투자세액공제 대상을 기존 반도체 제조뿐 아니라 AI 데이터센터 건설, AI 서버 제조업체, 변압기와 전기강판 등 전력망 구성품까지 확대해야 한다고 주장했다. 리헤인은 서한에서 “세액공제 대상 확대는 실질적 자본 비용을 낮추고 초기 투자 위험을 완화하며 민간 자본을 유치해 병목 현상을 해소하고 미국 내 AI 구축을 가속할 것”이라고 강조했다.5000억 달러 규모 데이터센터 계획오픈AI는 향후 수년 내 최대 5000억 달러(약 729조원) 규모의 AI 데이터센터를 미국 내에 건설할 계획이라고 밝힌 상태다. 회사는 향후 8년간 총 1조4000억 달러 규모의 컴퓨팅 자원 구축에 투자하겠다고 약속한 바 있다. 이번 제안이 수용될 경우 오픈AI는 해당 정책의 최대 수혜자 중 하나가 될 것으로 전망된다.[newsis +2]오픈AI는 또한 정부가 중국에 맞서 미국 내 제조업체에 보조금 지급, 비용 분담 협정, 대출 또는 대출 보증 등을 제공해야 한다고 주장했다. 회사는 이러한 재정 지원이 구리, 알루미늄, 전기강판, 희토류 원소, 반도체 원자재 등에 대한 중국의 ‘시장 왜곡’에 대응하는 데 도움이 될 것이라고 밝혔다.‘구제금융 논란’ 속 요청이번 요청은 오픈AI가 정부 지원을 둘러싼 논란에 휩싸인 직후 나왔다. 새러 프라이어 오픈AI 최고재무책임자(CFO)는 지난주 한 콘퍼런스에서 정부가 AI 인프라 투자에 대한 ’백스톱(안전망)’을 제공할 수 있다고 언급했다가 역풍을 맞았다. 도널드 트럼프 행정부의 AI 정책을 총괄하는 데이비드 색스 백악관 과학기술자문위원장은 “AI에 대한 연방정부의 구제금융은 없다”고 선을 그었다.샘 올트먼 오픈AI 최고경영자(CEO)는 7일 소셜미디어를 통해 세액공제 확대 요청을 재확인하면서도 “세액공제는 오픈AI에 대한 대출 보증과는 완전히 다른 것”이라고 강조했다.
1639 조회
0 추천
2025.11.08 등록
(퍼플렉시티가 정리한 기사)구글은 목요일에 디지털 출판사를 위한 인공지능(AI) 기반 도구 모음을 공개했습니다. 광고 리뷰에서 성과 보고에 이르기까지 노동 집약적인 작업을 자동화함으로써, 구글은 라이브 스트리밍 수익화에 대한 증가하는 수요를 잡기 위해 자사의 입지를 다지고 있습니다.Ad Manager, AdSense, AdMob의 업데이트는 세 가지 AI 자동화 기능을 도입합니다. 첫 번째는 각 출판사의 개별 선호도를 학습하여 결국 원하지 않는 광고를 자동으로 차단할 브랜드 안전 시스템, 두 번째는 자연어 질의에서 맞춤형 성과 보고서를 생성하는 생성형 AI 보고 도구, 그리고 문제 해결 및 온보딩 지원을 위한 AI 기반 채팅 어시스턴트입니다.라이브 콘텐츠 수익화 타겟팅이 거대 기술 기업은 또한 새로운 CTV Live-biddable 솔루션을 통해 라이브 콘텐츠에 투자하고 있으며, 이는 퍼블리셔들이 스포츠 연장전이나 예정보다 길어진 시상식과 같이 예측 불가능한 높은 시청률 순간을 수익화할 수 있도록 지원합니다. 이러한 움직임은 보스턴 컨설팅 그룹과 구글의 10월 연구에 따르면, 구매자의 82%가 향후 12개월 동안 프로그래매틱 라이브 커넥티드 TV 투자를 늘릴 계획이라고 밝힌 가운데 나온 것입니다.DAZN의 미디어 운영 담당 수석 부사장인 로넌 매카시는 회사 발표에서 “Google Ad Manager의 라이브 CTV 솔루션을 통해 FIFA 클럽 월드컵을 전 세계 수백만 팬들에게 고품질 스트림으로 제공할 수 있었습니다”라고 말했습니다.구글의 글로벌 파트너십 및 판매측 수익화 담당 부사장인 스콧 셰퍼는 수요일 블로그 게시물에서 이러한 업데이트를 발표했습니다. AI 브랜드 안전 도구는 퍼블리셔가 광고 검토 센터에서 내린 결정을 분석하여 기본 카테고리 제한을 넘어선 선호도를 파악하며, 현재는 잠재적으로 원치 않는 광고를 표시하고 궁극적으로는 수동 개입 없이 이를 차단합니다.직접 거래 간소화Google은 또한 기존의 직접 거래 통제와 프로그래매틱 효율성을 결합한 기능인 Buyer Direct를 도입했으며, 이는 퍼블리셔 간 노출 빈도 관리, 실시간 리포팅 및 통합 청구 기능을 제공합니다. Google은 이번 업데이트가 퍼블리셔들을 수작업에서 해방시켜 콘텐츠 제작에 집중할 수 있도록 하는 동시에 새로운 수익원을 개척하는 것을 목표로 한다고 밝혔습니다.
1629 조회
0 추천
2025.11.08 등록
(퍼플렉시티가 정리한 기사)메타 플랫폼스는 금요일, 회사가 “초지능”이라고 부르는 것을 달성하기 위한 경쟁의 일환으로 인공지능 데이터 센터 구축에 초점을 맞춰 향후 3년간 미국 인프라와 일자리에 6,000억 달러를 투자할 것이라고 발표했습니다.CEO 마크 저커버그가 9월 백악관 만찬에서 도널드 트럼프 대통령에게 처음 공개한 이 대규모 투자 계획은 미국 역사상 가장 큰 기업 인프라 투자 중 하나를 나타냅니다. 이 투자는 2028년까지 AI 기술, 인프라 개발 및 인력 확충을 지원할 것입니다.투자자 우려 속 공격적 확장이번 발표는 메타가 AI 지출에 대한 증가하는 감시에 직면하면서 나왔다. 회사의 주가는 지난주 3분기 실적 보고서 발표 후 16% 이상 급락하여 약 3,070억 달러의 시가총액이 증발했으며, 투자자들은 회사의 증가하는 자본 지출에 대한 투자 수익률에 의문을 제기했다. 메타는 2025년 자본 지출 가이던스를 700억 달러에서 720억 달러 사이로 상향 조정했으며, 2026년에는 “현저히 더 큰” 지출을 예상하고 있다.시장의 혼란에도 불구하고, 월스트리트 애널리스트들은 비교적 확고한 목표 주가를 유지했으며, 컨센서스 전망은 30% 이상의 상승 잠재력을 시사했다. 회사는 실적 발표에서 자사의 전략을 옹호했으며, 저커버그는 “가장 낙관적인 경우에 대비할 수 있도록 공격적으로 용량을 선제적으로 확보하는 것이 올바른 전략”이라고 말했다.주요 프로젝트 및 자금 조달Meta는 최근 루이지애나주 하이페리온 데이터 센터 건설 자금 조달을 위해 Blue Owl Capital과 기록적인 270억 달러 규모의 금융 거래를 체결했으며, 이는 전 세계적으로 가장 큰 프로젝트입니다. 400만 평방피트 이상의 면적에 최대 5기가와트의 전력을 사용할 것으로 예상되는 이 시설은 2030년까지 완공될 예정입니다. 계약에 따라 Blue Owl은 80%의 지분을 보유하고 Meta는 20%의 소유권과 운영 통제권을 유지합니다.10월에 Meta는 텍사스주 엘패소에 15억 달러를 투자하여 데이터 센터를 건설할 계획을 발표했으며, 이는 전 세계적으로 29번째 시설이자 텍사스주에서는 세 번째 시설입니다. 120만 평방피트 규모의 캠퍼스는 1기가와트까지 확장 가능하며, 건설 인력 1,800명과 정규직 운영 인력 100명을 포함하여 거의 2,000개의 일자리를 창출할 것으로 예상됩니다.
1642 조회
0 추천
2025.11.08 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입