AI 뉴스

DeepSeek, 20배 텍스트 압축 기능을 갖춘 OCR 모델 공개

페이지 정보

작성자 xtalfi
작성일 2025.10.21 17:10
255 조회
0 추천
0 비추천

본문

5071e9f235bead1dc8a1f9a4b1561b65YOpq.png

(퍼플렉시티가 정리한 기사) 

중국 AI 기업 DeepSeek은 월요일에 DeepSeek-OCR을 공개했습니다. 이는 97%의 정확도를 유지하면서 최대 20배의 텍스트 압축을 달성하는 오픈소스 멀티모달 AI 모델로, AI 시스템의 문서 처리 효율성에 있어 중요한 돌파구를 마련했습니다.

 

시각적 텍스트 압축의 획기적 발전


30억 파라미터 비전-언어 모델은 텍스트를 압축을 위한 이미지로 취급하는 혁신적인 접근 방식을 활용하여, AI 시스템이 컴퓨팅 비용의 비례적 증가 없이 방대한 문서를 처리할 수 있도록 합니다. DeepSeek의 기술 논문에 따르면, 이 모델은 원본 정보의 97%를 유지하면서 텍스트를 최대 10배까지 압축할 수 있으며, 20배 압축 비율에서도 유용한 성능을 발휘합니다.


“DeepSeek-OCR을 통해 우리는 비전-텍스트 압축이 다양한 과거 컨텍스트 단계에서 7배에서 20배에 이르는 상당한 토큰 감소를 달성할 수 있음을 입증했으며, 이는 LLM의 긴 컨텍스트 문제를 해결하기 위한 유망한 방향을 제시합니다”라고 항저우에 본사를 둔 이 회사는 밝혔습니다.


이 시스템은 단일 Nvidia  A100 GPU에서 매일 200,000페이지 이상을 처리하며, 각각 8개의 A100을 장착한 20대의 서버를 사용하여 하루 3,300만 페이지에 달하는 처리량을 달성합니다. 이러한 처리 능력은 유사한 작업에 일반적으로 수천 개의 토큰을 필요로 하는 기존 OCR 방법을 훨씬 능가합니다.

 

기술 아키텍처 및 성능


DeepSeek-OCR은 두 가지 핵심 구성 요소로 이루어져 있습니다: 이미지 처리를 위한 DeepEncoder와 디코더로서의 DeepSeek3B-MoE-A570M입니다. 인코더는 Meta의  8천만 매개변수 SAM(Segment Anything Model)과 OpenAI의 3억 매개변수 CLIP을 결합하며, 1,024픽셀 이미지를 4,096개 토큰에서 단 256개 토큰으로 줄이는 16배 압축기를 활용합니다.


OmniDocBench 벤치마크 테스트에서 DeepSeek-OCR은 256개가 아닌 단 100개의 비전 토큰만 사용하여 GOT-OCR 2.0을 능가했으며, 페이지당 6,000개 이상의 토큰 대신 800개 미만의 토큰으로 MinerU 2.0을 초과했습니다. 이 모델은 약 100개 언어를 지원하며, 64개 토큰이 필요한 간단한 프레젠테이션부터 “건담 모드”에서 최대 800개 토큰이 필요한 복잡한 신문까지 다양한 문서 유형을 처리할 수 있습니다.


DeepSeek은 합성 다이어그램, 화학식, 기하학적 도형을 포함하여 약 100개 언어에 걸친 3천만 개의 PDF 페이지를 사용하여 시스템을 훈련했습니다. 이 모델은 현재 MIT 라이선스 하에 Hugging Face와 GitHub에서 이용 가능하며, OpenAI와 Google 의 모델에 대한 비용 효율적인 대안으로 업계를 혁신해 온 DeepSeek의 오픈소스 AI 개발에 대한 약속을 이어가고 있습니다.

댓글 0
전체 766 / 54 페이지
(퍼플렉시티가 정리한 기사)테더Data의AI연구부서QVAC는인공지능학습을위한410억토큰규모의합성데이터셋GenesisI과사용자기기에서완전히실행되는로컬AI애플리케이션QVACWorkbench의출시를발표했습니다.금요일에공개된이이니셔티브는고품질학습데이터에대한접근을민주화함으로써AI개발에서빅테크의지배력에도전하는것을목표로합니다.​QVACGenesisI은수학,물리학,생물학,의학을다루는STEM교육콘텐츠를위해특별히설계된최초의공개합성데이터셋입니다.단순히언어패턴을모방하도록돕는기존데이터셋과달리,이컬렉션은AI시스템이인과관계를이해하고비판적사고에참여하도록가르치는데중점을둡니다.​AI지능의분산화"지능은중앙화되어서는안된다"고테더의CEO파올로아르도이노가말했다."QVAC워크벤치와제네시스I을통해우리는무한한지능의문을열고있습니다.이는당신의기기에서로컬로살아있고,학습하고,진화하는AI입니다."아르도이노는이번출시가"플랫폼이아닌사람들이지식이어떻게생성되고,공유되고,사용되는지를통제하는미래"를나타낸다고강조했다.​이데이터셋은교육및과학적벤치마크에대해엄격하게검증되었으며,기존공개훈련데이터셋이일반적으로부족한주요STEM영역에서추론및문제해결에있어우수한성능을보여주었다.테더데이터는고품질과학자료를구조화된학습데이터로변환하는다단계생성및검증프로세스를사용하여이데이터셋을생성했다.로컬AI컴퓨팅플랫폼동시에출시된QVACWorkbench는Android,iOS,Windows,macOS및Linux플랫폼에서Llama,Medgemma,Qwen,SmolVLM및Whisper를포함한여러AI모델을지원합니다.이애플리케이션은로컬온디바이스처리를통해모든사용자상호작용을완전히비공개로유지하며,사용자가추가컴퓨팅성능을위해모바일기기를데스크톱워크스테이션에연결할수있는독특한"위임추론(DelegatedInference)"기능을제공합니다.​이플랫폼은OpenAI와Google과같은기업이통제하는클라우드기반AI서비스의대안을찾는AI애호가,연구자및고급사용자를대상으로합니다.업계분석가들은합성데이터가2030년까지AI훈련의주요소스가될것으로예측하고있어,진화하는AI환경에서Tether의진출시기가전략적으로중요합니다.​Tether의AI인프라확장은디지털화폐를넘어선스테이블코인거대기업의광범위한다각화전략의일환입니다.회사는2025년에약150억달러의수익을기대하고있다고보고했으며,이는기술투자를위한상당한자원을제공합니다.이AI이니셔티브는오픈소스지갑개발키트와다양한탈중앙화통신도구를포함한Tether의이전출시제품을기반으로합니다.
131 조회
0 추천
2025.10.25 등록
(퍼플렉시티가정리한기사)텐센트는소프트웨어개발운영에서인공지능의역할에대한놀라운통계를공개하며,현재이중국거대기술기업에서새로작성되는코드의50%가AI지원으로생성된다고발표했습니다.이발표는중국의"1024프로그래머의날"에맞춰10월24일공개된회사의"2025텐센트연구개발빅데이터보고서"에서이루어졌습니다.AI통합이개발워크플로를혁신하다이보고서는AI가텐센트의엔지니어링운영에얼마나깊이침투했는지를보여주며,현재회사엔지니어의90%이상이자사의HunYuan대규모언어모델을기반으로한AI프로그래밍어시스턴트인CodeBuddy를사용하고있다.이러한통합은측정가능한생산성향상을가져왔으며,평균코딩시간이40%단축되었고전체R&D효율성이20%이상개선되었다.​텐센트의개발규모는이러한개선의중요성을강조한다.회사는월평균3억2,500만줄의코드를추가하고,월37만건의개발요청을완료하며,2,520만건의빌드를실행한다.텐센트인력의76%가연구개발에종사하고있어,직원4명중3명이R&D업무에참여하고있다.​AI품질관리가94%커버리지에도달코드생성을넘어,AI는텐센트의품질보증프로세스에필수적인요소가되었습니다.보고서에따르면AI는코드리뷰의94%에참여하며,인간엔지니어가개입하기전에초기검사를수행하는자동화된"품질검사관"역할을효과적으로수행합니다.이러한AI기반리뷰프로세스는코드결함의28%를식별하여효과적인이슈탐지를44%증가시키고소프트웨어품질관리를강화합니다.​연구개발도구를통합하고개발프로세스를간소화하는회사의WeDev플랫폼은도구간일일8천만건이상의데이터교환을촉진하여매월530만건의수동작업을절약합니다.이러한최적화를통해자동화는전년대비67%증가했습니다.​텐센트의구현성공은다양한사업부문에서인상적인효율성지표를달성했습니다.위챗백엔드팀은컴파일시간을50%단축했으며,위챗페이의배포주기는31%단축되고릴리스품질은14%개선되었습니다.텐센트클라우드에서는새로운코드의65%가CodeBuddy에의해생성되어코드천줄당버그가31.5%감소했습니다.
127 조회
0 추천
2025.10.25 등록
(퍼플렉시티가정리한기사)차세대기상관측기구와결합된첨단인공지능모델이폭풍예측능력을혁신하고있으며,극한기상현상이심화되는가운데생명을구하고해안지역사회를보호할수있는더빠르고정확한예보를제공하고있습니다.이러한기술적돌파구는매우중요한시기에이루어졌습니다.연구자들은이번주AI기반예측시스템이허리케인경로와폭풍해일영향을예측하는데있어기존의물리학기반모델을능가하고있다고보고했습니다.GoogleDeepMind의실험적사이클론모델은2025년8월허리케인에린당시놀라운정확도를보여주었으며,다른모델들이정확도에어려움을겪는동안미국동부해안에서벗어나는폭풍의경로를정확하게예측했습니다.​혁신적인풍선기술이데이터격차를메운다WindBorneSystems는팔로알토에본사를둔스타트업으로,최대50일동안공중에머물수있는자율기상풍선을통해기상데이터수집을혁신하는선두주자로부상했습니다.이는일반적으로2시간만지속되는기존풍선에비해극적으로긴시간입니다.이러한고고도플랫폼은지구를일주하면서지속적으로온도,습도및풍향데이터를수집하며,자사의독점WeatherMesh시스템과같은AI모델에중요한정보를제공합니다.​"이것은슈퍼컴퓨팅에만의존하던것에서하드웨어,센싱및머신러닝을결합한분산형데이터기반모델로의전환을의미합니다"라고최근기술평가에서밝혔습니다.미국국립해양대기청(NOAA)은올해WindBorne의센서데이터구매를시작했으며,이는전국12개이상의지역에서기상풍선발사를중단시킨예산삭감이후예보역량의공백을메우는데도움을주기위한것입니다.​AI기반해일예측으로혜택을받는해안지역사회향상된데이터수집과AI의통합은특히폭풍해일예측에매우중요합니다.전통적으로물리기반모델을사용하면몇시간의계산시간이필요했지만,새로운AI시스템은몇시간이아닌몇초만에상세한해안홍수예측을생성하여비상관리자들에게대피및준비를위한귀중한추가시간을제공합니다.​루이지애나주립대학교연구진은최근기존수치모델보다100,000배이상빠르게홍수예측을생성하는머신러닝프레임워크를개발했으며,노트북컴퓨터에서72시간시뮬레이션을단4초만에완료합니다.한편,캘리포니아대학교산타크루즈캠퍼스의과학자들은NVIDIAAI기술을사용하여해안홍수시뮬레이션을6시간에서40분으로단축하고자연기반보호솔루션을설계하는데도움을주고있습니다.​이러한기술발전은기상학자들이2025년까지계속해서평년이상의허리케인활동을경고하는시점에이루어지고있으며,따뜻한해수온도와기후변화가더강력한폭풍을일으켜해안선으로부터62마일이내에거주하는전세계인구의약40%에게더큰위험을초래하고있습니다.
127 조회
0 추천
2025.10.25 등록
(퍼플렉시티가정리한기사)테슬라CEO일론머스크는회사의3분기실적발표에서자율주행차량에대한야심을배가시키며,스티어링휠이없는사이버캡로보택시의생산이2026년2분기에시작될것이라고발표했다.이번발표는현재의자율주행도입과규제장애물에대한지속적인문제에도불구하고,완전자율주행차량에대한테슬라의가장구체적인일정을나타낸다.10월23일실적발표에서머스크는테슬라가무감독완전자율주행능력을달성할수있다고"100%확신한다"고선언하며,이를"생산에서가장큰단일확장"이라고불렀다.정확히1년전에공개된사이버캡은스티어링휠이나페달없이테슬라의기가텍사스공장에서제조될예정이며,오로지자율주행운영을위해설계되었다.​대담한약속에도불구한느린도입테슬라의자율주행에대한자신감이현재사용자도입률로부터현실점검에직면하고있다.최고재무책임자바이브하브타네자는회사의공격적인홍보노력에도불구하고테슬라현재차량중단12%만이완전자율주행소프트웨어비용을지불하고있다고밝혔다.테슬라의FSD수익또한3억2,600만달러를창출했던작년동기대비3분기에감소했다.​낮은도입률은머스크의야심찬확장일정과극명한대조를이룬다.테슬라는2025년말까지텍사스주오스틴의로보택시서비스에서안전운전자를제거하고네바다,플로리다,애리조나를포함한8-10개대도시지역으로테스트를확대할계획이다.그러나현재모든운영에서안전운전자가여전히배치되어있으며,주요시장에서의규제승인은아직보류중이다.​시장압력과경쟁Tesla의자율주행차추진은전기차제조업체가직면한광범위한도전속에서이루어지고있다.이회사는3분기에영업이익이40%감소했다고보고했으며,실적발표이후주가는거의4%하락했다.이러한결과는미래의로보택시전망보다는Tesla의핵심자동차사업에대한더구체적인지침을원했던투자자들을실망시켰다.한편,Alphabet의Waymo와같은경쟁업체들은기존의로보택시서비스를지속적으로확장하고있다.Waymo는2026년까지런던에서서비스를시작할계획을발표했으며,현재미국도시들에서주당25만회이상의유료승차서비스를운영하고있다.이회사의차량들은여러시장에서안전운전자없이운행되고있어,Tesla가해결해야할규제및기술적과제들을부각시키고있다.​Tesla의8,000달러FSD패키지또는월99달러구독서비스는연방당국의조사를받고있으며,국가고속도로교통안전청(NationalHighwayTrafficSafetyAdministration)은FSD차량이신호등을무시하고교통흐름으로조향하는신고에대한조사를시작했다.이러한도전에도불구하고머스크는운전자가차가자율적으로운전하는동안안전하게휴대폰을사용할수있게되면"차를살수있는사람은누구나그차를살것"이라고주장하고있다.
135 조회
0 추천
2025.10.25 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입