Loading...

기타

DeepSeeK OCR - 왕자의 귀환

페이지 정보

작성자 바이브입니다만
작성일 2025.10.23 17:25
37 조회
0 추천
0 비추천

본문


오늘은 DeepSeek-OCR이라는 새로운 시각 기반 AI 기술에 대해 이야기해보려고 합니다.
올해 4월에 DeepSeek로 인해 미국 AI 관련 하락으로 인해 증시가 크게 흔들린적이 있는데. 다시 또 OCR 기술로 중국이 화려하게 등장하고 있습니다. 

DeepSeek_OCR 이 이제 인공지능이 단순히 글자를 인식하는 수준을 넘어 문서 전체를 ‘이해’하는 단계로 진화하고 있습니다.
 

Q.기존 OCR은 무엇이 문제였나요?

  • 기존 OCR 기술은 이미지를 단순히 텍스트로만 변환했습니다.
  • 글자의 형태나 위치, 배경 맥락은 무시되었죠. 예를 들어 글자의 색상, 볼드체, "인용부호"등 
  • 또한 복잡한 표나 그래프가 들어간 문서를 처리하기엔 한계가 있었습니다.

Q. DeepSeek-OCR은 어떻게 다른가요?

  • DeepSeek-OCR은 글자 모양, 색상, 위치, 주변 맥락까지 함께 인식합니다.
  • 즉, “읽기(reading)”가 아니라 “이해(understanding)”에 가깝습니다.
  • AI가 사람처럼 문서의 구조를 보고 파악하는 셈이죠.

Q. 어떤 방식으로 효율성을 높였나요?

  • 일반 AI는 텍스트를 수천~수만 개의 토큰(token) 으로 분리해 계산하지만,
    DeepSeek-OCR은 문서를 하나의 이미지 토큰(image token) 으로 압축합니다.
  • 이 덕분에 처리 속도는 10배 이상 빨라지고,
    더 많은 데이터를 훨씬 저렴하게 다룰 수 있습니다.

Q. 시각 정보 기반의 문서 이해란 무엇인가요?

  • DeepSeek-OCR은 문서 내의 글자 크기, 굵기, 표, 그래프 등 시각 요소를 한 번에 처리합니다.
  • 단순한 문자 추출이 아니라 ‘제목–본문–표–그래프’의 관계를 스스로 정리합니다.
  • 최종적으로 Markdown 같은 구조화된 텍스트로 변환하여 활용도를 높입니다.  

Q. 이 기술이 가져올 변화는 무엇일까요?

  • 기존 LLM은 문맥 길이에 한계가 있었지만, 이미지 기반 입력 덕분에 훨씬 긴 문서를 처리할 수 있게 되었습니다.
  • 안드레 카파시와 일론 머스크가 말하듯, “AI의 본질은 언어가 아니라 빛(시각)”입니다. 
  • 사람도 글자로 이해하는것보다 시각적으로 기억하는게 더 효율적이듯. 

Q. 앞으로 이 기술을 어떻게 활용하면 좋을까요?

  • 연구나 실무에서 복잡한 문서, 논문, 보고서를 처리할 때

    문서를 이미지로 렌더링해 빠르게 분석할때 

  • 텍스트뿐 아니라 표, 색상, 배치 등 시각 요소 기반의 자동화 툴을 만들때 


향후에는 AI는 언어 중심에서 시각 중심으로 이동하게 될 것이고 페이지가 이미지 단위로 압축해서 토큰 비용을 줄이게 되면 우리들이 사용하는 비용도 좀더 저렴하게 수렴해지지 않을까요?
 
댓글 0
전체 45 / 1 페이지
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입