Loading...

기타

페이지 전체를 한번에 인식하는 OCR

페이지 정보

작성자 바이브입니다만
작성일 12:27
4 조회
0 추천
0 비추천

본문

OCR 파이프라인을 만들어본 개발자라면  텍스트 박스 감지, 이미지 크롭, 테이블 칼럼 병합,  레이아웃 재조합. 새로운 문서 형식이 들어올 때마다 어디선가 터지는 파이프라인.  다시 문서 재갱신.. 불안전한 구조를 알것입니다.

LightOnOCR-1B는 이 모든 복잡함을 단일 모델로 해결하게 나왔습니다. 이름도 1B라 가볍게 시작합니다. 

왜 지금 주목해야 하는가?

기존 OCR이 여러 단계의 파이프라인에 의존했다면, LightOnOCR은 진정한 의미의 end-to-end 모델입니다. 페이지 전체를 입력받아 한 번의 포워드 패스로 구조화된 마크다운을 출력합니다. 분할도, 텍스트 감지 단계도 없습니다. 완전히 미분 가능한 구조라 영수증, 법률 문서, 학술 논문 등 어떤 특수한 도메인이든 전체를 하나로 파인튜닝할 수 있습니다. 

내부는 10억 파라미터급 소형 모델입니다. Vision Transformer와 Qwen3 기반 언어 모델을 결합했고, 1,760만 페이지의 합성 데이터로 학습했습니다. 교사 모델은 72B 규모의 Qwen2-VL을 사용했는데, 흥미로운 점은 작은 7B 교사 대비 성능이 11.8포인트나 급상승했다는 겁니다. 학생 모델이 작아도 좋은 선생님이 중요하다는 걸 증명한 셈이죠.

속도와 비용, 그리고 정확도

숫자로 말해보자면 . 단일 H100 GPU에서 초당 5.71페이지, 하루 50만 페이지를 처리합니다. 

경쟁 모델 대비 dots.ocr보다 6.5배, PaddleOCR-VL보다 2.7배, DeepSeekOCR보다 1.7배 빠릅니다. 

비용은? 클라우드 GPU 기준 천 페이지당 1센트 미만입니다.

여기서 멈추지 않습니다. 작은 도메인 데이터셋으로 단 1 에포크 파인튜닝만 해도 전체 정확도가 9포인트 상승합니다. 헤더·푸터 인식률은 40%에서 91%로 급등했죠. 의료 양식이나 청구서 같은 특수 문서에 빠르게 적응할 수 있다는 의미입니다.

마크다운 출력이라는 영리한 선택

HTML 대신 마크다운을 출력합니다. 간결하면서도 구조, 제목, 표, LaTeX 수식까지 표현 가능하고, LLM 토큰화에도 유리합니다. 필요하면 JSON이나 HTML로 쉽게 변환되죠. 복잡함 없이 가벼운 구조를 제공하는 현명한 설계입니다.

오픈소스라는 게임 체인저

가장 중요한 점은 완전 오픈소스라는 겁니다. 모델 가중치(1B, 0.9B-32k, 0.9B-16k)와 1,760만 페이지 데이터셋을 모두 공개합니다. OCR 데이터셋이 악명 높게 분산되어 있던 현실을 고려하면, 이는 표준 벤치마크로 자리잡을 잠재력이 충분합니다. Olmo-Bench에서 동급 최고 성능을 달성했고, 자기보다 2~3배 큰 모델들도 능가합니다.

개인 프로덕션에 적용할 수 있을까?

작은 GPU로도 돌아가고, 프로덕션 속도를 내며, 엔터프라이즈급 정확도를 제공합니다. . RAG 파이프라인에 문서를 넣기 전 전처리, 대량 문서 아카이빙, 실시간 문서 검색 시스템... 활용처는 무궁무진합니다.

핵심 수치 요약

  • 속도: 초당 5.71페이지 (경쟁 모델 대비 최대 6.5배)
  • 비용: 천 페이지당 $0.01 미만
  • 파인튜닝: 1 에포크로 +9포인트 정확도 향상
  • 학습 데이터: 1,760만 페이지 (전부 공개)
  • 라이선스: 완전 오픈소스

시도해보기


원문 출처: Medium - Data Science in Your Pocket

댓글 0
전체 157 / 1 페이지
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입