Search

251220_1915_[LLM+RAG] PaddleOCR

PaddleOCR
PaddlePaddle
PaddleOCR 3.0은 LLM/RAG 시대에 문서 이해(document understanding) 수요가 폭발적으로 커진 환경을 전제로, OCR을 단순 전사 도구가 아니라 “문서 AI 인프라”의 핵심 레이어로 재정의하고 이를 오픈소스 툴킷 차원에서 구조적으로 재설계한 기술 리포트다.
리포트가 제시하는 큰 방향은 명확하다. 주류 VLM이 문서 영역까지 빠르게 확장되고 있음에도, 실제 산업 현장에서는 비용·지연·프라이버시·온프렘 요구 등으로 인해 “작지만 강한” OCR/파싱 스택이 여전히 필요하며, 특히 문서 파이프라인에서 품질 병목이 되는 구간(손글씨, 희귀문자, 고문서, 복잡 레이아웃, 테이블/수식 혼재 등)에서는 특화 모델과 데이터/증강/증류가 대형 모델의 범용성을 상쇄할 수 있다는 관점을 강하게 밀고 간다.
이를 위해 PaddleOCR 3.0은 경량(1억 파라미터 미만) 중심의 스택을 PP-OCRv5(다국어 OCR), PP-StructureV3(계층적 문서 파싱), **PP-ChatOCRv4(KIE)**의 3대 솔루션으로 재정리하고, OCR→구조화→검색/추론으로 이어지는 문서 AI 체인을 하나의 제품형 생태계로 엮는 것을 목표로 한다.
PP-OCRv5는 전처리–검출–방향–인식으로 이어지는 전형적 OCR 파이프라인을 기반으로 하되, 백본/증류/증강/데이터 측면의 개선을 통해 다국어(중/번체/병음/영/일) 통합 인식과 도전 시나리오 성능을 강조한다. 특히 리포트는 “OCR 특화 경량 모델이 대형 VLM보다 더 좋은 결과를 낼 수 있다”는 메시지를 뒷받침하기 위해 OmniDocBench 기반의 다양한 시나리오 평가를 전면에 내세우며, 평균 1-edit distance 기준으로 여러 멀티모달 대형 모델 대비 우위를 주장한다.
PP-StructureV3는 문서 파싱을 end-to-end 단일 모델로 몰아가기보다는, 레이아웃 분석을 detection과 region detection으로 분리하고(신문/다기사 같은 복잡 레이아웃에서 읽기순서 복원 문제를 정면으로 다루기 위함), 테이블·수식·차트·도장 같은 “업무적으로 중요한 문서 객체”를 모듈 단위로 분해해 조립 가능한 파이프라인으로 구성한다.
이런 설계는 교체/업그레이드가 쉽고 실패 원인 진단이 비교적 명확하다는 장점이 있지만, 모듈 수가 늘어날수록 오류 전파와 튜닝 복잡도가 커질 수 있다는 점에서 운영 관점의 추가 분석(실패 케이스 taxonomy, fallback 정책, 관측가능성 지표)이 더해지면 학술적 설득력이 강화될 여지도 있다.
PP-ChatOCRv4는 KIE를 “OCR/파싱 + RAG + LLM + 문서 VLM 결과 융합”의 형태로 구성해, 복잡 레이아웃/멀티페이지/테이블 중심 문서에서 질의응답 및 핵심정보추출을 수행하는 방향을 제시한다. 리포트는 638 문서 이미지와 1,196 QA 페어로 구성된 자체 벤치마크에서 Recall@1을 보고하며, GPT-4o 및 대형 VLM 대비 우수한 수치를 제시한다.
다만 KIE 평가는 정답 판정 규칙(문자열 일치 vs 의미 동치), 질문 유형 분포, 프롬프트/후처리 등의 영향이 크기 때문에, 데이터셋 공개 여부나 평가 프로토콜의 세부 기술이 충분히 제공될수록 외부 검증 가능성과 일반화 주장에 힘이 실릴 것이다.
무엇보다 PaddleOCR 3.0의 차별점은 “정확도 개선”만으로 끝나지 않고, 코드베이스와 배포 경로를 제품 수준으로 정리하려는 공학적 선택에 있다. 리포트는 2.x에서 드러난 구조적 문제(전역 CLI 파라미터 비대화, 설정 공유 어려움, 학습 툴킷/추론 라이브러리 경계 불명확 등)를 직접 지적하고, PaddleX 기반의 레이어드 아키텍처로 학습/추론/배포를 분리해 유지보수성과 확장성을 확보했다고 설명한다.
여기에 더해 고성능 추론(백엔드 자동 선택, FP16, 멀티스레드 등), FastAPI/Triton 서빙, 온디바이스 경로, 그리고 MCP 서버까지 포함해 “LLM 호스트에서 문서 AI 기능을 툴로 호출”하는 최신 통합 패턴을 지원하는 점은, 연구 결과를 현장에 연결하기 위한 실용적 설계로 평가할 수 있다.

안녕하세요

관련 기술 문의와 R&D 공동 연구 사업 관련 문의는 “glory@keti.re.kr”로 연락 부탁드립니다.

Hello

For technical and business inquiries, please contact me at “glory@keti.re.kr”