Helpy Document Vision

모델 개요

Helpy Document Vision은 비정형 문서(PDF, PPT, 이미지 등)를 기계가 완벽하게 이해할 수 있는 구조화된 JSON 데이터로 변환하는 고정밀 문서 파싱 파이프라인입니다.

단순히 텍스트만 추출하는 기존 OCR과 달리, 이 모델은 통합 레이아웃 분석을 통해 문서의 자연스러운 읽기 순서를 파악하고 단락, 표, 차트, 수식, 이미지 등 각 요소를 자동으로 식별하여 최적의 형태로 변환합니다. 특히 RAG (Retrieval-Augmented Generation) 시스템이나 AI 에이전트가 문서를 정확히 참조할 수 있도록 설계되었습니다.

모델 상세 정보

모델 ID: eliceai/helpy-document-vision
모델 유형: Document Parsing Pipeline
주요 태스크: 문서 구조 분석 및 데이터 추출
지원 파일 형식: PDF, PPT, PPTX, PNG, JPEG, JPG
출력 형식: 계층적 구조를 가진 JSON

주요 기능 및 변환 능력

이 모델은 단순 전사를 넘어, 문서 내 요소의 성격에 따라 가장 적합한 데이터 포맷으로 변환합니다.

표 및 차트: 시각적인 데이터를 분석하여 구조화된 HTML 코드로 변환합니다.
수학 공식: 문서 내 수식을 인식하여 표준 LaTeX 문법으로 변환합니다.
이미지: 이미지의 시각적 정보를 분석하여 상세한 시맨틱 설명 텍스트를 생성합니다.
복잡한 레이아웃: 엑셀(Excel) 스타일의 매우 긴 표나 특수 도메인 문서의 복잡한 구조도 정밀하게 처리합니다.

기술적 특징

2단계 파이프라인: 전체적인 레이아웃 분석을 먼저 수행한 후, 병렬 문자 인식 처리를 진행하여 속도와 정확도를 동시에 확보했습니다.
정밀한 위치 정보: 감지된 모든 요소(텍스트, 표, 이미지 등)에 대해 정확한 좌표값과 라벨을 제공합니다.
RAG 최적화: LLM이 문서를 "보고 이해하는" 것과 동일한 수준의 데이터를 제공하여, 검색 증강 생성(RAG) 시스템의 성능을 극대화합니다.

API 스키마

입력 파라미터

API 요청 시 multipart/form-data 형식을 사용합니다.

파라미터	타입	필수 여부	설명
`document`	File	Yes	문서 파일 (PDF, 이미지, 또는 PPT).
`model`	String	Yes	`eliceai/helpy-document-vision`
`configs`	JSON String	No	추가 옵션 설정 (예: `{"do_image_description": true, "do_chart_conversion": true}`)

출력 구조

응답은 페이지별로 구분되며, 각 페이지는 식별된 요소(elements)의 리스트를 포함합니다.

bounding_box: 요소의 위치 좌표 [ymin, xmin, ymax, xmax]
label: 요소의 유형 (text, table, chart, figure_title 등)
content: 텍스트 전사 내용 (OCR 결과)
description: 이미지에 대한 AI 설명 (Config 활성화 시)
data: 표/차트의 HTML 변환 결과 또는 수식의 LaTeX 코드

사용 예시

Helpy Document Vision은 대용량 문서를 처리하기 위해 비동기 작업 방식(Submit Job → Polling)을 사용합니다.

Python 예제 코드

import json
import time
import requests
from pathlib import Path

# 설정 정보
BASE_URL = "YOUR_API_BASE_URL"
API_KEY = "YOUR_API_KEY"
INPUT_FILE = "path/to/your/document.pdf"

def process_document():
    headers = {"Authorization": f"Bearer {API_KEY}"} if API_KEY else {}
    file_path = Path(INPUT_FILE)
    
    # 1. 작업 제출
    print(f"Uploading {file_path.name}...")
    with open(file_path, "rb") as f:
        files = {"document": (file_path.name, f, None)}
        # 이미지 설명 및 차트 변환 옵션 활성화
        configs = json.dumps({
            "do_image_description": True, 
            "do_chart_conversion": True,
            "return_image": False
        })
        
        data = {
            "model": "eliceai/helpy-document-vision",
            "configs": configs,
        }
        
        resp = requests.post(f"{BASE_URL}/v1/documents", files=files, data=data, headers=headers)
        resp.raise_for_status()
    
    job_id = resp.json().get("job_id")
    print(f"Job submitted successfully. ID: {job_id}")

    # 2. 결과 폴링
    while True:
        job_resp = requests.get(f"{BASE_URL}/v1/jobs/{job_id}", headers=headers)
        job_data = job_resp.json()
        status = job_data.get("status")
        
        if status == "succeeded":
            print("Processing complete!")
            return job_data.get("result")
        elif status == "failed":
            raise Exception(f"Processing failed: {job_data.get('error')}")
        
        # 처리 중일 경우 대기
        print("Processing...", end="\r")
        time.sleep(2)

# 실행 및 결과 출력
try:
    result = process_document()
    print(json.dumps(result, indent=2, ensure_ascii=False))
except Exception as e:
    print(e)

출력 결과 예시

{
  "page_count": 1,
  "pages": [
    {
      "page": 1,
      "elements": [
        {
          "bounding_box": [592.0, 552.0, 2296.0, 650.0],
          "label": "text",
          "content": "Task-oriented assistant that can also use tools (such as search or apps) to support lesson planning, project management, and organizing school or office work.",
          "description": null,
          "data": null
        },
        {
          "bounding_box": [381.0, 2403.0, 1415.0, 3240.0],
          "label": "chart",
          "content": null,
          "description": "정확도(%)와 압축률을 보여주는 막대 및 선 그래프...",
          "data": "<table><thead><tr><th>Metric</th>...</table>"
        }
      ]
    }
  ]
}

모델 정보

모델 제공자

EliceAI

모델 종류

Image Text To Text

사용 방식 및 요금

Serverless

Dedicated

인스턴스 사용 시간

모델 ID

eliceai/helpy-document-vision

AI로 미래를 바꾸는 당신의 여정, 엘리스클라우드가 함께 합니다.

무료로 시작하기 도입문의