Helpy Table Vision

모델 개요

Helpy Table Vision은 복잡한 표 구조를 시각적으로 인식하여 고품질의 HTML 코드로 변환하는 데 특화된 표 추출 전용 시각-언어 모델(VLM)입니다.

이 모델은 OpenAI 호환 Chat Completions API와 원활하게 연동되도록 설계되었으며, 단순한 표뿐만 아니라 병합된 셀, 다중 행 헤더, 불규칙한 레이아웃 등 기존 OCR 기술로 처리하기 어려운 복잡한 형태의 표도 빠르고 정확하게 파싱합니다.

모델 상세 정보

모델 ID (Model ID): eliceai/helpy-table-vision
모델 유형 (Type): Vision-Language Model (VLM)
주요 태스크 (Primary Task): 구조화된 표 추출 (Table Extraction to Structured HTML)
인터페이스 (Interface): OpenAI Compatible Chat Completions API
입력 (Input):
- 이미지 (스크린샷, 스캔 문서, 문서 사진 등)
- 텍스트 (추출 형식을 지정하는 프롬프트)
출력 (Output):
- HTML 표 (최적화됨)
- Markdown, CSV, JSON 형식 지원

주요 특징

HTML 구조 최적화: 모델의 학습 목표가 복잡한 표의 시각적 정보를 정확한 HTML 마크업으로 변환하는 것에 집중되어 있습니다. rowspan 및 colspan 속성을 완벽하게 활용하여 원본의 구조적 무결성을 유지합니다.
복잡한 레이아웃 처리: 다중 계층의 헤더, 병합된 셀, 불규칙한 스팬(Span) 등 난이도 높은 표 이미지에서도 뛰어난 인식률을 보입니다.
Low-Latency 추론: 대화형 서비스 및 대량의 배치(Batch) 작업 모두에 적합하도록 추론 속도가 최적화되어 있습니다.
손쉬운 통합: 표준 OpenAI API 규격을 따르므로, 기존 애플리케이션의 코드 변경을 최소화하여 즉시 도입할 수 있습니다.

활용 가이드

권장 사용 사례

금융 및 비즈니스 문서: PDF 재무 보고서, 송장, 계약서 내의 복잡한 데이터 표 추출
디지털 아카이빙: 스캔된 문서나 이미지 내의 표를 웹 렌더링 가능한 Clean HTML로 변환
데이터 전처리: 비정형 문서 이미지에서 데이터 분석을 위한 구조화된 데이터 확보

비권장 용도 / 범위 외 작업

표 이외의 콘텐츠: 본 모델은 일반적인 OCR(광학 문자 인식), 이미지 캡셔닝, 일반 문서 레이아웃 분석용이 아닙니다. 표가 포함되지 않은 이미지를 입력할 경우 성능을 보장할 수 없습니다.
일반적인 시각적 질의응답(VQA): 표 데이터와 무관한 이미지 내용에 대한 질문에는 답변이 정확하지 않을 수 있습니다.
이미지 품질: 해상도가 극도로 낮거나 압축 노이즈가 심한 이미지의 경우 추출 정확도가 저하될 수 있습니다.

Input	Output (rendered)

API

Helpy Table Vision은 OpenAI 클라이언트 라이브러리를 통해 호출할 수 있습니다.

Endpoint: [POST] /v1/chat/completions
Model Name: eliceai/helpy-table-vision

메시지 내에 이미지 콘텐츠와 함께 원하는 추출 형식을 설명하는 자연어 지시사항을 입력할 수 있습니다.

프롬프트 가이드

권장 프롬프트 패턴

모델의 성능을 극대화하기 위해 다음과 같은 프롬프트 패턴을 권장합니다.

기본 / HTML 추출 (권장)

모델은 기본적으로 rowspan과 colspan을 포함한 HTML 출력에 가장 최적화되어 있습니다. 가장 높은 구조적 정확도를 위해 아래와 같이 요청하세요.

"이 이미지의 표를 HTML 형식으로 추출해 주세요. 병합된 모든 셀과 헤더가 row 및 column span을 사용하여 정확하게 표현되도록 하세요."

기타 형식 (JSON, Markdown 등)

JSON이나 Markdown 출력도 지원하지만, 복잡한 병합 셀 구조 표현에는 HTML보다 한계가 있을 수 있습니다.

JSON: "모든 표를 감지하고 구조화된 JSON으로 반환해 주세요." Markdown: "모든 표를 GitHub-flavored Markdown 표로 추출해 주세요."

Python 사용 예시 (OpenAI 클라이언트)

최적화된 HTML 표 추출

from openai import OpenAI

# 클라이언트 초기화
client = OpenAI(
    base_url="YOUR_ENDPOINT_URL",  # 사용자의 엔드포인트 주소
    api_key="YOUR_API_KEY",        # 사용자의 API KEY
)

image_url = "https://example.com/table_image.png"

# API 호출
response = client.chat.completions.create(
    model="eliceai/helpy-table-vision",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    # HTML 형식이 가장 정확도가 높습니다.
                    "text": "이 이미지에 있는 모든 표를 HTML로 추출해 주세요.",
                },
                {
                    "type": "image_url",
                    "image_url": {"url": image_url},
                },
            ],
        }
    ],
    temperature=0.0, # 0.0 권장
)

# 결과 출력
print(response.choices[0].message.content)

모델 정보

모델 제공자

EliceAI

모델 종류

Image Text To Text

사용 방식 및 요금

Serverless

Dedicated

인스턴스 사용 시간

모델 ID

eliceai/helpy-table-vision

AI로 미래를 바꾸는 당신의 여정, 엘리스클라우드가 함께 합니다.

무료로 시작하기 도입문의