
Helpy Table Vision은 복잡한 표 구조를 시각적으로 인식하여 고품질의 HTML 코드로 변환하는 데 특화된 표 추출 전용 시각-언어 모델(VLM)입니다.
이 모델은 OpenAI 호환 Chat Completions API와 원활하게 연동되도록 설계되었으며, 단순한 표뿐만 아니라 병합된 셀, 다중 행 헤더, 불규칙한 레이아웃 등 기존 OCR 기술로 처리하기 어려운 복잡한 형태의 표도 빠르고 정확하게 파싱합니다.
eliceai/helpy-table-visionrowspan 및 colspan 속성을 완벽하게 활용하여 원본의 구조적 무결성을 유지합니다.Input | Output (rendered) |
|---|---|
|
|
Helpy Table Vision은 OpenAI 클라이언트 라이브러리를 통해 호출할 수 있습니다.
[POST] /v1/chat/completionseliceai/helpy-table-vision메시지 내에 이미지 콘텐츠와 함께 원하는 추출 형식을 설명하는 자연어 지시사항을 입력할 수 있습니다.
모델의 성능을 극대화하기 위해 다음과 같은 프롬프트 패턴을 권장합니다.
모델은 기본적으로 rowspan과 colspan을 포함한 HTML 출력에 가장 최적화되어 있습니다. 가장 높은 구조적 정확도를 위해 아래와 같이 요청하세요.
"이 이미지의 표를 HTML 형식으로 추출해 주세요. 병합된 모든 셀과 헤더가 row 및 column span을 사용하여 정확하게 표현되도록 하세요."
JSON이나 Markdown 출력도 지원하지만, 복잡한 병합 셀 구조 표현에는 HTML보다 한계가 있을 수 있습니다.
JSON: "모든 표를 감지하고 구조화된 JSON으로 반환해 주세요." Markdown: "모든 표를 GitHub-flavored Markdown 표로 추출해 주세요."
from openai import OpenAI
# 클라이언트 초기화
client = OpenAI(
base_url="YOUR_ENDPOINT_URL", # 사용자의 엔드포인트 주소
api_key="YOUR_API_KEY", # 사용자의 API KEY
)
image_url = "https://example.com/table_image.png"
# API 호출
response = client.chat.completions.create(
model="eliceai/helpy-table-vision",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
# HTML 형식이 가장 정확도가 높습니다.
"text": "이 이미지에 있는 모든 표를 HTML로 추출해 주세요.",
},
{
"type": "image_url",
"image_url": {"url": image_url},
},
],
}
],
temperature=0.0, # 0.0 권장
)
# 결과 출력
print(response.choices[0].message.content)모델 제공자
EliceAI
모델 종류
Image Text To Text
사용 방식 및 요금
Serverless
Dedicated
인스턴스 사용 시간
모델 ID
eliceai/helpy-table-vision