비정형 문서를 구조화 데이터로 변환하는 AI 솔루션, Helpy Vision Model(헬피 비전 모델) 2종 소개

Elice

2026. 4. 6.

기업 내 문서의 상당수는 표, 차트, 수식, 이미지가 섞인 비정형 형태로 존재합니다.

AI가 이런 문서를 제대로 활용하려면 기계가 읽을 수 있는 형태로 먼저 정리되어 있어야 합니다. 그런데 기존 OCR(광학 문자 인식, Optical Character Recognition) 기술은 문서에서 텍스트를 추출하는 데 집중하는 구조라 표나 수식처럼 관계와 형태가 중요한 요소는 글자로만 인식하거나 레이아웃을 무시한 채 단순한 텍스트로 출력합니다. 예를 들어 재무 보고서의 표를 기존 OCR로 처리하면, 행·열 구조는 사라진 채 숫자와 텍스트만 나열된 형태가 됩니다. 이 상태의 데이터를 AI 시스템에 연결하면, AI가 문서의 맥락을 온전히 파악하기 어렵고 답변 정확도에도 영향을 줍니다.

이러한 문제를 해결하기 위해 엘리스그룹은 AI 문서 분석 솔루션 'Helpy Vision(헬피 비전)' 2종을 공개했습니다.

헬피 비전 모델은 비정형 문서를 AI가 이해할 수 있는 구조화 데이터로 변환하는 Document AI 기술입니다. 동일한 작업 기준 평균 9.8초의 처리 속도를 기록하며, 기존 상용 솔루션 평균 33.6초 대비 약 3.4배 빠른 처리 성능을 보였습니다. (출처: 엘리스 뉴스룸)

[고객사례] 현대-2 1.png

Helpy Document Vision과 Helpy Table Vision: AI 문서 구조화 모델 소개

두 모델은 서로 다른 영역을 담당합니다.

Helpy Document Vision(헬피 도큐먼트 비전) 은 비정형 문서 전체를 AI가 이해할 수 있는 구조화된 데이터로 변환하는 문서 파싱(Document Parsing) 모델입니다. 사람이 문서를 읽으며 표·수식·이미지를 구분하듯, AI가 문서 구조를 자동으로 분석해 각 요소를 분류합니다.

PDF, PPT, PPTX, PNG, JPEG 등 다양한 형식을 지원하며 문서 내 단락·표·차트·수식·이미지를 자동으로 식별해 각각에 맞는 형태로 변환합니다. 특히 AI가 문서를 정확히 참조할 수 있도록 설계되어 RAG 시스템이나 AI 에이전트 데이터 파이프라인에 바로 연결할 수 있습니다.

RAG란? AI가 답변을 생성할 때, 사전에 정리된 문서 데이터를 검색해 참조하도록 하는 방식입니다. AI 챗봇이 회사 내부 문서를 기반으로 정확한 답변을 제공하는 데 활용됩니다.

Helpy Table Vision(헬피 테이블 비전) 은 복잡한 표 구조에 특화된 표 추출 전용 시각-언어 모델(VLM, Vision Language Model)입니다. 병합된 셀, 다중 행 헤더, 불규칙한 레이아웃처럼 기존 OCR이 처리하기 어려운 표도 빠르고 정확하게 HTML로 변환합니다. 또한 OpenAI API 규격과 호환되도록 설계되어 기존 AI 시스템을 크게 수정하지 않고도 쉽게 도입할 수 있습니다.

구분	Helpy Document Vision	Helpy Table Vision
역할	문서 전체 구조 분석	표 전문 추출
입력 형식	PDF, PPT, PPTX, PNG, JPEG, JPG	이미지(스캔·스크린샷 등)
출력 형식	계층적 구조의 JSON	HTML, Markdown, CSV, JSON
주요 강점	레이아웃 분석 + 병렬 OCR	복잡한 셀 구조(rowspan/colspan) 완벽 지원
API 규격	multipart/form-data (비동기)	OpenAI 호환 Chat Completions

👉 Helpy Document Vision 모델 라이브러리 바로가기

👉 Helpy Table Vision 모델 라이브러리 바로가기

각 모델이 변환하는 데이터 유형

Helpy Document Vision: 문서 요소별 최적 포맷으로 출력

Helpy Document Vision은 단순한 텍스트 전사를 넘어 문서의 구조와 의미를 함께 분석합니다. 각 요소의 특성에 맞춰 가장 적합한 형태로 데이터를 변환합니다.

표·차트 → 구조화된 HTML 코드 (행·열 관계가 유지된 형태)
수학 공식 → LaTeX 문법 (수식을 디지털 문서에서 표준적으로 표현하는 형식)
이미지 → AI가 생성한 시맨틱 설명 텍스트 (이미지의 내용을 언어로 풀어쓴 설명)
복잡한 레이아웃 → 수백 행 엑셀·특수 도메인 문서까지 처리
위치 정보 → 모든 요소의 페이지 내 좌표와 유형 정보 제공

출력 결과는 JSON 형식으로 제공됩니다. JSON은 컴퓨터가 데이터를 읽고 처리하기 쉬운 구조화된 텍스트 형식으로, 다양한 AI 시스템과 쉽게 연동할 수 있습니다. 각 요소에는 유형(label), 텍스트 내용(content), 표·수식 변환값(data), 이미지 설명(description) 정보가 포함됩니다.

▲ Helpy Document Vision 출력 결과 샘플

Helpy Table Vision: 복잡한 표도 구조 그대로 변환

Helpy Table Vision은 복잡한 표 구조를 정확한 HTML 마크업으로 변환하도록 설계된 표 추출 모델입니다. 특히 셀 병합이 포함된 표를 처리할 때 강점이 있습니다. 여러 행이나 열에 걸쳐 합쳐진 셀(rowspan·colspan)까지 원본 구조를 유지하며 변환합니다. 기존 OCR은 이러한 구조를 단순한 텍스트로 평탄화해 표의 맥락이 사라지는 경우가 많았습니다.

다중 계층 헤더, 병합 셀, 불규칙 구조까지 높은 인식률
HTML 외에 Markdown, CSV, JSON 형식 지원
대화형 서비스와 대량 배치 작업 모두에 적합한 저지연 추론

원본 문서	Helpy Table Vision 반영 버전

Helpy Vision Model, 어떤 업무 영역에서 활용할 수 있나요?

금융·법률 문서 자동화 PDF 재무 보고서, 송장, 계약서 내 복잡한 데이터 표를 자동으로 추출합니다. 담당자가 직접 처리하던 반복적인 데이터 입력 작업을 줄일 수 있습니다.
RAG·AI 에이전트 데이터 전처리 LLM이 문서를 이해할 수 있는 구조화 데이터를 제공해 AI 시스템의 답변 정확도를 높입니다.
디지털 아카이빙 스캔된 고문서나 종이로 된 역사 문서를 분석해 웹 렌더링 가능한 HTML 구조로 변환할 수 있습니다.
제조·연구 문서 처리 복잡한 수식이 포함된 기술 문서, 실험 보고서를 LaTeX 코드와 구조화 데이터로 변환합니다. 예를 들어 자동차 충돌 시험 이미지 분석처럼 대규모 시각 데이터를 빠르게 검색하고 분류해야 하는 업무에도 활용할 수 있습니다. 실제로 엘리스는 현대자동차그룹과 함께 충돌 시험 이미지 검색·분류 시스템을 구축한 사례도 있습니다.

👉 현대자동차 충돌 시험 이미지 검색 사례 보기

엘리스클라우드에서 헬피 비전 모델 도입하기

두 모델 모두 엘리스클라우드 ML API를 통해 전용(Dedicated) 방식으로 제공됩니다. 전용 환경은 다른 고객과 자원을 공유하지 않고 해당 기업만을 위한 독립적인 인프라에서 모델을 운영하는 방식입니다. 금융, 의료, 공공기관처럼 보안이 중요한 환경에 적합합니다.

엘리스클라우드는 자체 GPU 기반 프라이빗 인프라를 바탕으로 AI 인프라 구축부터 모델 개발, 서비스 운영까지 전 과정을 자체 기술로 지원합니다. 또한 사내 데이터와 학습 인프라를 결합해 금융·의료·법률 등 도메인 특화 문서에 맞춘 빠른 모델 최적화도 지원합니다.

이번에 활용된 시각-언어 모델(VLM) 기술은 향후 시각-언어-행동 모델(VLA)로 발전할 예정입니다. 이는 AI가 매뉴얼이나 도면을 이해하고 로봇이나 장비를 제어하는 피지컬 AI 분야로 확장되는 방향입니다.

비정형 문서를 AI가 활용할 수 있는 데이터로 변환하고 싶다면 헬피 비전 모델에서 시작해 보세요.

FAQ

Q. Helpy Document Vision과 Helpy Table Vision을 함께 사용해야 하나요?

용도에 따라 선택할 수 있습니다. 표만 정밀하게 추출하려면 Helpy Table Vision을, 문서 전체 구조 분석이나 RAG 데이터 구축이 필요하다면 Helpy Document Vision을 사용하세요. Helpy Document Vision은 Helpy Table Vision을 내장하고 있어, 문서 내 테이블을 감지하면 자동으로 실행합니다.

Q. 표가 없는 일반 텍스트 문서도 분석할 수 있나요?

Helpy Document Vision은 단락·이미지·수식 등 모든 문서 요소를 처리합니다. Helpy Table Vision은 표 추출 전용 모델로, 표가 포함되지 않은 이미지에서는 성능을 보장하기 어렵습니다.

Q. 도메인 맞춤 학습(파인튜닝)이 가능한가요?

가능합니다. 헬피 테이블 비전은 수백 건 수준의 데이터 학습만으로도 고문서나 특수 도메인 문서를 정확히 분석합니다. 도입 전 엘리스 팀과 최적화 방향을 논의할 수 있습니다.

Q. 기존 OpenAI 기반 서비스에 바로 연동할 수 있나요?

Helpy Table Vision은 OpenAI 호환 API 규격을 따르므로, 기존 코드를 거의 수정하지 않고 교체할 수 있습니다. OpenAI 클라이언트 라이브러리를 그대로 사용할 수 있습니다.

Q. 처리할 수 있는 문서 용량에 제한이 있나요?

수백 행에 달하는 대용량 엑셀 문서와 다수의 페이지로 구성된 PDF도 처리합니다. 수십만 건 이상의 대용량 문서 처리가 필요하신 경우, 도입 문의를 통해 확인하실 수 있습니다.

#헬피 비전 모델

비정형 문서를 AI가 활용할 수 있는 데이터로 바꾸고 싶다면

도입 문의하기