역사 문헌 디지털화 사업 덕분에 수많은 문서가 온라인에 올라왔습니다. 사진 속 글자는 컴퓨터가 텍스트로 인식하지 못합니다. 키워드 검색도, 데이터 분석도 할 수 없습니다. 이런 문서는 OCR(광학 문자 인식, 이미지 속 글자를 컴퓨터가 읽을 수 있는 텍스트로 변환하는 기술)을 적용해야 비로소 텍스트가 되고, 그때부터 검색과 데이터 분석, 연구 활용이 가능해집니다.
문제는 20세기 초 한국어 문서에 일반적인 OCR 모델을 적용하면 정확도가 크게 떨어진다는 점입니다. 이 시대의 문서는 지금 우리가 사용하는 한국어, 그리고 현대 인쇄 방식과 근본적으로 달라서 범용 AI 모델이 전제하는 조건에 맞지 않습니다. 엘리스는 외부 기관의 의뢰를 받아 이 과제를 해결할 역사 문서 전용 OCR 모델 개발 프로젝트를 수행했습니다.
AI가 100년 전 옛한글을 해독하기 어려운 세 가지 이유
| 작업용 고문서 샘플 1 | 작업용 고문서 샘플 2 |
|---|---|
![]() | ![]() |
첫째, 한 페이지 안에 여러 문자가 섞여 있습니다. 한국어, 일본어, 한자가 하나의 지면에 동시에 등장합니다.
둘째, 글을 읽는 방향이 일정하지 않습니다. 가로쓰기, 세로쓰기, 오른쪽에서 왼쪽으로 읽는 방식이 한 문서 안에 함께 나타나기도 합니다.
셋째, 문서 형태가 매우 다양합니다. 학술 논문, 손으로 쓴 원고, 시, 광고, 표 형식 자료 등이 각기 다른 레이아웃으로 존재합니다.
현대 언어와 표준 인쇄 방식을 기준으로 학습된 범용 모델은 이 세 가지가 복합적으로 작용할 때 안정적인 성능을 유지하기 어렵습니다. 여기에 한 가지 문제가 더 있습니다. 이 시대 문서에 정확한 정답 데이터를 만들려면 당시의 언어 관습과 문자 혼용 방식을 아는 전문가가 반드시 필요합니다.
문학 연구자와 함께 만든 고문서 학습 데이터
엘리스 연구팀은 이 과제를 'AI 기술의 문제'이면서 동시에 '데이터 전문성의 문제'로 접근했습니다. AI 모델의 성능은 결국 학습 데이터의 품질에 달려 있고, 이 분야에서 데이터 품질은 곧 전문가의 개입 수준이기 때문입니다.
프로젝트 초기부터 문학 연구자들이 핵심 협력 주체로 참여했습니다. 학습 데이터는 주로 20세기 초 국내 언어학 저널을 중심으로 공개 디지털 아카이브에서 수집했고, 연구자들이 직접 이미지 속 텍스트를 읽고 정답 데이터를 작성했습니다.
이 작업은 단순한 타이핑이 아니었습니다. 여러 문자가 섞인 텍스트에서 각 글자의 언어적 맥락을 구분하고 다방향 인쇄물에서 올바른 읽기 순서를 결정하며 시대 특유의 표기 방식을 판단해야 했습니다. 해당 시기의 언어와 문헌에 대한 깊이 이해하지 않고서는 수행할 수 없는 작업이었고, 이 데이터의 품질이 이후 모델 성능의 핵심 기반이 되었습니다.
AI가 이미지를 '잘 읽고 있는지' 측정하는 기준부터 직접 제작
다음 단계로는 이렇게 전문가와 구축한 데이터로 비전-언어 모델(이미지와 텍스트를 동시에 이해하는 AI 모델)을 특정 목적에 맞게 추가 학습시키는 파인튜닝을 진행했습니다.
학습 과정에서 핵심 과제 중 하나는 '모델이 얼마나 잘하고 있는지 측정하는 기준'을 만드는 일이었습니다. 일반적인 정확도 지표만으로는 이 데이터에서 자주 발생하는 오류, 예를 들어 같은 글자를 끝없이 반복 출력하거나 단어를 잘못된 위치에서 끊는 문제를 조기에 발견하기 어렵습니다. 연구팀은 정답 텍스트와 모델 출력 사이의 차이를 글자 단위로 정밀하게 측정하는 편집 거리(Edit Distance) 기반의 평가 지표를 직접 설계했습니다.
이 지표 덕분에 학습 중 반복적으로 나타나는 실패 패턴을 빠르게 식별하여 학습 데이터와 학습 전략을 함께 개선하는 반복 작업이 가능해졌습니다. 단순히 모델 설정값을 조정하는 데 그치지 않고 데이터 품질과 방법론을 동시에 발전시키는 방식으로 모델의 완성도를 높였습니다.
작은 모델이 50배 이상의 거대 AI를 이긴 정확도
| 모델 | 파라미터 규모 | 정확도 |
|---|---|---|
| Elice 맞춤형 커스텀 모델 (8B) | 80억 | 0.8374 |
| Elice 맞춤형 커스텀 모델 (4B) | 40억 | 0.8095 |
| Qwen3.5-397B-A17B (범용) | 3,970억 | 0.7104 |
| GPT-5.2(범용) | 비공개 | 0.542 |
| Qwen3-VL-8B (파인튜닝 전) | 80억 | 0.276 |
▲ 평가 지표: 1 - 편집거리/레이블 길이 (범위 0~1, 1에 가까울수록 정확함)
엘리스가 파인튜닝한 모델은 정확도 0.8374를 기록했습니다. 파인튜닝 전에는 0.276이었으니, 같은 모델에서 약 3배 가량 성능이 오른 것입니다.
눈여겨볼 부분은 모델 크기입니다. 엘리스 모델의 파라미터(모델 규모를 나타내는 수치)는 80억 개입니다. Qwen3.5-397B는 이보다 50배 큰 3,970억 개지만 정확도는 0.7104에 그쳤습니다. GPT-5.2도 0.542로 엘리스 모델에 미치지 못했습니다.
실제 결과물에서도 차이가 뚜렷했습니다. Qwen3.5-397B는 같은 글자를 끝없이 반복하는 오류가 나타났고, GPT-5.2는 제목과 본문 순서를 뒤바꿔 읽었습니다. 엘리스 모델은 제목·저자·본문을 올바른 순서로 처리했고, 한국어·한자·일본어가 섞인 표기도 정확히 인식했습니다.
동일한 옛한글 문서를 각 모델이 인식한 실제 출력 결과
| 원본 문서 | GPT-5 전환 결과 | Elice 파인튜닝 버전 |
|---|---|---|
![]() | (…) 아ᄐᆞᆯ 이는 先은 北辰汗이오 南朝의 句奴가 支那의 送次 句奴와 支那의 送次 侵ᄋᆞᆯᄇᆞᆯᄃᆡ라 北辰汗의 名籍을 開하야 月成의 此方으로 隔離한 地에 漢代帝王들의 外固의 精靈이라 ᄒᆞᆫ 名稱이라 하고 遞朝頭에서 ᄂᆞᆯ아 드ᄅᆞᆫ 朝鮮이라ᄒᆞ는 ᄀᆞᆯ이 朝鮮이ᄅᆞᆯ ᄆᆞᆯᄒᆞ고 朝鮮ᄋᆞᆯ ᄆᆞᆯᄒᆞᆫ ᄀᆞᆯ이라 하ᄂᆞᆫ 名稱이라 ᄒᆞᆫ ᄀᆞᆯ이나 ᄃᆞᆯᄋᆞᆫ ᄀᆞᆯ로 ᄒᆞᆫ다 한ᄃᆡ 國號ᄅᆞᆯ 西字로 새로 國號로 쓰게되니 東音字로 展開어ᄂᆞᆫ 程度ᄁᆞᆯ지 (…) | (…) 三、「말로선」의國號를改號하야 吏讀字로「馬韓」이라하야쓰니 이는「신」「볼」兩朝鮮이 匈奴와支那의迭次侵略을바다 北方風雲이繁急한에 말朝鮮王이란亂을厭하야 드듸여南方으로隔遠한 月皮國의地方으로 遷都하는同時에 모든侵略主義를가진 歷代帝王들의鈕頭에서 빛나는「朝鮮이란名詞는 外國人이猜惡하는바라고하야 드듸여「말朝鮮」이라는 名稱을바리고舊日에「王號로쓰든「말한」을國號로쓰게되니 吏讀字로「馬韓」이라고쓰고 韓可라고쓰게되얏다 (…) |
▲ 같은 원본을 변환한 결과. GPT-5는 같은 글자를 반복 출력하는 오류가 나타난 반면 엘리스 모델은 한자, 한글 혼용 표기를 정확한 문장으로 인식합니다.(두 출력은 줄 구분 방식이 달라 줄이 1:1로 대응하지 않음)
수작업 전사에서 자동 인식으로 연구 방식 전환
높은 정확도의 역사 문서 OCR 모델은 연구 기관의 업무 방식을 바꾸었습니다. 기존에는 이미지 형태의 문서를 활용하려면 연구자가 직접 눈으로 읽고 손으로 타이핑하는 수작업 전사를 거쳐야 했습니다. 전문 인력과 상당한 시간이 필요한 작업이었고, 연구의 본질인 분석과 해석에 집중하기 어려운 환경이었습니다.
자동화된 OCR 모델은 이 반복 작업을 대신합니다. 연구자는 텍스트 추출이 아닌 내용 해석에 시간을 쓰고, 더 많은 문헌을 더 빠르게 디지털 텍스트로 전환해 활용하는 기반을 마련할 수 있습니다.
비정형 문서를 구조화 데이터로 바꾸는 AI, 헬피 비전 모델
이번 역사 문서 OCR 프로젝트에서 활용된 비전-언어 모델 기술은 엘리스의 AI 문서 분석 솔루션 'Helpy Vision(헬피 비전)' 2종에도 적용되어 있습니다.
![[고객사례] 현대-2 1 (1).png](/_next/image?url=https%3A%2F%2Fcdn-cms.elice.io%2Felice-strapi%2F2_1_1_20c2ab1a55.png%3Fsp%3Dracwd%26st%3D2022-07-11T09%253A43%253A29Z%26se%3D2032-07-11T17%253A43%253A29Z%26spr%3Dhttps%26sv%3D2021-06-08%26sr%3Dc%26sig%3DXE8S5Wrx%252F6RCT1tL2PGNsACU1NvYYJAo7lDuH65zn1A%253D%26width%3D2000%26height%3D1125&w=3840&q=75)
▲ 엘리스 Helpy Vision Model 2종
기업이 다루는 문서 대부분은 표, 차트, 수식, 이미지가 섞인 비정형 형태입니다. 기존 OCR은 텍스트 추출에 집중하는 구조라, 표의 행·열 관계나 수식의 구조처럼 '형태가 곧 의미'인 요소는 제대로 처리하지 못합니다. 예를 들어 재무 보고서의 표를 기존 OCR로 처리하면 행·열 구조는 사라지고 숫자만 나열된 결과물이 됩니다.
헬피 비전 모델은 이 문제를 해결합니다. Helpy Document Vision(헬피 도큐먼트 비전)은 PDF, PPT, 이미지 등 다양한 형식의 문서 전체를 분석해, 단락·표·수식·이미지를 각각의 특성에 맞는 구조화 데이터로 변환합니다. Helpy Table Vision(헬피 테이블 비전)은 셀 병합, 다중 헤더, 불규칙 레이아웃 등 기존 OCR이 처리하기 어려운 복잡한 표를 정확한 구조로 변환합니다. 동일 작업 기준 평균 9.8초의 처리 속도를 기록하며 기존 상용 솔루션 평균 33.6초 대비 약 3.4배 빠른 속도를 자랑합니다.
이번 프로젝트에서 확인한 것처럼 엘리스의 비전-언어 모델 기술은 역사 문헌부터 기업 실무 문서까지 다양한 영역에 적용되고 있습니다. 비정형 문서를 AI가 활용할 수 있는 데이터로 바꾸고 싶다면 엘리스 AI팀에 문의해 보세요.





