Hide for Today

AI연구 고민은 GPU 충전으로 해결

(5/31 마감) 클라우드 충전하면 15% 크레딧 제공 중

Elice logo

[벤치마크 리포트] 한국어 대응력을 높이다 – 엘리스 LLama3.1 8B 파인튜닝 케이스

Elice

2025. 4. 8.

오픈소스 LLM을 써보셨다면 한 번쯤은 한국어로 질문했는데, 답변의 일부가 다른 언어로 돌아오는 경험해보신 적이 있으실겁니다.
원하는 언어로 답변을 받지 못하면 두 번 일하게 되나 아무래도 불편해지는 순간이죠.

이러한 문제를 해결하기 위해 엘리스가 오픈소스 모델인 LLama3.1 8B Instruct를 한국어 환경에 맞게 파인튜닝한 과정과 결과를 공유하고자 합니다.

언어 혼용 문제, 작지만 치명적인 UX 이슈

LLM은 대부분 영어 중심으로 학습되다 보니 다른 언어로 질문했을 때 일관된 출력을 유지하지 못하는 경우가 있습니다.
특히 파라미터 수가 적은 모델일수록 언어 처리가 불안정해지는 경향이 있는데요, 이번 벤치마크에서 사용한 LLama3.1-8B-Instruct 모델 역시 예외는 아니었습니다.

문제 정의

1,000개의 한국어 쿼리로 테스트해본 결과, 약 27%가 영어, 중국어, 베트남어 등 다른 언어가 섞인 형태로 답변했습니다.
사용자 입장에서 이런 응답은 꽤 혼란스럽고, 특히나 한국어로 된 정확한 답변을 원했던 유저에게는 해당 모델에 대한 신뢰도 자체가 떨어질 수 있습니다.

해결 전략 – 데이터와 학습률의 균형 맞추기

이 문제를 해결하기 위해, 우리는 파인튜닝 전략을 다음 두 가지 방향으로 설계했습니다.

1. 데이터 비율 설계

  • 80% 한국어 instruct 데이터 → 지시어 이해력 및 문맥 표현 능력
  • 20%:영어 및 기타 언어 데이터 → 기존 멀티링구얼 성능을 유지하기 위함
    단일 언어만 학습시킬 경우 기존 능력을 잃는 Catastrophic Forgetting(망각 현상) 문제가 생길 수 있어 데이터 자체의 균형을 맞추는데 신경썼습니다.

2. 학습 설정 최적화

  • Learning rate를 1e-7 수준으로 낮게 설정 → 기존 모델 구조와 표현 능력을 최대한 보존
  • 다양한 언어·태스크 데이터 유지 → 코드 생성, 영어 질의 등 범용 태스크에 대한 성능도 함께 유지

구현은 Huggingface + 엘리스클라우드 기반으로

모델 파인튜닝은 Huggingface Transformers 라이브러리를 기반으로 구현하였고, 엘리스클라우드 온디맨드 A100 GPU를 활용했습니다.

💡 팁: 엘리스클라우드는 현재 20시간 무료 크레딧(A100 기준, 5만 원)을 제공하고 있어 동일한 환경에서 직접 실험을 재현해볼 수 있습니다.

결과: 언어 혼용 27% → 1%미만으로 출력 품질 향상

파인튜닝 후 재검증을 위해 동일한 1,000개의 한국어 쿼리로 테스트를 반복해보니 아래와 같은 결과를 확인할 수 있었습니다.

  • 언어 혼용률: 27% → 1%미만
  • MMLU, HumanEval, MBPP, GSM-8K 등 주요 벤치마크 점수: 기존과 거의 동일 (실사용상 차이 없음)

또한 정성적으로는 다음과 같은 부분까지 개선된 것을 확인할 수 있었죠.

  • 응답이 더 간결하고 명확해짐
  • 핵심 정보 위주로 구성
  • 불필요한 배경 설명 사라짐
  • 전반적인 응답 흐름 개선

실제 응답 비교

말로 설명하는 것보다 직접 보여드리는게 빠르겠죠.

동일한 질문에 대해 기존 LLama3.1-8B 모델과 엘리스가 파인튜닝한 모델 버전의 응답을 보여 드리겠습니다.
표 이미지.webp

주요 차이점 요약

  • 원본 모델은 어원, 역사, 문화 요소가 뒤섞여 흐름이 산만함
  • 파인튜닝 모델은 질문에 맞는 핵심 정보만 간결하게 정리
  • 언어 혼용 없이 일관된 한국어로 출력됨

이처럼 파인튜닝을 통해 단순히 언어 문제를 해결한 것이 아니라 질문에 더 정확하고 핵심적인 답을 제공하는 능력까지 향상된 결과라고 볼 수 있습니다.

정리하며

이번 실험을 통해 얻은 가장 큰 인사이트는 다음과 같습니다.

  • 한국어 성능 향상은 단순히 한국어 데이터를 많이 넣는다고 해결되지 않는다.
  • 균형 잡힌 데이터 구성과 보존 중심의 파인튜닝 전략이 핵심이다.
  • 언어 혼용 문제를 해결하면서도 응답의 질까지 개선할 수 있다.

또한 이 실험은 단순한 개선 작업이 아니라 “모델이 사용자 언어를 얼마나 정확하게 이해하고 반응하느냐”는 근본적인 질문에 대한 하나의 접근 방식이기도 했습니다.
혹시 비슷한 고민을 하고 계신 분들이 있다면 이번 경험이 작게나마 참고가 될 수 있기를 바랍니다.


더 다양한 벤치마크 결과나 실험 사례가 궁금하다면 엘리스 테크블로그에서 확인해보세요!

  • #벤치마크
  • # llama3.1
  • #엘리스 모델 라이브러리