국산 LLM 6종 비교: 성능, 언어 이해, 코딩, 추론까지 - 엘리스 상세 벤치마크 결과 공개
엘리스
2025. 6. 20.
국산 LLM 6종 비교: 성능, 언어 이해, 코딩, 추론까지 - 엘리스 상세 벤치마크 결과 공개
최근 대한민국 AI 시장은 ‘거대 언어 모델(LLM)’의 춘추전국시대에 접어들었다고 해도 과언이 아닙니다. 다양한 기업들이 시장 점유를 위해 각기 다른 강점과 특성을 내세운 국산 모델을 연이어 출시하고 있지만, 실제 사용자나 개발자 입장에서는 어떤 모델이 어떤 작업에 적합한지를 객관적으로 판단하기가 쉽지 않습니다.
그렇다면, 사용자 입장에서 어떤 기준으로 우리 서비스와 기술 환경에 적합한 모델을 선택할 수 있을까요?
문제는 모델마다 사용하는 평가 방식과 데이터셋이 달라, 단순한 수치 비교만으로는 실질적인 성능 차이를 파악하기 어렵다는 점입니다. 이는 곧, AI 도입을 고민하는 기업과 개발자에게 중요한 정보가 부족한 채 결정을 내려야 하는 리스크로 이어질 수 있습니다.
이러한 정보 비대칭 문제를 해소하고, 국산 LLM의 성능을 공정하게 비교할 수 있는 기반을 마련하고자 엘리스가 국내에서 개발된 경량 LLM(sLLM) 6종을 동일한 기준으로 평가한 벤치마크 결과를 공개합니다.
벤치마크 구성 및 평가 기준
엘리스는 평가의 공정성과 재현성을 확보하기 위해 오픈소스 프레임워크 lm-evaluation-harness를 기반으로 테스트 환경을 구성했습니다. 벤치마크는 실제 AI 활용 맥락에 밀접한 4가지 영역에서 수행되었으며, 각 영역은 다음과 같은 항목으로 구성됩니다.
벤치마크 항목별 평가 기준
1. 한국어 능력 시험: KOBEST
- 무엇을 평가하나요?
한국어 문장을 읽고 문맥과 의미를 정확히 파악할 수 있는 능력을 측정합니다.
어휘, 문법, 의미 해석, 추론 등 종합적인 언어 이해력이 요구됩니다. - 쉽게 말해:
AI가 한국어 수능 시험을 치르는 셈입니다.
주어진 문장에서 숨은 의미를 추론하거나, 핵심 주제를 요약하는 등의 복합적 언어 처리 능력이 평가됩니다. - 왜 중요할까요?
이 항목의 점수가 높을수록, AI는 자연스러운 대화는 물론 요약, 번역, 분석 등 한국어 기반 작업에서 실질적인 효용성을 기대할 수 있습니다.
2. AI 코딩 면접: HumanEval+, MBPP
- 무엇을 평가하나요?
자연어로 주어진 요구사항이나 설명을 바탕으로, 실제로 작동하는 코드를 정확하게 작성할 수 있는지를 평가합니다. - 쉽게 말해:
“이런 프로그램 만들어줘”라는 개발자 면접 질문에 AI가 응답하는 상황입니다.
알고리즘 구현 능력(HumanEval), 기능 중심의 일반 프로그래밍 과제(MBPP)로 구성됩니다. - 왜 중요할까요?
이 점수가 높을수록 실제 업무에서 개발자 보조로 역할을 잘 수행할 수 있는 수준임을 의미합니다.
3. 초등 수학 경시대회: GSM8K
- 무엇을 평가하나요?
문장형 수학 문제를 단계적으로 추론해 풀 수 있는 논리적 사고 능력을 측정합니다. - 쉽게 말해:
AI가 초등 수학 경시대회에 참가해 문제를 푸는 상황입니다. 단순 계산을 넘어서, 문제의 흐름을 이해하고 순차적으로 사고해 정답을 도출해야 합니다. - 왜 중요할까요?
이 항목의 점수는 AI가 논리적 과제를 어떻게 처리하는지 보여주는 핵심 지표이며, 데이터 분석, 자동 보고서 생성, 수치 기반 의사결정 지원 등에 직접적인 연관이 있습니다.
4. ‘시키면 시키는 대로’ 능력 시험: IFEval
- 무엇을 평가하나요?
복잡한 지시사항을 정확하게 해석하고, 제약 조건까지 충실히 반영해 결과를 생성하는 능력을 측정합니다. - 쉽게 말해:
“시키면 시키는 대로 하는” AI 비서의 실력을 보는 시험입니다.
예를 들어 “A에 대한 시를 써줘. 단, ‘나’는 쓰지 말고, 문장은 모두 5단어로 구성해야 해” 같은 지시를 정확히 따를 수 있어야 합니다. - 왜 중요할까요?
이 점수가 높을수록 AI는 단순한 응답 생성이 아니라 조건 기반 콘텐츠 제작, 업무 자동화, 법률·금융 문서 작성 보조 등에서 활용 가능한 수준임을 뜻합니다.
벤치마크 평가 대상 모델
이번 평가에는 현재 시장에서 주목받고 있는 6개의 모델을 활용하였습니다.
성능 비교 결과 요약
주요 결과
1. Helpy Edu C – 교육 특화 모델의 정밀도 입증
Helpy Edu C는 HumanEval(0.872), MBPP(0.852), GSM8K(0.824) 등 코딩과 수학 추론에서 최고 점수를 기록했습니다. 이는 해당 모델이 교육·학습 보조에 최적화되어 설계되었으며, 특히 정답률 중심의 과제 해결 능력에서 강점을 보인다는 점을 시사합니다.
복잡한 연산이나 코드 생성, 순차적 문제 해결이 필요한 환경에서 높은 신뢰도를 기대할 수 있는 모델입니다.
2. EXAONE 3.5 7.8B – 범용성을 갖춘 실무형 LLM
EXAONE 3.5 7.8B는 모든 항목에서 상위권을 유지하며, 특정 과제에 치우치지 않고 균형 잡힌 성능을 보였습니다.
특히 IFEval(0.783)과 HumanEval(0.848), MBPP(0.802)에서 높은 점수를 보이며, 사용자 지시 이행 능력과 실제 개발 업무 보조 능력을 모두 갖춘 모델로 평가됩니다.
이러한 특성은 Exaone 7.8B가 복합적인 실무 태스크 환경에 적합하다는 것을 의미하며, 범용적 활용도가 필요한 서비스에 안정적으로 적용할 수 있습니다.
3. Trillion 7B preview – 한국어 이해에 강한 모델
Trillion 7B preview는 KOBEST(0.795) 항목에서 최고 점수를 기록하며, 한국어 기반 서비스에 요구되는 언어 뉘앙스 이해력과 문맥 처리 능력에서 높은 적합성을 보였습니다.
다른 모델 대비 코딩 성능은 다소 낮은 편이나, 사용자 질의에 자연스럽게 대응해야 하는 한국어 챗봇이나 문서 요약·분석 서비스 등에는 효율적인 선택지가 될 수 있습니다.
4. HyperCLOVA X-Seed – 모델 규모 확대에 따른 성능 향상
HyperCLOVA X-SEED 0.5B와 1.5B의 비교에서는, 모델 규모가 커짐에 따라 전반적인 성능이 향상되는 경향이 뚜렷하게 나타났습니다.
특히 코딩(MBPP: 0.439 → 0.579), 추론(GSM8K: 0.393 → 0.526) 영역에서 성능 차이가 눈에 띕니다.
이는 동일 아키텍처 내에서 파라미터 수가 모델 이해력과 문제 해결 능력에 실질적으로 영향을 준다는 점을 보여주며, 사양 선택 시 참고할 수 있는 중요한 근거가 됩니다.
결론
이번 벤치마크는 단순히 “어떤 모델이 더 뛰어난가”를 가리기 위한 것이 아닙니다.
엘리스는 국내에서 개발된 다양한 경량 LLM을 동일한 기준으로 평가함으로써, 모델 선택에 필요한 투명하고 객관적인 기준을 제공하고자 했습니다.
중요한 건 성능 수치 자체가 아니라, 우리 서비스에 가장 잘 맞는 모델이 무엇인지 판단할 수 있는 기준입니다.
모델마다 잘하는 일이 다르고, 사용 목적에 따라 최적의 선택은 달라질 수 있습니다.
엘리스는 그 선택을 위한 실질적인 비교 기준을 제공하고자 이 벤치마크를 기획했습니다.
직접 테스트해보세요: Elice ML API
이번 벤치마크에 포함된 대부분의 모델(Exaone 외 모두 이용 가능)은 Elice ML API를 통해 실제 환경에서 바로 사용해볼 수 있습니다.
단순한 수치만으로는 판단하기 어려운 모델의 성능 차이를, 직접 호출하고 테스트하면서 체감해볼 수 있도록 준비되어 있습니다.
왜 Elice ML API인가요?
✅ 100% OpenAI API 호환
기존 클라이언트 코드를 수정할 필요 없이 엔드포인트만 바꾸면 바로 사용 가능
✅ 최대 90% 저렴한 요금제
주요 상용 모델 대비 1/10 수준의 가격으로 운영 가능
✅ 기업 친화형 환경
국내 원화 결제 지원, SLA 기반 안정적 운영, 손쉬운 회계 처리
✅ 유연한 배포 옵션
서버리스(Serverless)부터 전용 인프라까지, 워크로드에 맞는 유연한 선택 가능
- 각 모델의 특장점이 궁금하다면
- 내 서비스에 어떤 모델이 잘 맞을지 직접 확인해보고 싶다면
가장 정확한 비교는, 실제로 써보는 것입니다.
- #엘리스 ML API
- #엘리스클라우드