B200 GPU로 한국어 소형 파운데이션 모델 구축하기 ①

엘리스는 최근 아시아 최초로 수랭식 NVIDIA B200 클러스터를 도입하며 새로운 AI 인프라가 어떤 연구 가능성을 열어줄 수 있는지 직접 검증하고 있습니다.

이번 프로젝트는 그 첫 단계로 한국어와 영어에 모두 강한 소형 파운데이션 모델을 직접 학습하는 실험을 진행했습니다. 완성된 모델의 성능 경쟁보다는 국내에서 대규모 GPU 인프라를 활용해 LLM을 처음부터 학습하는 과정 자체에 집중했습니다. 그 과정에서 1조 토큰 규모의 이중언어 데이터셋을 구축하고, B200 15노드·120GPU 기반 멀티노드 학습 파이프라인을 성공적으로 검증할 수 있었습니다.

이번 글에서는 앞으로 한국어 LLM을 개발하고자 하는 연구자·엔지니어 분들께 조금이나마 도움이 될 수 있도록 해당 경험을 공유하고자 합니다.

데이터 구축: 한국어 중심의 1조 토큰 이중언어 데이터셋

파운데이션 모델 학습에서 가장 많은 시간과 비용이 투입되는 단계는 데이터 준비입니다. 특히 한국어는 공개적으로 이용할 수 있는 고품질 데이터가 영어에 비해 여전히 부족합니다. 이번 프로젝트에서는 한국어 데이터의 한계를 고려해, 가능한 최선의 품질을 확보하는 방향으로 데이터 설계를 진행했습니다.

우선, 공개된 영어 고품질 데이터와 국내외에서 공개된 한국어 데이터셋을 기반으로 말뭉치를 구성했습니다. 여기에 한국어 데이터 부족 문제를 해결하기 위해 대규모 번역 파이프라인을 구축하고, 영어 웹데이터 중 일부를 한국어로 번역해 추가했습니다. 번역에는 Qwen3-Next-80B 모델을 활용했으며, 총 약 190B 토큰의 번역 데이터를 확보했습니다.

또한 번역된 데이터와 공개 한국어 데이터에 대해서도 같은 LLM을 사용하여 품질 평가를 적용해 교육적 가치와 언어 품질이 낮다고 판단되는 데이터를 필터링했습니다. 이 과정을 통해 노이즈를 줄이고 보다 안정적인 학습 데이터를 확보했습니다.

최근 언어 모델이 언어 능력뿐 아니라 코드 생성과 수학적 추론까지 요구되는 점을 고려해 코드와 수학 데이터를 적절히 포함했습니다. 결과적으로 일상 언어부터 기술적 텍스트, 수학 및 코드까지 다양한 형식의 텍스트를 포함한 약 1조(1T) 토큰 규모의 이중언어 데이터셋을 구축했습니다.

사용한 데이터의 세부 구성은 아래과 같습니다.

데이터 구성 표

카테고리 및 비중	데이터/소스명	토큰 수	LLM 처리 여부	전처리 사용 모델
영어 웹 (83.7%)	fineweb-edu	900B	X	-
한국어 (12.2%)	fineweb-edu-translated korean-web-collection AI-Hub Modu Corpus HAERAE-HUB	85B 32B 6.8B 4.5B 2.5B	O (번역) X O (필터링) X O (필터링)	Qwen3-Next-80B-A3B-Instruct Qwen3-Next-80B-A3B-Instruct Qwen3-Next-80B-A3B-Instruct
수학 (2.3%)	OpenWebMath AlgebraicStack	12.6B 12.6B	X X	-
코드 (1.8%)	StackExchange	19.6B	X	-

데이터 구성

대규모 모델을 학습할 때 가장 핵심적인 자원은 데이터입니다. 특히 고품질 데이터를 얼마나 확보할 수 있는지가 초기 성능과 안정성을 결정합니다. 한국어는 특히 공개된 대용량 학습 데이터가 많지 않아서, 이번 프로젝트에서는 기존 공개 데이터에 더해 직접 번역·정제 파이프라인을 구성하는 방식으로 접근했습니다. 최근 연구 결과에 따라, 단순히 양을 채우는 방향으로 접근하기 보다는 고품질의 데이터를 수집하는 것을 목표했습니다.

이에 본래 목표했던 데이터 양인 2T 토큰을 시간 및 비용적 제한 상 모두 채우지는 못하였고, 최종적으로 영어·한국어 웹 텍스트 중심의 말뭉치에 수학·코드 데이터를 보강해 약 1T 토큰 규모의 데이터셋을 구축했습니다.

영어 공개 데이터

먼저 모델의 기본 언어 능력을 확보하기 위해 검증된 영어 데이터셋을 사용했습니다. Common Crawl 데이터셋을 학습 가치 기준으로 필터링한 fineweb-edu 데이터셋을 채택했습니다.

한국어 공개 데이터

한국어는 공개된 고품질 말뭉치가 상대적으로 부족하기 때문에 최대한 많은 출처에서 데이터를 조합하는 전략을 택했습니다. 국립국어원 모두의 말뭉치(신문·문어 등), AI-Hub(뉴스·웹 텍스트·행정 및 법률 문서 등), 커뮤니티 기반 데이터셋(HAERAE, korean-web-collection 등)을 활용해 다양한 형태의 텍스트를 모았습니다. 이 데이터들은 포맷이 제각각이고 품질 편차도 꽤 컸기 때문에, 먼저 수집한 뒤 모델 기반 품질 평가를 통해 정제하는 방식으로 접근했습니다.

이 과정을 통해 특정 도메인에 치우치지 않고 다양한 문체와 주제를 포함한 말뭉치를 구축할 수 있었습니다.

수학 및 코드 데이터

요즘 언어 모델은 단순히 자연어만 잘 다루는 것으로 충분하지 않습니다. 코드와 수학 문제를 다룰 수 있는 기초적인 추론 능력도 요구되기 때문에, 이번 실험에서는 이를 뒤로 미루지 않고 사전학습 단계부터 반영했습니다. 수학 데이터는 OpenWebMath와 AlgebraicStack을 사용했고, 코드 데이터는 StackExchange 기반 텍스트를 적용했습니다.

데이터 비율은 여러 실험을 반복하기보다는 이미 검증된 소형 모델 구성(smollm3, kanana 등)의 레시피를 참고하는 방향으로 설정했습니다. 여러 연구 결과에 따라 초기 실험 단계에서는 지나치게 많은 코드·수학 데이터를 넣는 것보다 언어 학습 안정성을 우선하게끔 진행하였습니다.

데이터 번역

한국어 데이터의 절대적인 양이 부족하다는 점은 처음부터 명확했습니다. 그래서 공개된 영어 데이터 중 품질이 높은 부분을 한국어로 번역해 학습에 포함하는 방식으로 접근했습니다. 고품질 학습 데이터셋을 위한 번역이 필요했기 때문에 Qwen3-Next-80B 모델을 사용했습니다.

번역을 위해 B200 클러스터 15노드에 sglang을 이용하여, Data parallel size = 4, Tensor parallel size = 2로 설정 후 모델을 배포하였습니다. 당시 B200에서 병렬 설정이 완전히 안정되기 전이었기 때문에, 각 노드 내 여러 LLM 서버를 직접 띄우고 외부 로드밸런서를 연결하는 방식으로 구성했습니다. 덕분에 단일 노드 기준 17K tokens/sec, 전체 200–300K tokens/sec 출력 속도를 얻었고, 약 190B 토큰 규모의 번역 데이터를 확보할 수 있었습니다.

이 과정에서 새로운 하드웨어를 도입했을 때 초기 설정이 생각보다 많은 변수를 만든다는 점을 체감했습니다. 다만 결과적으로 모델 추론 환경과 클러스터 운영 방식에 대한 경험을 빠르게 쌓을 수 있었고, 이후 실험에서 안정적인 추론 성능을 확보하는 데 도움이 되었습니다.

데이터 필터링

웹 기반 데이터는 양이 많다는 장점이 있지만 품질 편차가 매우 크기 때문에, 수집한 데이터를 그대로 사용하는 방식보다는 모델 기반 품질 평가를 통해 정제하는 접근이 필요합니다. fineweb-edu의 평가 프롬프트를 참고하여 한국어 특화 프롬프트를 작성하였고, 이를 이용하여 텍스트의 학습 가치 점수를 매긴 다음, 일정 기준 이하의 샘플은 제거했습니다.

다만 모든 데이터가 같은 기준으로 평가되는 것은 아니었습니다. 특히 뉴스 데이터처럼 문장이 정제되어 있으면서도 fineweb 기준의 교육적 가치 스코어에서 대부분이 낮게 평가되는 문제가 있었습니다. 이 부분은 원본 데이터 특성이 모델의 평가 기준과 맞지 않는 것으로 판단해, 뉴스 문서에 대해서는 이진 분류 방식(고품질/저품질)으로 기준을 바꾸어 다시 적용했습니다.

전처리

데이터 수집과 필터링이 끝난 후에는 NVIDIA NeMo 프레임워크에서 바로 사용할 수 있는 형식으로 전처리를 진행했습니다. 우선 텍스트를 JSONL 형태로 정리한 뒤, 이번 프로젝트에서 사용한 Midm-2.0 토크나이저로 토큰화를 수행했습니다. 이후 NeMo 학습 포맷에 맞게 .bin(텍스트 본문)과 .idx(인덱스) 파일로 변환해 전체 데이터셋 구성을 마무리했습니다.

이번 1편은 한국어 중심 사전학습을 위해 데이터셋을 수집·번역·정제·전처리하는 과정을 정리해보았습니다. 다음 편에서는 이렇게 준비된 데이터셋을 학습시킬 모델 구조와 이를 B200 멀티노드 환경에서 실제로 학습시키는 과정, 그리고 성능 평가 결과를 공유드리고자 합니다.

→ 다음편 이어보기