Elice logo
  • 고객 사례
LG AI연구원, 엔비디아 B200 128장 클러스터링 환경 내 모델 추론 성능 및 안정성 검증

LG AI연구원, 엔비디아 B200 128장 클러스터링 환경 내 모델 추론 성능 및 안정성 검증

Elice

2025. 11. 28.

엘리스클라우드는 대형 엔터프라이즈 고객이 실제 연구 환경 수준에서 인프라를 검증할 수 있도록 고성능 AI 인프라를 제공하고 있습니다. 그중에서도 B200 기반의 고성능 GPU 클러스터는 대형 모델 연구와 추론 작업에 최적화된 환경을 제공하며, 대규모 계산을 안정적으로 처리할 수 있도록 설계되어 있습니다.


독자 AI 파운데이션 모델 사업에 선정된 5개팀 중 하나인 LG AI연구원 역시 EXAONE 4.0 32B 모델을 포함한 글로벌 모델들을 이 환경에서 실행해 보고 엘리스클라우드가 연구 조직의 요구 수준을 충분히 충족하는지 확인하기 위해 이번 프로젝트를 진행했습니다. 단순한 벤치마크를 넘어 실제 연구 환경을 그대로 구성해보는 실험이었으며, 대규모 모델 운영 전반을 검증하는 데 의미가 있었습니다.

독자 AI 파운데이션 모델 NC AI의 엘리스클라우드 활용 B200 성능 검증 사례 살펴보기


검증 목적 및 접근 방식


엘리스클라우드는 LG AI연구원과 함께 차세대 모델 연구 환경에서 추론 성능과 운영 안정성을 면밀히 점검했습니다. 프로젝트의 핵심 목적은 엘리스클라우드가 대형 모델을 안정적으로 처리할 수 있는지, 그리고 향후 연구·서비스 환경으로 확장할 때 병목 없이 운영될 수 있는지를 확인하는 것이었습니다. 이를 위해 다양한 조건을 조합해 실제 연구 상황에 가장 근접한 환경을 구성했습니다. 시퀀스 길이가 긴 입력, 여러 precision 모드, 프레임워크 차이 등 다양한 변수를 포함해 테스트를 설계함으로써 플랫폼 전반의 신뢰성을 객관적으로 확인하고자 했습니다.


특히 연구용 인프라의 경우 모델 성능만으로 판단하기 어렵기 때문에, VM 생성과 재구성 흐름, 내부망·외부망 요청 처리, 디스크 I/O 안정성, 인피니밴드 설정 등 여러 운영 단계에서 예상될 수 있는 문제를 함께 점검했습니다. 대형 모델 연구 환경은 추론 속도나 Throughput뿐 아니라, 전체 운영 흐름이 얼마나 매끄럽게 구성되는가가 매우 중요하기 때문입니다.


글로벌 클라우드 OO사 H200 클러스터 vs 엘리스클라우드 B200 클러스터


프로젝트는 2025년 10월 2일부터 19일까지 약 3주간 진행되었습니다. 테스트는 NVIDIA B200 GPU 128장을 기반으로 했으며, 비교 기준은 H200 128장이었습니다. LG AI연구원은 vLLM과 SGLang 기반에서 EXAONE을 포함한 대표 LLM 모델들을 실행하며 성능과 동작 안정성을 함께 검증했습니다. B200 128장 규모는 연구 조직에서도 쉽게 사용하기 어려운 수준의 클러스터인데, 이런 규모에서 실제 모델을 구동해본 경험 자체가 엘리스클라우드 인프라의 운영 역량을 확인하는 데 중요한 기준이 되었습니다.


또한 모델별로 입력 길이와 출력 길이를 달리하며 다양한 조건에서 TTFT와 Throughput 변화를 분석했습니다. 이를 통해 단순히 특정 케이스에서만 빠른 것이 아니라, 실전에서 요구될 수 있는 다양한 입력 환경에서도 일관된 성능을 유지하는지를 확인했습니다. 대형 연구 환경에서 프로젝트의 신뢰도를 확보하려면, 무엇보다도 다양한 조건에서 안정적으로 운영되는지를 검증하는 과정이 필요합니다.


최대 2.5배까지 향상된 성능


테스트 결과 전반적으로 B200 환경은 H200 대비 약 1.5 ~ 2.5배 수준의 성능 향상을 보였습니다. EXAONE 4.0 32B(vLLM)의 경우 TTFT는 약 1.5에서 1.9배까지 빠르고, Throughput은 약 1.9 ~ 2.4배 높게 나타났습니다. 긴 시퀀스에서도 성능이 안정적으로 유지되며, 모델 규모가 커진 상황에도 일관된 처리 속도를 확보했습니다. LLM 모델 A(SGLang)에서는 TTFT 약 1.6배, Throughput 약 1.7배 수준의 차이가 확인되었습니다. LLM 모델 B(vLLM)에서는 Throughput이 2.5배 이상 향상되어 B200의 아키텍처가 추론 작업에 강점을 가지고 있음을 보여주었습니다.


추론 안정성 측면에서도 GPU 온도는 대부분 60도 이하로 유지되었으며, 발열로 인한 성능 저하나 중단 없이 테스트가 진행되었습니다. 이는 장시간 대형 모델을 운영해야 하는 연구 조직 입장에서 중요한 평가 요소입니다. 프레임워크별로도 안정성 차이가 크지 않아, 여러 운영 환경에서 공통적으로 활용 가능한 점도 의미가 있습니다.


테스트 결과 전반적으로 B200 환경은 H200 대비 약 1.5~2.5배 수준의 성능 향상을 보이고 있다.


연구용 인프라 운영 관점에서의 검증 결과


운영 환경에서는 네트워크, 디스크, VM 운영 흐름을 함께 점검했습니다. 대규모 데이터 업로드와 모델 실행 과정에서 필요한 수준의 네트워크 성능과 안정성을 확보했으며, 내부망 기준으로는 대량 요청 처리에도 큰 문제 없이 실험을 진행할 수 있었습니다. 외부망 연계 시 일부 요청이 끊기는 사례가 있었으나 이는 클라우드 사업자 간 환경 차이나 네트워크 경로 이슈 등 여러 요인이 섞여 있을 가능성이 있어 별도 분석이 필요한 영역으로 정리했습니다.


디스크 성능은 NVMe 기준으로 대형 모델 추론에 필요한 읽기·쓰기 속도를 충족했습니다. 인프라 환경 초기 세팅 과정에서는 컨테이너 환경 설정과 InfiniBand 네트워크 연동 시 일부 파라미터를 조정하는 절차가 있었지만, 본격적인 실험 이후에는 디스크 병목이나 네트워크 지연으로 인한 운영상 이슈는 크지 않았습니다. VM 재생성, 스토리지 및 네트워크 인터페이스 재할당, 콘솔 세션 시간 제한 등을 실제 운영 시 고려해야 할 개선 포인트로 정리했으며, 부팅 시간 역시 초기보다 단축되는 등 전반적인 운영 효율은 점진적으로 개선되었습니다.


엔터프라이즈급 연구 조직도 안정적으로 사용한 엘리스클라우드 B200 클러스터


이번 사례는 대형 모델 추론 성능을 확인하는 데 그치지 않고, 엘리스클라우드가 엔터프라이즈 연구 조직이 실전 환경에서 요구하는 규모와 조건을 충족할 수 있음을 증명했습니다. LG AI연구원과 진행한 실험을 통해 다양한 모델과 precision 모드, 프레임워크 환경에서 일관된 결과를 얻었으며, 긴 시퀀스 입력처럼 실제 업무에서 마주할 수 있는 상황에서도 성능이 안정적으로 유지되는 것을 확인했습니다.


특히 B200 128장 규모의 클러스터가 실제 대형 모델 실행 환경에서 안정적으로 동작했다는 점은 엘리스클라우드 인프라가 연구·서비스 운영을 위한 기반으로 충분하다는 것을 보여줍니다. 대형 엔터프라이즈 고객이 직접 검증했다는 점에서 인프라 신뢰도도 크게 강화되었습니다. 엘리스클라우드는 이번 프로젝트를 통해 대규모 모델 연구 환경을 운영할 수 있는 역량을 다시 한번 입증하였으며, 앞으로도 다양한 연구 조직과 산업 현장에 안정적인 고성능 AI 인프라를 제공할 계획입니다.

B200 연구 환경 전환이 필요하다면
전문 엔지니어와 상담하기

Related Posts

Reade more about NC AI의 엔비디아 B200 PoC | 독자 AI 파운데이션 기업의 컴퓨팅 인프라 검증

Cloud

NC AI의 엔비디아 B200 PoC | 독자 AI 파운데이션 기업의 컴퓨팅 인프라 검증