Elice Brand Logo

고객 사례

현대오일뱅크 전사 AI 역량 강화 : 유가 데이터를 활용한 실습형 교육 과정

LXP

현대오일뱅크 전사 AI 역량 강화 : 유가 데이터를 활용한 실습형 교육 과정

정유·에너지 산업은 하루에도 수없이 많은 센서 데이터가 만들어지고, 그 데이터를 바탕으로 설비 운영과 공정 관리가 이루어집니다. 그러나 실제 현업에서는 IT 전문 인력이 아닌 일반 실무자들이 데이터를 다루는 경우가 많습니다. 따라서 데이터를 분석하고 이해하는 역량은 조직 전체의 경쟁력을 좌우하는 핵심 요소가 되고 있습니다.현대오일뱅크는 이러한 흐름을 빠르게 포착했습니다. 비전공자까지 포함한 전 직원이 데이터 기반 사고를 익히고 실제 데이터 분석 역량을 키울 수 있는 실습형 교육을 도입하기로 결정한 것입니다. 엘리스와 함께한 교육은 단순한 이론 교육이 아니라, 직접 코드를 작성하고 문제를 해결해 보는 과정 전체를 경험하게 하는 방식이었습니다.산업 데이터를 이해하기 위한 데이터 분석 기초 학습정유·에너지 산업은 이미지, 영상, 센서값처럼 형태가 다른 여러 데이터를 동시에 다루는 대표적인 산업입니다. 설비의 외관 변화는 이미지로 확인하고, 공정 안정성은 센서 데이터의 흐름을 분석해 판단해야 합니다. 이번 교육에서는 산업 환경에서 실제로 쓰이는 분석 방식을 구성원들이 자연스럽게 이해할 수 있도록 데이터 분석의 전체 흐름을 자연스럽게 경험할 수 있도록 구성했습니다.이런 실습이 가능했던 기반은 교육 실습 플랫폼 엘리스LXP와 엘리스클라우드 인프라였습니다. 고성능 GPU가 탑재된 실습 환경이 제공되었기 때문에 참여자들은 복잡한 딥러닝 모델도 제한 없이 실행해 보며 학습할 수 있었습니다.유가 데이터를 활용한 실습형 교육 과정교육 과정은 파이썬 기초부터 데이터 시각화, 기초 통계 분석, 그리고 실제 유가 데이터를 활용한 데이터 분석 프로젝트까지 단계적으로 구성되었습니다. 처음에는 생소했던 파이썬 문법을 변수, 자료형, 조건문, 반복문 등 핵심 개념 중심으로 익히며 비전공자도 무리 없이 따라올 수 있도록 설계했습니다.데이터 분석 단계에서는 주유소별 유가 데이터를 직접 전처리하고 시각화함으로써, “데이터가 어떻게 구조화되고 분석으로 이어지는지”를 익힐 수 있도록 구성했습니다. 이어지는 시각화 실습에서는 데이터의 변화를 다양한 그래프 형태로 표현하며, 시각화를 통해 어떤 인사이트를 얻을 수 있는지 자연스럽게 이해하도록 구성했습니다.▲ 엘리스LXP에서 이루어진 데이터 분석 및 시각화 실습통계 분석 구간에서는 t-test, ANOVA, 상관관계 분석 등 실무에서 자주 활용되는 기초 통계 기법을 학습해 변수 간 관계를 해석하는 감각을 익혔습니다.교육의 마지막은 실제 유가 데이터를 활용한 회귀 분석 프로젝트로 마무리되었습니다. 데이터 정리와 변수 후보 선정, 비교・분석 과정이 단계적으로 안내되었고, 주요 영향을 미치는 변수가 도출되면서 교육에서 다뤄진 내용이 실제 산업 문제 해결에 어떻게 적용되는지 확인할 수 있었습니다.비전공자도 막힘없이 학습할 수 있었던 비결, AI헬피챗실습형 교육에서는 작은 오류 하나도 학습 흐름을 크게 방해할 수 있습니다. 현대오일뱅크 교육에서는 이러한 장애물을 최소화하기 위해 엘리스의 생성형 AI 솔루션 AI헬피챗이 학습 전 과정에 활용되었습니다. 특히 AI헬피챗은 다양한 최신 AI 모델을 탑재하고 있어 참여자들이 문제의 유형에 맞는 답변을 즉각적으로 확인할 수 있다는 점이 큰 장점으로 작용했습니다.전문적인 정보 검색 역시 AI헬피챗이 담당했습니다. 참여자는 외부 자료를 일일이 찾아볼 필요 없이 필요한 정보를 확인하며 실습을 이어갈 수 있었습니다. 전문 지식이 없는 참여자들도 강의를 멈추거나 동료에게 도움을 요청하지 않고도 스스로 문제를 해결하며 실습 과정에서의 자기 주도성이 크게 향상되었습니다. 혼자 해결이 어려운 부분도 즉각적으로 안내받을 수 있어 교육 전반에 걸쳐 안정적인 학습 경험을 제공한 점이 높은 완주율로 이어졌습니다.▲ 실습 중 AI헬피챗을 사용해 코드 작성 도움을 받는 모습실습형 교육으로 구성원의 AI 실무 역량 향상교육을 마친 구성원들은 파이썬 기초 문법을 이해를 넘어 실제 데이터를 불러오고 정리하며 통계분적으로 분석・시각화하는 역량을 갖추게 되었습니다. 유가 데이터를 활용한 데이터 분석 프로젝트까지 완수한 경험은 데이터 기반 의사결정 방식이 현업과 어떻게 연결되는지 직접 체감하도록 만드는 중요한 계기가 되었습니다.AI와 데이터 기술은 이제 특정 직무에만 요구되는 전문 능력이 아니라 모든 구성원이 이해하고 활용해야 하는 필수 역량으로 자리 잡았습니다. 현대오일뱅크의 이번 교육 과정은 단순히 기술을 배우는 것을 넘어 실제 산업 데이터를 활용해 문제를 해결하는 실무형 프로젝트까지 완성했다는 점에서 큰 의미가 있습니다.엘리스는 앞으로도 기업 실무자가 실제 업무에 적용할 수 있는 실습 중심 AX 교육을 제공하며, 조직 전체가 기술 변화를 주도적으로 이끌 수 있도록 계속해서 지원할 예정입니다.

LG AI연구원, 엔비디아 B200 128장 클러스터링 환경 내 모델 추론 성능 및 안정성 검증

클라우드

LG AI연구원, 엔비디아 B200 128장 클러스터링 환경 내 모델 추론 성능 및 안정성 검증

엘리스클라우드는 대형 엔터프라이즈 고객이 실제 연구 환경 수준에서 인프라를 검증할 수 있도록 고성능 AI 인프라를 제공하고 있습니다. 그중에서도 B200 기반의 고성능 GPU 클러스터는 대형 모델 연구와 추론 작업에 최적화된 환경을 제공하며, 대규모 계산을 안정적으로 처리할 수 있도록 설계되어 있습니다.독자 AI 파운데이션 모델 사업에 선정된 5개팀 중 하나인 LG AI연구원 역시 EXAONE 4.0 32B 모델을 포함한 글로벌 모델들을 이 환경에서 실행해 보고 엘리스클라우드가 연구 조직의 요구 수준을 충분히 충족하는지 확인하기 위해 이번 프로젝트를 진행했습니다. 단순한 벤치마크를 넘어 실제 연구 환경을 그대로 구성해보는 실험이었으며, 대규모 모델 운영 전반을 검증하는 데 의미가 있었습니다.→ 독자 AI 파운데이션 모델 NC AI의 엘리스클라우드 활용 B200 성능 검증 사례 살펴보기검증 목적 및 접근 방식엘리스클라우드는 LG AI연구원과 함께 차세대 모델 연구 환경에서 추론 성능과 운영 안정성을 면밀히 점검했습니다. 프로젝트의 핵심 목적은 엘리스클라우드가 대형 모델을 안정적으로 처리할 수 있는지, 그리고 향후 연구·서비스 환경으로 확장할 때 병목 없이 운영될 수 있는지를 확인하는 것이었습니다. 이를 위해 다양한 조건을 조합해 실제 연구 상황에 가장 근접한 환경을 구성했습니다. 시퀀스 길이가 긴 입력, 여러 precision 모드, 프레임워크 차이 등 다양한 변수를 포함해 테스트를 설계함으로써 플랫폼 전반의 신뢰성을 객관적으로 확인하고자 했습니다.특히 연구용 인프라의 경우 모델 성능만으로 판단하기 어렵기 때문에, VM 생성과 재구성 흐름, 내부망·외부망 요청 처리, 디스크 I/O 안정성, 인피니밴드 설정 등 여러 운영 단계에서 예상될 수 있는 문제를 함께 점검했습니다. 대형 모델 연구 환경은 추론 속도나 Throughput뿐 아니라, 전체 운영 흐름이 얼마나 매끄럽게 구성되는가가 매우 중요하기 때문입니다.글로벌 클라우드 OO사 H200 클러스터 vs 엘리스클라우드 B200 클러스터프로젝트는 2025년 10월 2일부터 19일까지 약 3주간 진행되었습니다. 테스트는 NVIDIA B200 GPU 128장을 기반으로 했으며, 비교 기준은 H200 128장이었습니다. LG AI연구원은 vLLM과 SGLang 기반에서 EXAONE을 포함한 대표 LLM 모델들을 실행하며 성능과 동작 안정성을 함께 검증했습니다. B200 128장 규모는 연구 조직에서도 쉽게 사용하기 어려운 수준의 클러스터인데, 이런 규모에서 실제 모델을 구동해본 경험 자체가 엘리스클라우드 인프라의 운영 역량을 확인하는 데 중요한 기준이 되었습니다.또한 모델별로 입력 길이와 출력 길이를 달리하며 다양한 조건에서 TTFT와 Throughput 변화를 분석했습니다. 이를 통해 단순히 특정 케이스에서만 빠른 것이 아니라, 실전에서 요구될 수 있는 다양한 입력 환경에서도 일관된 성능을 유지하는지를 확인했습니다. 대형 연구 환경에서 프로젝트의 신뢰도를 확보하려면, 무엇보다도 다양한 조건에서 안정적으로 운영되는지를 검증하는 과정이 필요합니다.최대 2.5배까지 향상된 성능테스트 결과 전반적으로 B200 환경은 H200 대비 약 1.5 ~ 2.5배 수준의 성능 향상을 보였습니다. EXAONE 4.0 32B(vLLM)의 경우 TTFT는 약 1.5에서 1.9배까지 빠르고, Throughput은 약 1.9 ~ 2.4배 높게 나타났습니다. 긴 시퀀스에서도 성능이 안정적으로 유지되며, 모델 규모가 커진 상황에도 일관된 처리 속도를 확보했습니다. LLM 모델 A(SGLang)에서는 TTFT 약 1.6배, Throughput 약 1.7배 수준의 차이가 확인되었습니다. LLM 모델 B(vLLM)에서는 Throughput이 2.5배 이상 향상되어 B200의 아키텍처가 추론 작업에 강점을 가지고 있음을 보여주었습니다.추론 안정성 측면에서도 GPU 온도는 대부분 60도 이하로 유지되었으며, 발열로 인한 성능 저하나 중단 없이 테스트가 진행되었습니다. 이는 장시간 대형 모델을 운영해야 하는 연구 조직 입장에서 중요한 평가 요소입니다. 프레임워크별로도 안정성 차이가 크지 않아, 여러 운영 환경에서 공통적으로 활용 가능한 점도 의미가 있습니다.연구용 인프라 운영 관점에서의 검증 결과운영 환경에서는 네트워크, 디스크, VM 운영 흐름을 함께 점검했습니다. 대규모 데이터 업로드와 모델 실행 과정에서 필요한 수준의 네트워크 성능과 안정성을 확보했으며, 내부망 기준으로는 대량 요청 처리에도 큰 문제 없이 실험을 진행할 수 있었습니다. 외부망 연계 시 일부 요청이 끊기는 사례가 있었으나 이는 클라우드 사업자 간 환경 차이나 네트워크 경로 이슈 등 여러 요인이 섞여 있을 가능성이 있어 별도 분석이 필요한 영역으로 정리했습니다.디스크 성능은 NVMe 기준으로 대형 모델 추론에 필요한 읽기·쓰기 속도를 충족했습니다. 인프라 환경 초기 세팅 과정에서는 컨테이너 환경 설정과 InfiniBand 네트워크 연동 시 일부 파라미터를 조정하는 절차가 있었지만, 본격적인 실험 이후에는 디스크 병목이나 네트워크 지연으로 인한 운영상 이슈는 크지 않았습니다. VM 재생성, 스토리지 및 네트워크 인터페이스 재할당, 콘솔 세션 시간 제한 등을 실제 운영 시 고려해야 할 개선 포인트로 정리했으며, 부팅 시간 역시 초기보다 단축되는 등 전반적인 운영 효율은 점진적으로 개선되었습니다.엔터프라이즈급 연구 조직도 안정적으로 사용한 엘리스클라우드 B200 클러스터이번 사례는 대형 모델 추론 성능을 확인하는 데 그치지 않고, 엘리스클라우드가 엔터프라이즈 연구 조직이 실전 환경에서 요구하는 규모와 조건을 충족할 수 있음을 증명했습니다. LG AI연구원과 진행한 실험을 통해 다양한 모델과 precision 모드, 프레임워크 환경에서 일관된 결과를 얻었으며, 긴 시퀀스 입력처럼 실제 업무에서 마주할 수 있는 상황에서도 성능이 안정적으로 유지되는 것을 확인했습니다.특히 B200 128장 규모의 클러스터가 실제 대형 모델 실행 환경에서 안정적으로 동작했다는 점은 엘리스클라우드 인프라가 연구·서비스 운영을 위한 기반으로 충분하다는 것을 보여줍니다. 대형 엔터프라이즈 고객이 직접 검증했다는 점에서 인프라 신뢰도도 크게 강화되었습니다. 엘리스클라우드는 이번 프로젝트를 통해 대규모 모델 연구 환경을 운영할 수 있는 역량을 다시 한번 입증하였으며, 앞으로도 다양한 연구 조직과 산업 현장에 안정적인 고성능 AI 인프라를 제공할 계획입니다.

NC AI의 엔비디아 B200 PoC | 독자 AI 파운데이션 기업의 컴퓨팅 인프라 검증

클라우드

NC AI의 엔비디아 B200 PoC | 독자 AI 파운데이션 기업의 컴퓨팅 인프라 검증

생성형 AI 확산과 함께 대규모 모델 연구 환경은 이전보다 훨씬 복잡해졌습니다. 이제는 단순히 더 강력한 GPU를 도입하는 것뿐만 아니라 네트워크 구조, 저장 방식, 분산 학습 전략, 데이터 흐름까지 함께 설계해야 안정적인 연구가 가능합니다.멀티모달 AI 모델 ‘바르코(Varco)’를 개발한 NC AI는 과기정통부의 ‘독자 AI 파운데이션 모델(국가대표 AI)’ 프로젝트 최종 5개 팀 중 하나입니다. 본 사업은 한국형 LLM·멀티모달 모델을 자체 역량으로 개발하기 위한 국가 전략 과제로 대규모 모델 연구 및 실사용 확산을 추진하고 있습니다.이러한 맥락에서 NC AI는 차세대 GPU인 NVIDIA B200의 실제 연구 워크로드 성능을 확인하고 대규모 모델 학습 인프라로서 엘리스클라우드의 안정성과 확장 가능성을 평가하기 위해 PoC를 진행하였습니다. 엘리스클라우드는 초기 환경 구성부터 학습 실행, 안정성 검증까지 전 과정을 함께 수행하며 B200 기반 연구 환경의 실사용 가능성을 점검했습니다.이번 실험은 단순히 GPU 성능을 비교하는 것이 아니라 기존 H100 환경에서 B200으로 전환했을 때 기존 학습 파이프라인을 얼마나 변경해야 하는지, 분산 학습·데이터 로딩·체크포인트 저장이 안정적으로 동작하는지, 그리고 초기 운영 단계에서 필요한 설정 및 가이드는 무엇인지 확인하는 데 목적이 있었습니다. 즉 빠른 세팅을 통해 B200으로 변경시 사양에 어떤 변화가 있는지 검증하는 과정이었습니다.실제 연구 환경 수준의 B200 클러스터 구성PoC 환경은 주어진 시간을 감안하여 실제 형태보다 조금 작지만 실제 모델 실험을 수행할 수 있는 형태로 구성했습니다. 이를 통해 새로운 GPU 아키텍처 도입 시 필수적으로 확인해야 하는 요소들(분산 학습 운영과 데이터 처리 흐름, 스토리지와 네트워크의 상관성 등)을 검토했습니다.구성 환경은 다음과 같았습니다.NVIDIA B200 GPU 8개 × 2노드InfiniBand 기반 고대역폭 네트워크NVMe 로컬 스토리지 약 30TBDocker 기반 실행 환경PyTorch · Megatron-LM · NCCL 기반 분산 학습내부 및 외부 오브젝트 스토리지 연동연구 환경 차이로 인한 영향을 줄이기 위해 기존 NC AI의 학습 방식과 최대한 비슷하게 구성했습니다.연구 흐름을 그대로 반영한 검증 방식PoC는 실제 연구자가 GPU 환경을 사용할 때 거치는 절차를 그대로 따르는 방식으로 진행했습니다.드라이버 및 라이브러리 설치컨테이너 환경 설정 및 패키지 검증NVMe 스토리지 연결 및 처리 성능 확인InfiniBand 대역폭 확인 및 통신 설정 조정내·외부 S3 데이터 로딩 및 처리 성능 점검분산 학습 실행 및 로그 기반 안정성 확인FP8 학습 및 최신 Attention 방식 테스트체크포인트 저장 및 재시작 검증이 과정에서 중요한 기준은 반복 실험 가능성, 동일한 실행이 재현될 수 있어야 한다는 것이었습니다. 따라서 초기 세팅부터 학습 로그와 재실행 검증까지 모두 기록하며 진행했습니다.설정·실행·기록을 함께하며 재현성을 높이는 공동 엔지니어링 방식 ▲ POC 기록 예시 새로운 아키텍처 기반 환경은 문서만으로 파악하기 어려운 영역이 존재합니다. 이에 이번 PoC는 세팅–실행–점검 단계마다 정보를 공유하고, 실험 중 발견 사항을 즉시 반영하는 방식으로 진행했습니다.이 과정에서 대규모 데이터 업로드 중 발생한 타임아웃을 조정하고, 컨테이너 환경의 초기 설정 가이드를 수립했으며, InfiniBand 네트워크 연결 시 필요한 파라미터를 조정하는 등의 작업이 이루어졌습니다.덕분에 분산 학습과 스토리지 처리 단계에서 초기 튜닝 포인트가 도출되었고, 이를 바탕으로 재실행 시 안정적인 학습 환경을 확보했습니다. 엘리스는 이 과정을 기반으로 운영 가이드를 정리하고, 향후 대규모 학습 환경에서도 동일하게 적용할 수 있도록 준비했습니다.차세대 GPU 전환의 가능성을 확인한 실험이번 PoC를 통해 B200 환경이 실제 연구 워크로드에서 안정적으로 작동할 수 있음을 확인했습니다. 초기에는 H100 대비 즉각적인 성능 향상이 나타나지 않았지만, 이는 신규 아키텍처 도입 시 일반적으로 거치는 최적화 구간으로 판단했습니다.중요한 점은 절대적인 수치보다 안정적 전환 기반 확보에 있습니다. 환경 초기 설정이 정리되었고, 재현 가능한 절차가 마련되었으며, 실제 운영 상황에서 필요한 체크 포인트를 확보했습니다. 이를 통해 이후 튜닝 방향이 명확해졌고, 반복 실험 및 확장 적용이 가능한 기반도 마련했습니다.즉 이번 PoC는 단순한 성능 실험이 아니라 NC AI가 차세대 GPU 아키텍처를 직접 체험하고 연구 환경에 적합한 운영 기준을 탐색할 수 있었던 기회였습니다.비록 즉각적인 효율 향상은 확인되지 않았지만 새로운 GPU 구조에 대한 이해와 초기 셋업 경험을 통해 향후 전환 과정에서 시행착오를 줄일 수 있는 중요한 인사이트를 얻었습니다. NC AI는 이번 실험을 계기로 B200의 활용 가능성을 높게 평가하고 있으며, 향후 연구 환경 도입까지 검토하고 있습니다.엘리스클라우드와 함께하는 AI 인프라 전환이번 PoC를 통해 NC AI는 B200 기반 환경이 실제 연구 워크로드에서 안정적으로 작동할 수 있는 조건과 운영 기준을 확인했습니다. 초기 튜닝이 필요한 영역도 파악했으며, 이를 기반으로 최적화 방향을 설정했습니다.차세대 GPU 도입은 단순 하드웨어 성능 검증을 넘어 연구 환경과 운영 체계를 함께 정비해야 하는 과제입니다. 엘리스는 아시아 최초 수랭식 NVIDIA B200 데이터센터 인프라와 실제 고객사 PoC 경험을 바탕으로 연구 조직이 안정적으로 새 환경을 도입하고 확장할 수 있도록 지원합니다.

올인원 AI 교육 솔루션, 엘리스와 함께 시작하세요

AI 인프라부터 플랫폼까지, 내게 필요한 맞춤 솔루션을 알아보고 싶다면