
엘리스클라우드로 학습 속도 2배↑, 미네소타대 김재명 연구원 인터뷰
박한솔
2025. 5. 23.

Industry, Regulation
Elice Product
Purpose
RL 실험 속도를 3배 끌어올리고 비용은 줄인 미네소타대학교 김재명 연구원의 엘리스클라우드 활용 연구 사례를 소개합니다.
“엘리스클라우드의 H100 환경으로 전환한 덕분에 학습 속도가 2~3배 빨라졌고, 마감일을 맞출 수 있었습니다.”
— 김재명, 미네소타대학교 박사과정 연구원
연구 소개
김재명 연구원은 미네소타대학교 트윈시티 캠퍼스의 Minnesota NLP 그룹 소속 박사과정 4년 차로, 강동엽 교수의 지도하에 대형 언어모델(LLM)의 훈련 과정을 보다 구조적이고 의도적으로 만들기 위한 연구를 진행하고 있습니다.
특히 담화 구조, 데이터셋의 메타데이터, 피드백 정보를 학습 루프에 통합하는 ‘메타 스캐폴딩(meta-scaffolding)’ 접근법을 통해 더 안정적이고 해석 가능한 LLM 생성을 목표로 하고 있죠.
이와 동시에 데이터, 컴퓨팅 자원, 프롬프트 엔지니어링의 부담을 줄이는 것이 주요 연구 과제입니다.
연구 주제 및 엘리스클라우드 협업 개요
김재명 연구원은 최근 엘리스와 협업하여 “Meta Policy Optimization(MPO)”이라는 RL(Reinforcement Learning, 강화학습) 기반 LLM 훈련 기법을 개발했습니다. 이 방법은 보상 기반 학습에서 자주 발생하는 ‘보상 해킹’ 문제와 프롬프트 튜닝의 복잡성을 해결하는 데 초점을 두고 있는데요. 핵심은 학습 중 보상 모델이 사용하는 프롬프트를 메타 보상 모델이 실시간으로 업데이트하도록 하는 것입니다. 이로 인해 보상 신호는 더 적응적이며, 수작업 프롬프트 조정에 덜 의존하게 됩니다. 이 접근법은 에세이든 수학 풀이든 다양한 평가 기준에 일반화되어 적용이 가능합니다.
기존 인프라의 한계
이전에는 A100 GPU 8개로 구성된 노드를 사용했지만, 온라인 RL과 같이 보상 자체가 또 다른 LLM으로부터 생성되는 경우에는 병목 현상이 발생했습니다. 메모리 제약으로 인해 무거운 gradient accumulation이 필요했고, 하나의 실험에 며칠이 소요되기도 했습니다. 빠른 반복 실험이 어려웠고 연구 효율성에도 영향을 미쳤던거죠.
엘리스클라우드를 선택한 이유
김재명 연구원이 엘리스클라우드를 선택한 결정적인 이유는 아래와 같습니다.
- 즉시 사용 가능한 H100 GPU: 대기 없이 H100을 사용할 수 있다는 점이 매우 큰 장점이었습니다.
- 직관적인 사용자 경험: Jupyter, VS Code, SSH 접속 등 모든 기능이 빠르게 작동했습니다.
- 사전 설치된 환경: 주요 라이브러리들이 이미 설치되어 있어 세팅에 소요되는 시간을 절약할 수 있었습니다.
- 신속하고 실질적인 기술 지원: 커스텀 커널 및 추가 저장공간 요청 시, 1시간 내에 지원을 받을 수 있었습니다.
- 합리적인 가격: 고성능 GPU 환경임에도 불구하고 비용이 저렴했고, 긴 실험이 많은 연구자 입장에서 매우 효율적이었습니다.
G-NHHS-320 (H100 x 4) 환경에서의 체감 성능 향상
엘리스클라우드의 H100 환경은 기존 A100 8개 대비 2~3배의 학습 속도 향상을 제공했습니다. FP8 가속과 높은 메모리 대역폭 덕분에, RL 실험에서 보상 모델의 추론 속도가 중요했던 상황에서 큰 차이를 만들었습니다. 덕분에 프롬프트 스케줄과 PPO 하이퍼파라미터 조정을 하루 만에 완료할 수 있었고, 실험 주기가 획기적으로 단축되었습니다.
3배 수준의 시간과 비용 절감 효과
NeurIPS 마감 전에 MPO 실험 5개와 다양한 ablation 실험을 수행해야 했는데, 기존 A100 환경에서는 실험당 약 12 GPU일이 소요되었습니다. H100을 활용한 엘리스 환경에서는 같은 실험을 약 4 GPU일로 마무리할 수 있었습니다. 시간 절약이 마감 여부를 가를 정도로 결정적이었고, 비용 효율성 면에서도 큰 도움이 되었습니다.
장비도 설정도 막힘 없이, 연구 환경에 최적화된 엘리스클라우드
김재명 연구원은 엘리스클라우드의 가장 큰 장점으로 진입장벽 없는 실험 환경을 꼽았습니다.
“고성능 장비(H100)를 바로 쓸 수 있었고, 별도 DevOps 지원 없이도 환경이 잘 갖춰져 있어 학생들도 쉽게 실험을 시작할 수 있었어요. 논문 제출용 실험이든 수업 프로젝트든, 준비 시간 없이 바로 실행에 들어갈 수 있다는 점이 정말 인상 깊었습니다.”
협업 과정에서의 인상적인 경험
“한 번은 CUDA 드라이버 관련 문제가 생겨 지원을 요청했는데, 엘리스클라우드팀의 한 분이 tmux 세션에 직접 접속해 실시간으로 문제를 패치해 주셨습니다. 10분도 안 되어 다시 실험을 재개할 수 있었던 경험은 정말 인상 깊었고, 미국의 다른 연구자들에게도 엘리스를 추천하고 있습니다. 만약 이번 논문이 채택된다면, 이 사례 자체가 훌륭한 레퍼런스가 될 것 같습니다.”
마무리 한마디
“빠르고, 간편하고, 최첨단 GPU에 즉시 접근할 수 있는 플랫폼을 찾고 있다면, 엘리스클라우드는 최고의 선택입니다. 인프라 관리에 시간을 쓰지 않고 연구에 집중하고 싶다면 엘리스클라우드가 정답입니다.”
👉🏻 한글/영어로 모두 사용이 가능한 엘리스클라우드로 연구・개발 시작하기
참고자료 arxiv.org/abs/2504.20157
김재명 외, Meta Policy Optimization for Adaptive Reward Modeling (NeurIPS 제출)