4~8배 빨라진 학습 속도, 스푼랩스 ML팀의 TTS 모델 개발 환경 전환기

Elice

2026. 6. 22.

고객

SpoonLabs

도입 서비스

클라우드

오디오·영상 콘텐츠 기업 스푼랩스는 TTS 모델 개발에 필요한 GPU 자원을 확보하기 위해 엘리스클라우드 H100 인스턴스를 도입했습니다. 자체 워크스테이션만으로는 다양한 학습 가설을 충분히 검증하기 어려웠는데, 전환 이후 체감 학습 속도가 4~8배 빨라지면서 실험 반복 주기가 크게 단축됐습니다.

숏폼 드라마 '비글루'로 주목받는 콘텐츠 기업, 스푼랩스의 AI 개발 현장

스푼랩스는 오디오 라이브 스트리밍 서비스 '스푼라디오'에서 출발해, 숏폼 비디오 드라마 '비글루', 오디오 드라마 '판노블'까지 운영하는 콘텐츠 기업입니다. 음성과 영상이 핵심 자산인 만큼, 내부 머신러닝 기술이 서비스 경쟁력을 좌우합니다.

ML팀은 머신러닝 엔지니어들로 구성돼 있으며, 사내 여러 서비스에 필요한 머신러닝 기술을 직접 개발·운영합니다. 적합한 오픈소스 모델을 찾아 활용하기도 하고, 필요하면 모델을 직접 만들어 서비스에 적용하기도 합니다.

한 번의 학습 비용이 큰 TTS 모델, 가설 검증을 위한 인프라 확보 과제

스푼랩스의 서비스는 음성이 핵심입니다. 실시간 오디오 방송인 스푼라디오, 목소리 연기로 이야기를 전달하는 판노블 모두 '좋은 음성'이 콘텐츠 품질을 결정합니다. TTS(Text-to-Speech, 텍스트를 음성으로 변환하는 기술)는 이런 음성 콘텐츠의 제작 효율을 높이는 것은 물론, 앞으로 사내 서비스에 추가될 음성 기반 기능을 설계할 때도 출발점이 되는 핵심 기술입니다.

문제는 TTS 분야에서 새로운 모델 구조와 학습 기법이 빠르게 등장하고 있다는 점입니다. 어떤 접근이 자사 데이터와 서비스에 가장 잘 맞을지는 논문이나 벤치마크만으로 알 수 없습니다. 결국 엔지니어가 '이 방법이 더 자연스러운 음성을 만들 것이다'라는 가설을 세우고, 직접 모델을 학습시켜 결과를 확인하는 과정을 반복해야 합니다. 그래서 가설 검증을 많이 할수록 모델 완성도가 올라갑니다.

하지만 TTS 모델은 한 번 학습을 돌리는 데 드는 GPU 자원과 시간이 큽니다. 기존에 보유한 워크스테이션만으로는 검증하고 싶은 가설을 충분히 실험하기 어려웠습니다.

"저희가 온프레미스 환경에 워크스테이션을 나름대로 구축해서 개발을 할 수 있긴 한데, 많은 가설을 실험해보기에는 부족하다는 결론이 나왔습니다. 그래서 엘리스클라우드를 사용하게 됐습니다." - 스푼랩스 ML팀 우필원 엔지니어

직관적인 사용성과 가격 경쟁력, 엘리스클라우드를 선택한 이유

스푼랩스 ML팀은 외부 GPU 클라우드를 검토하면서 엘리스클라우드의 콘솔 사용성과 가격을 함께 살펴봤습니다.

"엘리스클라우드 서비스의 GUI나 가격을 검토한 결과 인스턴스를 조작하는 방법이 굉장히 직관적이고 편리했고, 가격도 합리적이라고 느꼈습니다." - 우필원 엔지니어

* GUI(Graphical User Interface): 마우스 클릭으로 조작할 수 있는 웹 화면 기반의 인터페이스

H100급 고성능 GPU는 도입 비용 부담이 큰 만큼, 가격은 도입을 결정하는 핵심 변수였습니다. ML팀은 여러 GPU 클라우드의 가격을 비교 검토했고, 엘리스클라우드가 동급 사양 대비 합리적인 수준이라고 판단했습니다.

실무에서 ML팀이 가장 만족한 부분은 인스턴스와 스토리지를 분리해서 쓸 수 있는 구조였습니다. 저장 공간이 필요할 때 연결하고, 쓰지 않을 때는 분리하거나 더 빠른 스토리지로 교체하는 흐름이 직관적으로 되어 있어, 다른 글로벌 클라우드보다 쓰기 편했습니다.

스푼랩스_블록스토리지이미지.png

"인스턴스랑 스토리지를 탈착식으로 굉장히 직관적으로 사용할 수 있거든요. AWS보다 더 직관적이고 더 편합니다." - 우필원 엔지니어

처음 클라우드를 쓸 때는 환경 설정에서 막히는 일이 많지만, 이번에는 큰 어려움이 없었습니다. 콘솔 내 Q&A 탭에서 질문을 남기면 빠르게 답변이 오기 때문에 초기 셋업 부담이 줄었습니다.

전처리는 온프레미스에서, 본 학습은 엘리스클라우드에서, GPU 활용률을 높인 하이브리드 운영

스푼랩스 ML팀은 기존 온프레미스 워크스테이션을 확장하는 대신, 엘리스클라우드 H100 4장을 도입하고, 온프레미스 워크스테이션과 역할을 나눠 운영하고 있습니다.

데이터 전처리는 시행착오가 잦고 작업 시간이 길기 때문에, 클라우드를 통해 진행하기에는 비용이 많이 듭니다. 따라서 전처리는 보유 중인 온프레미스 워크스테이션에서 처리하고, 검증할 가설이 정리되어 본격적인 학습이 필요한 시점에 H100 인스턴스를 투입합니다.

이렇게 역할을 나누면 약정한 고성능 GPU를 전처리 같은 보조 작업에 점유시키지 않고 본 학습에만 온전히 쓸 수 있습니다. 같은 비용으로 GPU 활용률을 끌어올려, 더 많은 가설을 검증하는 구조입니다.

체감 학습 속도 4~8배 향상

엘리스클라우드 H100 인스턴스를 활용한 결과, 동일한 학습 작업 기준으로 기존 환경 대비 체감 학습 속도가 4~8배가량 빨라졌습니다.

"체감상 잠깐의 학습을 돌려봤을 때 4배에서 8배 사이로 학습 속도가 빨라진 것 같습니다." - 우필원 엔지니어

학습 속도가 빨라지면 같은 기간에 더 많은 가설을 검증할 수 있습니다. 정해진 정답이 없는 TTS 모델 개발에서는 가설 검증 횟수가 곧 모델 품질과 직결되기 때문에, ML팀에게 학습 속도 개선은 곧 연구 생산성 향상이었습니다.

더 많은 가설 검증이 곧 모델 경쟁력, 음성 AI 팀을 위한 GPU 인프라

스푼랩스 ML팀의 사례가 보여주는 것은 분명합니다. 정답이 없는 음성 AI 개발에서는 가설을 얼마나 빠르게, 얼마나 많이 검증할 수 있느냐가 모델 품질을 결정하고, 그 속도를 받쳐주는 것이 GPU 인프라라는 점입니다. 스푼랩스 ML팀은 이렇게 확보한 실험 환경을 바탕으로 TTS를 비롯한 음성 머신러닝 기술을 사내 서비스 전반에 적용해 나갈 계획입니다.

엘리스클라우드는 스푼랩스 ML팀처럼 자체 서비스에 머신러닝을 적용해야 하는 기업이 합리적인 비용으로 GPU 자원을 확보하고, 실험을 빠르게 반복할 수 있도록 지원합니다.