함께 만들어가는 AI 인프라의 미래 : CTO 디비전 Part
Elice
2025. 6. 20.
AI 기술이 빠르게 진화할수록 이를 뒷받침하는 서버, 스토리지, 네트워크, 보안 등 인프라의 중요성도 함께 커지고 있습니다. 엘리스는 이러한 흐름에 맞춰 고성능 AI 인프라를 자체 기술로 직접 설계하고 구축하며 실제 서비스에 최적화된 클라우드 환경을 만들어가고 있는데요. 이 모든 변화의 중심에는 엘리스 CTO 디비전이 있습니다.
누구보다 가까운 현장에서 기술을 고민하고, 끊임없이 개선을 이어가는 엔지니어들. 그들이 직접 들려주는 ‘진짜 AI 인프라’ 현장 이야기를 지금 만나보세요.
엘리스의 엔지니어는 어떤 일을 하나요?
박동삼 (인프라 엔지니어): 안녕하세요, 인프라 엔지니어 역할을 맡고 있는 박동삼입니다. 인프라팀은 ‘AI 데이터센터 인프라를 직접 구축하고 안정적으로 운영’하는 것을 핵심 미션으로 삼고 있어요. 저는 그 안에서 인프라의 설계부터 구축, 운영까지 전 과정을 맡고 있으며, 서버, 네트워크, 스토리지, 보안 등을 직접 다루며 높은 가용성과 확장성을 갖춘 환경을 만들어가고 있습니다.
오지환 (클라우드 시스템 엔지니어): 안녕하세요, 시스템 엔지니어 오지환입니다. 저는 VM 기반 컴퓨팅 리소스를 제공하는 ECI(Elice Cloud Infrastructure) 개발을 맡고 있습니다. 현재는 *Ceph 기반의 스토리지 시스템을 활용해 사용자 VM(가상머신)에 안정적이고 확장 가능한 스토리지를 할당하는 기능을 개발하고 있어요.
*Ceph: 오픈소스 기반의 분산 스토리지 시스템
최우준 (정보보호 엔지니어): 안녕하세요, 정보보호 엔지니어 최우준입니다. 현재는 CISO(정보보안 최고 책임자)님과 전사 보안 체계 수립 및 보안 인증 대응(ISMS-P, CSAP)을 담당하면서 방화벽, IPS, DDoS 등 보안 장비 운영과 위협 탐지 및 대응 체계를 강화하고 있어요.
엘리스에 어떻게 합류하게 되셨나요?
박동삼: 정해진 범위에서 일하다 보니 성장이 멈췄다는 느낌을 받던 중에, 엘리스에서는 인프라를 처음부터 설계하고 주도적으로 고도화할 수 있다는 말에 합류하게 되었습니다.
오지환: 엘리스 입사 전에는 GPU 서버에 설치되는 온프레미스 클라우드 플랫폼을 개발했는데요, 더 많은 사용자가 직접 사용하는 클라우드 인프라를 설계하고 개선하면서 사용자 환경을 고려한 시스템 개발 환경을 만들고 싶어 엘리스를 선택했습니다.
최우준: ISP 환경에서 보안 이벤트 분석, SIEM(보안 정보 및 이벤트 관리) 운영, 위협 대응을 자동화하는 경험을 쌓고 이제는 AI 기반 서비스 환경과 보안을 융합하는 경험을 해보고 싶어 엘리스에 합류했습니다.
지금까지 엘리스에서 가장 기억에 남는 프로젝트나 업무 경험은 무엇인가요?
박동삼: 엘리스 PMDC(Portable Modular Data Center) 1호기와 2호기 구축 경험이 가장 기억에 남아요.
엘리스 PMDC는 고성능 AI 인프라를 위해 특수 제작된 컨테이너 형태의 모듈형 데이터센터로, 일반적인 시설과 달리 제한된 공간에 전력, 냉각, 네트워크 등을 고밀도로 통합해야 하는 복합적인 구조를 가지고 있는데요. GPU 서버의 높은 전력 소모와 발열을 극복하기 위해서는 전력 설비 용량과 배치, 공조 시스템 설계까지 정교한 구성이 필요하기 때문에, 심혈을 기울여 그때 당시 ‘최적’이라 생각했던 방식으로 PMDC 1호기를 구축했어요.
그런데 막상 운영해 보니 현실은 달랐어요. 초기에 꼭 필요하다고 생각했던 전실 공간은 거의 쓰이지 않아서 공간 낭비였고, 점점 대형화되는 GPU 서버에 비해 콜드존이 너무 좁아서 장비 작업할 때마다 답답함을 느꼈죠. 특히 네트워크 스위치 랙까지 GPU 서버와 동일한 고전력 설계를 적용해 전력 자원의 비효율이 발생한 것이 지금 생각해도 아쉬워요.
하지만 동시에 이런 경험이야말로 진짜 값진 자산이라는 생각이 들었어요. 그래서 PMDC 2호기를 설계할 때는 1호기를 운영하면서 느꼈던 모든 불편함과 비효율을 개선했고, 결국 국내 AI PMDC 최초로 *CSAP IaaS(Infrastructure as a Service, 서비스형 인프라) 인증까지 받을 수 있었어요.
*CSAP: 클라우드 서비스 보안인증
프로젝트마다 새로운 문제와 마주하고 해결해 나가는 과정에서 비로소 인프라는 진화한다는 것을 몸소 체험했고, 결국 운영 경험이 축적된 반복적 개선이야말로 진짜 완성도 높은 인프라를 만드는 핵심이라는 확신을 가지게 되었습니다.
오지환: 저는 최근 ECI의 PoC를 진행하며 클라우드 인프라와 플랫폼을 *쿠버네티스 기반으로 직접 배포하는 일이 가장 도전적이라 기억에 남습니다.
*쿠버네티스: 컨테이너화된 워크로드와 서비스를 관리하기 위한 이식 및 확장가능한 오픈소스 플랫폼
평소 관심이 많았던 쿠버네티스 실전 환경을 다룰 수 있어 기뻤지만, 복잡한 네트워크 구성과 시스템 간 의존 관계 때문에 DB 백업, 로그 수집, Service IP 할당 등에서 반복적인 문제가 발생했죠. 단순히 설정 오류가 아니라 내부 네트워크 정책, 스토리지 CSI 등 인프라 전반에 걸친 문제를 해결해야 했는데요. 시스템 로그와 메트릭을 분석하고 인프라팀과 적극적으로 소통하며 결국 모든 시스템을 안정적으로 배포할 수 있었습니다. 실제 클라우드 인프라 환경에서 배포가 어떻게 이뤄지는지, 시스템 간 통합에서 어떤 점들을 고려해야 하는지에 대한 실질적인 인사이트를 얻을 수 있었어요.
최우준: 엘리스 합류 당시 CSAP 인증 기반으로 보안 체계를 더욱 고도화하기 위해 추가적인 전략을 수립해야 하는 시점이었어요. 그동안은 이미 만들어진 환경에서 운영 중심의 경험만 쌓아왔다 보니 막막한 마음도 있었죠. 하지만 보안 시스템 구축과 운영 부터 전략 수립까지, 모든 과정을 직접 설계하고 이끄는 경험을 어디에서 할 수 있겠어요? AI 기반 서비스와 기업 보안을 밀도있게 경험해 볼 수 있는 건 엘리스에서만 가능하다는 생각이 들었어요.
우선 기존의 전사 보안 체계를 정리하고, 부족했던 부분을 찾기 위해 개발팀과 소통하며 엘리스 플랫폼에 대한 이해도를 높이고, 인프라팀 팀원들과 문제 해결을 위한 스텝을 하나씩 밟아나갔어요. 단순히 주어진 환경에서 운영만 하던 것에서 벗어나 전체 그림을 그리고 실행까지 직접 책임지는 경험을 해보니, 기업 보안을 바라보는 시야가 자연스럽게 넓어지고 한 단계 더 성장할 수 있었던 것 같아요.
요즘 엘리스 엔지니어로서 가장 몰두하고 있는 도전이나 프로젝트가 있다면요?
박동삼: 저는 더욱더 효율적이고 지능적인 차세대 인프라 구조 설계를 목표로 하고 있어요. PMDC 운영 경험에서 얻은 인사이트를 바탕으로, 전력 효율성과 냉각 시스템 최적화, 그리고 확장성을 동시에 만족하는 데이터센터를 만들고 싶거든요. 이를 위해 AI 워크로드의 특성을 깊이 분석해서 예측 가능한 패턴을 찾아내고, 이를 반영한 인프라 자동화 및 실시간 모니터링 체계를 구축하는 작업에 집중하고 있어요.
오지환: 제가 지금 가장 집중하고 있는 건 ECI 스토리지 성능의 획기적인 개선이에요. 이전 PoC에서 VM 스토리지 성능에 대한 아쉬운 피드백을 받았거든요. 그래서 Ceph 외에 다른 고성능 스토리지 솔루션들을 직접 테스트하면서 다양한 워크로드에서 벤치마크를 진행하고 있어요.
동시에 제가 개발하고 있는 Storage-Agent의 안정성도 한 단계 끌어올리려고 해요. 지금까지는 로컬 환경에서만 제한적으로 테스트할 수 있어서 아쉬웠는데, Ceph를 컨테이너화해서 CI 파이프라인에서 통합 테스트를 실행할 수 있는 환경을 구축하고 있어요. 이렇게 하면 배포 전 테스트 신뢰도를 크게 높일 수 있거든요.
또 하나 중요하게 다루고 있는 게 VM 스냅샷 기능의 정밀도와 속도 개선이에요. 사용자 VM을 스냅샷으로 저장할 때 일시 정지 타이밍을 정교하게 제어하는 게 핵심인데, 이를 위한 별도 스케줄러를 개발해서 성능과 일관성을 동시에 잡으려고 해요. 결국 사용자들이 더 빠르고 안정적인 스토리지 서비스를 경험할 수 있도록 하는 게 목표예요.
최우준: 저는 현실 기반의 실전 위협 대응력을 갖춘 보안 체계 구축을 목표로 하고 있어요. 최근 사회적으로 발생한 대규모 보안 사고들을 보면서, 이런 실제 위협들에 어떻게 대응할지가 가장 큰 고민이거든요.
그래서 관련 사고 분석 리포트와 같이 전문가들의 자료와 의견들을 꾸준히 찾아보면서 현실적이고 실효성 있는 대책들을 연구하고 있어요. 사내 보안 체계를 구축하는 과정에도 실제 사례들을 적극 참고해서, 침해사고를 사전에 탐지하고 신속하게 대응할 수 있는 구조를 만드는 데 집중하고 있어요. 이론적인 보안이 아니라 정말 현실에서 통하는 보안 체계를 만드는 게 핵심이라고 생각해요.
엘리스의 조직문화는 어떤가요?
오지환: 엘리스에서 가장 인상적이었던 건 시스템에 대한 깊은 이해를 가진 팀원들과 함께 일할 수 있다는 점이었어요. 단순히 업무적인 대화뿐만 아니라, 일상적인 잡담이나 격식 없는 자리에서도 자연스럽게 인프라나 아키텍처 이야기가 오가더라고요. 그런 대화들을 통해 제가 미처 생각지 못했던 새로운 관점들을 많이 접할 수 있었습니다.
스쿼드 리더님과는 대학원 생활이나 학회 경험, 이전 연구 주제들에 대한 이야기를 나누면서 기술적 호기심은 물론 연구와 개발의 경계를 넘나드는 사고방식을 배울 수 있었어요. 그리고 CTO님과는 국내외 클라우드 산업 트렌드나 정부의 AI 인프라 지원 정책을 공유하면서 관련 뉴스들을 실제 사업 관점에서 이해할 수 있었죠.
결국 엘리스는 단순히 업무만 함께하는 게 아니라, 지식과 경험을 아낌없이 나누는 문화가 자리 잡혀 있어서 시스템 엔지니어로서 계속 배우고 성장할 수 있는 환경이라고 느꼈어요.
최우준: 저는 무엇보다 수평적인 조직문화가 가장 인상적이었어요. 엘리스는 직급이나 직책과 관계없이 궁금한 게 있거나 협업이 필요하면 언제든 편하게 소통할 수 있는 분위기예요. 덕분에 빠르게 피드백을 받을 수 있고, 일도 훨씬 효율적으로 처리할 수 있었습니다. 그리고 각 분야에서 정말 뛰어난 역량을 가진 동료들이 많아서, 서로 배우며 성장할 수 있는 환경이라는 점도 큰 장점이고요.
개인적으로 가장 기억에 남는 순간은 입사 첫날이에요. 사무실 전광판에 제 이름과 함께 ‘입사를 환영합니다’라는 메시지가 떠 있더라고요. 조금 부끄럽기도 했지만, 그 따뜻한 환영 덕분에 정말로 이 팀의 일원이 되었다는 실감이 났고, 지금도 그때를 생각하면 기분이 좋아져요. 그런 작은 배려들이 엘리스 문화를 잘 보여주는 것 같습니다.
앞으로 함께할 동료에게 전하고 싶은 말이 있다면요?
오지환: 엘리스에서의 매 순간은 도전이지만, 동시에 클라우드 시스템의 본질을 깊이 이해하고 성장할 수 있는 값진 기회와도 같아요. 그래서 복잡한 문제에 끝까지 몰입하며, 팀과 함께 적극적으로 소통하는 걸 즐기시는 분과 함께하고 싶어요. “왜 이렇게 설계되었는가”, “어떻게 만들어야 하는가”를 집요하게 질문하며 클라우드라는 복잡한 영역을 함께 탐험하고, 문제 해결의 여정 자체를 즐길 줄 아는 분이라면, 엘리스에서의 도전도 분명 즐기실 수 있을 거라 확신합니다.
최우준: 정보보호는 혼자만의 영역이 아니에요. 오히려 다양한 팀과 함께 논의하고 조율하는 과정에서 더 단단해지는 영역이죠. 그래서 열린 커뮤니케이션을 즐기고, 지속해서 피드백을 주고받으며, 다양한 관점을 통해 더 나은 해결책을 찾으려는 분이라면 저희 팀과 잘 맞으실 거예요. 엘리스는 수평적이고 유연한 문화 속에서 서로의 의견을 존중하는 커뮤니케이션이 자연스러운 팀이에요. 보안을 기술만이 아닌 ‘사람과 조직’을 통해 실현하고 싶은 분, 그리고 서로 자극을 주며 성장하고 싶은 분과 함께하고 싶고, 저도 그런 동료가 되기 위해 노력하고 싶어요!
박동삼: 인프라는 누가 알아주지 않아도 반드시 잘 작동해야 하는 영역이에요. 그래서 저희는 눈에 보이지 않는 문제를 먼저 발견하고 구조적으로 개선해 나가는 사람, 그리고 단기적인 해결보다 장기적인 안정성과 확장성을 생각하는 사람을 찾고 있어요. 엘리스는 설계 단계부터 인프라 전반을 만들어가며 스스로 성장의 경로를 만들어갈 수 있는 환경이 되어줍니다. 기술로 사용자 경험의 기반을 다지며, 기술적 도전과 책임 있는 실행을 즐기는 분이라면 분명 엘리스에서 성장을 경험하실 수 있을 거예요.
우리와 함께 그 여정을 만들어가실 분들을 기다리고 있겠습니다.
클라우드 시스템 엔지니어부터 보안 엔지니어까지,
지금 엘리스는 AI 클라우드 직군 대규모 특별 채용 중! 🎉
- #팀엘리스
- #CTO Div