Hugging Face 모델을 FastAPI로 API 서버 배포하기
이 문서는 이전 실습에서 사용한 Hugging Face 모델을 기반으로,
FastAPI 웹 프레임워크와 연동하여 API 서버 형태로 배포하는 방법을 안내합니다.
이를 통해 단순한 모델 테스트를 넘어, ECI GPU/CPU VM을 실제 운영 서버처럼 활용하는 방법을 확인할 수 있습니다.
실습 목표
이 문서를 완료하면 다음을 할 수 있습니다.
- Hugging Face 모델을 서버 프로세스로 로딩
- FastAPI 기반 추론 API 구현
- 외부에서 HTTP 요청으로 모델 추론 결과 확인
- 실제 서비스와 유사한 API 서버 구조 이해
전체 구조 개요
Client (curl / Browser)
|
v
FastAPI API Server
|
v
Hugging Face Transformers
|
v
CPU / GPU (ECI VM)