[벤치마크] Llama 3.1 8B Instruct: 속도와 비용 효율성, 얼마나 뛰어날까?
Elice 이영빈
2025. 2. 18.
Llama 3.1 8B, 오픈소스 AI의 새로운 강자
Llama 3.1은 Meta가 2024년 7월에 공개한 최신 대규모 언어 모델로, 오픈소스 모델임에도 GPT, Claude 같은 상용 AI 모델과 견줄 만한 성능을 자랑합니다.
이번에 공개된 Llama 3.1 모델은 총 세 가지 크기(8B, 13B, 65B)로 출시되었으며, 그중 8B 모델은 가장 작은 크기로 반응 속도가 빠르고 지연 시간이 짧은 것이 특징입니다. 특히 Llama 3.1 8B Instruct 모델은 사용자의 지시에 최적화되어 있어 질문-답변, 요약, 지시 수행 등 상호작용이 필요한 작업에서 강력한 성능을 보입니다.
그렇다면 실제 환경에서 Llama 3.1 8B는 얼마나 효과적일까요? 성능과 비용 효율성을 평가하기 위해 엘리스클라우드에서 벤치마크 테스트를 진행했습니다.
💡 벤치마크 테스트: 얼마나 빠르고 효율적인가?
Llama 3.1의 성능과 비용 효율성을 평가하기 위해 엘리스클라우드의 A100 80GB GPU 환경에서 부하 테스트를 진행하였습니다. 다양한 동시 사용자 수를 적용하여 실제 운영 환경에서 모델의 응답 속도와 처리량을 측정하고, 이를 기반으로 성능 최적화 방안을 분석하였습니다.
테스트는 vLLM과 BentoML을 활용하여 모델을 최적화한 상태에서 진행하였습니다. Python 기반의 부하 테스트 도구인 Locust를 사용하여 HTTP 요청을 시뮬레이션하였으며, 다양한 부하 수준에서 성능을 평가하였습니다. 이를 통해 모델이 실제 환경에서 어떤 성능을 발휘하는지 확인하였습니다.
📌 테스트 환경 및 설정
- GPU: A100 80GB
- 부하 테스트 도구: Locust
- 프레임워크: vLLM + BentoML
- 요청당 응답 길이: 256 토큰
- Concurrent Users: 1~100 (동시에 테스트를 수행하는 가상 사용자 수)
- Spawn Rate: 10 (초당 생성되는 가상 사용자 수)
- Run Time: 60분 (총 테스트 실행 시간)
- Expected Workers: 5 (서버가 처리할 워커 프로세스 수)
사용된 프롬프트
>_SYSTEM_PROMPT = "You are a helpful assistant named \u201cAI \ucc57\ubd07\u201d from \u201c\uac1c\ubc1c\uc0ac. Your goal is to assist users (learners) based on the provided context in an online course. Keep your answers as precise and accurate as possible. If not asked to answer in a specific language, always respond in Korean."
_USER_PROMPT = """
=== CONTEXT ===
남극(南極, 영어: Antarctica)은 지구 최남단의 대륙으로, 한가운데 남극점이 있다. 남극 대륙은 거의 대부분 남극권 이남에 자리 잡고 있으며, 주변에는 남극지구와 남극해가 있다. 면적은 약 1,400만 km2로 아시아, 아메리카, 아프리카에 이어 세계에서 4번째로 큰 대륙이다. 남극의 약 98%가 평균 두께 1.6km에 이르는 얼음으로 덮여 있고 얼음을 제외한 실제 면적은 약 280,000 km2에 불과하다.
남극은 지구상에서 가장 추운 지역이다. 1983년 7월 21일 소련의 보스토크 남극 기지에서 -89.2℃가 기록되었다. 이와 동시에 남극은 모든 대륙 중에 해발고도가 가장 높은 대륙이기도 하다.[1] 남극은 지구상에서 가장 큰 사막으로 해안의 강수량은 겨우 200mm에 불과하고 내륙은 더욱 적다.[2] 이곳에는 인간이 정착한 거주지는 없으며, 그 대신 여름에는 4,000명, 겨울에는 1,000명의 사람이 이 대륙에 산재한 연구 기지에서 생활하고 있다. 추위에 적응한 동식물만이 남극에 사는데 여기에는 펭귄, 물개, 지의류(地衣類)인 식물, 그리고 여러 종류의 조류(藻類)가 있다.
남극의 영어 명칭인 Antarctica는 '북극의 반대쪽'을 뜻하는[3] 고대 그리스어 합성어 안타르크티코스(ανταρκτικός)의 여성형인 안타르크티케(ανταρκτική)에서 비롯되었다.[4] 예로부터 남쪽 땅(Terra Australis)에 대한 신화와 추측이 있었는데, 인간이 남극을 처음으로 확실히 관측한 것은 1820년 미하일 라자레프와 파비안 고틀리프 폰 벨링스하우젠이 속한 러시아 제국 탐험대다. 그러나 발견 이후 19세기에는 남극의 적대적인 환경, 자원 부족, 고립된 위치 때문에 사람들은 이 대륙을 무시하다시피 했다. 1890년대에 처음으로 이 대륙을 "Antarctica"로 공식 명명한 사람은 스코틀랜드 지도 제작자 존 조지 바르톨로뮤(John George Bartholomew)다.
남극조약은 1959년 12개국이 처음 체결하였으며, 지금까지 서명한 국가는 46개국에 이른다. 이 조약은 군사 행동과 광물 자원 채굴을 금지하는 한편, 과학적 연구를 지원하고 대륙의 생태 환경을 보존하도록 규정하고 있다. 따라서 현재 1,000명 이상의 여러 나라의 과학자가 다양한 실험을 수행하고 있다.[5] 또한 남극조약에서 영유권 선언이 금지되어 있다. 하지만 노르웨이, 뉴질랜드, 아르헨티나, 영국, 오스트레일리아, 칠레, 프랑스는 남극의 일부를 자국의 영토라고 주장한다. 남극에는 어떤 국가의 주권도 미치지 않으며, 지구 온난화로 인해 남극의 일부분이 녹고 있다는 주장도 있다.
남극점은 모든 경선이 만나는 지점이며, 1년에 한번 해가 뜨고 지는 백야와 흑야현상이 발생한다. 이와 같은 현상으로 인해 남극점 부근에서는 편의를 위해 UTC/GMT+12 시간대가 사용된다. 또한 아문센-스콧기지를 제외한 대부분의 남극기지들이 남극 외곽에 위치하기 때문에 각 기지가 위치한 경선을 기준으로 시간을 측정한다.
=== QUESTION ===
남극에 사는 생물은?
📊 벤치마크 테스트 결과
속도와 비용 성능을 측정하기 위해, 다음 정량적 지표를 고려했습니다.
- Response per second (RPS): 초당 요청 처리 수
- Tokens per second (TPS): 초당 토큰 처리 수
생성 모델은 요청마다 생성하는 토큰 수가 다르므로 RPS만으로는 비교가 어렵기 때문에 TPS도 함께 분석하였습니다.
입력 토큰과 출력 토큰의 합을 기준으로 측정하여 모델의 처리 성능을 객관적으로 평가하였습니다.
✅ 1M 토큰당 비용이 $0.0161로, 일반적인 상용 모델 대비 90% 저렴
*AI Model & API Providers Analysis | Artificial Analysis, $0.2/1M tokens
✅ 최대 100명의 동시 사용자 처리 시, 초당 24,160 토큰 생성 가능
Llama 3.1 8B는 대량 요청을 처리하면서도 안정적인 성능을 유지하는 것이 확인되었습니다.
특히, 엘리스클라우드의 A100 80GB GPU를 활용하면 기존 상용 AI API 대비 획기적으로 낮은 비용으로 운영할 수 있어, 자체 AI 모델을 운영하려는 기업이나 개발자들에게 최적의 선택지가 될 수 있습니다.
*본 비용 계산은 엘리스클라우드의 A100 80GB GPU 시간당 가격(2000원)에 환율 $1 = ₩1,400을 적용한 결과입니다.
📌 결론: Llama 3.1, 비용 대비 최고의 선택
이번 벤치마크 테스트를 통해 Llama 3.1 8B는 우수한 속도와 비용 절감 효과를 동시에 제공하는 모델임이 입증되었습니다.
특히, 1M 토큰당 $0.0161이라는 경쟁력 있는 가격 덕분에 일반적인 상용 모델 대비 운영 비용을 획기적으로 절감할 수 있습니다.
🔹 상용 AI 모델의 높은 비용이 부담된다면? → Llama 3.1이 해결책입니다.
🔹 AI 모델을 직접 운영하고 싶다면? → 엘리스클라우드에서 비용 최적화된 환경을 제공합니다.
이제, 더 빠르고 경제적인 AI 인프라를 엘리스클라우드에서 직접 경험해보세요! 🚀
👉🏻 엘리스클라우드에서 Llama 3.1과 같은 다양한 모델 사용해보기
👉🏻 더 많은 엘리스 벤치마크 리포트 살펴보기
작성: 엘리스 이영빈
편집: 엘리스 박한솔
- #벤치마크
- #Llama 3.1 8B Instruct