NVIDIA-Nemotron-3-Ultra-550B-A55B

NVIDIA-Nemotron-3-Ultra-550B-A55B는 NVIDIA가 개발한 프런티어급 추론·에이전트 LLM으로, 최대 1M 토큰 컨텍스트를 활용해 대용량 문서와 코드베이스 추론에 특화되어 있습니다. Latent Mixture-of-Experts(LatentMoE) 구조로 총 550B 중 토큰당 약 55B만 활성화해 효율을 높였고, 토큰을 더 작은 latent 차원으로 투영해 라우팅·연산함으로써 바이트당 정확도(accuracy per byte)를 끌어올립니다. Mamba-2·MoE·Attention을 교차 배치한 Mamba2-Transformer 하이브리드 아키텍처에 Multi-Token Prediction(MTP)을 더해 생성 속도를 높였으며, 약 20T 토큰을 NVFP4 레시피로 사전학습했습니다. 답변을 내기 전 추론 과정(reasoning trace)을 먼저 생성하고, 추론 기능은 필요에 따라 켜고 끌 수 있습니다. 가중치·데이터·학습 레시피가 모두 공개된 오픈 모델입니다.

모델 사양

구분	내용
제공자	NVIDIA
종류	Text → Text
아키텍처	Mamba2-Transformer 하이브리드 LatentMoE + MTP
파라미터	550B total / 55B active (MoE)
사전학습	약 20T tokens · NVFP4 양자화 인식 학습
컨텍스트	최대 1,000,000 tokens
입력 / 출력	Text / Text
추론 모드	기본 ON · 중간 강도(medium_effort) · OFF 전환
인터페이스	OpenAI 호환 Chat Completions
언어	EN, KO, JA, ZH, FR, ES, DE, IT, HI, PT-BR (10종)
라이선스	OpenMDW-1.1 (상업·비상업 모두 가능)
데이터 컷오프	pre-train 2025-09 / post-train 2026-05

주요 기능

효율적 LatentMoE : 550B 중 토큰당 55B만 활성화, latent 차원 라우팅으로 바이트당 정확도 향상
초장문 컨텍스트 : 최대 1M 토큰으로 장문 문서·대형 코드베이스를 단일 요청으로 검색·집계·추론
에이전트·도구 활용 : 멀티스텝 에이전트, Tool Calling, Structured Output, 코딩 에이전트(OpenCode 등) 지원
추론 모드 3단계 : 추론 ON(기본)·중간 강도(medium_effort)·OFF를 플래그로 전환
추론 가속 (MTP) : 가중치 공유 Multi-Token Prediction과 speculative decoding으로 생성 속도 향상

이런 분들께 추천합니다

잘 맞아요: 대용량 문서·코드베이스 분석, 복잡한 멀티스텝 에이전트·RAG, 코드·수학·과학 고정확도 추론
다른 모델을 추천해요: 멀티모달(이미지·영상) 작업은 Kimi K2.6, 가벼운 챗봇은 더 작은 모델

성능

DeepSeek-V4, Kimi-K2.6, GLM-5.1, Qwen-3.5, MiniMax-2 같은 글로벌 최상위 오픈웨이트 모델과 견줄 만한 성능을 보입니다. 추론·지식, 수학, 코딩·에이전트, 장문 컨텍스트, 다국어까지 폭넓은 영역에서 고르게 강점을 나타냅니다.

*모든 점수는 NVIDIA 공식 모델카드 기준이며, 별도 표기가 없으면 도구 없이 측정한 값입니다.

일반 도메인 및 추론 : MMLU-Pro(86.8), GPQA-Diamond(87.0), Humanity's Last Exam(도구 없음 26.7 / 도구 사용 37.4) 등 종합적인 언어 이해·추론 벤치마크에서 글로벌 최고 수준 오픈웨이트 모델과 대등하거나 우수한 성능을 기록하며 폭넓은 지식과 응용력을 보여줍니다.
수학 : IMO-AnswerBench(도구 없음 88.6 / 도구 사용 92.3), Apex-Shortlist(도구 없음 74.9 / 도구 사용 84.8) 등 고난도 수학 문제에서 높은 점수를 획득해 복잡한 수리적 사고와 논리 추론에서 확고한 강점을 나타냅니다.
코딩·에이전트 : LiveCodeBench v6(89.0), SWE-Bench Verified(71.9), IOI 2025(570.0)에 더해, 항공·리테일·통신·뱅킹 등 다양한 산업군의 도구 활용 평가인 τ-Bench V3(평균 70.9)와 Terminal Bench 2.1(56.4)에서도 강력한 성능을 발휘해 개발·업무 자동화 AI로서의 잠재력을 입증했습니다.
장문 컨텍스트 : RULER(1M 컨텍스트, 94.7), AA-LCR(65.4), LongBench v2(61.9) 등 초장문 문서·대규모 코드베이스 검색·집계·추론 벤치마크에서 우수한 점수를 기록해 1M 토큰 환경에서의 안정적인 성능을 입증했습니다.
다국어 : MMLU-ProX(영어·독일어·프랑스어·스페인어·이탈리아어·일본어·중국어·힌디어·포르투갈어·한국어 평균 83.0), WMT24++(en→xx 번역 83.7) 등 한국어를 포함한 다국어 이해·번역 벤치마크에서 뛰어난 점수를 기록했습니다.

엘리스클라우드 ML API에서 사용하기

복잡한 인프라 구성 없이 엘리스클라우드 ML API로 Nemotron-3-Ultra-550B-A55B을 바로 호출할 수 있습니다.


신규 모델 상시 추가	인프라 세팅 없이 즉시 사용	원화 결제	엘리스클라우드 GPU 연동
검증된 최신 오픈소스 모델 상시로 업데이트	서버·GPU 세팅 없이 API 호출만으로 즉시 사용	환율 걱정없이 원화로 간편하게 결제 *연구비 사용 지원	전용 자원 혹은 파인튜닝이 필요한 경우 엘리스클라우드 GPU 즉시 연동

빠르게 시작하기

OpenAI 호환 API로, 몇 줄의 코드만으로 바로 호출할 수 있습니다. 최상의 성능을 위해 temperature=1.0, top_p=0.95를 권장하며, 추론 모드는 기본 ON, 비추론 모드는 enable_thinking=False로 전환합니다.

Shell (curl)

curl -X POST https://YOUR_ENDPOINT_URL/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Accept: application/json" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain mixture-of-experts models in simple terms."}
    ],
    "max_tokens": 16000,
    "temperature": 1.0,
    "top_p": 0.95,
    "chat_template_kwargs": {"enable_thinking": false}
  }'

Python

from openai import OpenAI

client = OpenAI(base_url="YOUR_ENDPOINT_URL/v1", api_key="YOUR_API_KEY")

# 기본 호출 (추론 모드 ON)
resp = client.chat.completions.create(
    model="nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4",  # 엘리스 ML API 모델 ID
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "이 보고서에서 핵심 리스크 3가지를 정리해 줘."},
    ],
    max_tokens=16000,
    temperature=1.0,
    top_p=0.95,
)
print(resp.choices[0].message.content)

# 비추론 모드 (빠른 응답)
resp = client.chat.completions.create(
    model="nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4",
    messages=[{"role": "user", "content": "한 줄로 요약해 줘."}],
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)

Endpoint: POST /v1/chat/completions
권장 파라미터: temperature=1.0, top_p=0.95 (추론 ON 기본 · 비추론 enable_thinking=False · 추론량 절감 medium_effort=True)
코딩 에이전트 사용 시: chat_template_kwargs에 force_nonempty_content=True 추가 (도구 호출과 추론을 함께 파싱하려면 enable_thinking=True도 함께 설정)
출처: NVIDIA Nemotron 3 Ultra (Hugging Face)

모델 정보

모델 제공자

nvidia

모델 종류

Text Generation

사용 방식 및 요금

Serverless

₩913/1M input tokens

₩5,220/1M output tokens

Dedicated

모델 ID

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4

AI로 미래를 바꾸는 당신의 여정, 엘리스클라우드가 함께 합니다.

무료로 시작하기 도입문의