Blackwell에서 FP8과 NVFP4를 활용한 TensorRT-LLM(TensorRT-LLM on Blackwell with FP8 and NVFP4)
TensorRT-LLM은 NVIDIA 전용 스택이지만, Blackwell 위에서는 다른 선택지를 압도합니다. GB200 NVL72와 Dynamo 오케스트레이션(orchestration) 조합에서 SemiAnalysis InferenceX는 2026년 12분기(Q1-Q2)에 120B 모델 기준 100만 토큰(token)당 0.012달러를 측정했습니다. 이는 H100 + vLLM 조합의 100만 토큰당 0.09달러와 비교하면 약 7배의 경제성 격차입니다. 이 스택은 세 가지 부동소수점(floating-point) 정밀도 체계가 겹쳐진 결과입니다. FP8은 KV 캐시(KV cache)와 어텐션 커널(attention kernel)에 필요한 동적 범위(dynamic range)를 제공하기 때문에 여전히 핵심이고, NVFP4(4-bit microscaling)는 가중치(weight)와 활성값(activation)을 담당하며, 다중 토큰 예측(Multi-Token Prediction; MTP)과 분리형 prefill/decode(disaggregated prefill/decode)가 그 위에 다시 23배의 이득을 더합니다. 데이 제로(Day-0) 모델 지원은 학습 후 변환(post-training conversion) 단계 없이 FP4 가중치를 그대로 적재합니다. 2026년 엔지니어링 팀이 마주하는 함정은 TRT-LLM이 폐쇄형 NVIDIA 스택이라는 점입니다. 즉 도입은 이식성(portability)을 처리량(throughput)과 맞바꾸는 결정이므로, 자신이 운용하는 모델과 하드웨어 조합을 두고 수치를 먼저 계산해 본 뒤에 결정해야 합니다.
유형: Learn
언어: Python(표준 라이브러리로 구성한 장난감용 FP8/NVFP4 메모리·비용 계산기)
선수 지식: Phase 17 · 04(vLLM Serving Internals), Phase 10 · 13(Quantization)
예상 시간: 약 75분
학습 목표
- 가중치가 NVFP4이더라도 KV 캐시와 어텐션(attention)에서는 왜 FP8이 여전히 중요한지 설명할 수 있습니다.
- BF16, FP8, NVFP4 정밀도에서 최전선(frontier) 모델의 HBM(High Bandwidth Memory) 사용량을 계산하고, 절감이 어디에서 나오는지 추론할 수 있습니다.
- TRT-LLM이 활용하는 Blackwell 특화 기능, 즉 데이 제로 FP4(day-0 FP4), MTP, 분리형 서빙(disaggregated serving), all-to-all 통신 프리미티브(primitive)를 이름과 함께 짚을 수 있습니다.
- TRT-LLM의 NVIDIA 락인(NVIDIA-lock)을 받아들이는 것이 Hopper 위 vLLM 대비 7배의 비용 격차를 감수할 만한지 판단할 수 있습니다.
문제
2026년 추론 경제성의 최전선은 "1달러로 토큰을 얼마나 만들 수 있는가"라는 질문에 모입니다. 답은 네 가지 선택이 차곡차곡 겹쳐서 결정됩니다. 하드웨어 세대(Hopper H100/H200 대 Blackwell B200/GB200), 정밀도(precision; BF16 → FP8 → NVFP4), 서빙 엔진(serving engine; vLLM 대 SGLang 대 TRT-LLM), 그리고 오케스트레이션(orchestration; 일반 배치 대 분리형 대 Dynamo)입니다.
Hopper와 vLLM에서는 120B MoE가 100만 토큰당 약 0.09달러에 동작합니다. Blackwell과 TRT-LLM + Dynamo 조합에서는 같은 모델이 약 0.012달러에 동작합니다. 7배 저렴해진 셈입니다. 이 격차의 일부는 하드웨어에서 옵니다. Blackwell은 Hopper 대비 GPU당 LLM 처리량이 11~15배입니다. 또 다른 일부는 스택에서 옵니다. FP4 가중치, MTP 드래프트(draft), 분리형 prefill/decode, 그리고 MoE 전문가 간 통신(MoE expert communication)을 위한 NVLink 5 all-to-all이 함께 겹칩니다.
NVIDIA 스택 바깥에서는 이 조합을 그대로 재현할 수 없습니다. 그것이 곧 트레이드오프(tradeoff)입니다. 이식성을 내려놓는 대가로 경제성을 얻는 결정인 것입니다. 이 강의의 목적은 각 스택 선택이 격차의 어느 몫을 만들어 내는지 이해하는 데 있습니다.
개념
KV 캐시에서는 왜 여전히 FP8이 바닥인가
2026년에 흔히 빠지는 오해 가운데 하나는 NVFP4가 모든 위치에 그대로 적용된다고 가정하는 것입니다. 실제로는 그렇지 않습니다. KV 캐시에는 FP8(8-bit floating point)이 필요합니다. 어텐션의 키(key)와 값(value)이 넓은 동적 범위에 걸쳐 분포하기 때문입니다. KV를 FP4로 양자화(quantize)하면 정확도가 치명적으로 떨어집니다. 분포의 꼬리(tail)가 잘려 나가면서 어텐션 점수(attention score)가 무너집니다. FP8의 지수 비트(exponent bit)가 바로 KV 캐시에 필요한 범위를 만들어 줍니다.
NVFP4(2025~2026)는 가중치와 활성값에 적용됩니다. 마이크로스케일링(microscaling)이란 가중치를 작은 블록 단위로 묶고 각 블록에 자체 스케일 인자(scale factor)를 부여해, 텐서 단위 스케일에서 생기는 손실 없이 서로 다른 동적 범위를 담아내는 방식입니다. 활성값은 한 층(layer) 안에서 범위가 좁기 때문에 FP4로도 충분히 버틸 수 있습니다.
전형적인 Blackwell 구성은 다음과 같습니다.
- 가중치(Weights): NVFP4(4-bit microscaling).
- 활성값(Activations): NVFP4.
- KV 캐시(KV cache): FP8.
- 어텐션 누산기(Attention accumulator): FP32(softmax 안정성 확보).
TRT-LLM이 사용하는 Blackwell 특화 프리미티브
- 데이 제로 FP4 가중치(Day-0 FP4 weights): 모델 제공자가 FP4 가중치를 직접 배포하고, TRT-LLM은 학습 후 변환 단계 없이 곧바로 적재합니다. FP4를 만들기 위해 AWQ나 GPTQ 같은 단계를 거치지 않습니다.
- 다중 토큰 예측(Multi-Token Prediction; MTP): EAGLE(Phase 17 · 05)과 본질적으로 같은 아이디어이지만, TRT-LLM 빌드(build)에 통합되어 있다는 점이 다릅니다.
- 분리형 서빙(Disaggregated serving): prefill과 decode를 서로 다른 GPU 풀(pool)에서 실행하고, KV 캐시는 NVLink나 InfiniBand를 통해 전송합니다. Dynamo와 동일한 발상입니다(Phase 17 · 20).
- all-to-all 통신 프리미티브(All-to-all communication primitives): NVLink 5는 MoE 전문가 통신 지연(latency)을 Hopper 대비 3배 줄였습니다. TRT-LLM의 MoE 커널(kernel)은 여기에 맞춰 튜닝되어 있습니다.
- NVFP4 + MXFP8 마이크로스케일링: Blackwell 텐서 코어(Tensor Core)에서 스케일 인자 처리가 하드웨어 가속(hardware-accelerated)으로 이루어집니다.
외워 두어야 할 숫자
- HGX B200에서 TRT-LLM으로 구동한 GPT-OSS-120B: 100만 토큰당 0.02달러.
- TRT-LLM을 Dynamo가 오케스트레이션하는 GB200 NVL72: 100만 토큰당 0.012달러.
- 비교 가능한 워크로드(comparable workload)에서 H100 + vLLM: 100만 토큰당 약 0.09달러.
- TRT-LLM 업데이트 3개월 만에 얻은 처리량 향상: 2.8배(2026).
- Blackwell의 GPU당 LLM 처리량: Hopper 대비 11~15배.
- MLPerf Inference v6.0(2026년 4월): 제출된 모든 과제에서 Blackwell이 1위를 차지.
FP4가 실제로 치르는 품질 비용
NVFP4는 공격적인 정밀도입니다. 추론량이 많은 워크로드(reasoning-heavy workload), 예를 들어 사고 사슬(chain-of-thought), 수학 풀이, 긴 문맥(long context)에서의 코드 생성 같은 작업에서는 FP4 가중치가 눈에 띄게 품질을 떨어뜨립니다. 블록별 보정(per-block calibration)이 이를 완화해 주기는 하지만 완전히 없애지는 못합니다. 추론형 모델(reasoning model)을 운영하는 팀은 절충안으로 FP8 가중치 + FP4 활성값 조합을 쓰거나, 아예 H200에서 전 구간 FP8을 유지하기도 합니다.
규칙은 단순합니다. NVFP4 가중치로 확정하기 전에 반드시 자체 평가 세트(eval set)에서 과제 품질을 검증해야 합니다.
왜 이것이 NVIDIA 락인 결정인가
TRT-LLM은 C++ + CUDA + 비공개 커널(closed-source kernel)로 이루어져 있습니다. 모델은 특정 GPU SKU에 맞춰 컴파일(compile)되어야 합니다. AMD도, Intel도, ARM도 들어설 자리가 없습니다. 인프라 전략(infra strategy)이 멀티 벤더(multi-vendor)라면 TRT-LLM이 담당하는 서빙 계층에는 적합하지 않습니다. 이런 경우 혼합 하드웨어(mixed hardware) 위에서는 vLLM으로 서빙(serve)하는 길이 남습니다. 반대로 인프라가 사실상 NVIDIA 전용이라면, 7배에 이르는 격차가 락인 비용을 충분히 갚아 줍니다.
2026년 실무 레시피
연간 추론 비용이 1억 달러를 넘는 규모라면, Hopper + vLLM에 계속 머무는 것은 7~10배의 절감 여지를 그대로 두고 떠나는 일과 같습니다. 비용을 지배하는 워크로드는 Blackwell + TRT-LLM + Dynamo로 이전하세요. 모델 반복(iteration) 속도가 중요한 실험 계층(experimentation tier)은 H100 + vLLM에 그대로 두면 됩니다. 운영 환경에 올리기 전, NVFP4로 변환된 각 모델의 품질을 반드시 확인합니다.
분리형 구성이 주는 보너스
TRT-LLM의 분리형 서빙, 즉 prefill 풀과 decode 풀을 분리하는 구조는 Phase 17 · 20에서 깊이 있게 다룹니다. Blackwell에서는 이 곱셈 효과가 그대로 쌓입니다. FP4 가중치 × MTP 가속 × 분리형 배치(disaggregated placement) × 캐시 인지 라우팅(cache-aware routing)이 함께 작용합니다. 앞에서 언급한 7배 숫자는 바로 이 전체 스택을 가정한 값입니다.
사용해보기
code/main.py는 세 가지 스택, 즉 H100 + BF16 + vLLM, H100 + FP8 + vLLM, B200 + NVFP4/FP8 + TRT-LLM에서 HBM 사용량, 메모리 대역폭 한계(memory-bound) 영역의 decode 처리량, 100만 토큰당 장난감용 비용을 계산합니다. 실행해 보면 효과가 어떻게 겹쳐 누적되는지, 격차의 어느 몫이 어느 변경에서 나오는지 한눈에 볼 수 있습니다. 이 계산기는 절대 가격을 그대로 재현하기 위한 도구가 아니라, 상대적인 비용의 형태를 보여 주기 위한 장난감 모형(toy model)입니다.
산출물 만들기
이 강의는 outputs/skill-trtllm-blackwell-advisor.md를 만듭니다. 워크로드, 모델 크기, 연간 토큰 사용량이 주어졌을 때, Blackwell + TRT-LLM 스택이 NVIDIA 락인을 감수할 만한 가치를 갖는지 판단해 주는 자료입니다.
연습문제
- 쉬움:
code/main.py를 실행하세요. 활성 파라미터(active parameter)가 30%인 120B MoE에서 H100 BF16, H100 FP8, B200 NVFP4/FP8 각각의 메모리 대역폭 한계 decode 처리량을 계산하세요. 가장 큰 도약은 어느 단계에서 나옵니까?
- 중간: 어떤 고객이 H100 + vLLM에 연간 200만 달러를 지출하고 있다고 합시다. 7배의 경제성 격차를 가정할 때, TRT-LLM 이전 비용을 12개월 안에 회수(amortize)하려면 Blackwell GPU를 몇 개 구매해야 하는 손익분기점이 됩니까?
- 중간: NVFP4 가중치로 변환한 뒤 MATH 정확도가 3점 떨어졌다고 합시다. 회복 경로 두 가지를 제시하세요. 하나는 품질 우선(quality-first; FP8 가중치 유지)이고, 다른 하나는 비용 우선(cost-first; 도메인 데이터로 보정)입니다.
- 어려움: MLPerf v6.0 추론 결과를 읽고, Blackwell이 Hopper를 앞서는 격차가 가장 작은 과제가 무엇이며 그 이유가 무엇인지 분석하세요.
- 어려움: 405B 모델을 NVFP4 가중치 + FP8 KV 캐시 구성으로 128k 문맥에서 운용할 때 필요한 HBM 용량을 계산하세요. 단일 GB200 NVL72 노드(node)에 들어맞습니까?
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| FP8 | "8비트 float" | 8비트 부동소수점 형식. 동적 범위가 필요하기 때문에 KV 캐시와 어텐션에 사용된다 |
| NVFP4 | "4비트 마이크로" | NVIDIA의 4비트 마이크로스케일링 부동소수점 형식. Blackwell에서 가중치와 활성값에 사용된다 |
| MXFP8 | "MX 8" | 마이크로스케일링 FP8 변형. Blackwell 텐서 코어에서 하드웨어 가속으로 처리된다 |
| 데이 제로 FP4(Day-0 FP4) | "FP4 가중치 그대로 배포" | 모델 제공자가 이미 FP4로 만들어 둔 가중치를 그대로 배포하므로 학습 후 변환 단계가 필요 없는 상태 |
| MTP | "다중 토큰 예측" | TRT-LLM에 통합되어 있는 추측 디코딩(speculative decoding) 드래프트(Phase 17 · 05) |
| 분리형 서빙(Disaggregated serving) | "prefill과 decode를 분리" | prefill과 decode를 서로 다른 GPU 풀에서 실행하고 KV는 NVLink나 InfiniBand로 옮기는 방식 |
| All-to-all | "MoE 전문가 통신" | 토큰을 전문가 GPU로 라우팅하는 통신 패턴. NVLink 5가 지연을 3배 줄였다 |
| InferenceX | "SemiAnalysis 추론 벤치마크" | 2026년 업계가 받아들이는 토큰당 비용(cost-per-token) 벤치마크 |
더 읽을거리