PAI FACTORY

2026년의 추론(inference) 시장은 더 이상 GPU 시간을 빌리는 시장이 아닙니다. 시장은 맞춤형 실리콘(custom silicon), 즉 Groq, Cerebras, SambaNova 같은 영역, GPU 플랫폼(GPU platform), 즉 Baseten, Together, Fireworks, Modal 같은 영역, 그리고 Replicate와 DeepInfra 같은 API 우선 마켓플레이스(API-first marketplace)로 갈라졌습니다. Fireworks는 2026년 5월 1일 GPU당 가격을 시간당 1달러 올렸고, 하루 10조 토큰 이상을 처리하면서 40억 달러 가치평가를 받았습니다. 이는 물량 기반 모델(volume-driven model)이 실제로 작동한다는 신호입니다. Baseten은 2026년 1월 50억 달러 가치평가로 3억 달러 규모의 Series E를 마감했습니다. 경쟁 포지셔닝(positioning) 규칙은 단순합니다. Fireworks는 지연시간(latency)을 최적화하고, Together는 카탈로그 폭(catalog breadth)을 최적화하며, Baseten은 엔터프라이즈 완성도(enterprise polish)를 최적화합니다. Modal은 Python 네이티브 개발자 경험(Python-native DX)을, Replicate는 멀티모달 도달 범위(multimodal reach)를, Anyscale은 분산 Python(distributed Python)을 최적화합니다. 이 lesson은 창업자에게 그대로 건넬 수 있는 선택 매트릭스를 제공합니다.

유형: Learn 언어: Python(표준 라이브러리, 호출당 경제성을 비교하는 장난감 비교기) 선수 지식: Phase 17 · 01(Managed LLM Platforms), Phase 17 · 04(vLLM Serving Internals) 예상 시간: 약 60분

학습 목표

세 가지 시장 세그먼트, 즉 맞춤형 실리콘(custom silicon), GPU 플랫폼(GPU platform), API 우선(API-first)을 말하고 각 벤더(vendor)를 해당 세그먼트에 매핑할 수 있습니다.
"토큰당(per-token)" API 가격 모델이 하드웨어 비용 곡선이 아니라 서빙 엔진(serving engine)의 비용 곡선으로 수렴하는 이유를 설명할 수 있습니다.
최소 세 개 벤더에 대해 요청당 유효 비용(effective cost per request)을 계산하고, 언제 분당(per-minute) 과금 방식인 Baseten이나 Modal이 토큰당 과금보다 유리한지 설명할 수 있습니다.
서버리스 버스트(serverless bursty), 안정적인 고처리량(steady high-throughput), 파인튜닝 변형(fine-tuned variants), 멀티모달(multimodal) 같은 워크로드에 어떤 플랫폼이 기본 선택지인지 판단할 수 있습니다.

문제

관리형 하이퍼스케일러 플랫폼을 평가한 뒤, 더 좁고 빠른 제공자가 필요하다고 결정했다고 합시다. 지연시간을 위해 Fireworks를, 모델 폭을 위해 Together를, 파인튜닝된 커스텀 모델을 위해 Baseten을 고려할 수 있습니다. 이제 실제 선택지가 여섯 개 있고, 가격 페이지는 서로 같은 단위로 정렬되어 있지 않습니다. Fireworks는 100만 토큰당 달러($/M tokens)를 보여주고, Baseten은 분당 달러($/minute)를 보여주며, Modal은 초당 달러($/second)를, Replicate는 예측당 달러($/prediction)를 보여줍니다. 워크로드를 모델링하지 않으면 이들을 정면으로 비교할 수 없습니다.

더 까다로운 점은 각 가격 페이지 뒤에 있는 비즈니스 모델이 다르다는 것입니다. Fireworks는 공유 GPU 위에서 자체 엔진인 FireAttention을 실행합니다. 따라서 토큰당 요금은 Fireworks의 사용률 곡선을 반영합니다. Baseten은 Truss와 전용 GPU를 제공합니다. 분당 요금은 독점 사용(exclusivity)을 반영합니다. Modal은 진짜 Python 서버리스(Python serverless)에 가깝습니다. 초 단위 과금과 1초 미만 또는 수 초 수준의 콜드 스타트(cold start)를 제공합니다. 같은 출력, 즉 LLM 응답을 만들지만 비용 함수는 세 가지로 달라집니다.

이 lesson은 여섯 선택지를 모델링하고, 각각이 언제 이기는지 알려줍니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.Fireworks는 토큰당(per-token), Baseten은 분당(per-minute), Modal은 초당(per-second) 과금합니다. 어떤 조건에서 분당 과금이 토큰당 과금보다 저렴해지나요?

2.2026년 추론 플랫폼 시장의 세 가지 세그먼트(segment)는 무엇인가요?

0/2 답변 완료

개념

세 가지 세그먼트

맞춤형 실리콘(Custom silicon)은 Groq(LPU), Cerebras(WSE), SambaNova(RDU)를 뜻합니다. 같은 모델에서 GPU 기반 클러스터보다 보통 디코딩(decode)이 5-10배 빠릅니다. 토큰당 가격은 더 높지만, 지연시간에 민감한 사용 사례에서는 압도적입니다. Groq는 음성 에이전트(voice agent)와 실시간 번역(real-time translation)의 프로덕션 선택지로 자주 등장합니다.

GPU 플랫폼(GPU platforms)은 Baseten, Together, Fireworks, Modal, Anyscale입니다. NVIDIA H100, H200, 2026년의 B200 같은 GPU에서 실행되며, 때로는 AMD도 사용합니다. 이들은 RunPod이나 Lambda 같은 원시 GPU 임대(raw GPU rental)와 Bedrock 같은 하이퍼스케일러 관리형 서비스(hyperscaler managed service) 사이에 있는 경제 계층입니다.

API 우선 마켓플레이스(API-first marketplaces)는 Replicate, DeepInfra, OpenRouter, Fal입니다. 넓은 카탈로그를 제공하고, 예측당 또는 초당 과금하며, 첫 호출까지 걸리는 시간(time-to-first-call)을 줄이는 데 집중합니다.

Fireworks — 지연시간 최적화 GPU 플랫폼

자체 FireAttention 엔진을 사용합니다. 동등한 구성에서 vLLM보다 지연시간이 4배 낮다고 마케팅합니다.
비상호작용(non-interactive) 워크로드를 위한 배치 계층(batch tier)을 서버리스 요금의 약 50%로 제공합니다.
파인튜닝 모델을 기본 모델과 같은 요금으로 서빙합니다. 이는 사용자의 LoRA에 프리미엄을 붙이는 제공자와 비교할 때 실제 차별점입니다.
2026년 중반 기준, 온디맨드 GPU 임대 가격을 2026년 5월 1일부터 시간당 1달러 인상했습니다. 대규모 물량 가격(volume pricing)은 협상 가능합니다.
재무 신호로는 40억 달러 가치평가와 하루 10조 토큰 이상 처리량이 있습니다.

Together — 모델 폭 최적화

상위(upstream) 공개 후 며칠 안에 추가되는 오픈소스 릴리스(open-source release)를 포함해 200개 이상의 모델을 제공합니다.
동등한 LLM 모델 기준 Replicate보다 50-70% 저렴합니다. "AI Native Cloud" 포지셔닝은 물량과 카탈로그를 중심으로 합니다.
추론, 파인튜닝, 학습(training)을 하나의 API에서 제공합니다.

Baseten — 엔터프라이즈 완성도 최적화

Truss 프레임워크(framework)를 제공합니다. 모델 패키징, 의존성, 시크릿(secrets), 서빙 설정을 하나의 매니페스트(manifest)에 담습니다.
T4부터 B200까지 GPU 범위를 제공합니다. 합리적인 콜드 스타트 완화(cold-start mitigation)와 함께 분당 과금을 사용합니다.
SOC 2 Type II와 HIPAA-ready를 제공합니다. 핀테크와 헬스케어에서 흔한 선택지입니다.
2026년 1월, CapitalG, IVP, NVIDIA 등이 참여한 3억 달러 Series E로 50억 달러 가치평가를 받았습니다.

순수 Python으로 인프라스트럭처를 코드로 정의(Infrastructure-as-Code; IaC)합니다. 함수에 @modal.function(gpu="A100")를 붙이고 명령 하나로 배포할 수 있습니다.
초 단위 과금(per-second billing)을 사용합니다. 사전 예열(pre-warming)을 쓰면 콜드 스타트는 2-4초이고, 작은 모델에서는 1초 미만입니다.
2025년 11억 달러 가치평가로 8,700만 달러 Series B를 유치했습니다. 독립 설문에서 개발자 경험 점수가 가장 높게 나옵니다.

Replicate — 멀티모달 폭

예측당 과금(pay-per-prediction)을 사용합니다. 이미지, 비디오, 오디오 모델의 기본 플랫폼으로 자주 쓰입니다.
Zapier, Vercel, CMS 플러그인 같은 통합 생태계가 강합니다.
LLM의 토큰당 요금에서는 덜 경쟁적이지만, 멀티모달 다양성에서는 강합니다.

Anyscale — Ray 네이티브

Ray 위에 만들어졌습니다. RayTurbo는 Anyscale의 독점 추론 엔진이며, Ray 클러스터 위에서 vLLM과 경쟁합니다.
추론 단계가 더 큰 그래프 안의 한 노드일 뿐인 분산 Python 워크로드에 가장 적합합니다.
관리형 Ray 클러스터를 제공하고, Ray AIR 및 Ray Serve와 강하게 통합됩니다.

토큰당 과금과 분당 과금 — 언제 어느 쪽이 이기는가

토큰당 과금은 지연시간에 덜 민감하고 버스트가 심한 워크로드에 적합합니다. 사용한 만큼만 비용을 내기 때문입니다. 분당 과금은 사용률이 높고 예측 가능할 때 적합합니다. GPU를 포화시킬 수 있으면 토큰당 과금을 이길 수 있습니다.

거친 규칙은 전용 GPU의 지속 사용률이 약 30%를 넘으면 분당 과금(Baseten, Modal)이 토큰당 과금(Fireworks, Together)을 이기기 시작한다는 것입니다. 그보다 낮으면 유휴 비용을 피할 수 있기 때문에 토큰당 과금이 유리합니다.

다만 이 lesson의 code/main.py는 Baseten과 Anyscale에 하루 예약 분 단위 바닥값(reserved-minute floor)을 둡니다. 이 가정에서는 완전한 영점 축소(scale-to-zero)가 아니므로 손익분기점이 더 뒤로 밀려, 실행 결과에서는 약 60-70% 사용률에서 분당 과금이 이기는 모습이 나올 수 있습니다.

커스텀 엔진이 진짜 해자입니다

vLLM과 SGLang 위에 있는 모든 플랫폼은 자체 엔진(custom engine)을 주장합니다. FireAttention, RayTurbo, Baseten의 추론 스택이 그렇습니다. 커스텀 엔진 주장은 마케팅 색이 섞입니다. 정직한 설명은 이렇습니다. vLLM과 SGLang이 프로덕션 오픈소스 추론의 약 80%를 대표하고, 플랫폼 계층의 차별점은 개발자 경험(DX), 귀속(attribution), SLA입니다.

기억해야 할 숫자

Fireworks GPU 임대: 2026년 5월 1일부터 시간당 1달러 인상.
Fireworks 주장: 동등한 구성에서 vLLM보다 지연시간 4배 낮음.
Together: LLM 기준 Replicate보다 50-70% 저렴함.
Baseten 가치평가: 50억 달러(2026년 1월 Series E, 3억 달러 라운드).
Modal 가치평가: 11억 달러(2025년 Series B).
분당 과금은 지속 사용률 약 30% 이상에서 토큰당 과금을 이기기 시작한다는 거친 규칙이 있음. 단, 예약 바닥값이 있으면 실제 손익분기점은 더 높아짐.

사용해보기

code/main.py는 여섯 벤더를 하나의 합성 워크로드에 놓고 가격 모델을 비교합니다. 토큰당, 분당, 예측당 과금을 정규화해서 일일 비용과 100만 토큰당 유효 비용을 보고합니다. 실행해서 토큰당 과금과 분당 과금 사이의 손익분기점을 찾아보세요.

산출물 만들기

이 lesson은 outputs/skill-inference-platform-picker.md를 만듭니다. 워크로드 프로필, SLA, 예산을 입력하면 주 추론 플랫폼(primary inference platform)을 고르고 차선 후보(runner-up)를 함께 이름 붙입니다.

연습문제

쉬움: code/main.py를 실행하세요. H100 하나에서 70B 모델을 서빙할 때 Baseten의 분당 과금이 Fireworks의 토큰당 과금을 이기는 지속 사용률은 어디입니까? 직접 교차점(crossover)을 유도하고, 경험칙과 비교하세요.
중간: 제품이 이미지 생성, 채팅, 음성-텍스트 변환(speech-to-text)을 모두 제공합니다. 각 모달리티(modality)에 맞는 플랫폼을 고르고, 이를 통합하는 게이트웨이 패턴을 이름 붙이세요.
중간: Fireworks가 주 모델 가격을 시간당 1달러 올렸습니다. 트래픽의 40%가 50% 할인되는 배치 계층으로 이동한다면 혼합 비용(blended cost)에 어떤 영향이 있는지 모델링하세요.
어려움: 규제 대상 고객이 SOC 2 Type II, HIPAA, 전용 GPU를 요구합니다. 어떤 세 플랫폼이 후보가 될 수 있고, FinOps 관점에서는 어느 쪽이 이깁니까?
어려움: Llama 3.1 70B를 Fireworks 서버리스(serverless), Together 온디맨드(on-demand), Baseten 전용(dedicated), Replicate API에서 제공할 때 예측 1,000건당 비용을 비교하세요. 하루 10건일 때와 하루 10,000건일 때 각각 무엇이 가장 저렴합니까?

핵심 용어

용어	흔한 설명	실제 의미
Custom silicon	"GPU가 아닌 칩"	디코딩에 최적화된 Groq LPU, Cerebras WSE, SambaNova RDU
FireAttention	"Fireworks 엔진"	자체 어텐션 커널(attention kernel). vLLM보다 지연시간이 4배 낮다고 마케팅함
Truss	"Baseten 포맷"	의존성, 시크릿, 서빙 설정을 담는 모델 패키징 매니페스트
Per-token	"API 가격"	소비한 토큰 기준 과금. 유휴 비용을 내지 않음
Per-minute	"전용 가격"	벽시계 기준 GPU 시간 과금. 높은 사용률에서 유리함
Per-prediction	"Replicate 가격"	모델 호출당 과금. 이미지와 비디오 모델에서 흔함
RayTurbo	"Anyscale 엔진"	Ray 기반 독점 추론 엔진. Ray 클러스터에서 vLLM과 경쟁함
Batch tier	"50% 할인"	낮은 요금의 비상호작용 큐. Fireworks, OpenAI 등에서 흔함
Fine-tuned at base rate	"Fireworks LoRA"	LoRA 서빙 요청을 기본 모델 요금으로 과금하는 방식. 차별점이 됨

더 읽을거리

Fireworks Pricing — 토큰당 요금, 배치 계층, GPU 임대 가격을 확인할 수 있습니다.
Baseten Pricing — 분당 요금, 약정 용량, 엔터프라이즈 계층을 확인할 수 있습니다.
Modal Pricing — 초 단위 GPU 요금과 무료 계층을 확인할 수 있습니다.
Together AI Pricing — 모델 카탈로그와 토큰당 요금을 확인할 수 있습니다.
Anyscale Pricing — RayTurbo와 관리형 Ray 가격을 확인할 수 있습니다.
Northflank — Fireworks AI Alternatives — 비교 평가를 볼 수 있습니다.
Infrabase — AI Inference API Providers 2026 — 벤더 지형을 훑어볼 수 있습니다.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

inference-platform-picker

Pick an inference platform (Fireworks, Together, Baseten, Modal, Replicate, Anyscale, or custom silicon) given workload, SLA, budget, and operational constraints. Normalize per-token, per-minute, and per-prediction pricing.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.스타트업이 Llama 3.1 70B의 파인튜닝된 LoRA 변형(variant)을 기본 모델과 같은 요금으로 낮은 지연시간(latency)에 서빙하려 합니다. 어떤 플랫폼의 가격 모델이 가장 저렴한가요?

2.모든 플랫폼이 독자 엔진(FireAttention, RayTurbo, Baseten 스택)을 주장합니다. 이 엔진들 대부분이 실제로 내부에서 기반으로 삼는 것은 무엇인가요?

3.규제 대상 헬스케어 고객이 SOC 2 Type II, HIPAA 준비, 전용 GPU를 요구합니다. 가장 적합한 플랫폼은 어느 것인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

관리형 LLM 플랫폼 — Bedrock, Azure OpenAI, Vertex AI

다음 강의

Kubernetes GPU 자동 확장 — Karpenter, KAI Scheduler

추론 플랫폼 경제성 — Fireworks, Together, Baseten, Modal