비용 절감 기본 요소로서의 모델 라우팅(Model Routing as a Cost-Reduction Primitive)
동적 중개자(dynamic broker)가 모든 요청(request)을 평가합니다. 작업 유형(task type), 토큰 길이(token length), 임베딩 유사도(embedding similarity), 신뢰도(confidence)를 함께 따져 단순 질의(query)는 저가 모델(cheap model)로 보내고, 복잡한 질의는 최상위 모델(frontier model)로 승격(escalate)합니다. 이를 모델 캐스케이딩(model cascading)이라고도 부릅니다. 운영(production) 사례 연구를 보면 미국, 영국, 유럽 배포(deployment) 전반에서 동등 품질(iso-quality) 기준 20-60% 비용 절감(cost reduction)이 보고됩니다. 트래픽이 많은 SaaS(high-volume SaaS)에서 라우팅 효율(routing efficiency)이 30% 개선되면 연간 6자리(six-figure) 절감으로 이어집니다. 2026년 맥락에서 LLM 추론 가격(inference price)은 매년 약 10배씩 내려왔습니다. GPT-4급(GPT-4-class) 토큰은 2022년 말 1M당 약 $20에서 2026년 약 $0.40까지 떨어졌습니다. 이 하락의 대부분은 하드웨어가 아니라 더 나은 서빙 스택(serving stack; Phase 17 · 04-09)에서 나왔습니다. 라우팅(routing)은 제품 품질을 떨어뜨리지 않으면서 그 가격 하락을 마진(margin)으로 전환하는 방법입니다. 실패 모드는 저가 모델 드리프트(cheap-model drift)입니다. 라우터가 트래픽의 40%를 약한 모델로 밀어 넣고, 추론 작업(reasoning task)에서 품질이 3-5% 떨어지는데도 한 분기(quarter) 동안 아무도 알아차리지 못하는 경우입니다. 라우트(route)는 오프라인 평가 집합(offline eval set)만이 아니라 온라인 품질 지표(online quality metric)로 게이트(gate)해야 합니다.
유형: Learn
언어: Python (표준 라이브러리 기반, 캐스케이딩 라우터 시뮬레이터)
선수 지식: Phase 17 · 01 (Managed LLM Platforms), Phase 17 · 19 (AI Gateways)
예상 시간: 약 60분
학습 목표
- 모델 캐스케이딩(model cascading)을 설명할 수 있습니다. 저가 모델을 먼저 호출(cheap-first)한 뒤 신뢰도(confidence)를 검사하고, 신뢰도가 낮으면 최상위 모델로 승격합니다.
- 네 가지 라우팅 신호(routing signal)를 열거할 수 있습니다. 작업 분류(task classification), 프롬프트 길이(prompt length), 알려진 난해 집합(known-hard set)과의 임베딩 유사도, 1차 응답(first-pass)에서의 자기 신뢰도(self-confidence).
- 목표 라우팅 분할(routing split)과 허용 가능한 품질 손실(quality loss)을 기준으로 혼합 비용(blended cost)을 계산할 수 있습니다.
- 저가 모델로의 쏠림(cheap-model creep)을 잡아내는 드리프트 감시 지표(drift-monitoring metric), 즉 온라인 품질 게이트(online quality gate)를 말할 수 있습니다.
문제
서비스가 GPT-5에서 월 $80k를 씁니다. 분석 결과 질의의 70%는 단순합니다. "지금 파리는 몇 시인가?", "이 문장을 다시 표현해 달라" 같은 요청입니다. Haiku급 모델(Haiku-class model)이 이런 요청을 비용의 3% 수준에서 완벽하게 처리합니다. 나머지 30%는 GPT-5의 추론 능력이 필요합니다. 코딩, 수학, 다단계 계획(multi-step planning) 같은 요청이 여기에 해당합니다.
70%를 저가 모델로, 30%를 고가 모델로 라우팅하면 같은 제품 품질에서 청구액이 약 65% 줄어듭니다. 이것이 라우팅입니다. 핵심은 품질 저하 없이 중개자(broker)를 만드는 것입니다.
개념
네 가지 라우팅 신호
-
작업 분류(task classification): 단순(simple), 복잡(complex), 코드 생성(codegen), 수학(math), 대화(chat) 등으로 분류합니다. 규칙 기반 분류기(rules-based classifier), 작은 LLM(Haiku급, 1M당 $0.25), 라벨링된 버킷(labeled bucket)과의 임베딩 유사도로 만들 수 있습니다. 출력은 라우트 = cheap / balanced / frontier 형태입니다.
-
프롬프트 길이(prompt length): 4K 토큰을 넘는 프롬프트는 일관성(coherence) 때문에 최상위 모델이 필요한 경우가 많습니다. 500 토큰 미만의 프롬프트는 보통 그렇지 않습니다.
-
알려진 난해 집합과의 임베딩 유사도(embedding similarity to known-hard set): 질의가 알려진 난해 버킷(known-hard bucket)과 가깝다면(코사인 유사도 > 0.88) 곧바로 최상위 모델로 승격합니다.
-
1차 응답의 자기 신뢰도(self-confidence from first-pass): 먼저 저가 모델로 보냅니다. 모델의 로그 확률(log-probs)이 낮은 신뢰도를 보이거나, 거부(refusal)를 내거나, 회피적 표현(hedging language)을 출력하면 최상위 모델에서 재시도합니다. 트래픽의 약 10%에 P95 지연(latency)이 추가되지만, 나머지 90%에서 50% 이상의 비용을 절감합니다.
세 가지 패턴
프리 라우트(Pre-route) — 앞단 분류기: 약 5-10ms 지연이 추가됩니다. 전체적으로 가장 빠릅니다.
캐스케이드(Cascade) — 저가 우선, 낮은 신뢰도에서 승격: 중앙값 지연(median latency)은 약 1.2배(저가 실행 + 검증)이며, 승격된 요청은 약 2배입니다. 품질 하한(quality floor)이 가장 좋습니다.
앙상블 라우트(Ensemble route) — 표본에 대해 저가와 최상위를 병렬 실행하고 보상 모델(reward-model)이 선택: 가장 높은 품질과 가장 높은 비용입니다. 중요한 A/B 테스트에만 사용합니다.
구현
AI 게이트웨이(AI Gateway; Phase 17 · 19)가 라우팅을 노출합니다. LiteLLM은 폴백(fallback)과 비용 라우팅(cost-routing)이 가능한 router 설정을 제공합니다. Portkey는 가드(guard)와 라우팅을 함께 제공합니다. Kong AI Gateway는 플러그인 기반(plugin-based) 라우팅을 제공합니다. OpenRouter의 모델 마켓플레이스(model marketplace)는 추천 API(recommendation API)를 노출합니다.
오픈소스 진영에는 RouteLLM(LMSYS), Not Diamond(상용), Prompt Mule이 있습니다.
2026년 가격 곡선
| 모델 등급 | 2022년 말 | 2026년 | 변화 |
|---|
| GPT-4급 품질 | ~$20/M | ~$0.40/M | 50배 저렴 |
| 최상위(GPT-5, Claude 4) | — | ~$3-10/M | 새 계층 |
개선의 대부분은 서빙 효율(serving efficiency)에서 왔습니다. Phase 17 · 04-09의 핵심 레슨이 제공자 측 비용 하락(provider-side cost drop)으로 전환된 결과입니다. 라우팅은 모든 사용자가 저가 계층(cheap tier)으로 옮겨가기를 기다리지 않고, 애플리케이션 계층(app layer)에서 이 이득을 거두는 방법입니다.
진짜 위험은 드리프트(drift)입니다
라우트가 트래픽의 40%를 저가 모델로 보낸다고 가정합니다. 6개월 동안 작업 분포(task distribution)가 변합니다. 사용자가 더 능숙해지고 더 긴 질문을 던지기 시작합니다. 라우터는 1분기(Q1) 데이터로 학습된 분류기를 쓰기 때문에 이 변화를 알아차리지 못합니다. 품질은 조용히 떨어집니다. 큰 불만(complaint)도 들어오지 않습니다. 경쟁사 벤치마크(competitor benchmark)에서 졌을 때야 알게 됩니다.
라우트는 온라인 품질 지표로 게이트해야 합니다.
- 라우트별 사용자 추천(thumbs-up) / 비추천(thumbs-down) 비율.
- 라우트별로 따로 떼어 둔 표본(held-out sample, 5%)에 대한 자동 LLM 심판(automated LLM-judge).
- 승격률(escalation rate): 캐스케이드가 30%를 넘는 비율로 상위 라우트(up-route)를 호출한다면, 저가 모델이 과도하게 라우팅되고 있다는 신호입니다.
- 라우트별 거부율(refusal rate).
기억해야 할 숫자
- 2026년 동등 품질 라우팅 절감: 사례 연구 기준 20-60%.
- 2022-2026년 LLM 가격 하락: 총합으로 매년 약 10배.
- GPT-4급 2022 대비 2026: ~$20/M → ~$0.40/M.
- 캐스케이드 지연 영향: 중앙값 약 1.2배, 승격된 요청은 약 2배(트래픽의 약 10%).
사용해보기
code/main.py는 혼합 워크로드(mixed workload)에서 pre-route, cascade, ensemble을 시뮬레이션합니다. 혼합 비용, 품질 손실, 승격률을 보고합니다.
산출물 만들기
이 레슨은 outputs/skill-router-plan.md를 만듭니다. 워크로드(workload)와 품질 예산(quality budget)이 주어지면 라우팅 패턴과 신호 조합을 고릅니다.
연습문제
- 쉬움:
code/main.py를 실행합니다. 어떤 정확도 하한(accuracy floor)에서 캐스케이드가 프리 라우트보다 낫습니까?
- 중간: 사용자 기반이 엔터프라이즈 30%(복잡한 질의), 무료 계층(free tier) 70%(단순)입니다. 라우팅 분할을 설계합니다. 어떤 온라인 지표로 게이트합니까?
- 중간: 어떤 라우트가 품질을 2% 떨어뜨리지만 비용을 40% 절감합니다. 출시(ship)해도 됩니까? 제품에 따라 다릅니다. 양쪽 주장을 모두 작성합니다.
- 어려움: OpenAI / Anthropic API의 logprobs를 사용해 신뢰도 검사를 구현합니다. 처음 임계값(threshold)은 어디에서 시작합니까?
- 어려움: 6개월 동안 승격률이 8%에서 22%로 올랐습니다. 원인 세 가지와 각각의 해결 방법을 진단합니다.
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| 모델 라우팅(Model routing) | "비용 중개자(cost broker)" | 요청마다 모델을 동적으로 선택하는 구조 |
| 모델 캐스케이드(Model cascade) | "저가 우선 승격(cheap-first escalate)" | 저가 모델로 먼저 실행하고 신뢰도가 낮으면 최상위 모델로 흘려보내는 방식 |
| 프리 라우트(Pre-route) | "먼저 분류(classify first)" | 앞단 분류기를 사용하며 재실행하지 않는 방식 |
| 앙상블 라우트(Ensemble route) | "병렬 선택(parallel pick)" | 여러 모델을 실행하고 보상 모델이 최선을 고르는 방식 |
| 승격률(Escalation rate) | "상위 라우트 비율(uprouted %)" | 캐스케이드 요청 중 승격된 비율 |
| RouteLLM | "LMSYS router" | 오픈소스 라우터 라이브러리 |
| Not Diamond | "상용 라우터(commercial router)" | SaaS 형태의 모델 라우팅 제품 |
| 드리프트(Drift) | "저가 쏠림(cheap creep)" | 라우터가 알아차리지 못하는 분포 변화(distribution shift) |
| 온라인 품질 게이트(Online quality gate) | "실시간 점검(live check)" | 실시간 트래픽을 표본 추출해 자동 LLM 심판으로 확인하는 게이트 |
더 읽을거리