AI 게이트웨이 — LiteLLM, Portkey, Kong AI Gateway, Bifrost
게이트웨이(Gateway)는 애플리케이션과 모델 제공자(Model Provider) 사이에 놓이는 계층입니다. 핵심 기능은 제공자 라우팅(Provider Routing), 폴백(Fallback), 재시도(Retries), 요청 제한(Rate Limiting), 시크릿 참조(Secret References), 관측성(Observability), 가드레일(Guardrails)입니다. 2026년 시장 구도를 정리하면 다음과 같습니다. LiteLLM은 MIT 라이선스의 오픈소스(OSS)이고, 100개가 넘는 제공자를 지원하며, OpenAI 호환(OpenAI-compatible) 인터페이스를 제공합니다. 다만 공개된 벤치마크에서는 약 2000 RPS(초당 요청 수, Requests Per Second) 부근에서 무너지고, 8 GB 수준의 메모리 사용량과 지속 부하에서 연쇄적인 장애(cascading failures)가 보고됩니다. Python, 500 RPS 미만, 개발/프로토타이핑 용도에 가장 잘 맞습니다. Portkey는 제어 평면(Control Plane) 성격의 도구로 자리잡았습니다. 가드레일, 개인정보 마스킹(PII Redaction), 탈옥 탐지(Jailbreak Detection), 감사 로그(Audit Trails)를 함께 제공합니다. 2026년 3월에 Apache 2.0 오픈소스로 공개되었고, 요청당 지연(latency overhead)은 20~40ms 수준이며, 운영 등급(production tier)은 월 49달러입니다. Kong AI Gateway는 Kong Gateway 위에 만들어졌습니다. Kong이 자체 측정한 벤치마크에 따르면, 동일한 12 CPU 환경에서 Portkey 대비 228%, LiteLLM 대비 859% 더 빠릅니다. 가격은 모델당 월 100달러이고, Plus 등급은 최대 5개 모델까지 사용할 수 있습니다. 이미 Kong을 도입한 조직에는 자연스럽게 어울립니다. Bifrost(Maxim AI)는 백오프(backoff)를 설정할 수 있는 자동 재시도와, OpenAI에서 429를 받으면 Anthropic으로 폴백하는 정석적인 레시피를 제공합니다. Cloudflare / Vercel AI Gateways는 매니지드(managed) 형태로 운영 부담이 거의 없고, 기본 재시도 정도를 제공합니다. 자체 호스팅(self-host) 여부는 결국 데이터 거주성(Data Residency)이 결정합니다. Portkey와 Kong은 오픈소스와 선택적 매니지드를 함께 제공하는 중간 지점에 있습니다.
유형: Learn
언어: Python (표준 라이브러리, 학습용 게이트웨이 라우팅 시뮬레이터)
선수 지식: Phase 17 · 01 (Managed LLM Platforms), Phase 17 · 16 (Model Routing)
예상 시간: 약 60분
학습 목표
- 게이트웨이의 여섯 가지 핵심 기능을 나열할 수 있습니다(라우팅, 폴백, 재시도, 요청 제한, 시크릿, 관측성, 가드레일).
- 2026년의 네 가지 게이트웨이(LiteLLM, Portkey, Kong AI, Bifrost)를 각자의 확장 한계(scale ceiling)와 활용 사례(use case)에 연결할 수 있습니다.
- Kong 벤치마크 수치(Portkey 대비 228%, LiteLLM 대비 859%)를 인용하고, 500 RPS 이상에서 왜 이 차이가 중요한지 설명할 수 있습니다.
- 데이터 거주성과 운영 예산이 주어졌을 때 자체 호스팅과 매니지드 중 무엇을 선택할지 판단할 수 있습니다.
문제
여러분의 제품은 OpenAI, Anthropic, 그리고 자체 호스팅된 Llama를 호출합니다. 제공자마다 SDK, 에러 모델(error model), 요청 제한, 인증 방식(auth scheme)이 모두 다릅니다. 그런데도 다음을 모두 충족해야 합니다. OpenAI가 429를 반환하면 Anthropic으로 넘어가는 장애 조치(failover), 단일한 자격 증명 저장소(credential store), 통합된 관측성, 테넌트(tenant)별 요청 제한.
이 일을 애플리케이션 계층에서 매번 다시 구현하면, 모든 서비스가 모든 제공자와 직접 결합되어 버립니다. 게이트웨이 계층은 이런 문제를 하나의 프로세스, 하나의 API(보통은 OpenAI 호환 API)로 모으고, 그 뒤에서 여러 제공자로 요청을 분배(fan out)하는 역할을 합니다.
개념
여섯 가지 핵심 기능
- 제공자 라우팅(Provider Routing) — OpenAI, Anthropic, Gemini, 자체 호스팅 모델 등을 하나의 API 뒤에 둡니다.
- 폴백(Fallback) — 429, 5xx, 품질 실패가 발생하면 다른 제공자로 다시 시도합니다.
- 재시도(Retries) — 지수 백오프(exponential backoff)와 횟수 제한을 적용합니다.
- 요청 제한(Rate Limits) — 테넌트별, 키별, 모델별로 제한합니다.
- 시크릿 참조(Secret References) — 자격 증명을 런타임에 볼트(vault)에서 가져옵니다. 애플리케이션에 직접 박아 넣지 않습니다.
- 관측성(Observability) — OpenTelemetry(OTel) + GenAI 속성(Phase 17 · 13) + 비용 귀속(cost attribution).
- 가드레일(Guardrails) — 개인정보 마스킹, 탈옥 탐지, 허용 주제 필터(allowed-topics filter).
LiteLLM — MIT OSS, Python
- 100개 이상의 제공자, OpenAI 호환 인터페이스, 라우터 설정(router config), 폴백, 기본 관측성을 제공합니다.
- Kong 벤치마크에서는 약 2000 RPS 부근에서 무너집니다. 8 GB 수준의 메모리 사용량과 지속 부하에서 연쇄 장애가 나타납니다.
- 가장 잘 맞는 경우: Python 애플리케이션, 500 RPS 미만, 개발/스테이징(staging) 게이트웨이, 실험적인 라우팅.
- 비용: 오픈소스는 무료이고, 클라우드 무료 등급(cloud free tier)도 별도로 있습니다.
Portkey — 제어 평면(control plane) 포지셔닝
- 2026년 3월 기준 Apache 2.0 오픈소스입니다. 가드레일, 개인정보 마스킹, 탈옥 탐지, 감사 로그를 제공합니다.
- 요청당 지연이 20~40ms 추가됩니다.
- 보존 기간(retention)과 SLA가 포함된 운영 등급은 월 49달러입니다.
- 가장 잘 맞는 경우: 가드레일과 관측성을 한 묶음으로 필요로 하는 규제 산업(regulated industry).
Kong AI Gateway — 규모(scale) 카드
- Kong Gateway 위에 만들어졌습니다. Kong Gateway는 lua와 OpenResty 기반의 성숙한 API 게이트웨이 제품입니다.
- Kong이 직접 측정한 벤치마크에서는 12 CPU 동등 환경 기준으로 Portkey 대비 228%, LiteLLM 대비 859% 더 빠릅니다.
- 가격: 모델당 월 100달러, Plus 등급에서 최대 5개 모델까지.
- 가장 잘 맞는 경우: 이미 Kong을 쓰고 있고, 1000 RPS를 넘기며, 라이선스 비용을 받아들일 수 있는 조직.
Bifrost(Maxim AI)
- 백오프를 설정할 수 있는 자동 재시도를 제공합니다.
- OpenAI 429에서 Anthropic으로 넘어가는 폴백 구성이 대표적인 레시피로 알려져 있습니다.
- 비교적 새로운 진입자이며 상용(commercial) 제품입니다.
Cloudflare AI Gateway / Vercel AI Gateway
- 매니지드이고 운영 부담이 거의 없습니다. 기본 재시도와 관측성을 제공합니다.
- 가장 잘 맞는 경우: Cloudflare나 Vercel 위에서 동작하는 엣지 서빙(edge-serving) JavaScript 애플리케이션.
- 가드레일과 요청 제한 측면에서는 Kong이나 Portkey에 비해 기능이 제한적입니다.
자체 호스팅(self-hosted)과 매니지드(managed)
데이터 거주성은 사실상 강제 조건처럼 작동합니다. 의료(healthcare)와 금융(finance)은 기본적으로 자체 호스팅을 택합니다(LiteLLM, Portkey OSS, 혹은 Kong). 일반 소비자용 제품은 매니지드(Cloudflare AI Gateway)나 중간 등급의 Portkey 매니지드를 기본 선택지로 둡니다. 하이브리드 구성도 가능합니다. 규제 대상 테넌트에는 자체 호스팅을, 나머지 테넌트에는 매니지드를 적용하는 방식입니다.
지연 예산(latency budget)
- LiteLLM: 일반적으로 5~15ms 정도의 추가 지연.
- Portkey: 20~40ms 추가 지연.
- Kong: 3~8ms 추가 지연.
- Cloudflare/Vercel: 1~3ms 추가 지연(엣지에서 오는 이점).
게이트웨이 지연은 첫 토큰까지의 시간(Time To First Token; TTFT)에 그대로 더해집니다. TTFT P99가 100ms 미만이라는 SLA라면 Kong이나 Cloudflare가 적절합니다. P99가 500ms 미만이라면 어떤 게이트웨이든 후보가 될 수 있습니다.
요청 제한 의미(rate-limit semantics)가 중요합니다
단순한 토큰 버킷(token-bucket)은 중간 규모까지는 잘 동작합니다. 멀티 테넌트(multi-tenant) 환경에서는 슬라이딩 윈도(sliding-window) + 버스트 허용(burst allowance) + 테넌트별 등급화(per-tenant tiering)가 필요합니다. LiteLLM은 토큰 버킷을, Kong은 슬라이딩 윈도를, Portkey는 등급화된 정책을 제공합니다.
게이트웨이 + 관측성 + 라우팅은 함께 구성됩니다
Phase 17 · 13(관측성) + 16(모델 라우팅) + 19(게이트웨이)는 실제 운영(production)에서는 같은 계층입니다. 이 세 가지를 모두 다루는 도구 하나를 고르거나, 별개의 도구를 신중하게 엮어야 합니다. 2026년의 많은 배포에서는 역할을 나누어, 관측성에는 Helicone, 가드레일에는 Portkey, 규모에는 Kong을 함께 조합하는 패턴이 자주 등장합니다.
기억해 둘 숫자
- LiteLLM: 약 2000 RPS, 8 GB 메모리에서 한계.
- Portkey: 20~40ms 지연, 2026년 3월부터 Apache 2.0.
- Kong: Portkey 대비 228%, LiteLLM 대비 859% 빠름.
- Kong 가격: 모델당 월 100달러, Plus 등급 최대 5개 모델.
- Cloudflare/Vercel: 엣지에서 1~3ms 지연.
사용해보기
code/main.py는 429와 5xx 에러를 주입한 상황에서 3개 제공자에 폴백하는 게이트웨이 라우팅을 시뮬레이션합니다. 지연, 재시도 비율, 폴백 적중률(fallback hit rate)을 함께 보고합니다.
산출물 만들기
이 강의는 outputs/skill-gateway-picker.md를 만듭니다. 규모, 운영 태세(ops posture), 컴플라이언스(compliance), 지연 예산이 주어지면 적절한 게이트웨이를 골라 줍니다.
연습문제
- 쉬움:
code/main.py를 실행합니다. OpenAI → Anthropic → 자체 호스팅 순서로 폴백을 구성합니다. 제공자 에러율이 5%라면 기대되는 성공률은 얼마입니까?
- 중간: SLA가 기준선 300ms 위에서 TTFT P99 < 200ms입니다. 어떤 게이트웨이가 예산 안에 머무릅니까?
- 중간: 의료 분야 고객이 자체 호스팅 + 개인정보 마스킹 + 감사 로그를 요구합니다. Portkey OSS와 Kong 중 무엇을 고르겠습니까?
- 중간: LiteLLM과 Kong을 비교합니다. 어느 RPS 한계에 도달했을 때 팀이 이전(migrate)을 시작해야 합니까?
- 어려움: 멀티 테넌트 SaaS를 위한 요청 제한 정책을 설계합니다. 무료 등급, 체험 등급, 유료 등급이 있다고 할 때 토큰 버킷과 슬라이딩 윈도 중 무엇을 선택하겠습니까?
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| 게이트웨이(Gateway) | "API 중개자(API broker)" | 애플리케이션과 제공자 사이에 놓이는 프로세스 |
| LiteLLM | "MIT 라이선스인 그 도구" | Python 오픈소스, 100개 이상의 제공자, 2K RPS 부근에서 한계 |
| Portkey | "가드레일 게이트웨이" | 제어 평면 + 관측성, Apache 2.0 |
| Kong AI Gateway | "규모 카드" | Kong Gateway 기반의 벤치마크 선두 주자 |
| Bifrost | "Maxim의 게이트웨이" | 재시도 + Anthropic 폴백 레시피 |
| Cloudflare AI Gateway | "엣지 매니지드" | 엣지에 배포되는 매니지드 게이트웨이, 운영 부담 없음 |
| 개인정보 마스킹(PII redaction) | "데이터 세척(data scrub)" | 모델로 보내기 전에 정규식과 NER로 가리는 처리 |
| 탈옥 탐지(Jailbreak detection) | "프롬프트 인젝션 가드(prompt injection guard)" | 사용자 입력 위에 동작하는 분류기 |
| 감사 로그(Audit trail) | "규제용 로그(regulated log)" | 모든 LLM 호출에 대한 불변 기록(immutable record) |
| 토큰 버킷(Token-bucket) | "단순한 요청 제한" | 충전(refill) 기반의 요청 제한기 |
| 슬라이딩 윈도(Sliding-window) | "정밀한 요청 제한" | 시간 창 기반 요청 제한기. 공정성(fairness)이 더 좋음 |
더 읽을거리