LLM 관측성 스택 선택(LLM Observability Stack Selection)
2026년 관측성(observability) 시장은 크게 두 범주(category)로 나뉩니다. 개발 플랫폼(Development Platform; LangSmith, Langfuse, Comet Opik)은 모니터링에 평가(evals), 프롬프트 관리(prompt management), 세션 리플레이(session replay)까지 함께 묶어 제공합니다. 게이트웨이/계측 도구(Gateway/Instrumentation Tool; Helicone, SigNoz, OpenLLMetry, Phoenix)는 텔레메트리(telemetry) 수집에 집중합니다. Langfuse는 MIT 라이선스 코어를 가진 강력한 OSS 균형형 도구이며, 클라우드 무료 티어는 월 5만 이벤트를 제공합니다. Phoenix는 Elastic License 2.0 아래의 OpenTelemetry 네이티브(native) 도구로, 드리프트(drift)와 RAG 시각화에는 뛰어나지만 영속적 운영 백엔드(persistent production backend)로는 적합하지 않습니다. Arize AX는 Iceberg/Parquet 기반의 제로카피(zero-copy) 통합을 사용하며, 모놀리식 관측성 도구 대비 100배 저렴하다고 주장합니다. LangSmith는 LangChain/LangGraph 환경에 강하고 월 39달러/사용자(user) 가격이며, 자체 호스팅(self-host)은 Enterprise 플랜에서만 가능합니다. Helicone은 프록시(proxy) 기반으로 15~30분 안에 설치할 수 있고 월 10만 요청 무료 티어를 제공하지만, 에이전트(agent) 트레이스의 깊이는 다소 부족합니다. 흔히 보이는 운영 패턴(production pattern)은 게이트웨이(Helicone/Portkey)에 평가 플랫폼(Phoenix/TruLens)을 OpenTelemetry로 결합하는 방식입니다.
유형: Learn
언어: Python(표준 라이브러리, 학습용 트레이스 샘플링 시뮬레이터)
선수 지식: Phase 17 · 08(추론 메트릭; Inference Metrics), Phase 14(에이전트 엔지니어링; Agent Engineering)
예상 시간: 약 60분
학습 목표
- 개발 플랫폼(평가 + 프롬프트 + 세션을 묶은 도구)과 게이트웨이/텔레메트리 도구(트레이스 + 메트릭 중심 도구)를 구분할 수 있습니다.
- 주요 도구 여섯 가지(Langfuse, LangSmith, Phoenix, Arize AX, Helicone, Opik)를 라이선스, 가격, 적합한 사용 사례(sweet-spot use case)에 매핑할 수 있습니다.
- 게이트웨이 도구와 별도의 평가 플랫폼을 결합할 수 있게 해주는 OpenTelemetry 결합(glue) 패턴을 설명할 수 있습니다.
- 2026년의 비용 차별화 요소(cost differentiator), 즉 Arize AX의 제로카피 접근 방식과 모놀리식 인제스트(monolithic ingest)의 차이를 설명하고 대략 100배 배수(multiplier)를 말할 수 있습니다.
문제
LLM 기능을 배포했고 동작은 합니다. 그러나 프롬프트 실패, 도구 루프(tool loop), 지연 시간 회귀(latency regression), 비용 급증(cost spike), 프롬프트 캐시 적중률(prompt-cache hit rate)에 대한 가시성(visibility)이 전혀 없습니다. "LLM observability"를 검색하면 여덟 개의 도구가 모두 같은 문제를 세 가지 다른 가격대에서 해결한다고 주장합니다.
사실 이들은 같은 문제를 해결하지 않습니다. LangSmith는 "이 LangGraph 실행은 왜 실패했는가?"에 답합니다. Phoenix는 "내 RAG 파이프라인이 드리프트(drifting)하고 있는가?"에 답합니다. Helicone은 "어떤 앱이 토큰을 태우고 있는가?"에 답합니다. Langfuse는 "전체 스택을 자체 호스팅할 수 있는가?"에 답합니다. 서로 다른 도구이고, 서로 다른 대상 사용자(audience)를 향합니다.
선택은 네 가지 축에서 이루어집니다. 스택(LangChain인가, raw SDK인가, 멀티 벤더(multi-vendor)인가), 라이선스 허용 범위(license tolerance; MIT만 허용인가, Elastic도 가능한가, 상용도 허용인가), 예산(무료 티어인가, 월 100달러인가, 월 1000달러인가), 자체 호스팅 요구(필수인가, 있으면 좋은가, 필요 없는가)입니다.
개념
두 범주
개발 플랫폼(Development Platform) 은 관측성에 평가, 프롬프트 관리, 데이터셋 버전 관리(dataset versioning), 세션 리플레이를 함께 묶어 제공합니다. 실험을 실행해 어떤 프롬프트가 잘 동작했는지 확인하고, 새로운 프롬프트를 기존 우승작에 대해 데이터셋 회귀 테스트(dataset-regression)할 수 있습니다. LangSmith, Langfuse, Comet Opik이 여기에 속합니다.
게이트웨이/텔레메트리 도구(Gateway/Telemetry Tool) 는 추론 호출(inference call)을 계측합니다. 프롬프트, 응답, 토큰, 지연 시간, 모델, 비용을 기록합니다. Helicone, SigNoz, OpenLLMetry, Phoenix가 여기에 속합니다. 더 미니멀(minimalist)하며, OpenTelemetry를 통해 별도의 평가 도구와 결합해 사용할 수 있습니다.
Langfuse — OSS 균형
- 코어는 Apache / MIT 라이선스이며 Docker로 자체 호스팅이 가능합니다.
- 클라우드 무료 티어는 월 5만 이벤트입니다. 유료 플랜은 팀 기준 월 29달러입니다.
- 평가, 프롬프트 관리, 트레이스, 데이터셋을 제공합니다. 개발 플랫폼이 갖춰야 할 네 가지 기능을 합리적인 수준으로 모두 포괄합니다.
- 적합한 경우: LangSmith급 기능을 원하지만 자체 호스팅이 필요하거나 OSS 라이선스를 유지해야 하는 경우.
Phoenix(Arize) — 텔레메트리 우선, OpenTelemetry 네이티브
- Elastic License 2.0이며 자체 호스팅이 매우 쉽습니다.
- RAG와 드리프트 시각화에 뛰어나며, 임베딩 공간 산점도(embedding-space scatter plot)를 1급(first-class) 기능으로 제공합니다.
- 영속적 운영 백엔드로 설계되지는 않았습니다. 주로 개발 시점의 관측성에 사용합니다.
- 적합한 경우: RAG 파이프라인 개발, 드리프트 디버깅. 운영 환경에서는 별도의 게이트웨이와 짝지어 사용합니다.
Arize AX — 스케일 전략
- 상용(commercial) 도구입니다. Iceberg/Parquet 기반의 제로카피 데이터 레이크(data lake) 통합을 제공합니다.
- 대규모 환경에서 모놀리식 관측성 도구(Datadog급) 대비 약 100배 저렴하다고 주장합니다. 원리는 단순합니다. 트레이스를 사용자의 S3 Parquet에 저장하고, Arize가 그 데이터를 직접 읽습니다.
- 적합한 경우: 하루 1천만 트레이스 이상, 기존 데이터 레이크 보유, Datadog 가격을 피하면서 LLM 전용 대시보드를 원하는 경우.
LangSmith — LangChain/LangGraph 우선
- 상용이며 월 39달러/사용자입니다. 자체 호스팅은 Enterprise 플랜에서만 가능합니다.
- LangChain과 LangGraph 스택에 대해서는 동급 최고(best-in-class)입니다. 둘 중 어떤 것도 쓰지 않는다면 매력은 줄어듭니다.
- 적합한 경우: LangChain에 전념(commit)하는 팀이고 비용 지불 의사가 있는 경우.
Helicone — 프록시 기반의 최소 실현 가능 도구
- 환경 변수
OPENAI_API_BASE를 Helicone 프록시로 바꾸기만 하면 15~30분 안에 설치가 끝납니다.
- MIT 라이선스이며, 월 10만 요청 무료 티어가 있고 유료 플랜은 월 20달러부터 시작합니다.
- 페일오버(failover), 캐싱(caching), 속도 제한(rate limits)을 포함합니다. 즉 게이트웨이 역할도 함께 합니다.
- 에이전트나 다단계(multi-step) 트레이스에 대한 깊이는 상대적으로 부족합니다.
- 적합한 경우: 빠른 시작이 필요하거나, 단일 스택(single-stack) 앱에서 게이트웨이와 관측성을 한 도구로 해결하고 싶은 경우.
Opik(Comet) — OSS 개발 플랫폼
- Apache 2.0이며 완전한 OSS입니다.
- Langfuse와 유사한 기능 세트(feature set)를 가지고 있고, Comet의 유산(heritage)을 이어받습니다.
- 적합한 경우: 이미 Comet을 사용하는 ML 팀이 같은 화면(pane)에서 LLM 관측성을 함께 보고 싶은 경우.
SigNoz — OpenTelemetry 우선의 풀스택 APM
- Apache 2.0입니다. 일반 APM과 LLM을 OpenTelemetry로 함께 다룹니다.
- 적합한 경우: 서비스 호출과 LLM 호출 전체를 하나의 관측성 체계로 통합하고 싶은 경우.
결합 지점: OpenTelemetry + GenAI 시맨틱 컨벤션
OpenTelemetry는 2025년 말에 GenAI 시맨틱 컨벤션(GenAI Semantic Conventions)을 공개했습니다. 예를 들어 gen_ai.system, gen_ai.request.model, gen_ai.usage.input_tokens 같은 속성(attribute)이 정의되어 있습니다. OTel을 받아들이는 도구들은 서로 상호운용(interoperate)할 수 있습니다. 떠오르는 운영 패턴은 다음과 같습니다.
- 모든 LLM 호출에서 GenAI 컨벤션을 담은 OTel 데이터를 내보냅니다(emit).
- 일상 운영을 위해 게이트웨이(Helicone / Portkey)로 라우팅합니다.
- 회귀(regression) 검증을 위해 평가 플랫폼(Phoenix / Langfuse)으로 이중 전송(dual-ship)합니다.
- 장기 분석을 위해 데이터 레이크(Iceberg)에 아카이브하고, Arize AX 또는 DuckDB로 분석합니다.
함정: 잘못된 계층에서 계측하기
에이전트 프레임워크 내부에서 계측하는 방식(예: LangSmith 트레이스를 직접 추가)은 해당 프레임워크에 강하게 결합됩니다. HTTP 또는 OpenAI SDK 계층에서 OpenLLMetry나 게이트웨이를 통해 계측하면 이식성(portable)이 확보됩니다.
샘플링(Sampling) — 모든 것을 보관할 수는 없습니다
하루 100만 요청을 넘으면 전체 트레이스를 보관하는 비용이 LLM 호출 비용 자체보다 커질 수 있습니다. 규칙 기반으로 샘플링하세요. 오류는 100%, 고비용 호출은 100%, 성공 호출은 5%만 보관합니다. 집계(aggregate) 데이터는 항상 보관하고, 원본(raw) 트레이스는 롱테일(long tail)만 보관합니다.
기억해야 할 숫자
- Langfuse 무료 클라우드: 월 5만 이벤트.
- LangSmith: 월 39달러/사용자.
- Helicone 무료: 월 10만 요청.
- Arize AX 주장: 대규모에서 모놀리식 대비 약 100배 저렴.
- OpenTelemetry GenAI 컨벤션: 2025년 출시, 2026년 폭넓게 채택(adopted).
사용해보기
code/main.py는 하루 100만 트레이스를 보관 전략(retention strategy)별로 시뮬레이션합니다. 100% 인제스트, 샘플링, 샘플링 + 오류 보존 전략에서 저장 비용과 잃어버리는 정보를 각각 보고합니다.
산출물 만들기
이 강의에서는 outputs/skill-observability-stack.md를 만듭니다. 스택, 규모, 예산, 라이선스 정책이 주어지면 그에 맞는 도구 조합을 골라 줍니다.
연습문제
- 쉬움: LangChain을 쓰는 팀이 OSS 자체 호스팅 관측성을 원합니다. Langfuse와 Opik 중 하나를 고르고 그 이유를 설명하세요.
- 중간: 하루 5백만(5M) 트레이스에서 Datadog 견적이 월 15만 달러입니다. Arize AX의 손익분기점(break-even)을 계산하세요.
- 중간: 조직 가이드라인이 모든 LLM 호출에 강제해야 할 OpenTelemetry GenAI 속성 세트(attribute set)를 설계하세요.
- 어려움: Phoenix만으로 운영 환경에 충분한지 논증하세요. 어떤 경우에 충분하지 않습니까?
- 어려움: Helicone은 프록시 오버헤드가 20ms입니다. P99 TTFT가 300ms일 때 이는 허용 가능합니까? SLA가 100ms라면 어떻습니까?
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| OpenLLMetry | "LLM용 OTel" | LLM을 위한 오픈 소스 OpenTelemetry 계측(instrumentation) |
| GenAI 컨벤션(GenAI Conventions) | "OTel 속성" | LLM 호출을 위한 표준 OTel 속성 이름 |
| LangSmith | "LangChain 관측성" | LangChain 생태계와 묶인 상용 플랫폼 |
| Langfuse | "OSS LangSmith" | 유사한 기능 세트를 가진 MIT 라이선스 OSS |
| Phoenix | "Arize 개발 도구" | OpenTelemetry 네이티브 개발/평가 플랫폼 |
| Arize AX | "스케일 관측성" | 상용 제로카피 Iceberg/Parquet 관측성 도구 |
| Helicone | "프록시 관측성" | LLM 텔레메트리와 게이트웨이 기능을 함께 모으는 HTTP 프록시 |
| Opik | "Comet LLM" | Comet의 Apache 2.0 OSS 개발 플랫폼 |
| 세션 리플레이(Session Replay) | "트레이스 재실행" | 도구 호출까지 포함한 에이전트 세션 전체 재현 |
| 평가(Eval) | "오프라인 테스트" | 라벨링된 데이터셋 위에서 후보 모델/프롬프트를 실행하는 일 |
더 읽을거리