LLM 관측성 스택 선택(LLM Observability Stack Selection)

2026년 관측성(observability) 시장은 크게 두 범주(category)로 나뉩니다. 개발 플랫폼(Development Platform; LangSmith, Langfuse, Comet Opik)은 모니터링에 평가(evals), 프롬프트 관리(prompt management), 세션 리플레이(session replay)까지 함께 묶어 제공합니다. 게이트웨이/계측 도구(Gateway/Instrumentation Tool; Helicone, SigNoz, OpenLLMetry, Phoenix)는 텔레메트리(telemetry) 수집에 집중합니다. Langfuse는 MIT 라이선스 코어를 가진 강력한 OSS 균형형 도구이며, 클라우드 무료 티어는 월 5만 이벤트를 제공합니다. Phoenix는 Elastic License 2.0 아래의 OpenTelemetry 네이티브(native) 도구로, 드리프트(drift)와 RAG 시각화에는 뛰어나지만 영속적 운영 백엔드(persistent production backend)로는 적합하지 않습니다. Arize AX는 Iceberg/Parquet 기반의 제로카피(zero-copy) 통합을 사용하며, 모놀리식 관측성 도구 대비 100배 저렴하다고 주장합니다. LangSmith는 LangChain/LangGraph 환경에 강하고 월 39달러/사용자(user) 가격이며, 자체 호스팅(self-host)은 Enterprise 플랜에서만 가능합니다. Helicone은 프록시(proxy) 기반으로 15~30분 안에 설치할 수 있고 월 10만 요청 무료 티어를 제공하지만, 에이전트(agent) 트레이스의 깊이는 다소 부족합니다. 흔히 보이는 운영 패턴(production pattern)은 게이트웨이(Helicone/Portkey)에 평가 플랫폼(Phoenix/TruLens)을 OpenTelemetry로 결합하는 방식입니다.

유형: Learn 언어: Python(표준 라이브러리, 학습용 트레이스 샘플링 시뮬레이터) 선수 지식: Phase 17 · 08(추론 메트릭; Inference Metrics), Phase 14(에이전트 엔지니어링; Agent Engineering) 예상 시간: 약 60분

학습 목표

  • 개발 플랫폼(평가 + 프롬프트 + 세션을 묶은 도구)과 게이트웨이/텔레메트리 도구(트레이스 + 메트릭 중심 도구)를 구분할 수 있습니다.
  • 주요 도구 여섯 가지(Langfuse, LangSmith, Phoenix, Arize AX, Helicone, Opik)를 라이선스, 가격, 적합한 사용 사례(sweet-spot use case)에 매핑할 수 있습니다.
  • 게이트웨이 도구와 별도의 평가 플랫폼을 결합할 수 있게 해주는 OpenTelemetry 결합(glue) 패턴을 설명할 수 있습니다.
  • 2026년의 비용 차별화 요소(cost differentiator), 즉 Arize AX의 제로카피 접근 방식과 모놀리식 인제스트(monolithic ingest)의 차이를 설명하고 대략 100배 배수(multiplier)를 말할 수 있습니다.

문제

LLM 기능을 배포했고 동작은 합니다. 그러나 프롬프트 실패, 도구 루프(tool loop), 지연 시간 회귀(latency regression), 비용 급증(cost spike), 프롬프트 캐시 적중률(prompt-cache hit rate)에 대한 가시성(visibility)이 전혀 없습니다. "LLM observability"를 검색하면 여덟 개의 도구가 모두 같은 문제를 세 가지 다른 가격대에서 해결한다고 주장합니다.

사실 이들은 같은 문제를 해결하지 않습니다. LangSmith는 "이 LangGraph 실행은 왜 실패했는가?"에 답합니다. Phoenix는 "내 RAG 파이프라인이 드리프트(drifting)하고 있는가?"에 답합니다. Helicone은 "어떤 앱이 토큰을 태우고 있는가?"에 답합니다. Langfuse는 "전체 스택을 자체 호스팅할 수 있는가?"에 답합니다. 서로 다른 도구이고, 서로 다른 대상 사용자(audience)를 향합니다.

선택은 네 가지 축에서 이루어집니다. 스택(LangChain인가, raw SDK인가, 멀티 벤더(multi-vendor)인가), 라이선스 허용 범위(license tolerance; MIT만 허용인가, Elastic도 가능한가, 상용도 허용인가), 예산(무료 티어인가, 월 100달러인가, 월 1000달러인가), 자체 호스팅 요구(필수인가, 있으면 좋은가, 필요 없는가)입니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.LLM 관측성(observability)에서 개발 플랫폼(LangSmith, Langfuse)과 게이트웨이/텔레메트리 도구(Helicone, Phoenix)의 핵심 차이는 무엇인가요?

2.LangSmith급 기능이 필요하면서 OSS 자체 호스팅을 요구하는 팀에 Langfuse가 기본 선택이 되는 이유는 무엇인가요?

0/2 답변 완료

개념

두 범주

개발 플랫폼(Development Platform) 은 관측성에 평가, 프롬프트 관리, 데이터셋 버전 관리(dataset versioning), 세션 리플레이를 함께 묶어 제공합니다. 실험을 실행해 어떤 프롬프트가 잘 동작했는지 확인하고, 새로운 프롬프트를 기존 우승작에 대해 데이터셋 회귀 테스트(dataset-regression)할 수 있습니다. LangSmith, Langfuse, Comet Opik이 여기에 속합니다.

게이트웨이/텔레메트리 도구(Gateway/Telemetry Tool) 는 추론 호출(inference call)을 계측합니다. 프롬프트, 응답, 토큰, 지연 시간, 모델, 비용을 기록합니다. Helicone, SigNoz, OpenLLMetry, Phoenix가 여기에 속합니다. 더 미니멀(minimalist)하며, OpenTelemetry를 통해 별도의 평가 도구와 결합해 사용할 수 있습니다.

Langfuse — OSS 균형

  • 코어는 Apache / MIT 라이선스이며 Docker로 자체 호스팅이 가능합니다.
  • 클라우드 무료 티어는 월 5만 이벤트입니다. 유료 플랜은 팀 기준 월 29달러입니다.
  • 평가, 프롬프트 관리, 트레이스, 데이터셋을 제공합니다. 개발 플랫폼이 갖춰야 할 네 가지 기능을 합리적인 수준으로 모두 포괄합니다.
  • 적합한 경우: LangSmith급 기능을 원하지만 자체 호스팅이 필요하거나 OSS 라이선스를 유지해야 하는 경우.

Phoenix(Arize) — 텔레메트리 우선, OpenTelemetry 네이티브

  • Elastic License 2.0이며 자체 호스팅이 매우 쉽습니다.
  • RAG와 드리프트 시각화에 뛰어나며, 임베딩 공간 산점도(embedding-space scatter plot)를 1급(first-class) 기능으로 제공합니다.
  • 영속적 운영 백엔드로 설계되지는 않았습니다. 주로 개발 시점의 관측성에 사용합니다.
  • 적합한 경우: RAG 파이프라인 개발, 드리프트 디버깅. 운영 환경에서는 별도의 게이트웨이와 짝지어 사용합니다.

Arize AX — 스케일 전략

  • 상용(commercial) 도구입니다. Iceberg/Parquet 기반의 제로카피 데이터 레이크(data lake) 통합을 제공합니다.
  • 대규모 환경에서 모놀리식 관측성 도구(Datadog급) 대비 약 100배 저렴하다고 주장합니다. 원리는 단순합니다. 트레이스를 사용자의 S3 Parquet에 저장하고, Arize가 그 데이터를 직접 읽습니다.
  • 적합한 경우: 하루 1천만 트레이스 이상, 기존 데이터 레이크 보유, Datadog 가격을 피하면서 LLM 전용 대시보드를 원하는 경우.

LangSmith — LangChain/LangGraph 우선

  • 상용이며 월 39달러/사용자입니다. 자체 호스팅은 Enterprise 플랜에서만 가능합니다.
  • LangChain과 LangGraph 스택에 대해서는 동급 최고(best-in-class)입니다. 둘 중 어떤 것도 쓰지 않는다면 매력은 줄어듭니다.
  • 적합한 경우: LangChain에 전념(commit)하는 팀이고 비용 지불 의사가 있는 경우.

Helicone — 프록시 기반의 최소 실현 가능 도구

  • 환경 변수 OPENAI_API_BASE를 Helicone 프록시로 바꾸기만 하면 15~30분 안에 설치가 끝납니다.
  • MIT 라이선스이며, 월 10만 요청 무료 티어가 있고 유료 플랜은 월 20달러부터 시작합니다.
  • 페일오버(failover), 캐싱(caching), 속도 제한(rate limits)을 포함합니다. 즉 게이트웨이 역할도 함께 합니다.
  • 에이전트나 다단계(multi-step) 트레이스에 대한 깊이는 상대적으로 부족합니다.
  • 적합한 경우: 빠른 시작이 필요하거나, 단일 스택(single-stack) 앱에서 게이트웨이와 관측성을 한 도구로 해결하고 싶은 경우.

Opik(Comet) — OSS 개발 플랫폼

  • Apache 2.0이며 완전한 OSS입니다.
  • Langfuse와 유사한 기능 세트(feature set)를 가지고 있고, Comet의 유산(heritage)을 이어받습니다.
  • 적합한 경우: 이미 Comet을 사용하는 ML 팀이 같은 화면(pane)에서 LLM 관측성을 함께 보고 싶은 경우.

SigNoz — OpenTelemetry 우선의 풀스택 APM

  • Apache 2.0입니다. 일반 APM과 LLM을 OpenTelemetry로 함께 다룹니다.
  • 적합한 경우: 서비스 호출과 LLM 호출 전체를 하나의 관측성 체계로 통합하고 싶은 경우.

결합 지점: OpenTelemetry + GenAI 시맨틱 컨벤션

OpenTelemetry는 2025년 말에 GenAI 시맨틱 컨벤션(GenAI Semantic Conventions)을 공개했습니다. 예를 들어 gen_ai.system, gen_ai.request.model, gen_ai.usage.input_tokens 같은 속성(attribute)이 정의되어 있습니다. OTel을 받아들이는 도구들은 서로 상호운용(interoperate)할 수 있습니다. 떠오르는 운영 패턴은 다음과 같습니다.

  1. 모든 LLM 호출에서 GenAI 컨벤션을 담은 OTel 데이터를 내보냅니다(emit).
  2. 일상 운영을 위해 게이트웨이(Helicone / Portkey)로 라우팅합니다.
  3. 회귀(regression) 검증을 위해 평가 플랫폼(Phoenix / Langfuse)으로 이중 전송(dual-ship)합니다.
  4. 장기 분석을 위해 데이터 레이크(Iceberg)에 아카이브하고, Arize AX 또는 DuckDB로 분석합니다.

함정: 잘못된 계층에서 계측하기

에이전트 프레임워크 내부에서 계측하는 방식(예: LangSmith 트레이스를 직접 추가)은 해당 프레임워크에 강하게 결합됩니다. HTTP 또는 OpenAI SDK 계층에서 OpenLLMetry나 게이트웨이를 통해 계측하면 이식성(portable)이 확보됩니다.

샘플링(Sampling) — 모든 것을 보관할 수는 없습니다

하루 100만 요청을 넘으면 전체 트레이스를 보관하는 비용이 LLM 호출 비용 자체보다 커질 수 있습니다. 규칙 기반으로 샘플링하세요. 오류는 100%, 고비용 호출은 100%, 성공 호출은 5%만 보관합니다. 집계(aggregate) 데이터는 항상 보관하고, 원본(raw) 트레이스는 롱테일(long tail)만 보관합니다.

기억해야 할 숫자

  • Langfuse 무료 클라우드: 월 5만 이벤트.
  • LangSmith: 월 39달러/사용자.
  • Helicone 무료: 월 10만 요청.
  • Arize AX 주장: 대규모에서 모놀리식 대비 약 100배 저렴.
  • OpenTelemetry GenAI 컨벤션: 2025년 출시, 2026년 폭넓게 채택(adopted).

사용해보기

code/main.py는 하루 100만 트레이스를 보관 전략(retention strategy)별로 시뮬레이션합니다. 100% 인제스트, 샘플링, 샘플링 + 오류 보존 전략에서 저장 비용과 잃어버리는 정보를 각각 보고합니다.

산출물 만들기

이 강의에서는 outputs/skill-observability-stack.md를 만듭니다. 스택, 규모, 예산, 라이선스 정책이 주어지면 그에 맞는 도구 조합을 골라 줍니다.

연습문제

  1. 쉬움: LangChain을 쓰는 팀이 OSS 자체 호스팅 관측성을 원합니다. Langfuse와 Opik 중 하나를 고르고 그 이유를 설명하세요.
  2. 중간: 하루 5백만(5M) 트레이스에서 Datadog 견적이 월 15만 달러입니다. Arize AX의 손익분기점(break-even)을 계산하세요.
  3. 중간: 조직 가이드라인이 모든 LLM 호출에 강제해야 할 OpenTelemetry GenAI 속성 세트(attribute set)를 설계하세요.
  4. 어려움: Phoenix만으로 운영 환경에 충분한지 논증하세요. 어떤 경우에 충분하지 않습니까?
  5. 어려움: Helicone은 프록시 오버헤드가 20ms입니다. P99 TTFT가 300ms일 때 이는 허용 가능합니까? SLA가 100ms라면 어떻습니까?

핵심 용어

용어흔한 설명실제 의미
OpenLLMetry"LLM용 OTel"LLM을 위한 오픈 소스 OpenTelemetry 계측(instrumentation)
GenAI 컨벤션(GenAI Conventions)"OTel 속성"LLM 호출을 위한 표준 OTel 속성 이름
LangSmith"LangChain 관측성"LangChain 생태계와 묶인 상용 플랫폼
Langfuse"OSS LangSmith"유사한 기능 세트를 가진 MIT 라이선스 OSS
Phoenix"Arize 개발 도구"OpenTelemetry 네이티브 개발/평가 플랫폼
Arize AX"스케일 관측성"상용 제로카피 Iceberg/Parquet 관측성 도구
Helicone"프록시 관측성"LLM 텔레메트리와 게이트웨이 기능을 함께 모으는 HTTP 프록시
Opik"Comet LLM"Comet의 Apache 2.0 OSS 개발 플랫폼
세션 리플레이(Session Replay)"트레이스 재실행"도구 호출까지 포함한 에이전트 세션 전체 재현
평가(Eval)"오프라인 테스트"라벨링된 데이터셋 위에서 후보 모델/프롬프트를 실행하는 일

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

observability-stack

Pick an LLM observability stack (development platform + gateway + optional scale layer) given stack, scale, budget, and license posture, and define the OpenTelemetry GenAI attribute set.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.Arize AX가 대규모 LLM 트레이싱에서 Datadog 같은 모놀리식 관측성 도구보다 약 100배 저렴하다고 주장하는 이유는 무엇인가요?

2.하루 100만 건 이상 요청에서 관측성 비용이 LLM 호출 비용을 초과하지 않게 하는 샘플링 전략은 무엇인가요?

3.2026년에 LLM 관측성 도구를 결합하는 떠오르는 프로덕션 패턴은 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다