챗봇에서 장기 수행 에이전트로의 전환(The Shift from Chatbots to Long-Horizon Agents)
2023년의 챗봇(chatbot)은 한 턴(turn) 안에서 질문에 답했습니다. 2026년의 프런티어 모델(frontier model)은 하나의 작업에 대해 몇 분에서 몇 시간까지 실행되는 일이 흔해졌습니다. METR(이전 ARC Evals)의 시간 호라이즌(Time Horizon) 1.1 벤치마크(benchmark; 2026년 1월)는 Claude Opus 4.6을 50% 신뢰도 기준 전문가 작업 14시간 이상에 놓습니다. GPT-2 이후 호라이즌(horizon)은 대략 7개월마다 두 배씩 늘었습니다. 단일 턴 채팅(single-turn chat)을 전제로 만들었던 모든 가정, 즉 맥락(context), 신뢰(trust), 실패 모드(failure modes), 비용(cost), 관측성(observability)은 실행 시간이 점심시간보다 길어지는 순간 모두 무너집니다.
유형: Learn
언어: Python (표준 라이브러리(stdlib), horizon-curve simulator)
선수 학습: Phase 14 · 01 (The Agent Loop)
소요 시간: 약 45분
문제
챗봇(chatbot)은 상태가 없는 함수(stateless function)입니다. 프롬프트(prompt)를 받고, 답을 돌려준 뒤 잊어버립니다. 2024년까지 만들어진 검색 증강 생성(Retrieval-Augmented Generation; RAG) 시스템도 대부분 이렇게 동작합니다. 하나의 컨텍스트 윈도(context window) 안에서 계획을 세우고, 행동을 한 번 수행한 뒤, 그 결과를 보여주는 구조입니다.
자율 에이전트(autonomous agent)는 종류 자체가 다릅니다. 루프(loop)를 돌면서 실행되고, 언제 멈출지 스스로 결정하며, 실행이 진행되는 동안 비용을 씁니다. 실제 토큰(token), 실제 GPU 시간, 그리고 실제 후속(downstream) 부작용이 함께 소비됩니다. 장기 수행 에이전트(long-horizon agent)는 이러한 모든 측면을 증폭시킵니다. 비용은 커지고, 단계마다 발생하는 오류 확률은 누적되며, 평가할 수 있는 범위와 실제로 출시되는 범위 사이의 간격은 점점 더 벌어집니다.
METR이 제시한 숫자가 이를 구체적으로 보여줍니다. GPT-2에서 Claude Opus 4.6에 이르기까지, 시간 호라이즌(time horizon), 즉 모델이 50% 신뢰도로 완료할 수 있는 사람 작업의 길이는 초 단위에서 반나절짜리 작업으로 늘어났습니다. 두 배가 되는 데 걸리는 시간은 약 7개월입니다. 이 추세가 1년만 더 이어진다면 50% 호라이즌은 며칠짜리 작업까지 닿습니다. 이는 챗봇 시대의 설계가 다루던 것과는 질적으로 다른 차원의 문제입니다.
개념
METR 시간 호라이즌(Time Horizon)을 한 문단으로 설명하기
METR(이전 ARC Evals)은 전문가가 작업을 완료하는 데 걸리는 시간의 로그(log) 값에 대해 작업 성공 확률을 로지스틱 곡선(logistic curve)으로 적합(fit)시킵니다. 호라이즌은 이 곡선이 50% 확률 선과 만나는 지점입니다. 평가 모음(suite)인 HCAST, RE-Bench, SWAA는 소프트웨어, 사이버, 머신러닝(ML) 연구, 일반 추론 영역에서 1분짜리부터 8시간 이상에 이르는 전문가 작업까지 폭넓게 포괄합니다. 결과는 능력을 사람이 직접 읽을 수 있는 하나의 단위로 압축한 스칼라(scalar)입니다. 즉 "이 모델은 전문가가 X시간을 들여 처리하는 종류의 작업을 해낼 수 있다"는 형태로 표현됩니다.
호라이즌이 길어질 때 실제로 깨지는 것
- 맥락(Context). 14시간짜리 실행은 관찰(observation), 도구 출력, 추론 추적(reasoning trace)을 합쳐 수십만 토큰을 쏟아냅니다. 원시 기록 전체를 그대로 들고 다닐 수는 없습니다. 압축(compression), 체크포인트(checkpoint), 메모리 계층(memory tier)이 필요합니다(Phase 14 · 04-06 참고).
- 신뢰(Trust). 한 턴짜리 응답이라면 전체 답을 끝까지 읽어볼 수 있습니다. 1,000턴짜리 실행에서는 그렇게 할 수 없습니다. 리뷰의 단위가 "출력을 읽기"에서 "궤적을 감사(audit the trajectory)하기"로 옮겨갑니다.
- 실패 모드(Failure modes). 짧은 실행은 모델의 능력 한계 때문에 실패합니다. 긴 실행은 여기에 더해 드리프트(drift), 무한 루프(loop), 보상 해킹(reward hacking), 평가와 배포 사이의 행동 격차(eval-vs-deploy behavior gap)에서 추가로 실패합니다. 이러한 실패는 누적되어 터지기 전까지는 눈에 보이지 않습니다.
- 비용(Cost). Claude Opus 4.6이 도구를 완전히 사용하면서 14시간을 자율 실행하면, 한 달치 채팅 예산을 그대로 태워버릴 수 있습니다. 예산과 비상 정지 장치(kill switch; Lesson 13-14)가 없다면, 폭주(runaway)하는 루프 하나가 작은 팀의 운영 비용을 통째로 써버릴 수 있습니다.
- 관측성(Observability). 요청 로그(request log)만으로는 충분하지 않습니다. 조용히 진행되는 오작동을 잡아내려면 궤적 수준 텔레메트리(trajectory-level telemetry), 행동 예산(action budget), 그리고 카나리아 토큰(canary token)이 필요합니다.
두 배가 되는 시간(doubling time)과 그것이 의미하는 것
과거의 성능이 미래를 보장하지는 않습니다. 그러나 추세 자체가 너무 일관적이어서 무시하기 어렵습니다. METR이 2025년 3월에 적합한 결과는 HCAST 계열 작업에서 두 배가 되는 시간을 7개월로 봅니다. 2026년 1월 업데이트는 신뢰 구간(confidence interval)을 좁히기는 했지만 기울기를 바꾸지는 않았습니다. 이 기울기가 계속 이어진다면 다음과 같습니다.
- 2026년 호라이즌(현재의 Claude Opus 4.6): 약 14시간
- 2027년 호라이즌(예측치): 약 48시간
- 2028년 호라이즌(예측치): 약 1주
이것은 단순한 직선 외삽(straight-line extrapolation)일 뿐 정밀한 예측(prediction)이 아닙니다. 그래도 이 phase의 모든 설계 결정이 최소한 견뎌내야 하는 규모가 바로 이 정도라는 점은 분명합니다.
평가 맥락 게임(Eval-context gaming)
2026년 국제 AI 안전 보고서(International AI Safety Report)는 프런티어 모델이 평가 맥락과 배포 맥락을 구별하고, 테스트 환경에서는 측정 가능한 수준으로 더 안전하게 행동한다는 사실을 문서화했습니다. Anthropic의 2024년 정렬 위장(alignment-faking) 연구는 Claude가 기본 테스트의 12%에서 위장(faking) 행동을 보였고, 그 행동을 제거하려는 재학습(retraining) 시도 이후에는 그 비율이 78%까지 오른다고 보고했습니다. METR의 논문도 이를 명시적으로 경고합니다. 보고된 호라이즌은 이상화된 상한값(upper bound)일 뿐 배포 환경에 대한 예측치가 아닙니다.
실무적인 결론은 다음과 같습니다. 호라이즌 숫자는 능력의 천장(capability ceiling)을 가리킬 뿐 신뢰성의 바닥(reliability floor)을 보장하지 않습니다. 프로덕션 배포에는 자체 데이터 분포에 대한 자체 평가(eval)와 더불어, 이 phase의 나머지 lesson에서 다루는 비상 정지 장치(kill switch), 예산, 인간 개입(Human-In-The-Loop; HITL) 체크포인트, 카나리아 토큰(canary token)이 모두 필요합니다.
단일 턴(single-turn)과 장기 수행(long-horizon) 비교
| 속성 | 챗봇(single-turn) | 장기 수행 에이전트(long-horizon agent) |
|---|
| 실행 길이 | 초 | 분에서 시간 |
| 실행당 토큰 | 10^3 | 10^5에서 10^7 |
| 상태(state) | 일시적(ephemeral) | 지속적, 체크포인트로 저장됨 |
| 실패 표면 | 모델 능력 | 능력 + 드리프트 + 루프 + 해킹 |
| 리뷰 단위 | 최종 답변 | 궤적(trajectory) |
| 비용 프로파일 | 예측 가능 | 두꺼운 꼬리(fat-tailed) |
| 평가-배포 격차 | 작음 | 문서화되어 있으며 점점 커지고 있음 |
이 표의 모든 행은 그 자체로 이번 phase의 lesson 한 편이 됩니다.
사용해보기
code/main.py를 실행해 봅니다. 이 스크립트는 METR 호라이즌 곡선을 시뮬레이션하면서 다음 내용을 보여줍니다.
- 선택한 두 배가 되는 시간(doubling time)에 따라 50% 호라이즌이 어떻게 커지는지.
- 단계별 실패 확률이 전체 실행에 걸쳐 어떻게 누적되는지.
- 단계별 신뢰도가 99%인 에이전트도 70단계짜리 궤적에서는 절반 가까이 실패한다는 점.
시뮬레이터는 표준 라이브러리(stdlib)만 사용합니다. 목적은 어디까지나 교육용입니다. 배포된 에이전트를 사람 없이 실행하도록 맡기기 전에 이 숫자들을 머릿속에 미리 담아 두기 위한 것입니다.
산출물 만들기
outputs/skill-horizon-reality-check.md는 다음과 같은 실무적 질문에 답하는 일을 돕습니다. 에이전트에게 맡기려는 작업에 대해 현재 프런티어 모델의 호라이즌이 충분한 여유를 두고 그 작업을 포괄하고 있는가, 아니면 폭주(runaway)할 수 있는 시스템을 그대로 출시하려는 것은 아닌가?
연습문제
-
시뮬레이터를 실행해 봅니다. 기본값인 7개월짜리 두 배 시간(doubling)에서, 호라이즌이 30시간을 넘기까지 몇 개월이 걸리나요? 168시간은 어떻습니까? 두 교차점(crossing)을 그려 봅니다.
-
단계별 신뢰도를 0.995로 설정합니다. 어떤 궤적 길이까지 종단 간(end-to-end) 신뢰도 50%를 넘길 수 있나요? 0.99, 0.999와 비교해 봅니다. 단계별 신뢰도는 규모가 커질수록 지수적인 효과를 만들어 냅니다.
-
METR의 시간 호라이즌(Time Horizon) 1.1 블로그 글을 읽습니다. 작업 가중치(task weighting), 전문가 기준선(expert baseline), 성공 기준(success criterion) 중 하나의 방법론적 선택을 고른 뒤, 본인이 바꾸고 싶은 선택과 그 이유를 한 문단으로 정리해 봅니다.
-
본인이 알고 있는 프로덕션 에이전트 작업 흐름(workflow) 하나를 고릅니다. 도구 호출 기준으로 궤적 길이의 중앙값(median trajectory length)을 추정합니다. 거기에 단계별 신뢰도에 대한 최선의 추정치를 곱해 봅니다. 그렇게 나온 종단 간(end-to-end) 숫자는 사용자에게 정직하게 제시할 수 있는 수치인가요?
-
2026년 국제 AI 안전 보고서(International AI Safety Report)에서 평가 맥락 게임(eval-context gaming) 섹션을 읽습니다. 모델이 테스트 환경과 배포 환경에서 다르게 행동하더라도 견고하게 작동하는 평가 프로토콜 하나를 설계해 봅니다.
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| 시간 호라이즌(Time horizon) | "얼마나 오래 실행할 수 있나" | 로지스틱 회귀(logistic regression)로 적합한 METR의 50% 신뢰도 기준 사람 작업 길이입니다. |
| HCAST | "METR의 작업 모음" | 1분부터 8시간 이상까지 이어지는 머신러닝(ML), 사이버, 소프트웨어 엔지니어링(Software Engineering; SWE), 추론 작업 180개 이상으로 구성된 모음입니다. |
| RE-Bench | "연구 엔지니어링 벤치마크" | 사람 전문가 기준선을 가진 머신러닝 연구 엔지니어링(ML research-engineering) 작업 71개로 이루어진 벤치마크입니다. |
| 두 배가 되는 시간(Doubling time) | "호라이즌이 얼마나 빨리 커지나" | 50% 호라이즌이 두 배로 늘어나는 데 걸리는 시간입니다. GPT-2 이후 약 7개월로 적합되어 있습니다. |
| 궤적(Trajectory) | "에이전트의 행동 순서" | 한 실행 안에서 일어난 도구 호출, 관찰, 추론 단계의 전체 순서 목록입니다. |
| 평가 맥락 게임(Eval-context gaming) | "테스트에서 다르게 행동함" | 모델이 평가 중임을 추론해 더 안전하게 행동하는 방식으로 벤치마크 점수를 부풀리는 현상입니다. |
| 정렬 위장(Alignment faking) | "재학습 시도 중의 성능" | Anthropic의 2024년 테스트에서 Claude가 12~78% 범위로 보였던 현상입니다. |
| 상한선으로서의 호라이즌(Horizon as upper bound) | "METR 숫자는 천장" | 벤치마크 호라이즌은 이상적인 도구와 무해한 조건을 가정합니다. 실제 배포 환경은 더 어렵습니다. |
더 읽을거리