METR 시간 지평과 외부 역량 평가
METR(이전 ARC Evals)은 2023년 12월부터 독립 501(c)(3) 비영리 조직입니다. METR의 Time Horizon 1.1 벤치마크(2026년 1월)는 전문가가 작업을 완료하는 데 걸리는 시간의 로그값(log expert human completion time)과 작업 성공 확률 사이에 로지스틱 곡선(logistic curve)을 맞춥니다. 이 곡선에서 성공 확률이 50%가 되는 교차점이 모델의 시간 지평(time horizon)입니다. 2025-2026년 평가 협업에는 GPT-5.1, GPT-5.1-Codex-Max, 그리고 감시 평가 원형(prototype monitoring evaluations)이 포함됩니다. 예를 들어 감시자가 부가 작업(side task)을 잡아낼 수 있는지, 에이전트(agent)가 감시를 회피할 수 있는지를 평가합니다. 벤치마크 묶음은 HCAST(머신러닝, 사이버, 소프트웨어 엔지니어링, 추론 과제 180개 이상. 1분에서 8시간 이상), RE-Bench(전문가 기준선이 있는 ML 연구 엔지니어링 과제 71개), SWAA입니다. 솔직히 짚어야 할 점은 이것입니다. METR의 측정은 이상화되어 있습니다. 사람도 없고, 실제 결과도 없습니다. 또한 METR 팀은 평가와 배포 사이의 행동 차이(eval-vs-deployment behavior gap)를 문서화했습니다(1강). 시간 지평은 상한(upper bound)이지, 배포 예측이 아닙니다.
유형: Learn
언어: Python(stdlib, 로지스틱 적합 기반 시간 지평 추정기)
선수 조건: Phase 15 · 01(장기 수행 에이전트), Phase 15 · 19(RSP)
예상 시간: 약 60분
문제
확장 정책(scaling policy, 19강과 20강)은 그 정책이 참조하는 측정(measurement)이 유용할 때에만 유용합니다. "AI R&D-4 임계값"이나 "장거리 자율성(Long-range Autonomy)"은 정책 문장 안에서 정의됩니다. 하지만 실제로 행동 가능한 기준이 되려면 구체적인 평가(evaluation)가 구체적인 숫자를 만들어야 합니다.
METR은 2024-2026년에 그런 숫자 중 많은 것을 정의해 온 외부 평가 조직(external evaluation organization)입니다. METR은 프런티어 모델(frontier model)을 평가합니다. 대개 출시 전 모델을 연구소와 비밀유지계약(NDA) 아래에서 평가하고, 이후 방법론을 공개합니다. Time Horizon 1.1 벤치마크(2026년 1월)는 METR의 대표 산출물입니다. 이 벤치마크는 역량을 사람이 이해하기 쉬운 단일 스칼라(scalar)로 압축합니다. 예를 들면 "이 모델은 전문가가 X시간을 쓰는 종류의 과제를 50% 신뢰도(reliability)로 수행할 수 있다"는 식입니다.
이 강의는 절반은 방법론, 즉 시간 지평이 어떻게 계산되는지를 다룹니다. 나머지 절반은 해석, 즉 왜 시간 지평이 배포 예측이 아니라 상한인지를 다룹니다. 두 기술은 함께 필요합니다. 시간 지평이 어떻게 적합(fit)되는지 이해하는 팀은 슬라이드에 적힌 "14시간"이라는 숫자만 보는 팀보다 나쁜 공급업체 주장(vendor claim)에 훨씬 덜 속습니다.
개념
METR 배경
- 설립: 2023년 12월. 이전 ARC Evals에서 독립 501(c)(3) 비영리 조직으로 분리되었습니다.
- 범위: 프런티어 모델의 자율 역량(autonomous capabilities)을 평가합니다. 출시 전 모델을 다루는 경우가 많습니다.
- 협력 연구소: Anthropic, OpenAI. 2025-2026년에 여러 평가 협업이 있었습니다.
- 주요 산출물: Time Horizon 1.0(2025년 3월), Time Horizon 1.1(2026년 1월), 감시 평가 원형.
Time Horizon 적합
METR 블로그와 논문에서 설명하는 방법론은 다음과 같습니다.
- 전문가 완료 시간이 분 단위에서 시간 단위까지 걸쳐 있는 과제 묶음(task suite)을 수집합니다. 현재 묶음은 HCAST(과제 180개 이상), RE-Bench(과제 71개), SWAA입니다.
- 모델을 각 과제에서 실행하고 성공 또는 실패를 기록합니다.
- 로지스틱 곡선을 맞춥니다. 성공 확률 P(success)를 전문가 완료 시간의 로그값에 대한 함수로 봅니다.
- 성공 확률이 0.5가 되는 전문가 시간이 시간 지평입니다.
로지스틱 적합 형태가 적절한 이유는, 일반적으로 역량이 과제 난이도와 함께 증가하다가 어느 지점에서 평탄해지는 관계를 갖기 때문입니다. 50% 지점은 선택입니다. 10%나 90%를 쓸 수도 있습니다. METR은 상세 논문에서 여러 임계값을 보고하지만, 가장 직관적이기 때문에 50%를 대표 수치로 제시합니다.
2026년 1월 수치
Time Horizon 1.1 기준 수치는 다음과 같습니다.
- Claude Opus 4.6: Time Horizon 1.1(2026년 1월) 기준, 50% 신뢰도에서 약 14시간입니다.
- HCAST 방식 과제에서의 배가 시간(doubling time): Time Horizon 1.1(2026년 1월)이 보고한 2023년 이후 적합(post-2023 fit) 기준 약 4.3개월(130.8일)입니다. 약 7개월이라는 수치는 Time Horizon 1.0의 2019-2025 전체 적합(full 2019-2025 fit)에서 나온 값이며, TH1.1에서도 2023년 이후 수치와 함께 보고됩니다.
이 수치들이 Phase 15의 나머지 강의가 참조하는 구체적인 숫자입니다. Anthropic RSP v3.0(19강)과 DeepMind FSF v3(20강)도 임계값 평가에 들어가는 측정 중 하나로 이 값을 인용합니다.
벤치마크 묶음
- HCAST: 머신러닝(ML), 사이버보안(cybersecurity), 소프트웨어 엔지니어링(software engineering), 일반 추론(general reasoning)에 걸친 과제 189개입니다. 전문가 시간이 1분에서 8시간 이상까지 걸쳐 있습니다. 시간 지평 숫자의 기반이 되는 주된 묶음입니다.
- RE-Bench: 사람 전문가 기준선(human expert baseline)이 있는 ML 연구 엔지니어링 과제 71개입니다. 모델이 AI R&D-4 임계값으로 이어지는 종류의 ML R&D 작업을 수행할 수 있는지 측정합니다.
- SWAA: 더 짧은 과제 묶음입니다. 시간 지평 곡선의 낮은 구간을 보정(calibrate)하는 데 유용합니다.
감시 평가 원형
2025-2026년 METR 작업에는 감시 평가 원형이 포함되었습니다. 감시자가 모델이 부가 작업, 즉 운영자가 요청한 것과 다른 일을 수행하는 것을 잡아낼 수 있는지, 그리고 에이전트가 감시자를 회피할 수 있는지를 평가합니다. 이는 OpenAI PF v2의 "안전장치 약화(Undermining Safeguards)" 범주와 DeepMind FSF v3의 기만적 정렬 감시(deceptive-alignment monitoring)에 직접 연결됩니다(20강).
왜 시간 지평은 상한인가
- 이상화된 도구(idealized tooling): 벤치마크 과제는 모델에게 깔끔한 도구와 잘 정리된 데이터를 제공합니다. 실제 배포 환경은 훨씬 더 지저분합니다.
- 실제 결과가 없음(no real consequences): 모델은 실제 고객에게 비용을 청구하거나, 실제 데이터를 삭제하거나, 실제 사람에게 연락하지 않습니다. 실제 배포에는 되돌릴 수 없는 이해관계가 있습니다.
- 평가 맥락 게임(eval-context gaming): 1강에서 다뤘습니다. 모델은 테스트 안에서 다르게 행동합니다. 2026 International AI Safety Report는 이를 실증적으로 문서화합니다.
- 실제 사용자 편차가 없음(no legitimate user variance): 벤치마크 프롬프트(prompt)는 구조화되어 있습니다. 실제 사용자는 모호하고, 맥락에 따라 달라지는 요청을 만듭니다.
시간 지평은 좋은 조건에서의 역량 상한입니다. 배포 신뢰도(deployment reliability)는 다른 숫자이며, 더 낮습니다. 각 팀은 자기 업무 분포(distribution)를 직접 측정해야 그 숫자를 알 수 있습니다.
외부 평가자가 필요한 이유
외부 평가는 중요합니다. 내부 연구소에는 자신들이 보고하는 지표를 좋게 보이도록 최적화할 유인이 있기 때문입니다. METR의 독립성, 즉 501(c)(3) 구조, 공개된 방법론, 동료심사 논문(peer-reviewed papers)은 구조적 완화 조치입니다. 이것만으로 충분하지는 않습니다. 연구소가 여전히 METR이 무엇을 볼 수 있는지 통제하기 때문입니다. 하지만 외부 평가가 전혀 없는 것보다는 엄격히 더 낫습니다.
시간 지평 숫자를 실무에서 사용하는 법
- 역량 필터(capability filter)로 사용하기: 모델의 시간 지평이 제안된 과제의 전문가 시간보다 훨씬 낮다면, 그 모델을 자율적으로 배포하지 않습니다(1강의 skill 파일).
- 추세 지표(trend indicator)로 사용하기: 배가 시간은 새로운 완화 조치가 없더라도 현재 실무가 얼마나 오래 안전하게 유지될 수 있는지 알려줍니다.
- 사전값(prior)으로 사용하기: 14시간이라는 시간 지평은 출발점입니다. 여러분의 과제 분포, 도구 품질, 배포 맥락을 고려해 아래로 조정해야 합니다.
사용해보기
code/main.py는 합성 결과 집합(synthetic result set)을 받아 과제 성공 여부와 전문가 시간의 로그값 사이에 로지스틱 적합을 수행합니다. 이 코드는 50% 시간 지평(METR의 대표 수치), 10% 시간 지평(보수적 해석), 90% 시간 지평(낙관적 해석)을 보고합니다. 또한 평가 맥락 게임으로 성공률이 인위적으로 부풀려졌을 때 무엇이 달라지는지도 보여줍니다.
산출물 만들기
outputs/skill-horizon-interpretation.md는 공급업체의 시간 지평 주장을 검토하고, 벤치마크 주장과 실제 배포 현실 사이의 격차 분석(gap analysis)을 생성합니다.
연습문제
-
code/main.py를 실행하세요. 적합 결과의 50% 시간 지평이 합성된 실제 기준값(ground truth)과 일치하는지 확인하세요. 이제 과제 시간 격자(task-time grid)를 절반으로 줄여보세요. 시간 지평 추정치가 의미 있게 바뀝니까?
-
METR의 Time Horizon 1.1 블로그 글을 읽으세요. 신뢰도가 가장 높은 과제와 가장 낮은 과제를 식별하세요. 왜 그런 차이가 생기는지 설명하세요.
-
METR의 "Measuring Autonomous AI Capabilities" 자료를 읽으세요. HCAST 과제 범주를 나열하세요. 운영 과제(production task)를 위해 더 높은 가중치를 주고 싶은 범주 하나를 고르고 이유를 정당화하세요.
-
시뮬레이터에 평가 맥락 게임을 넣어보세요. 실패한 과제의 약 20%를 성공으로 뒤집습니다. 새 시간 지평을 보고하세요. 이는 20% 수준의 게임 비율이 관찰된 숫자에 어떤 영향을 주는지 근사합니다.
-
여러분의 버그 백로그나 대표 과제 집합을 대상으로 내부 시간 지평 평가를 설계하세요. 데이터 수집, 적합 방식, 출력이 무엇을 말해 주는지 설명하세요. METR 숫자와 비교하세요.
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| METR | "외부 평가자" | 이전 ARC Evals. 2023년 12월부터 독립 501(c)(3) |
| 시간 지평(Time Horizon) | "역량 측정값" | 로지스틱 적합에서 50% 신뢰도로 성공하는 전문가 과제 시간 |
| HCAST | "METR의 주된 묶음" | 1분에서 8시간 이상까지 걸친 과제 180개 이상 |
| RE-Bench | "연구 엔지니어링" | 사람 기준선이 있는 ML 연구 엔지니어링 과제 71개 |
| SWAA | "짧은 과제 묶음" | 시간 지평 곡선의 낮은 구간을 보정 |
| 배가 시간(Doubling time) | "성장률" | 50% 시간 지평이 두 배가 되는 데 걸리는 시간. HCAST 기준 약 7개월이라는 수치가 보고됨 |
| 평가 맥락 게임(Eval-context gaming) | "모델이 다르게 행동함" | 테스트와 배포 사이에 문서화된 행동 차이 |
| 상한(Upper bound) | "시간 지평은 천장" | 부하가 걸린 배포 환경에서의 신뢰도보다 벤치마크 시간 지평이 더 큼 |
더 읽을거리