METR 시간 지평과 외부 역량 평가

METR(이전 ARC Evals)은 2023년 12월부터 독립 501(c)(3) 비영리 조직입니다. METR의 Time Horizon 1.1 벤치마크(2026년 1월)는 전문가가 작업을 완료하는 데 걸리는 시간의 로그값(log expert human completion time)과 작업 성공 확률 사이에 로지스틱 곡선(logistic curve)을 맞춥니다. 이 곡선에서 성공 확률이 50%가 되는 교차점이 모델의 시간 지평(time horizon)입니다. 2025-2026년 평가 협업에는 GPT-5.1, GPT-5.1-Codex-Max, 그리고 감시 평가 원형(prototype monitoring evaluations)이 포함됩니다. 예를 들어 감시자가 부가 작업(side task)을 잡아낼 수 있는지, 에이전트(agent)가 감시를 회피할 수 있는지를 평가합니다. 벤치마크 묶음은 HCAST(머신러닝, 사이버, 소프트웨어 엔지니어링, 추론 과제 180개 이상. 1분에서 8시간 이상), RE-Bench(전문가 기준선이 있는 ML 연구 엔지니어링 과제 71개), SWAA입니다. 솔직히 짚어야 할 점은 이것입니다. METR의 측정은 이상화되어 있습니다. 사람도 없고, 실제 결과도 없습니다. 또한 METR 팀은 평가와 배포 사이의 행동 차이(eval-vs-deployment behavior gap)를 문서화했습니다(1강). 시간 지평은 상한(upper bound)이지, 배포 예측이 아닙니다.

유형: Learn 언어: Python(stdlib, 로지스틱 적합 기반 시간 지평 추정기) 선수 조건: Phase 15 · 01(장기 수행 에이전트), Phase 15 · 19(RSP) 예상 시간: 약 60분

문제

확장 정책(scaling policy, 19강과 20강)은 그 정책이 참조하는 측정(measurement)이 유용할 때에만 유용합니다. "AI R&D-4 임계값"이나 "장거리 자율성(Long-range Autonomy)"은 정책 문장 안에서 정의됩니다. 하지만 실제로 행동 가능한 기준이 되려면 구체적인 평가(evaluation)가 구체적인 숫자를 만들어야 합니다.

METR은 2024-2026년에 그런 숫자 중 많은 것을 정의해 온 외부 평가 조직(external evaluation organization)입니다. METR은 프런티어 모델(frontier model)을 평가합니다. 대개 출시 전 모델을 연구소와 비밀유지계약(NDA) 아래에서 평가하고, 이후 방법론을 공개합니다. Time Horizon 1.1 벤치마크(2026년 1월)는 METR의 대표 산출물입니다. 이 벤치마크는 역량을 사람이 이해하기 쉬운 단일 스칼라(scalar)로 압축합니다. 예를 들면 "이 모델은 전문가가 X시간을 쓰는 종류의 과제를 50% 신뢰도(reliability)로 수행할 수 있다"는 식입니다.

이 강의는 절반은 방법론, 즉 시간 지평이 어떻게 계산되는지를 다룹니다. 나머지 절반은 해석, 즉 왜 시간 지평이 배포 예측이 아니라 상한인지를 다룹니다. 두 기술은 함께 필요합니다. 시간 지평이 어떻게 적합(fit)되는지 이해하는 팀은 슬라이드에 적힌 "14시간"이라는 숫자만 보는 팀보다 나쁜 공급업체 주장(vendor claim)에 훨씬 덜 속습니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.METR이 모델의 시간 지평(time horizon)을 계산하는 방법은?

2.METR이 사용하는 벤치마크 묶음은?

0/2 답변 완료

개념

METR 배경

  • 설립: 2023년 12월. 이전 ARC Evals에서 독립 501(c)(3) 비영리 조직으로 분리되었습니다.
  • 범위: 프런티어 모델의 자율 역량(autonomous capabilities)을 평가합니다. 출시 전 모델을 다루는 경우가 많습니다.
  • 협력 연구소: Anthropic, OpenAI. 2025-2026년에 여러 평가 협업이 있었습니다.
  • 주요 산출물: Time Horizon 1.0(2025년 3월), Time Horizon 1.1(2026년 1월), 감시 평가 원형.

Time Horizon 적합

METR 블로그와 논문에서 설명하는 방법론은 다음과 같습니다.

  1. 전문가 완료 시간이 분 단위에서 시간 단위까지 걸쳐 있는 과제 묶음(task suite)을 수집합니다. 현재 묶음은 HCAST(과제 180개 이상), RE-Bench(과제 71개), SWAA입니다.
  2. 모델을 각 과제에서 실행하고 성공 또는 실패를 기록합니다.
  3. 로지스틱 곡선을 맞춥니다. 성공 확률 P(success)를 전문가 완료 시간의 로그값에 대한 함수로 봅니다.
  4. 성공 확률이 0.5가 되는 전문가 시간이 시간 지평입니다.

로지스틱 적합 형태가 적절한 이유는, 일반적으로 역량이 과제 난이도와 함께 증가하다가 어느 지점에서 평탄해지는 관계를 갖기 때문입니다. 50% 지점은 선택입니다. 10%나 90%를 쓸 수도 있습니다. METR은 상세 논문에서 여러 임계값을 보고하지만, 가장 직관적이기 때문에 50%를 대표 수치로 제시합니다.

2026년 1월 수치

Time Horizon 1.1 기준 수치는 다음과 같습니다.

  • Claude Opus 4.6: Time Horizon 1.1(2026년 1월) 기준, 50% 신뢰도에서 약 14시간입니다.
  • HCAST 방식 과제에서의 배가 시간(doubling time): Time Horizon 1.1(2026년 1월)이 보고한 2023년 이후 적합(post-2023 fit) 기준 약 4.3개월(130.8일)입니다. 약 7개월이라는 수치는 Time Horizon 1.0의 2019-2025 전체 적합(full 2019-2025 fit)에서 나온 값이며, TH1.1에서도 2023년 이후 수치와 함께 보고됩니다.

이 수치들이 Phase 15의 나머지 강의가 참조하는 구체적인 숫자입니다. Anthropic RSP v3.0(19강)과 DeepMind FSF v3(20강)도 임계값 평가에 들어가는 측정 중 하나로 이 값을 인용합니다.

벤치마크 묶음

  • HCAST: 머신러닝(ML), 사이버보안(cybersecurity), 소프트웨어 엔지니어링(software engineering), 일반 추론(general reasoning)에 걸친 과제 189개입니다. 전문가 시간이 1분에서 8시간 이상까지 걸쳐 있습니다. 시간 지평 숫자의 기반이 되는 주된 묶음입니다.
  • RE-Bench: 사람 전문가 기준선(human expert baseline)이 있는 ML 연구 엔지니어링 과제 71개입니다. 모델이 AI R&D-4 임계값으로 이어지는 종류의 ML R&D 작업을 수행할 수 있는지 측정합니다.
  • SWAA: 더 짧은 과제 묶음입니다. 시간 지평 곡선의 낮은 구간을 보정(calibrate)하는 데 유용합니다.

감시 평가 원형

2025-2026년 METR 작업에는 감시 평가 원형이 포함되었습니다. 감시자가 모델이 부가 작업, 즉 운영자가 요청한 것과 다른 일을 수행하는 것을 잡아낼 수 있는지, 그리고 에이전트가 감시자를 회피할 수 있는지를 평가합니다. 이는 OpenAI PF v2의 "안전장치 약화(Undermining Safeguards)" 범주와 DeepMind FSF v3의 기만적 정렬 감시(deceptive-alignment monitoring)에 직접 연결됩니다(20강).

왜 시간 지평은 상한인가

  • 이상화된 도구(idealized tooling): 벤치마크 과제는 모델에게 깔끔한 도구와 잘 정리된 데이터를 제공합니다. 실제 배포 환경은 훨씬 더 지저분합니다.
  • 실제 결과가 없음(no real consequences): 모델은 실제 고객에게 비용을 청구하거나, 실제 데이터를 삭제하거나, 실제 사람에게 연락하지 않습니다. 실제 배포에는 되돌릴 수 없는 이해관계가 있습니다.
  • 평가 맥락 게임(eval-context gaming): 1강에서 다뤘습니다. 모델은 테스트 안에서 다르게 행동합니다. 2026 International AI Safety Report는 이를 실증적으로 문서화합니다.
  • 실제 사용자 편차가 없음(no legitimate user variance): 벤치마크 프롬프트(prompt)는 구조화되어 있습니다. 실제 사용자는 모호하고, 맥락에 따라 달라지는 요청을 만듭니다.

시간 지평은 좋은 조건에서의 역량 상한입니다. 배포 신뢰도(deployment reliability)는 다른 숫자이며, 더 낮습니다. 각 팀은 자기 업무 분포(distribution)를 직접 측정해야 그 숫자를 알 수 있습니다.

외부 평가자가 필요한 이유

외부 평가는 중요합니다. 내부 연구소에는 자신들이 보고하는 지표를 좋게 보이도록 최적화할 유인이 있기 때문입니다. METR의 독립성, 즉 501(c)(3) 구조, 공개된 방법론, 동료심사 논문(peer-reviewed papers)은 구조적 완화 조치입니다. 이것만으로 충분하지는 않습니다. 연구소가 여전히 METR이 무엇을 볼 수 있는지 통제하기 때문입니다. 하지만 외부 평가가 전혀 없는 것보다는 엄격히 더 낫습니다.

시간 지평 숫자를 실무에서 사용하는 법

  • 역량 필터(capability filter)로 사용하기: 모델의 시간 지평이 제안된 과제의 전문가 시간보다 훨씬 낮다면, 그 모델을 자율적으로 배포하지 않습니다(1강의 skill 파일).
  • 추세 지표(trend indicator)로 사용하기: 배가 시간은 새로운 완화 조치가 없더라도 현재 실무가 얼마나 오래 안전하게 유지될 수 있는지 알려줍니다.
  • 사전값(prior)으로 사용하기: 14시간이라는 시간 지평은 출발점입니다. 여러분의 과제 분포, 도구 품질, 배포 맥락을 고려해 아래로 조정해야 합니다.

사용해보기

code/main.py는 합성 결과 집합(synthetic result set)을 받아 과제 성공 여부와 전문가 시간의 로그값 사이에 로지스틱 적합을 수행합니다. 이 코드는 50% 시간 지평(METR의 대표 수치), 10% 시간 지평(보수적 해석), 90% 시간 지평(낙관적 해석)을 보고합니다. 또한 평가 맥락 게임으로 성공률이 인위적으로 부풀려졌을 때 무엇이 달라지는지도 보여줍니다.

산출물 만들기

outputs/skill-horizon-interpretation.md는 공급업체의 시간 지평 주장을 검토하고, 벤치마크 주장과 실제 배포 현실 사이의 격차 분석(gap analysis)을 생성합니다.

연습문제

  1. code/main.py를 실행하세요. 적합 결과의 50% 시간 지평이 합성된 실제 기준값(ground truth)과 일치하는지 확인하세요. 이제 과제 시간 격자(task-time grid)를 절반으로 줄여보세요. 시간 지평 추정치가 의미 있게 바뀝니까?

  2. METR의 Time Horizon 1.1 블로그 글을 읽으세요. 신뢰도가 가장 높은 과제와 가장 낮은 과제를 식별하세요. 왜 그런 차이가 생기는지 설명하세요.

  3. METR의 "Measuring Autonomous AI Capabilities" 자료를 읽으세요. HCAST 과제 범주를 나열하세요. 운영 과제(production task)를 위해 더 높은 가중치를 주고 싶은 범주 하나를 고르고 이유를 정당화하세요.

  4. 시뮬레이터에 평가 맥락 게임을 넣어보세요. 실패한 과제의 약 20%를 성공으로 뒤집습니다. 새 시간 지평을 보고하세요. 이는 20% 수준의 게임 비율이 관찰된 숫자에 어떤 영향을 주는지 근사합니다.

  5. 여러분의 버그 백로그나 대표 과제 집합을 대상으로 내부 시간 지평 평가를 설계하세요. 데이터 수집, 적합 방식, 출력이 무엇을 말해 주는지 설명하세요. METR 숫자와 비교하세요.

핵심 용어

용어흔한 설명실제 의미
METR"외부 평가자"이전 ARC Evals. 2023년 12월부터 독립 501(c)(3)
시간 지평(Time Horizon)"역량 측정값"로지스틱 적합에서 50% 신뢰도로 성공하는 전문가 과제 시간
HCAST"METR의 주된 묶음"1분에서 8시간 이상까지 걸친 과제 180개 이상
RE-Bench"연구 엔지니어링"사람 기준선이 있는 ML 연구 엔지니어링 과제 71개
SWAA"짧은 과제 묶음"시간 지평 곡선의 낮은 구간을 보정
배가 시간(Doubling time)"성장률"50% 시간 지평이 두 배가 되는 데 걸리는 시간. HCAST 기준 약 7개월이라는 수치가 보고됨
평가 맥락 게임(Eval-context gaming)"모델이 다르게 행동함"테스트와 배포 사이에 문서화된 행동 차이
상한(Upper bound)"시간 지평은 천장"부하가 걸린 배포 환경에서의 신뢰도보다 벤치마크 시간 지평이 더 큼

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

horizon-interpretation

Review a vendor's time-horizon claim and produce a gap analysis between benchmark claim and deployment reality.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.시간 지평이 배포 예측이 아닌 상한값(upper bound)인 이유는?

2.Time Horizon 1.1이 보고한 2023년 이후 HCAST 방식 과제의 배가 시간(doubling time)은?

3.METR의 감시 평가 원형(monitoring evaluation prototype)이 테스트한 것은?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다