OpenAI Preparedness Framework와 DeepMind Frontier Safety Framework

OpenAI Preparedness Framework v2(2025년 4월)는 연구 범주(Research Category)를 도입합니다. 장거리 자율성(Long-range Autonomy), 샌드배깅(Sandbagging), 자율 복제와 적응(Autonomous Replication and Adaptation), 안전장치 약화(Undermining Safeguards)가 여기에 들어가며, 추적 범주(Tracked Category)와 구분됩니다. 추적 범주는 안전 자문 그룹(Safety Advisory Group)의 검토를 받는 역량 보고서(Capabilities Report)와 안전장치 보고서(Safeguards Report)를 발생시킵니다. DeepMind의 Frontier Safety Framework v3(FSF v3, 2025년 9월. 추적 역량 수준(Tracked Capability Levels)은 2026년 4월 17일 추가)는 자율성(autonomy)을 기계학습 연구개발(ML R&D)과 사이버(Cyber) 도메인(domain) 안으로 접어 넣습니다. ML R&D 자율성 1단계(ML R&D autonomy level 1)는 사람과 AI 도구(tool)를 함께 쓰는 방식 대비 경쟁력 있는 비용으로 AI 연구개발 파이프라인(pipeline)을 완전히 자동화(automate)하는 능력입니다. FSF v3는 도구적 추론(instrumental reasoning) 오용을 자동 감시(automated monitoring)하는 방식으로 기만적 정렬(deceptive alignment)을 명시적으로 다룹니다. 솔직히 짚어야 할 점은 이것입니다. PF v2의 연구 범주, 특히 장거리 자율성은 완화 조치(mitigation)를 자동으로 발생시키지 않습니다. 정책 문구는 "가능한(potential)" 완화 조치라고 말합니다. DeepMind 역시 도구적 추론이 더 강해지면 자동 감시만으로는 장기적으로 충분하지 않을 것이라고 직접 말합니다.

유형: Learn 언어: Python(stdlib, 세 프레임워크(framework) 의사결정표 비교 도구) 선수 조건: Phase 15 · 19(Anthropic RSP) 예상 시간: 약 45분

문제

19강에서는 Anthropic의 확장 정책(scaling policy)을 자세히 읽었습니다. 이 강의에서는 OpenAI와 DeepMind의 정책을 함께 읽어 그림을 완성합니다. 세 문서는 모두 같은 질문을 다루는, 서로 닮은 산출물(artifact)입니다. 프런티어 연구소는 언제 모델(model)을 멈추거나 진입을 막아야 할까요? 세 문서는 작은 범주(category) 집합으로 수렴하지만, 중요한 몇몇 지점에서는 서로 갈라집니다.

수렴하는 지점은 이렇습니다. 세 문서 모두 장거리 자율성을 추적할 가치가 있는 역량 등급(capability class)으로 표시합니다. 세 문서 모두 기만적 행동(deceptive behavior), 즉 정렬 가장(alignment faking)과 샌드배깅을 별도의 위험 등급(risk class)으로 인정합니다. 세 문서 모두 내부 검토 기구(internal review body)를 둡니다. 반대로 갈라지는 지점도 분명합니다. OpenAI는 범주를 "추적(Tracked)", 즉 의무적인 완화 조치가 필요한 범주와 "연구(Research)", 즉 자동 발생 조건이 없는 범주로 나눕니다. DeepMind는 자율성을 독립 범주로 이름 붙이지 않고 두 도메인 안으로 접어 넣습니다. 연구소마다 Tracked vs Research, Critical vs Moderate, Tier-1 vs Tier-2처럼 부르는 방식은 다르지만, 어떤 역량이 어느 바구니(bucket)에 들어가는지에 따라 실제 운영상의 결과(operational consequence)는 달라집니다.

그래서 함께 읽는 것이 좋은 연습입니다. 같은 역량도 Anthropic에서는 "의무적인 완화 조치", OpenAI에서는 "감시는 하지만 자동 발생 조건은 아님", DeepMind에서는 "특정 도메인 안에서 추적"으로 분류될 수 있습니다. 정책의 자세(policy posture)가 중요합니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.OpenAI PF v2에서 연구 범주(Research Categories)와 추적 범주(Tracked Categories)를 구별하는 것은?

2.DeepMind FSF v3가 자율성을 OpenAI와 다르게 다루는 방식은?

0/2 답변 완료

개념

OpenAI Preparedness Framework v2(2025년 4월)

구조:

  • 추적 범주(Tracked Categories): 역량 보고서, 즉 모델이 무엇을 할 수 있는지에 대한 보고서와 안전장치 보고서, 즉 어떤 완화 조치가 있는지에 대한 보고서를 발생시킵니다. 배포(deployment) 전에는 안전 자문 그룹이 검토합니다.
  • 연구 범주(Research Categories): 연구소가 추적하지만 아직 특정 완화 조치를 확약하지 않은 모델 역량입니다. 장거리 자율성, 샌드배깅, 자율 복제와 적응, 안전장치 약화가 포함됩니다.

v2의 핵심 프레이밍(framing)은 연구 범주가 완화 조치를 자동으로 발생시키지 않는다는 점입니다. 정책 문구는 "가능한(potential)" 완화 조치라고 표현합니다. 이것이 특히 봐야 할 차이(delta)입니다. 어떤 범주가 추적 범주에 있는지, 연구 범주에 있는지가 "차단됨(gated)"과 "관찰됨(observed)"을 가르는 경첩(hinge)입니다.

DeepMind Frontier Safety Framework v3(2025년 9월; Tracked Capability Levels는 2026년 4월 17일 추가)

구조:

  • 핵심 역량 수준(Critical Capability Levels; CCLs): 다섯 도메인에 걸친 역량 임계값(capability threshold)입니다. 사이버(Cyber), 바이오(Bio), ML R&D, 화학·생물·방사능·핵(CBRN), 자율성이 있으며, 자율성은 ML R&D와 사이버 안으로 접혀 들어갑니다.
  • 추적 역량 수준(Tracked Capability Levels): 2026년 4월 추가된 더 세밀한 구분(granularity)입니다. 구체적인 예시는 ML R&D 자율성 1단계입니다. 이는 사람과 AI 도구를 함께 쓰는 방식 대비 경쟁력 있는 비용으로 AI R&D 파이프라인을 완전히 자동화하는 능력입니다.
  • 기만적 정렬 감시(Deceptive alignment monitoring): 도구적 추론 오용에 대한 자동 감시 약속(commitment)을 명시합니다.

자율성을 다루는 방식은 OpenAI와 다릅니다. DeepMind는 "자율성(Autonomy)"을 최상위 도메인(top-level domain)으로 유지하지 않습니다. 대신 자율성이 피해(harm)를 만들 수 있는 도메인, 즉 ML R&D와 사이버 안으로 접어 넣습니다. 그 논리는 도메인 없는 자율성은 위험 없는 역량이라는 것입니다. 반론도 있습니다. 도메인을 가로지르는 자율성이야말로 프레임워크가 따로 이름 붙여야 할 메타 위험(meta-risk)이라는 주장입니다.

세 프레임워크가 모두 수렴하는 지점

  • 내부 안전 자문 그룹(Internal Safety Advisory Group). Anthropic SAG, OpenAI SAG, DeepMind 내부 위원회가 여기에 해당합니다. 높은 역량을 가진 모델을 배포하기 전에 검토합니다.
  • 기만적 정렬(deceptive alignment)과 정렬 가장(alignment faking)을 위험 등급으로 명시합니다.
  • 명시된 주기(declared cadence)를 가진 상설 산출물(standing artifact)을 둡니다. Anthropic은 Frontier Safety Roadmap과 Risk Report, OpenAI는 Capabilities and Safeguards Reports, DeepMind는 FSF 업데이트 주기가 여기에 해당합니다.
  • 감시만으로 방어하는 방식에는 한계(ceiling)가 있음을 인정합니다. DeepMind는 "자동 감시는 장기적으로 충분하지 않을 것"이라고 명시합니다.

갈라지는 지점

  • Anthropic: v3.0에서 중단 약속(pause commitment)이 제거되었고, AI R&D-4 임계값(threshold)이 다음 관문(gate)으로 이름 붙었습니다.
  • OpenAI: 추적 범주와 연구 범주를 분리합니다. 장거리 자율성을 포함한 연구 범주는 자동 관문이 아닙니다.
  • DeepMind: 자율성을 다른 도메인 안으로 접어 넣습니다. 추적 역량 수준은 2026년 4월에 더 세밀한 구분을 추가했습니다.

샌드배깅(Sandbagging): 세 프레임워크를 모두 복잡하게 만드는 특정 역량(capability)

샌드배깅, 즉 모델이 평가(evaluation)에서 전략적으로 실제보다 낮은 성능을 보이는 행동은 OpenAI의 연구 범주에 들어갑니다. Anthropic RSP v3.0은 평가 맥락 격차(evaluation-context gap)로 이를 다룹니다(1강). DeepMind는 FSF v3에서 기만적 정렬 감시로 다룹니다.

모델이 평가에서 샌드배깅을 하면 모든 프레임워크의 역량 임계값은 과소평가됩니다. 측정(measurement)이 제대로 작동할 때에만 프레임워크도 제대로 작동합니다. 그래서 연구소 자체 평가(lab self-assessment)뿐 아니라 외부 측정(external measurement, 21강 METR)과 적대적 평가(adversarial evaluation)가 필요합니다.

정책 읽기 기술(Policy-reading skill)

  • 찾기(Locate): 관심 있는 모든 역량이 정책 안에서 찾아져야 합니다. 찾을 수 없다면 그 정책은 해당 역량을 덮지 않는 것입니다.
  • 분류하기(Classify): 추적 범주인가, 연구 범주인가? 다시 말해 완화 조치를 발생시키는가, 아니면 추적만 하는가? OpenAI는 이를 명시적으로 이름 붙이고, Anthropic과 DeepMind에도 각각 이에 해당하는 구분이 있습니다.
  • 주기 확인하기(Cadence): 정책이 명시된 일정에 따라 업데이트되는가, 아니면 특정 사건 뒤에만 업데이트되는가? 명시된 주기가 있는 편이 더 강한 구조입니다.
  • 독립성 확인하기(Independence): 외부 검토(external review)가 의무인가, 선택인가? Anthropic은 Apollo와 미국 AI 안전 연구소(US AI Safety Institute)와 협력하고, OpenAI는 METR과 연결되며, DeepMind는 주로 내부 SAG와 연결됩니다.

사용해보기

code/main.py는 작은 의사결정표 비교 도구(decision-table diff tool)를 구현합니다. 자율성, 기만적 정렬, R&D 자동화, 사이버 역량 향상(cyber uplift) 같은 역량이 주어지면 세 정책 각각이 그 역량을 어떻게 분류하고, 어떤 완화 조치를 발생시키는지 출력합니다. 이것은 읽기 보조 도구(reading aid)이지 실제 정책 도구(policy tool)가 아닙니다.

산출물 만들기

outputs/skill-cross-policy-diff.md는 특정 역량에 대한 정책 간 비교(cross-policy comparison)를 생성합니다. 세 프레임워크를 참고 자료(reference)로 사용합니다.

연습문제

  1. code/main.py를 실행하세요. 비교 도구의 출력이 원문 문서(source document)에서 확인할 수 있는 최소 두 역량에 대해 정책과 일치하는지 확인하세요.

  2. OpenAI Preparedness Framework v2 전체를 읽으세요. 각 연구 범주를 식별하세요. 각각이 왜 추적 범주가 아니라 연구 범주에 있는지 한 문장씩 쓰세요.

  3. DeepMind FSF v3 전체와 2026년 4월 추적 역량 수준 업데이트를 읽으세요. ML R&D 자율성 1단계의 구체적인 평가 기준(evaluation criteria)을 식별하세요. 이를 외부에서는 어떻게 측정하겠습니까?

  4. 샌드배깅은 OpenAI의 연구 범주에 들어갑니다. 샌드배깅하는 모델이 실제 역량을 드러내도록 강제하는 평가를 설계하세요. 1강의 평가 맥락 게임(eval-context-gaming) 논의를 참고하세요.

  5. 특정 역량 하나를 골라 세 정책을 비교하세요. 어느 정책의 분류(classification)가 가장 엄격한지(rigorous), 어느 것이 가장 덜 엄격한지 이름 붙이세요. 원문 문장(source text)으로 정당화하세요.

핵심 용어

용어흔한 설명실제 의미
준비 프레임워크(Preparedness Framework)"OpenAI의 확장 정책"PF v2(2025년 4월). 추적 범주와 연구 범주를 나눔
추적 범주(Tracked Category)"의무적인 완화 조치"역량 보고서, 안전장치 보고서, SAG 검토를 발생시킴
연구 범주(Research Category)"감시만 하는 범주"추적하지만 자동 완화 조치는 없음. 장거리 자율성 포함
프런티어 안전 프레임워크(Frontier Safety Framework)"DeepMind의 확장 정책"FSF v3(2025년 9월) + 추적 역량 수준(2026년 4월)
핵심 역량 수준(Critical Capability Level; CCL)"위험 역량 임계값"DeepMind의 도메인별 임계값(Cyber, Bio, ML R&D, CBRN)
ML R&D 자율성 1단계(ML R&D autonomy level 1)"R&D 자동화"경쟁력 있는 비용으로 AI R&D 파이프라인을 완전히 자동화
샌드배깅(Sandbagging)"전략적 저성과"모델이 평가에서 실제보다 낮은 성능을 보임. OpenAI 연구 범주에 있음
도구적 추론(Instrumental reasoning)"수단-목적 추론"목표 달성을 위한 추론. DeepMind 감시의 대상

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

cross-policy-diff

Produce a cross-policy comparison for a specific capability using the OpenAI Preparedness Framework v2, Anthropic RSP v3.0, and DeepMind FSF v3 as reference.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.세 프레임워크(RSP, PF, FSF)가 수렴하는 것은?

2.FSF v3의 ML R&D 자율성 1단계란?

3.PF v2 연구 범주(장거리 자율성 등)에 적용되는 정직한 단서는?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다