프런티어 안전 프레임워크(Frontier Safety Frameworks) — RSP, PF, FSF
주요 세 연구소의 프레임워크(framework)가 2026년 프런티어 역량(frontier capability)에 대한 산업 거버넌스(governance)를 정의합니다. Anthropic Responsible Scaling Policy v3.0(2026년 2월)은 생물안전 등급(biosafety level)을 본떠 만든 단계별 AI 안전 등급(AI Safety Levels; ASL-1부터 ASL-5+)을 도입했고, CBRN(화학·생물·방사능·핵; Chemical, Biological, Radiological, Nuclear) 관련 모델에 대해서는 2025년 5월 ASL-3가 발효(activate)되었습니다. OpenAI Preparedness Framework v2(2025년 4월)는 추적 대상 역량(tracked capability)을 가려내기 위한 다섯 가지 기준(criterion)을 정의하고, 역량 보고서(Capabilities Report)와 안전장치 보고서(Safeguards Report)를 분리해 작성하도록 합니다. DeepMind Frontier Safety Framework v3.0(2025년 9월)은 새로 추가된 유해 조작(Harmful Manipulation) 항목을 포함한 임계 역량 수준(Critical Capability Levels; CCL)을 도입합니다. 세 프레임워크는 모두 동료 연구소가 비슷한 안전장치(safeguard) 없이 모델을 출시할 경우 적용을 유예(defer)할 수 있도록 허용하는 경쟁자 조정 조항(competitor-adjustment clause)을 포함하게 되었습니다. 연구소 간 정렬(cross-lab alignment)은 용어 차원이 아니라 구조 차원에서 나타납니다. "역량 임계값(Capability Thresholds)", "고역량 임계값(High Capability thresholds)", "임계 역량 수준(Critical Capability Levels)"은 서로 유사한 구성 개념(construct)을 가리킵니다.
유형: Learn
언어: 없음
선수 지식: Phase 18 · 17 (WMDP), Phase 18 · 07-09 (기만 실패; deception failures)
예상 시간: 약 75분
학습 목표
- Anthropic의 ASL 단계 구조(tier structure)와 ASL-3 발효를 촉발한 조건을 설명합니다.
- OpenAI Preparedness Framework v2가 추적 대상 역량을 가려내기 위해 사용하는 다섯 가지 기준의 이름을 말합니다.
- DeepMind의 임계 역량 수준(CCL) 구조와 유해 조작(Harmful Manipulation) CCL을 설명합니다.
- 경쟁자 조정 조항(competitor-adjustment clause)을 설명하고, 그것이 경주 동역학(race dynamic)에서 왜 중요한지 설명합니다.
- 안전 사례(safety case)를 정의하고 세 기둥(monitoring, illegibility, incapability) 구조를 설명합니다.
문제
Lesson 7-17은 기만(deception)이 가능하다는 점, 이중 용도 역량(dual-use capability)이 실제로 존재한다는 점, 그리고 평가(evaluation)에는 한계가 있다는 점을 차례로 보여 주었습니다. 프런티어 모델을 보유한 연구소는 다음 네 가지를 수행할 수 있는 내부 거버넌스 구조(internal governance structure)를 갖추어야 합니다.
- 새로운 안전장치가 필요한 시점을 알려 주는 임계값(threshold)을 정의합니다.
- 모델을 더 키우기(scaling) 전에 거쳐야 할 평가를 정의합니다.
- 안전 사례(safety case)가 어떤 형태여야 하는지 명시합니다.
- 경주 동역학 문제(race-dynamic problem)를 다룹니다. 즉, 경쟁사가 안전장치 없이 모델을 출시하면 어떻게 대응할 것인지 결정합니다.
2025-2026년의 세 프레임워크는 현재의 최첨단(state of the art)입니다. 불완전하고 계속 진화 중이지만, 연구소 간 정렬이 충분히 이루어진 덕분에 거버넌스 논의는 이제 "프레임워크가 존재하는가"가 아니라 "이 프레임워크가 충분한가(adequate)"로 옮겨 갔습니다.
개념
Anthropic Responsible Scaling Policy v3.0(2026년 2월)
ASL 구조는 다음과 같습니다.
- ASL-1: 프런티어 모델이 아닙니다. 프런티어보다 약한 기준선(baseline)에 속하는 모델입니다.
- ASL-2: 현재의 프런티어 기준선입니다. 일반적인 안전장치와 함께 배포됩니다.
- ASL-3: 파국적 오용(catastrophic misuse) 위험이 실질적으로 더 높은 단계입니다. CBRN 관련 역량이 해당되며, 2025년 5월에 발효되었습니다.
- ASL-4: AI 연구개발(AI R&D-2)의 임계값을 넘는 단계입니다. 입문 수준(entry-level) AI 연구를 자동화할 수 있는 모델이 여기에 해당합니다.
- ASL-5+: 고도화된 AI 연구개발(advanced AI R&D) 단계입니다. 실효 스케일링(effective scaling)을 극적으로 가속할 수 있는 모델입니다.
v3.0에서 새로 추가된 항목은 다음과 같습니다.
- 프런티어 안전 로드맵(Frontier Safety Roadmaps): 일부 비식별 처리(redact)된 형태로 공개합니다.
- 위험 보고서(Risk Reports): 분기 단위로 발행되며, 일부는 외부 검토를 거칩니다.
- AI 연구개발(AI R&D)이 AI R&D-2와 AI R&D-4 두 단계로 분리되었습니다.
- AI R&D-4를 넘는 시점부터는 적극적 안전 사례(affirmative safety case)가 요구됩니다. 이 사례에서는 정렬되지 않은 목표(misaligned goal)를 추구하는 모델에서 발생할 수 있는 정렬 실패 위험(misalignment risk)을 명시적으로 식별해야 합니다.
OpenAI Preparedness Framework v2(2025년 4월 15일)
추적 대상 역량을 가려내는 다섯 가지 기준은 다음과 같습니다.
- 그럴듯함(Plausible). 합리적인 위협 모델(threat model)이 존재해야 합니다.
- 측정 가능(Measurable). 경험적 평가(empirical evaluation)가 가능해야 합니다.
- 심각함(Severe). 발생 가능한 피해(harm)가 커야 합니다.
- 새로움(Net-new). 기존 위험을 단순히 확장(scale up)한 것이 아니어야 합니다.
- 즉시성 또는 비가역성(Instantaneous-or-irremediable). 피해가 빠르게 발생하거나, 발생하면 되돌릴 수 없어야 합니다.
다섯 가지를 모두 만족하는 역량만 추적 대상이 되고, 나머지는 추적 대상에서 제외됩니다.
PF v2의 다른 구조적 특징은 다음과 같습니다.
- 역량 보고서(Capabilities Report; 모델이 무엇을 할 수 있는가)와 안전장치 보고서(Safeguards Report; 어떤 통제가 적용되는가)를 분리해 작성합니다.
- 안전 자문 그룹(Safety Advisory Group)이 검토를 수행합니다.
- 경영진(Leadership)이 승인 권한을 가지며, 이사회 산하 안전·보안 위원회(Safety & Security Committee)가 감독(oversight)합니다.
- "조정 조항(Adjustment clause)": 다른 연구소가 동등한 안전장치 없이 모델을 출시하는 경우, OpenAI는 요구 사항(requirement)을 낮출 수 있습니다.
DeepMind Frontier Safety Framework v3.0(2025년 9월)
도메인별 임계 역량 수준(CCL)은 다음과 같습니다.
- 생물무기 향상(Bioweapon Uplift)
- 사이버 향상(Cyber Uplift)
- 머신러닝 연구개발 가속(ML R&D Acceleration)
- 유해 조작(Harmful Manipulation, v3.0에서 신설): 고위험 맥락(high-stakes context)에서 사람의 신념(belief)이나 행동(behavior)을 실질적으로 바꿀 수 있는 모델 능력.
v2.0(2025년 2월)에서는 기만적 정렬(Deceptive Alignment) 절을 추가하고, 머신러닝 연구개발 CCL에 대해 더 높은 보안 등급(security level)을 적용하도록 정비했습니다.
연구소 간 정렬(Cross-lab alignment)
- Anthropic: "역량 임계값(Capability Thresholds)".
- DeepMind: "임계 역량 수준(Critical Capability Levels)".
- OpenAI: "고역량 임계값(High Capability thresholds)".
업계 표준 용어(industry-standard terminology)는 아직 없습니다. 그러나 구조적으로는 세 연구소가 정렬되어 있습니다. 모두 공개된 평가 기준을 갖춘 세 단계의 프런티어 역량 구조이며, 세 프레임워크 모두 2025년 이후 경쟁자 조정 조항을 포함합니다.
안전 사례(safety case)
안전 사례는 최악의 가정(worst-case assumption) 아래에서도 배포(deployment)가 받아들일 만큼 안전(acceptably safe)하다고 주장하는 글로 작성된 논증(written argument)입니다. 표준 구조는 다음 세 기둥을 겨냥합니다.
- 모니터링(Monitoring). 나쁜 행동이 발생했을 때 우리가 그것을 탐지할 수 있는가?
- 계획 불가성(Illegibility). 모델이 피해를 일으키는 일관된 계획(coherent plan)을 실행할 능력을 갖추지 못한 상태인가?
- 무능력(Incapability). 모델이 해당 피해를 일으킬 역량 자체를 결여하고 있는가?
어떤 기둥을 겨냥할지는 사례마다 다릅니다. ASL-3 CBRN 사례에서는 언러닝(unlearning)을 통한 무능력이 1차 표적이 됩니다. 기만적 정렬에서는 모니터링과 계획 불가성이 표적이 됩니다. 사이버 향상에서는 세 기둥이 모두 관련(relevant)됩니다.
경주 동역학 문제(race-dynamic problem)
경쟁자 조정 조항은 논쟁의 대상입니다. 비판자들은 이 조항이 바닥을 향한 경주(race to the bottom)를 유발한다고 주장합니다. 세 연구소가 모두 "경쟁자가 이탈(defection)하면 요구 사항을 낮추겠다"는 입장을 취하면, 균형점(equilibrium)이 이탈 쪽으로 이동한다는 것입니다. 옹호자들은 그 반대를 주장합니다. 일방적 안전장치(unilateral safeguard)를 고집하는 대안은, 안전을 덜 중시하는 연구소가 시장에서 앞서 나가게 만들어 오히려 더 나쁜 결과를 낳을 수 있다는 것입니다.
영국 AISI(UK AISI), 미국 CAISI(US CAISI), 유럽연합 AI Office(EU AI Office)는 외부 거버넌스의 대응 기관(counterpart)입니다(Lesson 24). 연구소가 자체적으로 만든 프레임워크는 자발적(voluntary)이고, 규제 프레임워크는 아직 등장하는 단계입니다.
Phase 18 안에서의 위치
Lesson 17-18은 기만 분석과 레드팀(red-team) 분석 위에 얹히는 측정·거버넌스 계층(measurement-and-governance layer)에 해당합니다. Lesson 19-24는 모델 복지(welfare), 편향(bias), 프라이버시(privacy), 워터마킹(watermarking), 규제 구조(regulatory structure)를 다룹니다. Lesson 28은 이러한 평가들을 실제로 운영(operationalize)하는 연구 생태계(MATS, Redwood, Apollo, METR)를 매핑(map)합니다.
사용해보기
이 강의에는 별도 코드가 없습니다. 일차 자료(primary source)인 RSP v3.0, PF v2, FSF v3.0 세 문서를 직접 읽어 보기 바랍니다. 각 연구소의 단계 구조를 서로 매핑해 보고, 한 연구소만 정의하고 다른 두 곳은 정의하지 않은 임계값을 하나씩 찾아냅니다.
산출물 만들기
이 강의는 outputs/skill-framework-diff.md를 산출물로 만듭니다. 새로운 안전 프레임워크나 출시 노트(release note)가 주어지면, 그 문서의 임계값 정의, 요구 평가, 안전 사례 구조를 RSP v3.0, PF v2, FSF v3.0과 비교하고, 연구소 간 차이(cross-lab gap)를 표시(flag)해 줍니다.
연습문제
-
쉬움: RSP v3.0, PF v2, FSF v3.0을 읽고, 각 연구소의 CBRN 임계값, AI 연구개발 임계값, 배포 전 필수 평가(required pre-deployment evaluation)를 표로 정리합니다.
-
중간: 경쟁자 조정 조항은 세 프레임워크 모두에 포함되어 있습니다(2025년 이후). 찬성하는 문단 하나와 반대하는 문단 하나를 각각 작성하고, 각 입장이 의존하는 가정(assumption)을 식별합니다.
-
중간: Anthropic AI R&D-4 임계값을 넘는 모델을 위한 안전 사례를 설계합니다. 세 기둥(monitoring, illegibility, incapability)이 각각 어떤 증거(evidence)를 필요로 하는지 이름을 붙여 정리합니다.
-
어려움: DeepMind FSF v3.0은 유해 조작(Harmful Manipulation) CCL을 새로 도입했습니다. 모델이 이 임계값을 넘었음을 시사할 수 있는 경험적 측정(empirical measurement) 세 가지를 제안합니다.
-
어려움: METR의 "Common Elements of Frontier AI Safety Policies"(2025)를 읽고, 연구소 간 수렴(convergence)이 가장 두드러진 세 가지와 가장 큰 차이(divergence) 두 가지를 이름 붙여 정리합니다.
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| RSP | "Anthropic 프레임워크" | Responsible Scaling Policy. ASL 단계를 사용하며 v3.0은 2026년 2월에 발표되었다 |
| PF | "OpenAI 프레임워크" | Preparedness Framework. 다섯 가지 기준을 사용하며 v2는 2025년 4월에 발표되었다 |
| FSF | "DeepMind 프레임워크" | Frontier Safety Framework. CCL을 사용하며 v3.0은 2025년 9월에 발표되었다 |
| ASL-3 | "생물안전 3등급(biosafety level 3) 유사 단계" | CBRN 관련 역량에 대응하는 Anthropic 단계로 2025년 5월에 발효되었다 |
| CCL | "임계 역량 수준(critical capability level)" | DeepMind의 도메인별 임계값 구성 개념이다 |
| 안전 사례(Safety case) | "공식 논증(formal argument)" | 최악의 가정 아래에서도 배포가 받아들일 만큼 안전하다는 점을 글로 논증한 문서이다 |
| 조정 조항(Adjustment clause) | "경쟁자 이탈 허용(competitor defection allowance)" | 경쟁자가 동등한 안전장치 없이 출시할 경우 요구 사항을 낮출 수 있도록 허용하는 조항이다 |
더 읽을거리