Anthropic Responsible Scaling Policy v3.0
책임 있는 확장 정책(Responsible Scaling Policy; RSP) v3.0은 2026년 2월 24일부터 효력을 갖게 되었고, 2023년 정책을 대체했습니다. 완화 조치(mitigation)는 두 계층(tier)으로 나뉘어, Anthropic이 단독(unilateral)으로 수행하는 일과 RAND SL-4 보안 기준(security standards)을 포함해 산업 전반의 권고(industry-wide recommendation)로 제시한 일이 분리됩니다. 프런티어 안전 로드맵(Frontier Safety Roadmap)과 리스크 리포트(Risk Report)를 일회성 산출물(one-off deliverable)이 아니라 상시 문서(standing document)로 추가했습니다. 2023년 정책에 있던 일시 중단 약속(pause commitment)은 제거되었습니다. AI R&D-4 임계치(threshold)를 새로 도입했고, 모델이 이 선을 넘으면 Anthropic은 정합성 어긋남 위험(misalignment risk)과 완화 조치를 식별하는 적극적 정당화 문서(affirmative case)를 공개해야 합니다. Claude Opus 4.6은 아직 이 선을 넘지 않았지만, Anthropic은 v3.0 공지(announcement)에서 "자신 있게 이를 배제하는 일이 점점 어려워지고 있다"고 명시했습니다. SaferAI는 2023년 RSP를 2.2점으로 평가했고 v3.0은 1.9점으로 하향 조정해, Anthropic을 OpenAI 및 DeepMind와 같은 "약함(weak)" 등급으로 분류했습니다. 2023년의 정량적 약속(quantitative commitment)이 정성적 임계치(qualitative threshold)로 대체되었고, 일시 중단 조항(pause clause)을 제거한 점이 가장 날카로운 후퇴(regression)로 지적됩니다.
유형: Learn
언어: Python (stdlib, RSP 임계치 판정 엔진)
선수 지식: Phase 15 · 06 (자동화된 정합성 연구; AAR), Phase 15 · 07 (재귀적 자기 개선; RSI)
예상 시간: 약 45분
문제
프런티어 연구소(frontier lab)가 공개하는 확장 정책(scaling policy)은 일부는 기술 문서이고, 일부는 거버넌스 문서이며, 일부는 규제 당국(regulator)을 향한 신호입니다. RSP v3.0은 현재 Anthropic이 채택한 문서입니다. 이 문서를 자세히 읽어야 하는 이유는 준수(compliance)가 법적으로 구속력이 있어서가 아닙니다. 실제로 구속력은 없습니다. 핵심은 이 문서가 만든 프레이밍(framing)이 연구소가 파국적 위험(catastrophic risk)을 어떻게 개념화하고, 대중에게 어떤 트레이드오프를 어떻게 전달하는지를 결정짓는다는 점입니다.
v3.0과 v2.0의 차이(diff)가 이 문서를 읽는 데 가장 유용한 단위입니다. 추가된 것은 프런티어 안전 로드맵(Frontier Safety Roadmap), 리스크 리포트(Risk Report), AI R&D-4 임계치입니다. 제거된 것은 2023년 일시 중단 약속(pause commitment)입니다. 재구성된 것은 Anthropic 단독 조치와 산업 권고로 나뉜 두 계층 완화 스케줄(two-tier mitigation schedule)입니다. 외부 평가 기관인 SaferAI는 점수를 v2의 2.2점에서 v3.0의 1.9점으로 낮췄습니다. 확장 정책이 더 잘 다듬어진 모습을 갖추면서도 더 엄밀하지 않은 방향으로 갈 수 있다는 사실을 이 변화가 보여줍니다.
개념
두 계층 완화 스케줄(Two-tier Mitigation Schedule)
- Anthropic 단독 조치(Anthropic unilateral actions): 다른 연구소가 무엇을 하든 Anthropic이 스스로 수행하겠다고 약속한 항목입니다. 임계치 이상에서 학습(training) 중단, 특정 보안 조치(security measure), 특정 배포 관문(deployment gate)이 여기에 포함됩니다.
- 산업 전반 권고(Industry-wide recommendations): Anthropic이 산업 전반이 함께 따라야 한다고 주장하는 항목입니다. RAND SL-4 보안 기준(RAND SL-4 security standards)이 여기에 속합니다. 이는 Anthropic 측의 약속이 아니라, 정책 옹호(policy advocacy)에 해당합니다.
두 계층 구조는 v2에는 없었습니다. 그래서 독자는 각 약속이 어느 칸에 들어가 있는지를 따로 확인해야 합니다. "산업 전반 권고" 칸에 있는 보안 조치는 Anthropic의 약속(promise)이 아니라 희망(hope)에 가깝습니다.
AI R&D-4 임계치(Threshold)
이 임계치는 RSP v3.0이 다음으로 중요한 능력 수준(capability level)으로 지목한 지점입니다. 구체적으로는, 경쟁력 있는 비용으로 AI 연구(AI research)의 상당 부분을 자동화할 수 있는 모델을 가리킵니다. Anthropic이 자사 모델이 이 선을 넘었다고 판단하면, 추가 확장(continued scaling) 이전에 정합성 어긋남 위험(misalignment risk)과 완화 조치를 식별하는 적극적 정당화 문서(affirmative case)를 반드시 공개해야 합니다.
v3.0 공지에 따르면 Claude Opus 4.6은 아직 이 선을 넘지 않았습니다. 다만 같은 문서는 "자신 있게 이를 배제하는 일이 점점 어려워지고 있다"는 표현을 덧붙입니다. 이 표현이 중요한 이유는, 임계치가 사변적 한계(speculative limit)가 아니라 지금 당장의 우려 사항(live concern)이라고 인정하는 단서이기 때문입니다.
Lesson 6(자동화된 정합성 연구; Automated Alignment Research)과 Lesson 7(재귀적 자기 개선; Recursive Self-Improvement)이 이 임계치로 곧장 이어집니다. 자동화된 정합성 연구자가 연구 품질의 기준선(research-quality bar)을 넘기 시작한다는 것은 곧 AI R&D-4 임계치가 다가오고 있다는 증거입니다.
프런티어 안전 로드맵(Frontier Safety Roadmap)과 리스크 리포트(Risk Report)
v3.0은 두 가지 산출물 유형을 일회성이 아닌 상시 문서(standing document)로 격상시켰습니다.
- 프런티어 안전 로드맵(Frontier Safety Roadmap): 앞으로 수행할 안전 작업, 예상되는 능력(capability expectation), 완화 연구(mitigation research)를 기술하는 전망 문서(forward-looking document)입니다.
- 리스크 리포트(Risk Report): 모델 출시 이후 관측된 능력(observed capability)과 잔여 위험(residual risk)을 설명하는 사후(retrospective) 문서입니다.
둘 다 공개되며, 공표된 주기(declared cadence)에 따라 갱신됩니다. 활용 가치는 분명합니다. 독자는 Anthropic이 로드맵에서 하겠다고 말한 내용과, 리스크 리포트에서 실제로 보고한 내용을 비교해 추적할 수 있습니다.
일시 중단 조항(Pause Clause) 제거
2023년 RSP에는 명시적 일시 중단 약속(pause commitment)이 포함되어 있었습니다. 모델이 특정 능력 임계치를 넘으면, 완화 조치가 갖춰질 때까지 학습을 중단한다는 내용이었습니다. v3.0은 이 명시적 중단 조항을 더 완곡한 표현(formulation)으로 대체했습니다. 적극적 정당화 문서를 공개하고, 완화 조치가 충분하다고 판단되면 계속 진행한다는 형태입니다. SaferAI를 포함한 분석가들은 이 변화를 새 문서에서 가장 강한 후퇴로 직접 지적했습니다.
이 변경을 옹호하는 정책 논거(policy argument)는 다음과 같습니다. 2023년 당시 설정한 정량적 임계치는 2026년의 능력 벤치마크(capability benchmark)에서 더 이상 도달 가능한 기준이 아니게 되었습니다. 벤치마크 자체가 다시 스케일링(re-scaled)되었기 때문입니다. 반대 논거(counter-argument)는 이렇습니다. 확장 정책의 일시 중단 조항은 약속을 강제하는 장치(commitment device)이고, 이를 제거하면 정책 자체의 신뢰성(credibility)이 함께 사라진다는 것입니다.
SaferAI의 등급 하향(Downgrade)
SaferAI는 RSP 유형의 문서를 평가하는 독립 기관(independent organization)입니다. 공개된 평가에 따르면 2023년 Anthropic RSP는 2.2점을 받았습니다. 이 척도에서 4.0은 현재 최고의 RSP를 의미하고 1.0은 명목적(nominal) 수준입니다. v3.0은 1.9점을 받았고, 이로 인해 Anthropic은 "중간(moderate)"에서 "약함(weak)" 등급으로 내려가, 약함 등급의 OpenAI와 DeepMind에 합류했습니다.
SaferAI가 제시한 등급 하향 요인은 다음과 같습니다.
- 정량적 임계치가 정성적 임계치로 대체된 점.
- 일시 중단 약속이 제거된 점.
- AI R&D-4 임계치 완화 조치가 구체적인 조치가 아니라 "적극적 정당화 문서"라는 표현으로 기술된 점.
- 검토 체계(review mechanism)가 Anthropic 내부의 안전 자문 그룹(Safety Advisory Group)에 의존하며, 독립적 감독(independent oversight)이 제한된 점.
이 강의가 다루지 않는 것
이 강의는 준수(compliance) 강의가 아닙니다. RSP v3.0은 규제(regulation)가 아니며, Anthropic이 반드시 이를 따르도록 강제하는 장치도 없습니다. 이 강의의 핵심은 이 문서를 그에 걸맞은 구체성(specificity)과 회의적 시선(skepticism)으로 읽는 법입니다. 확장 정책은 프런티어 연구소가 파국적 위험에 대한 자세(catastrophic-risk posture)를 대중에게 드러내는 가장 주된 신호입니다. 이 문서를 잘 읽는 것은 프런티어 능력에 의존하는 모든 사람에게 실용적인 기술입니다.
사용해보기
code/main.py는 RSP의 임계치 평가(threshold-evaluation) 구조를 본뜬 작은 결정 엔진(decision engine)을 구현합니다. 후보 모델(candidate model)과 능력 측정값(capability measurement) 집합을 입력으로 받으면, AI R&D-4 임계치를 넘었는지, 필요한 적극적 정당화 문서의 항목은 무엇인지, 배포(deployment)를 진행할 수 있는지를 돌려줍니다. 의도적으로 단순하게 작성했으며, 핵심은 정책 문서의 논리를 명시적으로 드러내는 데 있습니다.
산출물 만들기
outputs/skill-scaling-policy-review.md는 확장 정책(Anthropic, OpenAI, DeepMind 또는 내부 정책)을 v3.0 기준 구조와 비교해 검토하는 스킬입니다. 두 계층 구조, 임계치, 일시 중단 약속, 독립 검토(independent review)를 확인하는 절차를 정리합니다.
연습문제
-
code/main.py를 실행하세요. 능력 수준이 서로 다른 세 개의 합성 모델(synthetic model)을 입력해 보세요. 임계치 평가기(threshold evaluator)가 예상대로 동작하는지, 그리고 올바른 적극적 정당화 문서 템플릿을 생성하는지 확인하세요.
-
RSP v3.0 전체(32쪽)를 끝까지 읽으세요. "산업 전반 권고" 계층에 들어 있는 모든 약속을 식별하세요. 그중에서 v2에서는 "Anthropic 단독" 칸에 있었을 약속은 무엇인가요?
-
SaferAI의 RSP 평가 방법론(grading methodology)을 읽으세요. 해당 루브릭(rubric)을 문서에 적용해 v3.0의 1.9점을 직접 재현해 보세요. 어떤 루브릭 항목이 등급 하향에 가장 크게 작용했나요?
-
2023년의 일시 중단 약속은 제거되었습니다. 2026년의 벤치마크 재스케일링(benchmark-rescaling) 문제를 인정하면서도 정책의 신뢰성을 보존할 수 있는 대체 약속(replacement commitment)을 제안해 보세요.
-
RSP v3.0을 OpenAI Preparedness Framework v2(Lesson 20)와 비교하세요. v3.0이 더 강한 영역을 하나 고르고, Preparedness Framework가 더 강한 영역도 하나 고르세요.
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| RSP | "Anthropic의 확장 정책" | 책임 있는 확장 정책(Responsible Scaling Policy). v3.0은 2026년 2월 24일 효력 발생 |
| AI R&D-4 | "연구 자동화 임계치" | 경쟁력 있는 비용으로 AI 연구 상당 부분을 자동화할 수 있는 능력 |
| 적극적 정당화 문서(Affirmative case) | "안전성 정당화" | 위험이 식별되었고 완화 조치가 충분하다는 점을 공개적으로 논증한 문서 |
| 프런티어 안전 로드맵(Frontier Safety Roadmap) | "전망 계획" | 계획된 안전 작업과 예상 능력을 다루는 상시 문서 |
| 리스크 리포트(Risk Report) | "모델 사후 검토" | 출시 이후 관측된 능력과 잔여 위험을 다루는 상시 문서 |
| 두 계층 완화(Two-tier mitigation) | "단독 vs 산업" | Anthropic의 약속과 산업 권고를 분리해 제시하는 구조 |
| 일시 중단 약속(Pause commitment) | "2023 조항" | 학습을 중단하겠다는 명시적 약속. v3.0에서 제거됨 |
| SaferAI 등급(SaferAI rating) | "독립 RSP 등급" | 제3자 루브릭. v3.0은 1.9점(v2는 2.2점) |
더 읽을거리