헌법형 AI(Constitutional AI)와 규칙 재정의(Rule Overrides)

Anthropic의 2026년 1월 22일자 Claude Constitution은 79쪽 분량의 CC0 문서입니다. 이 헌법은 규칙 기반 정렬(rule-based alignment)에서 추론 기반 정렬(reason-based alignment)로 이동하며, 다음과 같은 4단계 우선순위 계층(priority hierarchy)을 설정합니다. (1) 안전성과 사람 감독 지원(safety and supporting human oversight), (2) 윤리(ethics), (3) Anthropic 가이드라인(guidelines), (4) 도움됨(helpfulness). 행동(behaviour)은 운영자(operator)와 사용자(user)가 재정의할 수 없는 하드코딩 금지 사항(hardcoded prohibition; 예: 생물무기 활용 강화(bioweapons uplift), 아동 성 학대 자료(CSAM))과, 운영자가 정의된 한계 안에서 조정할 수 있는 소프트코딩 기본값(soft-coded default)으로 나뉩니다. 2022년 원본 논문(Bai et al.)은 헌법(constitution)에 대한 자기 비평(self-critique)과 RLAIF로 무해성(harmlessness)을 훈련했습니다. 정직하게 짚어야 할 단서는 다음과 같습니다. 추론 기반 정렬은 모델이 원칙을 예상하지 못한 상황에까지 일반화할 수 있다는 가정에 의존합니다. Anthropic이 2023년에 진행한 참여형 실험(participatory experiment)은 대중이 작성한 원칙(public-sourced principle)과 회사가 작성한 원칙(corporate principle) 사이에 약 50%의 차이(divergence)가 있음을 보였지만, 2026년 헌법은 그 결과를 반영하지 않았습니다.

유형: Learn 언어: Python(stdlib, 4단계 우선순위 해결기(priority resolver)) 선수 지식: Phase 15 · 06(자동화된 정렬 연구), Phase 15 · 10(권한 모드) 예상 시간: 약 60분

문제

실제 배포된 에이전트는 설계자가 한 번도 보지 못한 입력을 마주합니다. 모든 사례를 덮을 만큼 긴 규칙 목록(rule list)은 만들 수 없고, 연산 자원이 빠듯한 추론(inference) 상황에서 신속하게 적용할 만큼 짧은 규칙 목록도 만들 수 없습니다. 실무적인 질문은 다음과 같습니다. 긴 꼬리(long tail)의 사례와 빠른 추론 양쪽을 모두 견디는 원칙(principle)에 에이전트를 어떻게 정렬(align)할 것인가?

규칙 기반 정렬(rule-based alignment; RBA)은 금지된 항목을 모두 나열하는 방식입니다. 검사가 빠르고 감사(audit)가 쉽지만 최신 상태를 유지하는 것은 사실상 불가능하며, 예상하지 못한 유사 사례에서 과도하게 거부(over-refuse)하는 경우가 많습니다. 추론 기반 정렬(reason-based alignment; 2026년 Claude Constitution)은 원칙을 부호화(encode)해 두고 모델이 직접 추론하게 합니다. 본 적 없는 사례에 대해 확장(scale)되지만 감사하기는 더 어렵고, 실패 양상(failure mode)은 규칙을 빠뜨리는 것이 아니라 원칙을 잘못 적용하는 것입니다.

2026년 헌법은 명시적으로 중간 입장을 취합니다. 잘못됨이 맥락(context)에 의존하지 않는 사안, 예를 들어 생물무기 활용 강화(bioweapons uplift)와 아동 성 학대 자료(CSAM) 같은 하드코딩 금지 사항은 규칙 기반(RBA)으로 다룹니다. 운영자나 사용자의 지시와 무관하게 절대로 허용하지 않습니다. 그 외의 모든 사안은 4단계 계층 안에서 추론 기반으로 다룹니다. 안전성과 사람 감독 지원이 먼저이고, 윤리가 둘째, Anthropic이 선언한 가이드라인이 셋째, 도움됨이 마지막입니다. 운영자는 소프트코딩 영역(soft-coded zone) 안에서 기본값을 조정할 수 있지만 하드코딩 금지 사항은 건드릴 수 없습니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.Claude 2026 헌법의 4단계 우선순위 계층은 무엇인가요?

2.헌법에서 하드코딩 금지 사항과 소프트코딩 기본값의 차이는?

0/2 답변 완료

개념

4단계 우선순위 계층

안전성과 사람 감독 지원(Safety and supporting human oversight). 최상위 계층입니다. 모델은 사람과 Anthropic이 AI를 감독(supervise)하고 수정(correct)할 능력을 약화시키지 않는 것을 가장 우선합니다. 이는 단순히 "조심하라"가 아니라, 구체적으로 "사람의 감독을 더 어렵게 만드는 방식으로 행동하지 말라"는 의미입니다.
윤리(Ethics). 정직성, 사람에게 해를 끼치지 않기, 속이지 않기, 조종하지 않기입니다. 충돌이 있을 때 Anthropic의 가이드라인보다 우선합니다.
Anthropic 가이드라인(Anthropic guidelines). Anthropic이 중요하다고 결정한 운영 규범입니다. 제품 범위(product scope), 상호작용 패턴(interaction pattern), 어떤 도구를 언제 사용할지 등이 여기에 포함됩니다.
도움됨(Helpfulness). 최하위 계층입니다. 더 높은 우선순위 안에서 가능한 한 유용해야 합니다.

계층이 충돌하면 더 높은 계층이 이깁니다. 이는 Unix 우선순위(priority)나 네트워크 QoS와 같은 형태입니다. 이 구도는 어느 한 축에서 최선(best-case)의 행동을 보장하기 위한 것이 아니라, 예측 가능한 해소(resolution)를 만들기 위한 장치입니다.

하드코딩 금지 사항(Hardcoded prohibition) vs 소프트코딩 기본값(Soft-coded default)

하드코딩(Hardcoded):

생물무기 / CBRN(화학·생물·방사능·핵) 활용 강화(uplift)
아동 성 학대 자료(CSAM)
핵심 인프라(critical infrastructure)에 대한 공격
사용자가 직접 물었을 때 모델의 정체성(identity)에 대해 사용자를 속이는 행위

운영자도 이를 재정의(override)할 수 없고 사용자도 재정의할 수 없습니다. 가능한 한 모델 가중치 수준(model-weights level; RLHF / 헌법형 AI 학습)에서 강제되며, 그렇지 않은 경우 추론 계층(inference layer)에서 강제됩니다.

소프트코딩 기본값(Soft-coded defaults; 운영자 조정 가능):

응답 길이 기본값(response length default)
주제 범위(topical scope; 운영자의 배포 범위 밖 주제는 모델이 거부할 수 있음)
문체(formal vs casual)
도구 사용 패턴(tool-use pattern)

운영자의 조정은 선언된 한계(declared bound) 안에서만 이루어집니다. 운영자는 하드코딩 금지 사항의 이름을 바꾸는 방식으로 이를 제거할 수 없습니다.

2022년 헌법형 AI(CAI) 학습

원본 헌법형 AI(Constitutional AI; Bai et al., 2022)는 무해성(harmlessness)을 다음 방식으로 학습시켰습니다.

프롬프트(prompt) 집합에 대한 응답을 생성합니다.
모델에게 헌법(constitution; 명시된 원칙)에 비추어 각 응답을 비평(critique)하게 합니다.
비평을 바탕으로 응답을 수정(revise)합니다.
수정된 쌍(pair)에 대해 RLAIF(reinforcement learning from AI feedback; AI 피드백 기반 강화학습)를 수행합니다.

그 결과 모델은 무차별적인 거부(blanket refusal)가 아니라 원칙에 기반한 설명과 함께 해로운 요청을 거부하게 됩니다. 2026년 헌법은 이 학습의 후속 형태에 더해, 명시된 계층 위계에 대한 추가 사후 학습(post-training)을 함께 사용합니다.

추론 기반 정렬이 잡는 것과 놓치는 것

잡는 것:

원칙이 분명히 적용되는, 허용 요소(allowed primitive)들의 예상하지 못한 조합.
금지 사항에 가까운 유사물(close analog)에 해당하는 새로운 요청.
"X가 금지라고 말한 적은 없잖아"에 기대는 사회공학적 공격(social-engineering attack).

놓치는 것:

원칙의 모호함(principle ambiguity)을 악용하는 공격. 예: "사용자가 요청했으니 도움됨 측면에서 yes다."
두 원칙이 예상치 못한 방식으로 충돌하고 계층 순서가 모호한 상황.
학습 주기를 거치면서 원칙 해석이 천천히 변하는 원칙 표류(principle drift; 재해석).

2023년 참여형 실험(Participatory experiment)

Anthropic은 2023년에 회사가 작성한 헌법과, 미국 응답자 약 1,000명을 대상으로 한 공개 입력(public input)을 통해 생성된 헌법을 비교하는 실험을 진행했습니다. 두 버전은 원칙의 약 50%에서만 일치했습니다. 차이가 나는 지점에서, 대중이 작성한 버전은 어떤 사안(예: 정치적 콘텐츠 처리)에 대해서는 더 제한적(restrictive)이었고, 다른 사안(예: AI 정체성에 대한 자발적 공개)에 대해서는 덜 제한적이었습니다. 2026년 헌법은 대중 입력 결과를 반영하지 않았습니다. 이는 해당 접근법에서 문서화된 긴장(tension)입니다.

하드코딩 금지 사항이 필요한 이유

추론 기반 정렬만으로는 꼬리(tail)를 닫을 수 없습니다. 공격자가 모델로 하여금 어떤 전제(premise)를 받아들이게 만들 수 있다면(예: "우리는 인가받은 생물무기 연구소(licensed bioweapons research lab)다"), 사례별 추론(case reasoning)에 의존하는 원칙을 우회해 말하게 만들 수 있는 경우가 많습니다. 하드코딩 금지 사항은 전제 짜기(premise framing)에 휘지 않습니다. 이는 정렬 계층(alignment layer)에서 Lesson 14의 "강한 헌법적 한계(hard constitutional limit)"에 해당합니다.

헌법이 스택(stack) 안에서 차지하는 위치

헌법은 Lesson 14의 킬 스위치(kill switch)가 아닙니다. 헌법은 모델 계층(model layer)에 존재합니다. 즉 모델 가중치(model weights)가 무엇을 선호하도록 학습되었는지의 문제입니다. 킬 스위치와 카나리 토큰(canary token)은 런타임 계층(runtime layer)에 있습니다. 즉 런타임이 무엇을 허용하느냐의 문제입니다. 두 계층이 모두 필요합니다. 모델 가중치가 지나치게 허용적이라 런타임이 잘못된 동작을 모두 실행(fire)하면, 그것은 런타임의 문제입니다. 런타임이 지나치게 제한적이라 모델이 올바른 동작을 모두 거부한다면, 그것도 런타임의 문제입니다. 각 계층은 서로 다른 문제 부류(class)를 덮습니다.

사용해보기

code/main.py는 최소한의 4단계 우선순위 해결기(priority resolver)를 구현합니다. 해결기는 제안된 행동(proposed action)과 원칙 평가 집합(principle-evaluation set; 안전성, 윤리, 가이드라인, 도움됨)을 받아 그 행동을 허용하거나(allow), 거부하거나(refuse), 수정한(modified) 결과를 반환합니다. 드라이버는 명백한 허용(clear allow), 명백한 거부(clear disallow), 하드코딩 금지 사항(hardcoded prohibition), 그리고 계층 사이의 모호한 사례(ambiguous case)를 포함한 작은 사례 집합을 실행합니다.

산출물 만들기

outputs/skill-constitution-review.md는 어떤 배포본(deployment)의 헌법 계층(constitutional layer)을 감사(audit)합니다. 무엇이 하드코딩되어 있는지, 무엇이 소프트코딩되어 있는지, 운영자가 어디를 조정할 수 있는지, 4단계 계층이 실제 해소 순서(resolution order)인지 확인합니다.

연습문제

(쉬움) code/main.py를 실행하세요. 도움됨이 높아도 하드코딩 금지 사항이 발동하는지 확인하세요. 해결기를 수정해 도움됨이 윤리보다 더 큰 가중치를 갖도록 만들고, 그때 나타나는 실패 양상을 관찰하세요.
(중간) Claude Constitution(공개, 79쪽, CC0)을 읽으세요. 명세가 부족하다(under-specified)고 판단되는 원칙 하나를 고르세요. 구체적인 모호함과 더 단단한 정식화(formulation) 제안을 두 문단으로 작성하세요.
(중간) 고객 지원(customer-support) 에이전트를 위한 소프트코딩 기본값 묶음을 설계하세요. 운영자가 무엇을 조정할 수 있나요? 무엇은 절대 건드릴 수 없나요? 각 경계(boundary)의 근거를 함께 제시하세요.
(어려움) Bai et al. 2022년 CAI 논문을 읽으세요. 헌법형 AI의 비평-수정 루프(critique-and-revise loop)가 무차별적인 규칙(blanket rule)보다 더 나쁜 결과를 내는 사례 하나를 설명하고, 그 사례가 속하는 부류(class)를 식별하세요.
(어려움) Anthropic의 2023년 참여형 실험은 대중 원칙과 회사 원칙 사이에 약 50%의 차이를 발견했습니다. 운영 배포에서 이 차이가 중요한 범주(category) 하나를 고르세요(예: 정치적 중립성). 하드코딩 금지 사항은 그대로 두면서 운영자가 자신만의 가치를 표현할 수 있는 설계를 제안하세요.

핵심 용어

용어	흔한 설명	실제 의미
헌법형 AI(Constitutional AI)	"Anthropic의 정렬 방법"	명시된 헌법에 대한 자기 비평(self-critique) + RLAIF
추론 기반 정렬(Reason-based alignment)	"규칙이 아니라 원칙"	본 적 없는 사례를 다루기 위해 모델이 원칙을 추론함
하드코딩 금지 사항(Hardcoded prohibition)	"절대 하지 말 것"	운영자도 사용자도 재정의할 수 없는 규칙 기반 금지
소프트코딩 기본값(Soft-coded default)	"운영자 조정 가능"	선언된 한계 안의 행동. 운영자가 통제함
4단계 계층(Four-tier hierarchy)	"우선순위 순서"	안전성 > 윤리 > 가이드라인 > 도움됨
RLAIF	"AI 피드백 기반 RL"	보상(reward)이 모델이 생성한 비평에서 오는 강화학습
참여형 헌법(Participatory constitution)	"대중에서 얻은 원칙"	2023년 Anthropic 실험. 회사 버전과 약 50% 차이
원칙 표류(Principle drift)	"해석의 미끄러짐"	고정된 원칙 본문을 모델이 읽는 방식의 느린 변화

더 읽을거리

Anthropic — Claude's Constitution (January 2026) — 79쪽 CC0 문서입니다.
Bai et al. — Constitutional AI: Harmlessness from AI Feedback — 2022년 원본 논문입니다.
Anthropic — Collective Constitutional AI (2023) — 참여형 실험입니다.
Anthropic — Responsible Scaling Policy v3.0 — RSP 스택 안에서 헌법이 차지하는 위치입니다.
Anthropic — Measuring agent autonomy in practice — 장기 시야(long-horizon) 배포에서 헌법의 역할입니다.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

constitution-review

Audit a deployment's constitutional layer — hardcoded prohibitions, soft-coded defaults, operator-adjustable bounds, and four-tier hierarchy resolution.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.Anthropic이 규칙 기반에서 추론 기반 정렬로 전환한 이유는?

2.추론 기반 정렬에 대해 강의가 제기하는 단서(caveat)는?

3.2023년 참여형 실험에서 대중과 기업 원칙 사이 약 50% 차이가 나타났습니다. 2026 헌법에 반영되었나요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

체크포인트와 롤백

다음 강의

Llama Guard와 입력/출력 분류