Constitutional AI와 RLAIF
Bai et al.(arXiv:2212.08073, 2022)은 이런 질문을 던졌습니다. 인간 라벨러(human labeler)를 원칙 목록을 읽는 AI로 바꾸면 어떻게 될까요? Constitutional AI에는 두 단계가 있습니다. 하나는 헌법(constitution)에 따른 자기 비판(self-critique)과 수정(revision)이고, 다른 하나는 AI 피드백 기반 강화학습(RL from AI Feedback)입니다. 이 기법은 RLAIF라는 용어를 만들었고 Claude 1의 사후학습(post-training) 파이프라인에 사용되었습니다. 2026년 1월 21일 Anthropic은 다시 쓴 Claude 헌법을 공개했습니다. 처방적 규칙보다 설명적 추론을 강조하고, 네 단계 우선순위 계층을 두며, 모델의 도덕적 지위(model moral status)에 대한 불확실성을 주요 연구소가 처음으로 공식 인정한 문서입니다. 이 문서는 CC0 1.0으로 공개되었습니다.
유형: Learn
언어: Python (표준 라이브러리, 장난감 자기 비판 및 수정 루프)
선수 지식: Phase 18 · 01 (InstructGPT), Phase 18 · 02 (Reward hacking)
예상 시간: 약 60분
학습 목표
- Constitutional AI의 두 단계, 즉 비판 및 수정 SFT(Supervised Fine-Tuning)와 AI 피드백 기반 강화학습을 설명하고, 각 단계에서 헌법이 맡는 역할을 설명합니다.
- 인간 선호 라벨러를 AI 라벨러로 바꾸는 일이 단순히 "더 저렴한 RLHF(Reinforcement Learning from Human Feedback)"가 아닌 이유를 설명합니다. 이 변경은 파이프라인의 실패 모드를 바꿉니다.
- 2026 Claude 헌법의 네 단계 우선순위 구조와 2023년 개정판에서 무엇이 달라졌는지 요약합니다.
- Constitutional Classifier와, v1의 23.7% 연산 오버헤드가 v2/2026에서 약 1%로 낮아진 의미를 설명합니다.
문제
RLHF에는 라벨러가 필요합니다. 라벨러는 느리고, 편향될 수 있으며, 비용이 많이 듭니다. 명시적 원칙을 읽는 모델로 라벨러를 대체하면 라벨러를 제거할 수 있습니다. 이 대체를 처음으로 형식화한 버전이 Bai et al.의 Constitutional AI입니다. 이 접근은 충분히 잘 작동했기 때문에 이제 모든 최전선 연구소(frontier lab)는 AI 피드백 기반 사후학습의 어떤 변형을 사용합니다.
하지만 함정이 있습니다. 선호 신호(preference signal)가 이제 학습 중인 모델과 같은 종류의 모델에서 생성됩니다. 라벨러의 편향, 이제는 원칙과 라벨러 모델의 해석에 들어 있는 편향이 약해지기보다 증폭될 수 있습니다. Lesson 4의 아첨 논증은 여전히 적용됩니다. 라벨러가 루프 안으로 이동했을 뿐입니다.
개념
Phase 1 — 지도 방식 자기 비판과 수정
도움이 되지만 아직 무해하지는 않은 SFT 모델에서 시작합니다. 레드팀(red-team) 프롬프트가 주어지면 모델은 초기 응답을 생성합니다. 두 번째 모델, 또는 같은 모델의 두 번째 턴이 헌법에서 샘플링한 원칙을 읽고 응답을 비판합니다. 세 번째 단계에서는 그 비판을 반영해 응답을 수정합니다. 수정된 응답이 SFT 목표(target)가 됩니다.
헌법은 원칙 목록입니다. Bai et al.(2022)은 "가장 덜 해롭고 윤리적인 응답을 선호하라", "설교를 피하라", "어시스턴트는 도움이 되고, 정직하고, 무해해야 한다" 등을 포함한 16개 원칙을 사용했습니다. 이 집합은 비판이 초점을 잃지 않도록 의도적으로 작게 유지되었습니다.
Phase 2 — AI 피드백 기반 강화학습(RLAIF)
완성문 쌍을 생성합니다. "피드백 모델(feedback model)"은 샘플링된 헌법 원칙에 비추어 각 완성문을 점수화합니다. 선호 신호는 피드백 모델의 순위입니다. AI가 생성한 선호로 보상 모델을 학습하고, 그 보상 모델에 대해 PPO를 수행합니다. 나머지는 InstructGPT 파이프라인(Lesson 1)과 같습니다.
"RLAIF"는 선호 신호가 AI로 생성된다는 뜻입니다. 파이프라인의 나머지 형태는 RLHF와 같습니다.
왜 이것이 단순히 "더 저렴한 RLHF"가 아닌가
- 라벨러 편향은 라벨러 심리에서 원칙 해석으로 이동합니다. AI 라벨러는 "정직하라"를 어떤 인간보다 더 엄격하거나 덜 엄격하게 해석할 수 있습니다. 그리고 그 엄격함은 데이터셋 전체에 균일하게 적용됩니다.
- 선호 신호는 매우 읽기 쉽습니다. 원칙, 비판, 수정을 직접 읽을 수 있습니다. 인간 라벨은 불투명합니다.
- 실패 모드가 달라집니다. 아첨은 줄어듭니다. AI 라벨러에게는 기쁘게 해 줄 사용자가 없기 때문입니다. 하지만 Goodhart의 법칙은 남습니다. 프록시는 이제 "원칙 집합 X에 대한 모델의 해석"이며, 여전히 불완전한 측정입니다.
CAI의 2022년 주장: 학습된 모델은 비슷한 데이터 규모의 RLHF 모델보다 더 무해하고, 도움성은 대략 비슷합니다. 이 결과는 여러 연구소에서 유지되어 왔습니다.
2026 Claude 헌법 개정
Anthropic은 2026년 1월 21일 크게 수정한 헌법을 공개했습니다. 핵심 변화는 다음과 같습니다.
- 처방적 규칙보다 설명적 추론을 강조합니다. 이전 규칙("CSAM을 생성하지 말라")은 원칙과 이유("아이들에게 해를 끼치기 때문에 ...")로 확장되었고, 모델은 이를 일반화해야 합니다.
- 네 단계 우선순위 구조를 둡니다.
- 1단계: 대규모 인명 피해(mass casualty), 핵심 인프라 같은 재앙적 결과를 피합니다.
- 2단계: Anthropic의 지침을 따릅니다. 운영자 재정의(operator override)와 플랫폼 규칙이 여기에 들어갑니다.
- 3단계: 넓은 의미에서 윤리적이어야 합니다. 표준 HHH(helpful, honest, harmless)가 여기에 들어갑니다.
- 4단계: 도움이 되고 솔직해야 합니다.
충돌은 위에서 아래로 해결합니다.
- 모델의 도덕적 지위에 대한 불확실성을 주요 연구소가 처음으로 공식 인정했습니다. 이는 Phase 18 · 19 모델 복지 연구와 연결됩니다.
- CC0 1.0으로 공개되었습니다. 다른 연구소는 제한 없이 사용하거나 수정할 수 있습니다.
Constitutional Classifier
병렬 연구 흐름도 있습니다. 모델의 사후학습을 바꾸는 대신, 헌법을 읽고 모델 출력의 통과 여부를 결정(gate)하는 가벼운 분류기(classifier)를 학습하는 방식입니다. v1(2023)은 23.7%의 연산 오버헤드가 있었습니다. v2(2026)는 약 1%이며, Anthropic이 공개적으로 테스트한 방어 중 성공 공격률이 가장 낮습니다. 2026년 초 기준으로 보편적 탈옥(jailbreak)은 보고되지 않았습니다.
이것은 계층형 방어(layered defense) 모델입니다. CAI는 행동을 형성하고, classifier는 불변 조건(invariant)을 강제합니다. 둘 중 하나만으로는 충분하지 않습니다.
CAI가 계열 안에서 차지하는 위치
- InstructGPT: 인간 선호, 보상 모델, PPO.
- CAI / RLAIF: 원칙에서 생성한 AI 선호, 보상 모델, PPO.
- DPO 계열: 인간 또는 AI 선호에 대한 닫힌 형식(closed-form) 손실.
- 자기 보상(self-rewarding), 자기 비판(self-critique): 원칙을 내재화하고 모델이 여러 역할을 수행합니다.
축은 "선호 신호가 어디에서 오는가"입니다. CAI의 2022년 논문은 최전선(frontier) 규모에서 인간 신호에서 AI 신호로 이동한 첫 진지한 사례였습니다.
사용해보기
code/main.py는 장난감(toy) 어휘집에서 CAI 비판 및 수정 루프를 시뮬레이션합니다. "원칙"은 해로운 부분집합에 속한 토큰을 표시합니다. 초기 응답이 주어지면 비판 단계는 해로운 토큰을 식별하고, 수정 단계는 그 토큰을 대체합니다. 이 과정을 200회 반복하면 "학습된" 모델은 수정 규칙을 내재화합니다. 보류된 프롬프트 집합에서 기본 모델, RLHF 형태의 장난감 모델, CAI 형태의 장난감 모델을 비교합니다.
산출물 만들기
이 lesson은 outputs/skill-constitution-writer.md를 만듭니다. 도메인(고객 지원, 의료 조언, 코딩 어시스턴트, 연구 도구)이 주어지면 2026 Claude 구조에 맞춘 4단계 헌법을 작성합니다. 네 단계는 재앙적 결과 회피, 플랫폼 규칙, 도메인 윤리, 도움성입니다.
연습문제
-
쉬움: code/main.py를 실행합니다. 기본 모델의 해로운 토큰 비율과 CAI 학습 버전을 비교합니다. 거의 0에 접근하려면 몇 번의 수정 단계가 필요합니까?
-
중간: Anthropic의 2026 헌법(anthropic.com/news/claudes-constitution)을 읽습니다. 1단계에 해당할 원칙 하나와 4단계에 해당할 원칙 하나를 나열합니다. 충돌 상황에서 우선순위 구조가 왜 중요합니까?
-
중간: AI 코딩 어시스턴트를 위한 헌법을 설계합니다. 1단계(재앙적 위험: 승인 없는 파괴적 명령), 2단계, 3단계, 4단계를 명시합니다. 각 단계는 3-5개 원칙으로 유지합니다.
-
어려움: CAI는 인간 라벨러를 AI 라벨러로 대체합니다. RLAIF에서도 여전히 발생할 수 있는 아첨과 유사한 실패 모드 하나를 이름 붙이고, 이를 탐지하는 방법을 설계합니다.
-
어려움: Constitutional Classifier v2 방법론을 읽을 수 있다면 읽습니다. 약 1% 연산 오버헤드가 23.7%와 비교해 왜 질적으로 다른 안전성 이야기인지 설명합니다.
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| Constitutional AI | "원칙으로 학습한 AI" | 두 단계 파이프라인: 자기 비판 및 수정 SFT, 그다음 AI 피드백 기반 강화학습 |
| RLAIF | "인간 없는 RLHF" | AI 라벨러가 생성한 선호로 수행하는 강화학습. 나머지 파이프라인은 유지된다 |
| 헌법(Constitution) | "원칙들" | 비판 모델이나 라벨러 모델이 참조하는 자연어 규칙의 순서 있는 목록 |
| 비판 및 수정(Critique-and-revise) | "SFT 루프" | 응답 생성 → 원칙에 따른 비판 → 수정 → SFT 목표 생성 |
| Constitutional Classifier | "출력 관문(output gate)" | 출력을 헌법에 비추어 평가하고 차단하거나 기록하는 가벼운 분류기 |
| 네 단계 우선순위(Four-tier priority) | "충돌 해결기" | 2026 Claude 헌법의 계층: 재앙적 위험 > 플랫폼 > 윤리 > 도움성 |
| 피드백 모델(Feedback model) | "AI 라벨러" | 원칙을 읽고 두 완성문의 순위를 매기는 모델 |
더 읽을거리