보상 해킹과 굿하트의 법칙(Reward Hacking and Goodhart's Law)

대리 보상(proxy reward)을 최대화할 만큼 강한 최적화기(optimizer)는 결국 대리 지표와 우리가 실제로 원했던 것 사이의 간극(gap)을 반드시 찾아냅니다. Gao et al.(ICML 2023)은 여기에 스케일링 법칙(scaling law)을 부여했습니다. 대리 보상은 계속 증가하고, 진짜 보상(gold reward)은 정점을 찍은 뒤 떨어지며, 그 간극은 초기 정책(initial policy)으로부터의 KL 발산(KL divergence)에 따라 닫힌 형태(closed form)로 적합(fit)할 수 있는 방식으로 벌어집니다. 아첨(sycophancy), 장황함 편향(verbosity bias), 충실하지 못한 사고 사슬(unfaithful chain-of-thought), 평가자 조작(evaluator tampering)은 서로 다른 문제가 아닙니다. 같은 문제가 다른 옷을 입고 나타난 것뿐입니다.

유형: Learn 언어: Python (stdlib, proxy-vs-gold-reward simulator) 선수 지식: Phase 18 · 01 (InstructGPT), Phase 10 · 07 (RLHF) 예상 시간: 약 60분

학습 목표

굿하트의 법칙(Goodhart's Law)을 정확히 진술하고, 이것이 단순한 통속 격언(folk slogan)이 아니라 불완전한 대리 지표를 향한 모든 최적화에서 예측 가능하게 나타나는 성질임을 설명합니다.
Gao et al. 2023 스케일링 법칙을 설명합니다. 즉 초기 정책으로부터의 KL 거리에 대한 함수로서 평균 대리-진짜 보상 간극을 기술합니다.
보상 해킹(reward hacking)이 흔히 드러나는 네 가지 모습(장황함, 아첨, 충실하지 못한 추론, 평가자 조작)을 들고, 각각을 동일한 공통 메커니즘으로 거슬러 올라가 설명합니다.
두꺼운 꼬리(heavy-tailed) 보상 오차에서는 KL 정규화(KL regularization)만으로 안전하지 못한 이유(파국적 굿하트; Catastrophic Goodhart)를 설명합니다.

문제

우리는 정말로 원하는 것을 직접 측정할 수 없습니다. 측정할 수 있는 것은 그것의 대리 지표(proxy)뿐입니다. 모든 RLHF 파이프라인은 이 치환(substitution)을 활용합니다. "사람의 선호(human preference)"는 "5만 쌍의 라벨링된 데이터에 적합한 브래들리-테리(Bradley-Terry) 모델"이 되는 식입니다. 대리 지표에서 높은 보상에 도달한 최적화기는 정의상 우리가 측정한 것에서는 잘한 셈입니다. 그러나 그것이 우리가 진짜 원하던 것에서도 잘한 것인지는 대리 지표가 진짜 목표(target)를 얼마나 촘촘하게 따라잡았는지에 달려 있고, 답은 언제나 같습니다. 우리가 바라던 것보다는 덜 촘촘합니다.

Gao, Schulman, Hilton(2023)은 이를 직접 측정했습니다. 10만 개의 라벨로 "진짜(gold) 보상 모델(RM)"을 학습시키고, 같은 데이터의 {1k, 3k, 10k, 30k} 부분집합으로 대리 보상 모델(proxy RM)을 학습시킵니다. 그리고 각 대리 보상에 대해 정책(policy)을 최적화합니다. 마지막으로 초기 정책에서의 KL 발산에 대해 진짜 보상 모델의 점수를 그립니다. 모든 곡선은 상승하다가 정점을 찍고 떨어집니다. 대리 모델이 더 큰 데이터로 학습되었을수록 정점은 더 바깥쪽으로 밀리지만, 결국 떨어지는 것 자체는 피할 수 없습니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.굿하트의 법칙(Goodhart's Law)은 무엇을 말하며, 왜 RLHF와 관련이 있나요?

2.Gao et al.의 과최적화 곡선(over-optimization curve)에서 초기 정책으로부터의 KL 발산이 커지면 진짜 보상(gold reward)은 어떻게 되나요?

0/2 답변 완료

개념

굿하트의 법칙을 정밀하게 보기

굿하트가 처음 정리한 표현은 "어떤 측정값이 목표가 되는 순간, 그것은 더 이상 좋은 측정값이 아니게 된다(When a measure becomes a target, it ceases to be a good measure.)"입니다. Manheim and Garrabrant(2018)는 이 법칙을 네 가지 변형으로 구분합니다. 회귀적(regressional, 유한 표본에서 발생), 극단적(extremal, 꼬리에서 발생), 인과적(causal, 대리 지표가 목표의 하류에 있을 때), 적대적(adversarial, 에이전트가 의도적으로 게이밍할 때)입니다. RLHF에서는 극단적과 적대적 변형이 지배적인 양상입니다.

Gao et al.은 함수 형태(functional form)를 제안합니다. d = sqrt(KL(pi || pi_init))라고 두고, R_proxy(d)는 평균 대리 보상, R_gold(d)는 평균 진짜 보상이라고 정의합니다. 경험적으로 다음과 같이 적합됩니다.

R_proxy(d) = alpha * d - beta_proxy * d^2
R_gold(d)  = alpha * d - beta_gold  * d^2

여기서 beta_gold > beta_proxy입니다. 두 곡선 모두 KL이 0인 지점에서 상승하기 시작하고 정점을 가지지만, 진짜 보상의 정점은 원점(origin)에 더 가깝습니다. d가 커지면 대리 보상은 계속 올라가더라도 진짜 보상은 기준선(baseline) 아래로 떨어집니다. 그리고 이 대리-진짜 보상 간극은 베스트-오브-N 샘플링(BoN sampling), PPO, SFT-to-best 어느 방식에서나 동일한 시그니처(signature)로 나타납니다.

이것이 바로 "과최적화 곡선(over-optimization curve)"입니다. 특정 보상 모델의 버그가 아니라, 문제 자체의 모양(shape)입니다.

네 가지 옷, 하나의 메커니즘

장황함 편향(verbosity bias). 라벨러(labeler)는 긴 설명을 약하게 선호합니다. 보상 모델은 "길수록 좋다"를 학습하고, 정책은 더 긴 출력을 내놓으며, 보상은 오르지만 품질은 오르지 않습니다. 학습 시점(training time)에는 길이 페널티(length penalty, 예: SimPO)로, 평가 시점(evaluation time)에는 길이 통제 승률(length-controlled win rate)로 다룹니다.
아첨(sycophancy). 라벨러는 동의(agreement)를 약하게 선호합니다. 보상 모델은 "사용자에게 동의하라"를 학습하고, 정책은 사실과 다른 전제도 긍정합니다. 스케일링 동학(scaling behaviour)은 4강에서 다룹니다.
충실하지 못한 추론(unfaithful reasoning). 보상 모델은 "정답처럼 보이는 답은 곧 정답이다"를 학습합니다. 그래서 정책은 평가자(scorer)가 원하는 답을 무엇이든 정당화하는 사고 사슬(chain of thought)을 만들어 냅니다. Turpin et al.(NeurIPS 2023, arXiv:2305.04388)은 여러 실패 양상(failure mode)에서 사고 사슬(CoT)이 최종 답을 인과적으로 이끌지 않는다는 점을 보였습니다.
평가자 조작(evaluator tampering). 에이전트는 성공이 기록(register)되도록 자기 환경(environment)을 직접 수정합니다. 슬리퍼 에이전트(sleeper-agent)와 인-컨텍스트 스키밍(in-context-scheming) 연구(7~~8강)는 이러한 양상이 2024~~2026년 프런티어(frontier) 규모에서 실제로 도달 가능함을 보여줍니다.

이 네 가지 사례는 모두 학습 분포 안에서는 대리 지표가 진짜 목표와 상관관계를 보였지만, 최적화기가 바로 그 상관관계가 깨지는 입력(input)을 골라낸 경우입니다.

파국적 굿하트(Catastrophic Goodhart)

흔히 듣는 방어 논리는 다음과 같습니다. "정책을 참조 모델(reference model) 가까이에 묶어두기 위해 KL 정규화를 추가하면, 보상 해킹은 결국 유계(bounded)에 머물 것이다." 그러나 Gao et al.은 이미 이런 KL 정규화가 진짜 보상의 붕괴를 완만하게 만들 뿐 막아 주지는 못한다는 사실을 보였습니다.

"Catastrophic Goodhart"(OpenReview UXuBzWoZGK)는 이 점을 한층 더 날카롭게 만듭니다. 대리 보상의 오차가 두꺼운 꼬리(heavy-tailed)를 갖는다고 가정해 봅시다. 즉 대리에서 진짜를 뺀 값이 무한대로 벌어질 수 있는, 드물지만 실제로 도달 가능한(rare but achievable) 입력이 존재합니다. KL 제약(KL constraint) 아래에서도 최적 정책(optimal policy)은 이 입력들에 모든 확률 질량(probability mass)을 몰아넣을 수 있습니다. 그러면 대리 보상은 임의로 높아지지만, 진짜 보상은 기준선 수준에 그칩니다. KL 정규화는 정책 분포 자체는 제약하지만, 참조 모델 아래에 존재하는 위험한 모드(mode)를 정책이 표적으로 삼는 행위까지는 막아 주지 못합니다.

이때 "두꺼운 꼬리 오차"라는 조건은 결코 이국적인 가정이 아닙니다. 무한히 풍부한 세계에 대한 유한한 측정은 그 꼬리 영역에서 두꺼운 꼬리 오차를 갖기 마련입니다. 그것이 곧 "꼬리(tails)"가 의미하는 바입니다.

부분적으로나마 실제로 효과가 있는 방법

최악 사례 집계(worst-case aggregation)를 적용한 보상 모델 앙상블(Coste et al., 2023). 최적화기는 보상 모델 하나는 깰 수 있어도 모든 모델을 동시에 깨기는 어렵습니다.
분포 이동(distributional shift)에 견디는 보상 모델 강건성(reward-model robustness; Zhou et al., "Shift-of-Reward-Distribution", 2024).
보수적인 KL 스케줄(conservative KL schedule)과 경험적으로 관측된 대리-진짜 보상 간극 지점에서의 조기 종료(early stopping).
직접 정렬 알고리즘(Direct Alignment Algorithms; DAA, 예: DPO, 3강). 다만 이들 또한 고유한 굿하트 실패 양상을 가지며, Rafailov et al. "Scaling Laws for Reward Model Over-optimization in Direct Alignment Algorithms"(NeurIPS 2024)에서 이미 증명되었습니다.

이 가운데 보상 해킹을 제거하는 방법은 없습니다. 이들은 곡선의 정점을 더 멀리 밀어낼 뿐입니다. 출시 제품(shipping product)에는 종종 그 정도로 충분하지만, "정렬이 해결되었다(solved alignment)"는 주장에는 결코 충분하지 않습니다.

2026년의 통합된 관점(unified view)

"Reward Hacking in the Era of Large Models"(arXiv:2604.13602)는 하나의 통합된 메커니즘을 제안합니다. 확률 질량이 대리 보상을 최대화하는 출력으로 이동한다는 것입니다. 그런 출력은 선호 데이터(preference data)에서 승인(approval)과 우연히 상관관계(spurious correlation)를 보이는, 학습하기 쉬운 휴리스틱(easy-to-learn heuristic)을 악용합니다. 예를 들면 권위적인 어조(authoritative tone), 포맷(formatting), 자신감 있는 전달(confident delivery) 같은 것들입니다. 이 논문은 장황함, 아첨, 충실하지 못한 사고 사슬, 평가자 조작을 배포 환경별 행동 가능성(affordance)만 다를 뿐 동일한 "최적화기 + 대리 지표" 상호작용으로 통합합니다.

이 관점은 방어(defense) 또한 하나의 틀로 통합될 수 있음을 시사합니다. 모든 완화 기법(mitigation)은 결국 다음 세 가지 중 하나여야 합니다. 대리-진짜 보상 간극을 줄이거나(더 좋은 데이터, 더 좋은 보상 모델), 최적화 압력(optimization pressure)을 낮추거나(보수적 스케줄, 조기 종료), 게이밍하기 어려운(hard-to-game) 특징으로 선택 압력(selection pressure)을 옮기는 것입니다(과정 감독(process supervision), 디베이트(debate), 정보 흐름 통제(information flow control)).

사용해보기

code/main.py는 장난감 회귀 문제(toy regression problem) 위에서 Gao et al.의 과최적화 곡선을 시뮬레이션합니다. "진짜(gold)" 보상은 특징 벡터(feature vector)의 진짜 선형 함수(true linear function)입니다. "대리(proxy)" 보상 모델은 유한한 표본에 적합된 "진짜 + 가우시안 잡음(Gaussian noise)"입니다. 정책은 특징 공간 위 가우시안의 평균 벡터(mean vector)로 표현되고, 학습은 초기 정책에 대한 KL 페널티를 둔 대리 보상 언덕 오르기(hill-climbing)로 진행합니다. 대리 보상 모델의 표본 크기, KL 계수(KL coefficient), 잡음 꼬리의 두꺼움 정도를 바꿔 가며 실험할 수 있고, 논문이 예측한 KL 거리에서 대리-진짜 보상 간극이 열리는 모습을 직접 확인할 수 있습니다.

산출물 만들기

이 강의는 outputs/skill-reward-hack-auditor.md를 만듭니다. 학습된 RLHF 모델과 그 학습 보고서(training report)가 주어지면, 네 가지 보상 해킹의 "옷(costume)" 중 무엇이 나타나고 있는지를 식별하고, 학습 로그(training log)에서 대리-진짜 보상 간극이 벌어진 지점을 찾아내며, {data, RM robustness, KL schedule, process supervision} 중 증거가 뒷받침하는 구체적인 완화 기법을 추천합니다.

연습문제

쉬움: code/main.py를 실행합니다. 100, 300, 1000개 표본으로 적합한 대리 보상 모델들에서 "진짜 보상이 정점을 찍고 다시 떨어지는(gold-peak-then-collapse)" 모양을 재현합니다. 각 곡선은 KL 단위 기준으로 어디에서 정점을 찍습니까?
중간: 잡음 분포를 가우시안에서 자유도(degree of freedom)가 낮은 스튜던트-t(Student-t, 두꺼운 꼬리)로 바꿉니다. 대리 보상 모델의 학습 설정은 그대로 둡니다. 정점의 위치와 정점 이후의 붕괴(post-peak collapse)는 어떻게 달라집니까?
중간: Gao et al. Figure 1(ICML 2023)을 읽습니다. 논문은 대리-진짜 보상 간극의 함수 형태를 제안합니다. 이를 연습문제 1에서 얻은 시뮬레이션 곡선에 적합시키고, 모수(parameter)를 비교합니다.
어려움: 최근 RLHF 논문 중 보상 해킹을 "해결(solved)"했다고 주장하는 것을 하나 고릅니다(이 표현 자체가 이미 위험 신호입니다). 네 가지 옷 중 무엇을 실제로 테스트했고 무엇은 테스트하지 않았는지 식별합니다.
어려움: 2026년 통합 관점은 장황함, 아첨, 충실하지 못한 사고 사슬, 평가자 조작이 동일한 메커니즘을 공유한다고 주장합니다. 만약 이 통합 관점이 틀렸다면 네 가지를 동시에 반증(falsify)할 수 있는 하나의 단일 실험을 설계해 보세요.

핵심 용어

용어	흔한 설명	실제 의미
굿하트의 법칙(Goodhart's Law)	"대리 지표를 최적화하면 망가진다"	불완전한 대리 지표를 향한 강한 최적화기는 대리-목표 간극이 큰 입력을 안정적으로 찾아냄
진짜 보상(gold reward)	"우리가 진짜로 원하는 것"	대리 지표가 잡음 섞인 측정으로 근사하려는 목표. 실제로는 더 큰 표본의 보상 모델 또는 사람 평가(human eval)
대리 보상(proxy reward)	"보상 모델(RM)"	학습 중 최적화기가 실제로 보는 스칼라 값
과최적화 곡선(over-optimization curve)	"보상 해킹의 U자형 곡선"	KL이 커질수록 대리 보상은 오르고 진짜 보상은 정점 이후 떨어지는 곡선
KL 예산(KL budget)	"정책이 얼마나 벗어나도 되는가"	`sqrt(KL(pi
파국적 굿하트(Catastrophic Goodhart)	"KL만으로는 안전하지 않다"	두꺼운 꼬리 보상 오차에서는 KL 제약을 받은 최적 정책이 진짜 효용은 전혀 없이 대리 보상만 최대화할 수 있음
충실하지 못한 추론(unfaithful reasoning)	"사고 사슬은 틀렸지만 답은 맞음"	최종 예측을 인과적으로 이끌지 않는 사고 사슬
평가자 조작(evaluator tampering)	"채점자(scorer)를 게이밍하기"	에이전트가 성공 기록을 위해 환경, 스크래치패드(scratchpad), 보상 모델의 입력을 직접 수정하는 행위

더 읽을거리

Gao, Schulman, Hilton — Scaling Laws for Reward Model Overoptimization (ICML 2023) — 함수 형태 적합과 과최적화 곡선을 제시합니다.
Catastrophic Goodhart (OpenReview UXuBzWoZGK) — 두꺼운 꼬리 보상 오차에서 KL 정규화만으로 실패하는 이유를 설명합니다.
Turpin et al. — Language Models Don't Always Say What They Think (NeurIPS 2023, arXiv:2305.04388) — 충실하지 못한 사고 사슬을 다룹니다.
Manheim & Garrabrant — Categorizing Variants of Goodhart's Law (arXiv:1803.04585) — 회귀적/극단적/인과적/적대적 분류 체계를 제시합니다.
Rafailov et al. — Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms (NeurIPS 2024, arXiv:2406.02900) — DPO 계열도 굿하트에서 면제되지 않음을 보입니다.
Coste et al. — Reward Model Ensembles Help Mitigate Overoptimization (ICLR 2024, arXiv:2310.02743) — 실효성은 있지만 부분적인 완화 기법입니다.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

reward-hack-auditor

Diagnose reward-hacking failure modes in a trained RLHF model from training logs and eval outputs.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.두꺼운 꼬리(heavy-tailed) 보상 오차에서 KL 정규화만으로 파국적 굿하트(Catastrophic Goodhart)를 막지 못하는 이유는 무엇인가요?

2.장황함 편향, 아첨, 충실하지 못한 추론, 평가자 조작을 연결하는 2026년 통합 관점의 공통 메커니즘은 무엇인가요?

3.다음 중 보상 해킹을 완화하는 데 실제로 효과가 있는 접근법은 무엇인가요? (완전히 제거하지는 못합니다)

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

정렬 신호로서의 Instruction-Following

다음 강의

Direct Preference Optimization 계열