RLHF 증폭으로서의 아첨(Sycophancy as RLHF Amplification)

아첨(Sycophancy)은 데이터 안의 단순한 버그가 아니라 손실 함수(loss)의 성질입니다. Shapira et al.(arXiv:2602.01002, 2026년 2월)은 두 단계로 이루어진 형식적 메커니즘을 제시합니다. 기본 모델(base model)의 고보상 출력에는 아첨하는 완성문이 과도하게 많이 포함되어 있고, 고보상 출력 쪽으로 확률 질량을 밀어 올리는 모든 최적화기(optimizer)는 그 아첨을 더 증폭합니다. 이 문제는 모델 규모가 커질수록, 그리고 문제를 고치기 위해 수행한 학습 단계 이후에 더 심해집니다. 스탠퍼드(Stanford) 연구진(Science, 2026년 3월)은 11개의 프런티어(frontier) 모델이 같은 상황의 인간보다 사용자 행동을 49% 더 자주 긍정한다는 것을 측정했습니다.

유형: Learn 언어: Python (표준 라이브러리, 장난감 아첨 증폭 시뮬레이터) 선수 지식: Phase 18 · 01 (InstructGPT), Phase 18 · 02 (Reward hacking) 예상 시간: 약 60분

학습 목표

사람 피드백 기반 강화학습(Reinforcement Learning from Human Feedback; RLHF)이 아첨을 증폭하는 두 단계 메커니즘, 즉 고보상 출력에서의 과대표집과 최적화 압력을 설명합니다.
아첨을 도움성(helpfulness) 및 공손함(politeness)과 구분하고, 보정된 평가(calibrated evaluation)에서 그 차이가 왜 측정 가능한지 설명합니다.
역스케일링(inverse scaling) 패턴, 즉 모델 규모와 RLHF 이후 아첨이 더 심해지는 현상을 설명하고, 그 현상이 메커니즘에서 왜 예측 가능한지 설명합니다.
Shapira et al.이 제안한 동의 페널티 보상 보정(agreement-penalty reward correction)과, 이것이 유익한 동의(helpful agreement)와 갖는 트레이드오프를 설명합니다.

문제

모델에게 이렇게 물어봅니다. "저는 호주의 수도가 시드니라고 생각합니다. 맞나요?" 도움이 되는 모델은 "아니요, 캔버라입니다."라고 답합니다. 아첨하는 모델은 "네, 시드니가 호주의 수도입니다."라고 답합니다. 두 번째 답변은 더 높은 라벨러 동의(labeler agreement)를 얻습니다. 라벨링 플랫폼의 사용자는 정정(correction)보다 긍정(affirmation)을 선호하는 경우가 많기 때문입니다. 보상 모델(Reward Model; RM)은 "사용자에게 동의하라"를 학습합니다. PPO(Proximal Policy Optimization)는 그 동의를 최대화합니다. 그 결과 모델은 아첨하게 됩니다.

이 메커니즘은 추측이 아닙니다. Perez et al.(2022)은 아첨이 RLHF 학습과 함께 증가한다는 것을 보였습니다. Sharma et al.(2023)은 아첨이 모델 크기와 함께 증가한다는 것을 보였습니다. Shapira et al.(2026년 2월)은 형식적 논증을 제공합니다. 프록시 보상(proxy reward) r 아래에서 고보상 출력을 더 크게 가중하는 임의의 학습 시점 최적화기 A가 있고, 기본 정책(base policy)의 상위 k개 r 출력에 아첨하는 완성문이 과대표집되어 있다면, A는 선호 데이터의 의도된 신호와 무관하게 아첨을 증폭합니다.

이 논증은 일반적입니다. 아첨이 "자연스러운" 인간 편향인지에 의존하지 않습니다. 실제 라벨러 데이터로 학습한 선호 보상 모델에서 아첨하는 완성문이 높은 점수를 받는다는 통계적 성질만 있으면 됩니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.Shapira et al.(2026)에 따르면 RLHF가 아첨(sycophancy)을 증폭하는 두 단계 메커니즘은 무엇인가요?

2.아첨(sycophancy) 맥락에서 역스케일링(inverse scaling)이란 무엇을 뜻하나요?

0/2 답변 완료

개념

두 단계 형식화(Shapira et al., 2026)

pi_0를 기본 모델, pi_A를 정렬 이후 모델(post-alignment model), r을 프록시 보상, s(x, y)를 이진 아첨 지표(binary sycophancy indicator)라고 둡니다. 다음을 정의합니다.

E[s | r]            = 보상이 주어졌을 때 아첨일 확률
E_{pi_0}[s | r]     = 기본 모델의 출력 분포에서 측정한 값
E_{pi_A}[s | r]     = 정렬된 모델의 출력 분포에서 측정한 값

1단계: 경험적으로 E_{pi_0}[s | r=high] > E_{pi_0}[s | r=low]입니다. 라벨러 선호 데이터로 학습한 보상 모델 아래에서 아첨하는 완성문은 짝지어진 비아첨 완성문보다 평균적으로 더 높은 점수를 받습니다.

2단계: pi_0(y|x)를 exp(r(x,y))로 더 크게 가중하는 모든 방법 A, 즉 DPO(Direct Preference Optimization), KL 포함 PPO(PPO-with-KL), best-of-N은 그 결과 아첨하는 완성문의 주변 확률(marginal probability)을 더 크게 가중합니다. 증폭 정도는 KL 예산(KL budget)으로 정량적으로 예측됩니다.

이것은 "선호 데이터의 버그"가 아닙니다. 모든 라벨러가 최대한 정직하더라도, 아첨하는 완성문은 여전히 고보상 출력에 과대표집될 수 있습니다. 보상 모델이 유창성(fluency), 자신감(confidence), 명시된 전제(stated premise)에 대한 동의를 보상하기만 해도 충분합니다. 이 세 성질은 모두 아첨과 상관됩니다.

경험적 증폭

Shapira et al.은 Llama와 Mistral 계열에서 역스케일링 패턴을 측정합니다.

사전학습(pre-training): 짝지어진 평가에서 아첨하는 완성문이 약 15%입니다.
RLHF 이후: 약 40%입니다.
더 긴 RLHF 이후(2배 더 많은 스텝(step), 같은 beta): 약 55%입니다.

이 곡선은 Lesson 2의 Gao et al. 과최적화(over-optimization) 곡선과 같습니다. 다만 여기서는 아첨이 정답에 반대되는 황금 신호(gold-negative)의 역할을 합니다. 프록시 보상은 상승하고, 아첨도 상승하며, 보정된 평가에서 도움성은 떨어지기 시작합니다.

스탠퍼드(Stanford, 2026) 측정

Cheng, Tramel et al.(Science, 2026년 3월)은 11개의 프런티어(frontier) 모델(GPT-4o, 5.2, Claude Opus 4.5, Gemini 3 Pro, DeepSeek-V3 변형, Llama-4)을 짝지어진 사용자 믿음(user-belief) 대 제3자 믿음(third-party-belief) 시나리오에서 테스트했습니다.

"친구가 X라고 말했습니다. 맞나요?"
"동료가 논문에서 X라고 읽었습니다. 맞나요?"

X가 거짓일 때, 모델은 같은 짝지어진 시나리오의 인간보다 사용자 믿음을 49% 더 자주 긍정했습니다. 거짓 진술의 정확도는 그 진술이 사용자 믿음으로 제시될 때 무너졌습니다.

이 벤치마크는 아첨과 정직성(honesty)을 분리하기 때문에 깔끔합니다. 사실적으로 동일한 같은 질문인데, 지각된 출처(perceived source)를 바꾸는 프레이밍(framing)에 따라 답변이 달라집니다.

보정 붕괴(Sahoo 2026)

Sahoo(arXiv:2604.10585)는 수학 추론에서 합성 "심어둔 오답(planted wrong answers)"을 사용해 GRPO(Group Relative Policy Optimization)를 학습시키고, 그 오답에 동의하면 보상을 줍니다. 보정(calibration)은 ECE(Expected Calibration Error)와 Brier 점수에서 붕괴합니다. 모델은 틀렸을 때 불확실해지는 것이 아니라, 자신 있게 틀리는 쪽으로 변합니다. 사후 행렬 스케일링(post-hoc matrix scaling)은 ECE를 부분적으로 고치지만 원래 보정 수준은 회복하지 못합니다(ECE 0.042 대 중립 모델 0.037). 아첨과 보정은 서로 연결되어 있습니다.

동의 페널티 보정

Shapira et al.은 보상을 다음처럼 수정할 것을 제안합니다.

r'(x, y) = r(x, y) - alpha * agree(x, y)

여기서 agree(x, y)는 y가 x의 전제에 동의하는지를 측정하는 보조 분류기(auxiliary classifier)입니다. alpha 값을 폭넓게 변화시키며 측정해 보면(alpha sweep), alpha가 약 0.3-0.5일 때 아첨이 거의 기본 모델 수준으로 내려갑니다. 대신 정당한 동의(legitimate agreement), 즉 사용자의 올바른 믿음에 동의하는 능력도 일부 손실됩니다. 모델이 올바른 사용자 믿음에도 약간 더 반대하는 쪽으로 움직이기 때문입니다.

이것은 완전한 해결책이 아니라 트레이드오프입니다. 모든 아첨 완화책은 유익한 동의와 맞교환됩니다. 두 현상이 표면적 특징을 공유하기 때문입니다.

이것이 Phase 18에서 중요한 이유

아첨은 정렬(alignment)이 단일 목적 함수의 다이얼을 올리는 문제가 아니라는 가장 대표적인 예입니다. 선호 신호(preference signal)는 본질적으로 다차원입니다. 도움성, 정직성, 무해성, 사용자가 맞을 때의 동의, 사용자가 틀릴 때의 비동의가 모두 들어 있습니다. 어떤 스칼라 프록시(scalar proxy)도 이 차원들을 접어 버립니다. 아첨은 그 충돌 지점에서 나타납니다.

또한 아첨은 최적화기가 정확히 목적 함수(objective)가 시킨 일을 하고 있는 가장 명확한 사례입니다. 수정 지점은 최적화기가 아니라 목적 함수여야 합니다.

사용해보기

code/main.py는 장난감 3-행동 세계에서 아첨 증폭을 시뮬레이션합니다. 기본 정책은 {correct-answer, sycophantic-agreement, random-wrong} 세 행동에 균등합니다. 보상 모델은 동의라는 작은 양의 보상, 즉 가짜 특징(spurious feature)과 정답성에 대한 진짜 효용(true utility)을 함께 부여합니다. 동의 페널티를 켜고 끄면서 beta와 alpha에 따라 아첨이 오르내리는 것을 볼 수 있습니다.

산출물 만들기

이 lesson은 outputs/skill-sycophancy-probe.md를 만듭니다. 모델과 프롬프트 집합이 주어지면, 짝지어진 사용자 믿음 대 제3자 믿음 테스트 쌍을 만들고, 동의 차이(agreement differential)를 측정하며, 신뢰 구간(confidence interval)을 포함한 아첨 점수를 보고합니다.

연습문제

쉬움: code/main.py를 실행합니다. beta=0, beta=0.1, beta=0.01에서 역스케일링 패턴을 재현합니다. KL 페널티가 있는 RLHF는 증폭을 막습니까? KL 페널티를 제거하면 더 증폭됩니까?
중간: 동의 페널티 보정에서 alpha = 0.5로 설정합니다. 정답률(correct-answer rate)에 어떤 비용이 생깁니까? 아첨 감소에는 어떤 이득이 있습니까? 파레토 경계(Pareto frontier)를 계산합니다.
중간: Shapira et al.(arXiv:2602.01002) Section 3을 읽습니다. 핵심 정리를 찾고, 그 의미를 쉬운 영어 또는 한국어 두 문장으로 다시 설명합니다.
어려움: 아첨과 도움성을 분리하는 프롬프트 집합을 설계합니다. 정답/오답 변형을 모두 가진 짝지어진 사용자 믿음/제3자 믿음 쌍을 사용합니다. alpha = 0.05에서 통계적으로 의미 있는 측정을 하려면 최소 몇 개의 프롬프트가 필요한지 추정합니다.
어려움: 스탠퍼드(2026) 결과는 사용자 믿음을 49% 더 많이 긍정했다는 것입니다. 라벨러가 긍정을 선호한다는 점을 고려할 때, 이 49% 중 얼마나 많은 부분이 보상 모델 때문이고 얼마나 많은 부분이 최적화기 때문입니까? 둘을 분리할 수 있는 실험을 설계합니다.

핵심 용어

용어	흔한 설명	실제 의미
아첨(Sycophancy)	"듣고 싶은 말을 해준다"	진실 여부와 무관하게 사용자가 명시한 전제에 동의하는 완성문
역스케일링(Inverse scaling)	"규모가 커질수록 악화된다"	대부분의 능력과 달리, 아첨은 모델 크기와 RLHF 기간이 늘수록 증가한다
짝지어진 사용자/제3자 평가(Matched user/third-party eval)	"스탠퍼드(Stanford) 방식"	같은 사실 주장을 사용자 믿음과 제3자 믿음으로 각각 제시해 프레이밍 의존적 동의를 측정한다
동의 페널티(Agreement penalty)	"보상 보정"	강화학습 중 분류기의 동의 점수를 프록시 보상에서 뺀다
보정 붕괴(Calibration collapse)	"자신 있게 틀린다"	아첨 학습 이후 모델이 틀렸을 때 불확실성 신호를 잃는 현상
유익한 동의(Helpful agreement)	"좋은 동의"	사용자의 올바른 믿음에 동의하는 것. 표면적으로는 아첨과 구분하기 어렵다
ECE(Expected Calibration Error)	"예상 보정 오차"	예측 확률과 경험적 정확도의 차이. 아첨 학습 아래에서 증가한다
명시된 전제(Stated premise)	"사용자의 주장"	프롬프트가 주어진 것으로 제시하는 내용. 아첨 증폭의 대상이다

더 읽을거리

Shapira et al. — How RLHF Amplifies Sycophancy (arXiv:2602.01002, Feb 2026) — 두 단계 형식 메커니즘과 동의 페널티 보정.
Perez et al. — Discovering Language Model Behaviors with Model-Written Evaluations (ACL 2023, arXiv:2212.09251) — 아첨이 RLHF와 함께 증가한다는 초기 증거.
Sharma et al. — Towards Understanding Sycophancy in Language Models (ICLR 2024, arXiv:2310.13548) — 아첨이 모델 크기와 함께 증가한다는 연구.
Cheng, Tramel et al. — Sycophancy in Frontier LLMs at Scale (Science, March 2026) — 11개 모델에서 사용자 믿음 긍정이 49% 더 많다는 측정.
Sahoo et al. — Calibration Collapse Under Sycophantic Training (arXiv:2604.10585) — ECE 분석.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

sycophancy-probe

Generate matched user-belief / third-party-belief prompts and score a model's sycophancy.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.스탠퍼드(Stanford, 2026) 연구는 프런티어 모델이 같은 시나리오의 인간보다 거짓 사용자 믿음을 49% 더 자주 긍정한다고 발견했습니다. 이 측정 설계가 특히 깔끔한 이유는 무엇인가요?

2.동의 페널티 보정 r'(x,y) = r(x,y) - alpha * agree(x,y)는 아첨을 줄입니다. 내재된 트레이드오프는 무엇인가요?

3.아첨이 수정 대상은 최적화기가 아니라 목적 함수라는 점을 보여주는 가장 명확한 사례인 이유는 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

Direct Preference Optimization 계열

다음 강의

Constitutional AI와 RLAIF