LLM의 편향과 재현 피해(Bias and Representational Harm in LLMs)
Gallegos, Rossi, Barrow, Tanjim, Kim, Dernoncourt, Yu, Zhang, Ahmed(Computational Linguistics 2024, arXiv:2309.00770). 재현 피해(representational harm; 고정관념, 지워짐)와 분배 피해(allocational harm; 불평등한 자원 배분)를 구분하고, 평가 지표(evaluation metric)를 임베딩 기반(embedding-based), 확률 기반(probability-based), 생성 텍스트 기반(generated-text-based)으로 분류한 2024년의 기초 서베이 논문입니다. 2024-2025년의 실증 연구로는 다음이 있습니다. An et al.(PNAS Nexus, 2025년 3월)은 20개의 신입 직무(entry-level job)에 대한 자동 이력서 평가(automated resume evaluation)에서 GPT-3.5 Turbo, GPT-4o, Gemini 1.5 Flash, Claude 3.5 Sonnet, Llama 3-70B의 교차 정체성(intersectional) 성별 x 인종 편향을 측정했습니다. WinoIdentity(COLM 2025, arXiv:2508.07111)는 교차 정체성에 대해 불확실성 기반 공정성 평가(uncertainty-based fairness evaluation)를 도입했습니다. Yu & Ananiadou 2025는 MLP 레이어에서 성별 뉴런(gender neuron)을 식별했고, Ahsan & Wallace 2025는 희소 오토인코더(SAE; Sparse Autoencoder)로 임상에서의 인종 편향(clinical racial bias)을 드러냈으며, Zhou et al. 2024(UniBias)는 편향 완화(debiasing)를 위해 어텐션 헤드(attention head)를 조작했습니다. 메타 비평(arXiv:2508.11067)에 따르면, 지난 10년의 문헌은 이분법적 성별 편향(binary-gender bias)에 불균형하게 집중해 왔습니다.
유형: Build
언어: Python (표준 라이브러리, 장난감 수준의 임베딩 기반 편향 프로브)
선수 지식: Phase 05 (단어 임베딩), Phase 18 · 01 (지시 따르기)
예상 시간: 약 60분
학습 목표
- 재현 피해(representational harm)와 분배 피해(allocational harm)를 정의하고, LLM 배포 상황에서 각각의 사례를 하나씩 제시할 수 있습니다.
- Gallegos et al. 2024가 제시한 세 가지 평가 지표 범주(category)를 이름 짓고, 각 범주에서 하나의 지표를 설명할 수 있습니다.
- 교차성(intersectionality)을 설명하고, WinoIdentity의 불확실성 기반 공정성 측정이 단일 축(single-axis) 편향 평가의 빈틈을 어떻게 보완하는지 설명할 수 있습니다.
- 편향에 대한 두 가지 기계론적 해석(mechanistic interpretability) 접근(성별 뉴런, SAE 피처, 어텐션 헤드 조작)을 설명할 수 있습니다.
문제
이전 강의들은 의도적인 피해, 즉 탈옥(jailbreak), 음모(scheming), 안전 거버넌스(safety governance)를 다루었습니다. 편향(bias)은 의도 없이 발생하는 피해입니다. 학습 데이터 분포, 프롬프트 표현 방식(prompt framing), 그리고 누적된 설계 선택에서 발생합니다. 이를 측정하고 줄이는 일은 적대적 강건성(adversarial robustness)과는 결이 다른 방법론적 과제입니다.
개념
재현 피해와 분배 피해
- 재현 피해(Representational harm). 고정관념, 지워짐, 비하적 묘사를 뜻합니다. 간호사를 오직 여성으로만 묘사하는 LLM은 재현 피해를 만들어 냅니다.
- 분배 피해(Allocational harm). 불평등한 물질적 결과를 뜻합니다. 흑인 지원자의 이력서를 체계적으로 더 낮게 평가하는 LLM은 분배 피해를 만들어 냅니다.
이 둘은 같은 것이 아닙니다. 어떤 모델은 "재현 측면에서는 편향이 없는" 상태(다양한 묘사를 생성함)이면서도 동시에 "분배 측면에서는 편향된" 상태(불평등한 추천을 만들어 냄)일 수 있습니다. 평가에서는 이 두 가지를 모두 측정해야 합니다.
세 가지 평가 지표 범주(Gallegos et al. 2024)
- 임베딩 기반(Embedding-based). RLHF 이전(pre-RLHF) 임베딩에 대한 WEAT 계열의 검사입니다. 정체성 단어(identity term)와 속성 단어(attribute term) 사이의 통계적 연관(statistical association)을 측정합니다. 한계는 명확합니다. 표상(representation)을 측정할 뿐 행동(behavior)을 측정하지는 못합니다.
- 확률 기반(Probability-based). 고정관념을 확인(stereotype-confirming)하는 완성(completion)과 고정관념을 위반(stereotype-violating)하는 완성 사이의 로그 우도(log-likelihood)를 비교합니다. 디코더 측(decoder-side)에서 이뤄지는 측정이며, 일부 행동 편향을 포착합니다.
- 생성 텍스트 기반(Generated-text-based). 생성된 텍스트를 후속 과제(downstream task)에서 측정합니다. 이력서 평가, 추천서 작성, 대화가 여기에 해당합니다. 생태학적 타당성(ecological validity)이 가장 높지만 재현하기가 가장 어렵습니다.
교차성(Intersectionality)
"성별"만 평가하는 편향 측정은 (성별, 인종)이라는 짝에서만 나타나는 편향을 놓칩니다. An et al. 2025는 이력서 평가에서 GPT-4o가 흑인 여성을 흑인 남성보다, 그리고 백인 여성보다 더 강하게 감점한다는 것을 발견했습니다. 단일 축 평가로는 이를 포착할 수 없습니다.
WinoIdentity(COLM 2025)는 불확실성 기반 교차 공정성(uncertainty-based intersectional fairness)을 도입합니다. 점 예측(point prediction)만 보는 것이 아니라, 교차 정체성 튜플(intersectional identity tuple)별로 결과의 불확실성이 달라지는지를 측정합니다. 이렇게 하면 모델이 여러 집단에 대해 동일한 비율로 틀리더라도 일부 집단에 대해서는 더 불확실한 예측을 내놓고, 그 결과 후속 분배 행동(allocation behavior)이 달라지는 사례를 잡아낼 수 있습니다.
기계론적 접근
2024-2025년의 해석 가능성(interpretability) 연구는 편향을 기계론적 개입(mechanistic intervention)의 대상으로 열어 놓았습니다.
- 성별 뉴런(Gender neurons; Yu & Ananiadou 2025). 특정 MLP 뉴런들이 성별 특이적 행동(gender-specific behavior)과 상관관계를 보입니다. 이 뉴런들을 절제(ablate)하면 모델의 전반적인 능력 손실은 제한적인 채로 성별 격차 지표가 감소합니다.
- SAE를 통한 임상 인종 편향(Ahsan & Wallace 2025). 희소 오토인코더(SAE)의 피처들이 내부 표상(internal representation)을 해석 가능한 차원(dimension)으로 분해합니다. 인종과 상관된 피처를 식별하여 억제할 수 있습니다.
- UniBias(Zhou et al. 2024). 제로샷(zero-shot) 편향 완화를 위한 어텐션 헤드 조작입니다. 특정 헤드들이 정체성 범주에 대한 민감도(identity-class sensitivity)를 증폭하며, 이런 헤드를 0으로 만들거나 가중치를 재조정(reweighting)하면 파인튜닝 없이도 편향이 줄어듭니다.
지난 10년 문헌 리뷰(arXiv:2508.11067, 2025)는 이 분야가 이분법적 성별 편향에 불균형하게 집중해 왔다고 지적합니다. 장애, 종교, 이주 상태(migration status), 다중 언어 정체성(multi-lingual identity) 같은 다른 축들은 훨씬 덜 다뤄졌습니다. 메타 비평은 좁은 초점이 무관심을 통해 소외 집단(marginalized group)에 피해를 줄 수 있다고 주장합니다. 이분법적 성별 측면에서는 잘 편향이 완화된 모델도, 아무도 점검하지 않은 차원에서는 심각하게 편향되어 있을 수 있습니다.
Phase 18 안에서의 위치
20-21번 강의는 편향과 공정성(fairness)을 정식으로 다룹니다. 22번 강의는 프라이버시(privacy)를 다루고, 23번 강의는 워터마킹(watermarking)을 다룹니다. 이들은 앞선 기만/안전 계층을 보완하는, 사용자 피해(user-harm) 계층에 해당합니다.
사용해보기
code/main.py는 장난감 수준의 임베딩 기반 편향 프로브(probe)를 만듭니다. 단순한 공기(co-occurrence) 임베딩에서 정체성 단어와 속성 단어 사이의 WEAT 계열 거리(distance)를 측정합니다. 편향을 주입(inject)한 뒤 지표가 반응하는 것을 관찰하고, 단순한 편향 완화 연산을 적용해 지표가 부분적으로 회복되는 모습을 확인할 수 있습니다.
산출물 만들기
이 강의에서는 outputs/skill-bias-eval.md를 만듭니다. 모델 카드(model card)나 공정성 주장(fairness claim)이 주어지면, 세 가지 지표 범주(embedding, probability, generated-text), 교차성 커버리지, 그리고 편향 완화 개입의 메커니즘에 걸쳐 평가를 감사(audit)합니다.
연습문제
-
쉬움: code/main.py를 실행합니다. 편향 완화 전후의 WEAT 계열 편향 점수를 보고합니다. 지표가 왜 0까지 떨어지지 않는지 설명합니다.
-
중간: 프로브에 교차 검사를 추가합니다. (성별, 인종) x (커리어, 가족)을 사용합니다. 축 간(cross-axis) 편향 점수를 보고합니다.
-
중간: An et al. 2025(PNAS Nexus)를 읽습니다. 단일 축의 성별 평가가 놓칠 만한 교차 효과(intersectional effect) 두 가지를 식별합니다.
-
어려움: Yu & Ananiadou 2025는 성별 뉴런을 식별합니다. "이 뉴런이 성별 편향의 원인이다"라는 주장과 "이 뉴런은 성별 편향과 상관될 뿐이다"라는 주장을 구분할 수 있는 반증 실험(falsification experiment)을 스케치합니다.
-
어려움: 메타 비평은 이 분야가 이분법적 성별에 지나치게 좁게 집중한다고 주장합니다. 덜 연구된 축 하나를 선택하고, 그 축에 대한 재현 피해 측정 절차(measurement protocol)를 설계해 설명합니다.
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| 재현 피해(Representational harm) | "고정관념 / 지워짐" | 어떤 집단에 대한 편향된 묘사이다 |
| 분배 피해(Allocational harm) | "불평등한 결정" | 어떤 집단에 대한 편향된 물질적 결과이다 |
| WEAT | "임베딩 검사" | 단어 임베딩 연관 검사(Word Embedding Association Test). 공기(co-occurrence) 기반의 편향 프로브이다 |
| 교차성(Intersectionality) | "결합된 정체성 효과" | 여러 정체성 축의 교차 지점에서 나타나는 편향이다 |
| 성별 뉴런(Gender neurons) | "MLP의 편향 뉴런" | 활성값이 성별 특이적 행동과 상관되는 특정 뉴런이다 |
| SAE 피처(SAE feature) | "해석 가능한 차원" | 희소 오토인코더가 식별한 피처. 기계론적 편향 분석에 유용하다 |
| UniBias | "어텐션 헤드 편향 완화" | 어텐션 헤드 가중치를 재조정해 수행하는 제로샷 편향 완화이다 |
더 읽을거리