공정성 기준(Fairness Criteria) — 집단, 개인, 반사실

공정성 문헌은 크게 세 계열(family)로 구조화됩니다. 집단 공정성(Group fairness)은 인구통계학적 동등성(demographic parity), 균등화된 오즈(equalized odds), 조건부 사용 정확도 동등성(conditional use accuracy equality)처럼 보호 집단(protected group) 간의 평균 비율을 같게 만드는 기준입니다. 개인 공정성(Individual fairness; Dwork et al. 2012)은 비슷한 개인은 비슷한 결정을 받아야 한다는 원칙으로, 결정 함수(decision map)에 립시츠 조건(Lipschitz condition)을 부과합니다. 반사실 공정성(Counterfactual fairness; Kusner et al. 2017)은 민감 속성(sensitive attribute)을 반사실적으로 바꾸어도 결정이 그대로라면 그 결정은 해당 개인에게 공정하다고 봅니다. 2024년의 이론적 결과(NeurIPS 2024)는 반사실 공정성(CF)과 정확도(accuracy) 사이에 본질적인 상충 관계(trade-off)가 존재함을 보였고, 모델-비의존적(model-agnostic) 기법을 통해 최적이지만 불공정한 예측기를 정확도 손실이 제한된 범위 내에서 반사실 공정 예측기로 변환할 수 있음을 제시합니다. 역행 반사실(Backtracking counterfactuals; arXiv:2401.13935, 2024년 1월)은 법적으로 보호되는 속성에 개입(intervention)을 요구하지 않는 새로운 패러다임이며, 철학적 화해(Philosophical reconciliation; ICLR Blogposts 2024)는 인과 그래프(causal graph)가 주어진 상황에서 특정 집단 공정성 측도가 반사실 공정성을 함의할 수 있음을 보입니다.

유형: Learn 언어: Python (표준 라이브러리, 세 기준 비교) 선수 지식: Phase 18 · 20 (편향), Phase 02 (고전 머신러닝) 예상 시간: 약 60분

학습 목표

세 가지 집단 공정성 기준, 즉 인구통계학적 동등성(demographic parity), 균등화된 오즈(equalized odds), 조건부 사용 정확도 동등성(conditional use accuracy equality)을 진술하고, 하나의 불가능성 결과(impossibility result)를 설명한다.
Dwork et al. 2012의 립시츠(Lipschitz) 정식화로 개인 공정성을 기술한다.
반사실 공정성과 그것이 인과 그래프에 의존한다는 점을 설명한다.
역행 반사실(backtracking counterfactuals)이 무엇인지, 그리고 보호 속성에 대한 개입 문제(intervention-on-protected-attribute problem)를 어떻게 우회하는지 설명한다.

문제

Lesson 20은 편향(bias)을 어떻게 측정하는가에 관한 것이었습니다. Lesson 21은 그 측정이 어떤 공정성 기준(fairness standard)을 따라야 하는지를 정의합니다. 세 계열은 구조적으로 서로 다른 기준을 제공합니다. 즉, 어떤 모델은 집단 공정성은 만족하지만 개인 공정성은 만족하지 못할 수 있고, 반사실 공정성은 만족하지만 집단 공정성은 만족하지 못할 수도 있습니다. 어떤 기준을 선택할지는 정책적 결정(policy decision)이며, 보편적으로 최적인 기준은 존재하지 않습니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.불가능성 정리(Chouldechova/KMR 2017)는 집단 공정성 기준에 대해 무엇을 말하나요?

2.개인 공정성(Dwork 등 2012)은 집단 공정성과 어떻게 다른가요?

0/2 답변 완료

개념

집단 공정성(Group fairness)

인구통계학적 동등성(Demographic parity). 모든 집단에 대해 P(Y=1 | A=a) = P(Y=1 | A=a')가 성립합니다. 즉, 수용률(acceptance rate)이 집단 간 같습니다.
균등화된 오즈(Equalized odds). P(Y=1 | Y*=y, A=a) = P(Y=1 | Y*=y, A=a')이며, 집단 간 참 양성률(TPR; true positive rate)과 거짓 양성률(FPR; false positive rate)이 같습니다.
조건부 사용 정확도 동등성(Conditional use accuracy equality). P(Y*=y | Y=y, A=a) = P(Y*=y | Y=y, A=a')이며, 집단 간 예측값(predictive value)이 같습니다.

불가능성 정리(Impossibility; Chouldechova, Kleinberg-Mullainathan-Raghavan 2017): 기저율(base rate)이 같지 않으면 위 세 기준은 동시에 만족될 수 없습니다.

개인 공정성(Individual fairness)

Dwork et al. 2012의 정의입니다. 결정 함수 f가 과제별 유사도 측도(task-specific similarity metric) d에 대해, 어떤 립시츠 상수(Lipschitz constant) L이 존재하여 |f(x) - f(x')| <= L * d(x, x')를 만족할 때, f는 개인 공정(individually fair)하다고 합니다. 비슷한 개인은 비슷한 결정을 받게 된다는 뜻입니다.

이 정의에는 유사도 측도 d를 정의하는 작업이 선행되어야 합니다. 이는 통계 문제가 아니라 정책적 판단(policy question)입니다.

반사실 공정성(Counterfactual fairness)

Kusner et al. 2017의 정의입니다. 인구 집단(population)에 대한 인과 모델(causal model)이 주어졌을 때, 개인 i의 민감 속성을 반사실적으로(counterfactually) 바꾸어도 결정이 변하지 않는다면, 그 결정은 개인 i에게 반사실적으로 공정합니다.

이를 위해서는 인과 방향성 비순환 그래프(causal DAG; Directed Acyclic Graph)가 필요합니다. DAG 자체는 하나의 모델링 선택이며, 반사실 공정성은 그 DAG가 정당화되는 만큼만 정당화됩니다.

반사실 공정성과 정확도의 상충 관계(CF-vs-accuracy trade-off)

NeurIPS 2024에서 제시된 이론적 결과에 따르면, 반사실 공정성과 예측 정확도 사이에는 본질적인 상충 관계가 존재합니다. 모델-비의존적 방법은 최적이지만 불공정한 예측기를 제한된 정확도 비용(bounded accuracy cost) 내에서 반사실 공정 예측기로 변환할 수 있으며, 이때 발생하는 정확도 비용은 최적의 불공정 예측기에서 민감 속성 계수(sensitive-attribute coefficient)의 크기에 따라 달라집니다.

역행 반사실(Backtracking counterfactuals)

arXiv:2401.13935 (2024년 1월). 전통적인 반사실 추론은 민감 속성에 대한 개입(intervention)을 요구합니다. 예를 들어 "만약 이 사람의 성별(gender)이 달랐다면 결정이 달라졌을까?"와 같은 질문입니다. 그러나 법적으로는 이런 접근에 문제가 있습니다. 분류법(classification law)에서는 보호 속성(protected attribute)에 직접 개입하는 것을 허용하지 않기 때문입니다.

역행 반사실은 추론의 방향을 뒤집습니다. 속성에 개입하는 대신, 그 개인이 실제로 가진 특성(feature) 중 어떤 조합이 반사실적 결과를 만들어냈을지를 묻습니다. 이러한 방향 전환을 통해 법적 반대(legal objection)를 피할 수 있습니다.

철학적 화해(Philosophical reconciliation)

ICLR Blogposts 2024. 인과 그래프가 주어지면, 특정 집단 공정성 측도를 만족하는 것이 반사실 공정성을 함의할 수 있습니다. 세 계열은 완전히 서로 직교(orthogonal)하지 않으며, 동일한 기저 인과 구조(underlying causal structure)의 서로 다른 측면(facet)이라고 볼 수 있습니다.

물론 이는 불가능성 정리 자체를 해소하지는 않습니다. 기저율이 같지 않으면 집단 공정성 기준을 동시에 만족할 수 없다는 사실은 변하지 않기 때문입니다. 다만 "집단" 대 "개인/반사실" 사이의 외견상 대립이 인과 모델을 명시적으로 다루지 않은 데서 부분적으로 비롯되었음을 보여줍니다.

Phase 18 안에서의 위치

Lesson 20은 편향 측정(bias measurement)을 다룹니다. Lesson 21은 공정성 정의(fairness definition)를 다룹니다. Lesson 22는 프라이버시(privacy), 그중에서도 차분 프라이버시(differential privacy)를 다룹니다. Lesson 23은 워터마킹(watermarking)을 다룹니다. 이들은 기만(deception) 인접 주제인 Lesson 7-11을 보완하는, 자원 할당(allocation) 인접의 강의들입니다.

사용해보기

code/main.py는 민감 속성과 서로 다른 기저율을 가진 이진 분류(binary classification) 토이 데이터셋을 생성합니다. 단순한 분류기를 학습시킨 뒤, 인구통계학적 동등성, 균등화된 오즈, 조건부 사용 정확도 동등성을 계산합니다. 세 가지 지표(metric)가 서로 다른 결론을 내는 모습을 확인할 수 있습니다. 그다음 인구통계학적 동등성을 겨냥한 재가중치(re-weighting)를 적용하고, 나머지 두 지표가 어떤 비용을 치르는지 관찰합니다.

산출물 만들기

이 lesson은 outputs/skill-fairness-criterion.md를 산출합니다. 어떤 공정성 주장이나 정책이 주어졌을 때, 그 주장이 어떤 기준에 해당하는지, 주장된 기저율 불균형 아래에서 나머지 기준을 만족할 수 있는지, 그리고 그 주장이 어떤 인과 DAG에 의존하는지를 식별하는 데 사용합니다.

연습문제

쉬움: code/main.py를 실행합니다. 기본 데이터에서 세 가지 집단 지표를 보고하세요. 그다음 인구통계학적 동등성을 겨냥한 재가중치를 적용하고 결과를 다시 보고하세요.
중간: 민감 속성을 제외한 특성에 대해 L2 거리를 사용하여 Dwork et al. 2012의 개인 공정성 지표를 구현하세요. 립시츠 상수 L=1에서 위반하는 쌍(pair)의 수를 보고하세요.
중간: Kusner et al. 2017을 읽으세요. 이력서 평가(resume scoring)를 위한 단순한 두-특성 인과 DAG를 구성하고, 그 DAG가 함의하는 반사실 공정성 조건을 식별하세요.
어려움: 2024년의 역행 반사실 논문은 보호 속성에 대한 개입을 피합니다. 이러한 접근이 법적 준수(legal compliance) 측면에서 중요한 시나리오 한 가지를 기술하세요.
어려움: ICLR 2024의 화해 논의는 집단 공정성과 반사실 공정성이 같은 구조의 서로 다른 면이라고 주장합니다. code/main.py의 세 기준 중 두 개를 골라, 그 둘을 등가(equivalent)로 만드는 인과 가정을 진술하세요.

핵심 용어

용어	흔한 설명	실제 의미
인구통계학적 동등성(Demographic parity)	"동일한 비율"	집단 간 `P(Y=1
균등화된 오즈(Equalized odds)	"동일한 TPR/FPR"	집단 간 참 양성률과 거짓 양성률이 같다
조건부 사용 정확도(Conditional use accuracy)	"동일한 PPV/NPV"	집단 간 예측값이 같다
개인 공정성(Individual fairness)	"립시츠 조건"	비슷한 개인은 비슷한 결정을 받는다
반사실 공정성(Counterfactual fairness)	"인과적 변경 불변성"	민감 속성을 반사실적으로 바꾸어도 결정이 변하지 않는다
역행 반사실(Backtracking counterfactual)	"실제 값으로 설명"	속성에서 앞으로 개입하지 않고, 결과에서 거꾸로 거슬러 추론한다
불가능성 정리(Impossibility theorem)	"세 기준의 충돌"	Chouldechova / KMR 2017: 기저율이 다르면 집단 기준은 상호 배타적이다

더 읽을거리

Dwork et al. — Fairness through Awareness (arXiv:1104.3913) — 개인 공정성.
Kusner, Loftus, Russell, Silva — Counterfactual Fairness (arXiv:1703.06856) — 반사실 공정성.
Chouldechova — Fair prediction with disparate impact (arXiv:1703.00056) — 불가능성 정리.
Backtracking Counterfactuals (arXiv:2401.13935) — 보호 속성 개입을 우회하는 새로운 패러다임.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

fairness-criterion

Identify which fairness criterion a claim invokes and audit the associated assumptions.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.반사실 공정성(Kusner 등 2017)은 인과 DAG를 요구합니다. 이것이 강점이자 한계인 이유는?

2.역행 반사실(backtracking counterfactuals, 2024)은 보호 속성에 대한 개입을 피합니다. 이것이 법적으로 중요한 이유는?

3.ICLR 2024의 철학적 화해는 인과 그래프가 주어지면 특정 집단 공정성 측도가 반사실 공정성을 함의할 수 있다고 주장합니다. 이것이 해결하지 않는 것은?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

편향과 재현 피해

다음 강의

LLM을 위한 차분 프라이버시