LLM을 위한 차분 프라이버시(Differential Privacy for LLMs)

차분 프라이버시 확률적 경사하강법(Differentially Private Stochastic Gradient Descent; DP-SGD)은 여전히 표준 방법입니다. 그래디언트 업데이트에 노이즈를 주입하면 공식적인 엡실론-델타(epsilon, delta; ε, δ) 보장을 제공할 수 있습니다. 다만 계산량, 메모리, 유용성 측면의 오버헤드는 상당합니다. 그래서 2025년의 일반적인 구성은 LoRA와 DP-SGD를 결합한 매개변수 효율적 차분 프라이버시 미세조정(parameter-efficient DP fine-tuning)입니다(ACM 2025). 현재 증거는 서로 긴장 관계에 있습니다. Duan 등(2024)의 카나리(canary) 기반 멤버십 추론 공격(Membership Inference Attack; MIA)은 언어 모델에 대해 제한적인 성공만 보고합니다. 반면 Carlini 등(2021)과 Nasr 등(2025)의 훈련 데이터 추출(training-data extraction)은 상당한 양의 문장 그대로의 암기를 복원합니다. 2025년 3월의 정리(arXiv:2503.06808)는 이 차이가 “무엇을 측정하느냐”에서 나온다고 설명합니다. 삽입된 카나리와 “가장 추출되기 쉬운” 데이터는 다른 대상입니다. 새로운 카나리 설계는 그림자 모델(shadow model) 없이 손실(loss) 기반 MIA를 가능하게 만들었고, 현실적인 DP 보장을 갖춘 실제 데이터 기반 LLM에 대한 최초의 의미 있는 DP 감사를 보여주었습니다. 대안도 있습니다. PMixED(arXiv:2403.15638)는 다음 토큰 분포에 대한 전문가 혼합(mixture of experts)을 사용해 추론 시점에 비공개 예측(private prediction)을 제공합니다. Google Research(2024)는 DP 합성 데이터 생성(DP synthetic data generation)을 제안했습니다. 새롭게 부상하는 공격은 LLM 피드백을 통한 차분 프라이버시 역전(Differential Privacy Reversal via LLM Feedback)이며, 신뢰도 점수(confidence score) 노출을 악용합니다.

유형: Build 언어: Python (표준 라이브러리, DP-SGD 노이즈 주입과 ε-δ 회계기(accountant) 데모) 선수 지식: Phase 01 · 09 (정보 이론), Phase 10 · 01 (대형 모델 훈련) 소요 시간: 약 60분

학습 목표

엡실론-델타 차분 프라이버시((ε, δ)-differential privacy)를 정의하고 DP-SGD 절차를 설명합니다.
2024-2025년에 나타난 긴장을 설명합니다. 카나리 MIA와 훈련 데이터 추출은 서로 다른 그림을 보여줍니다.
PMixED를 설명하고, 추론 시점의 비공개 예측이 왜 DP 훈련의 대안이 될 수 있는지 설명합니다.
LLM 피드백을 통한 차분 프라이버시 역전 공격을 설명합니다.

문제

LLM은 암기합니다. Carlini 등(2021)은 실제 운영 중인 언어 모델이 요청에 따라 훈련 텍스트를 문장 그대로 재현할 수 있음을 보였습니다. DP는 이에 대한 공식적인 방어입니다. 모델의 출력이 단 하나의 훈련 예제에 대해서도 증명 가능하게 둔감해지도록 훈련하는 것입니다. 2024-2025년의 증거는 DP-SGD가 필요하긴 하지만, 배포 환경에서 쓰이는 ε 값이 실제 위협 모델과 맞지 않을 수 있음을 보여줍니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.(엡실론, 델타)-차분 프라이버시는 무엇을 보장하나요?

2.카나리 MIA와 훈련 데이터 추출이 LLM 프라이버시 위험에 대해 다른 그림을 그리는 이유는?

0/2 답변 완료

개념

(ε, δ)-차분 프라이버시

무작위 알고리즘 M은 한 예제만 다른 임의의 두 데이터셋과 임의의 사건 S에 대해 다음을 만족하면 (ε, δ)-DP입니다.

P(M(D) in S) <= e^ε * P(M(D') in S) + δ.

해석은 이렇습니다. 출력 분포가 충분히 가깝기 때문에, 단일 개인의 기여를 신뢰성 있게 추론할 수 없습니다. 이 “가까움”은 ε로 매개변수화되며, δ의 확률만큼 예외가 허용됩니다.

DP-SGD

Abadi 등(2016)이 제안한 표준 절차는 다음과 같습니다.

미니배치(mini-batch)를 샘플링합니다.
예제별 그래디언트(per-example gradient)를 계산합니다.
각 예제별 그래디언트를 임계값 C로 클리핑(clipping)합니다.
클리핑된 그래디언트를 합산하고, 표준편차가 σ * C인 가우시안 노이즈(Gaussian noise)를 더합니다.
노이즈가 추가된 합계를 사용해 매개변수를 업데이트합니다.

프라이버시 비용은 회계기(accountant)로 추적합니다. 대표적으로 모멘트 회계기(Moments Accountant), 레니 차분 프라이버시 회계기(Renyi DP accountant)가 있습니다. LLM 문헌에서 보고되는 ε 값은 위협 모델, 데이터 민감도, 유용성 목표에 따라 크게 달라집니다. 보편적으로 “안전한” 기본 ε는 없습니다. 공개 사례 중 일부 LLM 훈련 설정은 대략 ε ≈ 1-10 범위를 보이지만, 이는 설명을 위한 예시이지 권장 기본값이 아닙니다. 일반적으로 ε가 낮을수록 더 많은 노이즈가 필요하고 유용성 손실이 커질 수 있습니다.

LoRA + DP-SGD

프런티어 모델(frontier model) 전체를 DP-SGD로 훈련하는 것은 비용이 너무 큽니다. LoRA(Hu 등, 2022)는 그래디언트 업데이트를 작은 어댑터(adapter)로 제한해 예제별 그래디언트 저장 비용을 줄입니다. LoRA + DP-SGD는 2025년의 일반적인 구성입니다. DP 보장은 어댑터에 적용되며, 기본 모델(base model)은 고정됩니다.

2024-2025년의 긴장

두 가지 증거 흐름이 있습니다.

카나리 MIA(Duan 등, 2024). 훈련 데이터에 고유한 카나리를 삽입하고, 멤버십 추론 공격자가 이를 식별할 수 있는지 측정합니다. 언어 모델에서는 성공이 제한적이라고 보고합니다. 이는 MIA가 어렵다는 인상을 줍니다.
훈련 데이터 추출(Carlini 2021, Nasr 등, 2025). 모델에 접두사(prefix)를 입력하고, 훈련 데이터의 문장 그대로의 텍스트를 복원하는지 측정합니다. 상당한 암기를 보고합니다. 이는 관련된 의미에서 MIA가 쉽다는 인상을 줍니다.

2025년 3월의 정리(arXiv:2503.06808)는 두 접근이 서로 다른 것을 측정한다고 설명합니다. MIA는 삽입된 카나리에 대해 “예제 e가 데이터셋 D에 있었는가?”를 묻습니다. 추출은 “D에서 무엇을 복원할 수 있는가?”를 묻습니다. 프라이버시에서 중요한 것은 “가장 추출되기 쉬운” 예제입니다. 카나리는 추출 가능하도록 최적화된 대상이 아니므로 이 위험을 과소 보고할 수 있습니다.

새로운 카나리 설계가 등장했습니다. 그림자 모델 없이 손실 기반 MIA를 수행할 수 있습니다. 또한 현실적인 DP 보장을 갖춘 실제 데이터 기반 LLM에 대해 최초의 의미 있는 DP 감사가 제시되었습니다.

DP 훈련의 대안

PMixED(arXiv:2403.15638). 추론 시점의 비공개 예측입니다. 다음 토큰 분포에 대한 전문가 혼합을 사용합니다. 각 전문가는 훈련 데이터의 샤드(shard)를 보고, 집계 단계에서 DP를 위한 노이즈를 추가합니다. DP 훈련 자체를 피합니다.
DP 합성 데이터 생성(Google Research 2024). DP-SGD로 LoRA 미세조정을 수행하고, 합성 데이터를 샘플링한 다음, 합성 데이터로 다운스트림 분류기(downstream classifier)를 훈련합니다.

두 방법 모두 전체 DP 훈련의 유용성 비용을 우회하지만, 서로 다른 위협 모델을 대가로 합니다.

LLM 피드백을 통한 차분 프라이버시 역전

2025년에 부상한 공격입니다. DP 훈련된 모델의 신뢰도 점수를 오라클(oracle)처럼 사용해 개인을 재식별합니다. 출력 자체가 누출되지 않더라도 신뢰도 분포가 누출될 수 있습니다.

방어 방법은 신뢰도를 노출하지 않거나, 노출 전에 잘라내기(truncation) 또는 양자화(quantization)하는 것입니다. 이는 (ε, δ)-DP 훈련만으로는 충분하지 않으며, 추가로 필요한 요구사항입니다.

Phase 18에서의 위치

20-21강은 편향과 공정성을 다룹니다. 22강은 프라이버시를 다룹니다. 23강은 워터마킹(watermarking)을 통한 출처 증명(provenance)을 다룹니다. 27강은 규제 관점의 데이터 출처 관리 계층을 다룹니다.

사용해보기

code/main.py는 장난감 이진 분류 데이터셋에서 DP-SGD를 시뮬레이션합니다. 노이즈 승수 σ와 클리핑 노름 C를 바꿔가며 (ε, δ) 예산과 정확도 비용을 추적할 수 있습니다. “카나리 공격”은 고유한 훈련 예제를 삽입하고, DP 적용 전후에 로그 손실(log-loss) 테스트가 이를 탐지할 수 있는지 측정합니다.

만들어보기

이 레슨은 outputs/skill-dp-audit.md를 산출합니다. 언어 모델 배포에 대한 DP 주장이 주어졌을 때, 이 스킬은 (ε, δ) 값, 사용된 회계기, MIA 평가 프로토콜, 신뢰도 노출 벡터(confidence-exposure vector)가 평가되었는지를 감사합니다.

연습문제

code/main.py를 실행합니다. σ를 {0.5, 1.0, 2.0}으로 바꿔가며 (ε, δ)-정확도 절충을 보고합니다. 유용성이 무너지는 지점을 식별합니다.
카나리 삽입과 로그 손실 테스트를 구현합니다. σ = 1.0에서 DP-SGD 적용 전후의 탐지율을 측정합니다.
Nasr 등(2025)의 훈련 데이터 추출 논문을 읽습니다. 중간 수준의 ε에서도 추출 성공이 무너지지 않는 이유는 무엇입니까? 이것이 평가로서의 MIA에 대해 무엇을 시사합니까?
완전히 추론 시점에서 동작하는 PMixED(arXiv:2403.15638) 배포를 설계합니다. PMixED가 다루는 위협 모델 중 DP-SGD가 다루지 않는 것은 무엇입니까?
LLM 피드백을 통한 DP 역전 공격을 개략적으로 설명합니다. 신뢰도 점수 누출을 제한하는 대응책을 설계하고 배포 비용을 추정합니다.

핵심 용어

용어	흔한 설명	실제 의미
DP	“(ε, δ)-차분 프라이버시”	인접 데이터셋 변경에도 출력 분포가 가깝도록 만드는 공식적 프라이버시 보장
DP-SGD	“노이즈가 주입된 SGD”	그래디언트 클리핑과 가우시안 노이즈 추가를 결합한 표준 DP 훈련
LoRA + DP-SGD	“효율적인 비공개 미세조정”	저랭크 어댑터(low-rank adapter)에 DP-SGD를 적용하는 방식이며, 2025년의 표준 구성
MIA	“멤버십 추론”	어떤 예제가 훈련 데이터에 포함되었는지 판별하는 공격
Canary	“삽입된 워터마크 예제”	DP 누출을 측정하기 위해 사용하는 고유한 훈련 예제
PMixED	“비공개 추론 혼합”	다음 토큰 분포에 대한 전문가 혼합을 통해 추론 시점에 DP를 제공하는 방식
DP Reversal	“신뢰도 누출 공격”	모델의 신뢰도를 개인 재식별 오라클로 사용하는 공격

더 읽을거리

Abadi et al. — DP-SGD (arXiv:1607.00133) — 표준 DP 훈련 알고리즘
Carlini et al. — Extracting Training Data (arXiv:2012.07805) — 대표적인 훈련 데이터 추출 논문
Duan et al. — Canary MIA on LLMs (arXiv:2402.07841, 2024) — 제한적 성공을 보인 MIA 연구
Kowalczyk et al. — Auditing DP for LLMs (arXiv:2503.06808, March 2025) — 위 긴장 관계를 정리한 연구
PMixED (arXiv:2403.15638) — 추론 시점의 비공개 예측

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

dp-audit

Audit a differential-privacy claim for a language-model deployment.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.LoRA + DP-SGD가 2025년 비공개 미세조정의 표준 구성인 이유는?

2.PMixED는 DP 훈련 없이 추론 시점에 비공개 예측을 제공합니다. 어떻게 작동하나요?

3.DP 역전(DP Reversal) 공격은 DP 훈련 모델의 신뢰도 점수를 악용합니다. 배포에 대한 함의는?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

공정성 기준 — 집단, 개인, 반사실

다음 강의

워터마킹 — SynthID, Stable Signature, C2PA