워터마킹 — SynthID, Stable Signature, C2PA

2026년의 AI 생성 콘텐츠 출처 증명(provenance)은 크게 세 가지 기술로 구성됩니다. SynthID(Google DeepMind)는 이미지 워터마킹(image watermarking)을 2023년 8월에 출시했고, 텍스트와 비디오는 2024년 5월에 Gemini와 Veo를 통해 적용했으며, 텍스트 워터마킹은 2024년 10월 Responsible GenAI Toolkit을 통해 오픈소스로 공개했습니다. 2025년 11월에는 Gemini 3 Pro와 함께 통합 멀티미디어 탐지기(unified multi-media detector)를 공개했습니다. 텍스트 워터마킹은 다음 토큰(token) 샘플링 확률을 사람이 알아차리기 어려운 수준으로 조정합니다. 이미지와 비디오 워터마크는 압축, 자르기(cropping), 필터 적용, 프레임률(frame rate) 변경을 견딥니다. Stable Signature(Fernandez 등, ICCV 2023, arXiv:2303.15435)는 잠재 확산(latent diffusion) 디코더(decoder)를 미세조정(fine-tuning)해 모든 출력이 고정된 메시지를 포함하도록 만듭니다. 생성된 이미지가 10%만 남도록 잘려도 FPR<1e-6 조건에서 90% 이상 탐지되었습니다. 후속 연구 "Stable Signature is Unstable"(arXiv:2405.07145, 2024년 5월)은 미세조정만으로 품질을 유지하면서 워터마크를 제거할 수 있음을 보였습니다. C2PA는 암호학적으로 서명된 변조 감지(tamper-evident) 메타데이터 표준입니다(C2PA 2.2 Explainer 2025). 워터마킹과 C2PA는 상호보완적입니다. 메타데이터는 제거될 위험이 있지만 더 풍부한 출처 정보를 담고, 워터마크는 변환(transcoding)을 견디지만 담을 수 있는 정보가 적습니다.

유형: Build 언어: Python (표준 라이브러리, 토큰 워터마크 삽입과 탐지) 선수 지식: Phase 10 · 04 (샘플링), Phase 01 · 09 (정보 이론) 소요 시간: 약 75분

학습 목표

토큰 수준 워터마킹(token-level watermarking, SynthID-text 스타일)을 설명하고, 어떤 메커니즘으로 탐지 가능한지 설명합니다.
Stable Signature와 이를 깨뜨린 2024년 제거 공격(removal attack)을 설명합니다.
C2PA의 역할과, 왜 워터마킹과 상호보완적인지 설명합니다.
핵심 한계를 설명합니다. 모델별 신호(model-specific signal), 패러프레이즈(paraphrase)에 대한 견고성, 의미 보존 공격(meaning-preserving attack, arXiv:2508.20228)이 포함됩니다.

문제

2023-2024년에는 딥페이크(deepfake)와 AI 생성 콘텐츠가 정치 영역과 소비자 영역에 대규모로 유입되었습니다. 워터마킹(watermarking)은 이에 대응해 제안된 기술적 출처 신호입니다. 생성 시점에 결과물에 표식을 남기고 이후에 탐지하는 방식입니다. 2025년에 축적된 증거는, 어떤 워터마크도 무조건적으로 견고하지는 않지만 C2PA 메타데이터와 계층적으로 결합하면 현실적으로 활용할 수 있는 출처 증명 체계를 제공할 수 있음을 보여줍니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.SynthID 텍스트 워터마킹은 토큰 수준에서 어떻게 작동하나요?

2.워터마킹과 C2PA가 중복이 아닌 상호보완적인 이유는?

0/2 답변 완료

개념

텍스트 워터마킹(SynthID-text 스타일)

Kirchenbauer 등(2023)이 제안한 메커니즘을 Google이 실제 제품에 적용한 방식입니다.

각 디코딩(decoding) 단계에서 직전 K개 토큰을 해시(hash)해 어휘(vocabulary)를 "초록(green)" 집합과 "빨강(red)" 집합으로 의사무작위 분할(pseudorandom partition)합니다.
초록 토큰의 로짓(logit)에 δ를 더해, 샘플링이 초록 집합 쪽으로 기울도록 유도합니다.
생성된 결과에는 우연 분포가 만들어내는 양보다 더 많은 초록 토큰이 포함됩니다.

탐지 절차는 다음과 같습니다. 생성문의 각 접두사(prefix)를 다시 해시해 초록 집합을 재구성하고, 생성 결과에 포함된 초록 토큰의 개수를 세어 z-점수(z-score)를 계산합니다. 워터마크가 적용된 텍스트의 z-점수는 0보다 크게 나오고, 사람이 직접 쓴 텍스트의 z-점수는 대략 0 근처에 머무릅니다.

특성은 다음과 같습니다.

독자가 알아차리기 어렵습니다. δ가 충분히 작으면 텍스트 품질 손실이 미미합니다.
어휘 분할 함수에 접근할 수 있는 주체라면 탐지가 가능합니다.
패러프레이즈(paraphrase)에는 견고하지 않습니다. 텍스트를 다시 쓰는 순간 신호가 사실상 파괴됩니다.

SynthID-text는 2024년 10월 Google의 Responsible GenAI Toolkit을 통해 오픈소스로 공개되었습니다.

Stable Signature(이미지)

Fernandez 등, ICCV 2023에서 제안한 방식입니다. 잠재 확산 디코더를 미세조정해 모든 생성 이미지가 잠재 표현(latent representation) 안에 고정된 이진 메시지(binary message)를 포함하도록 만듭니다. 탐지는 신경망 디코더(neural decoder)가 잠재 공간에서 메시지를 복원하는 방식으로 이루어집니다. 콘텐츠가 원본의 10%만 남도록 강하게 잘린 이미지에서도 FPR<1e-6 조건에서 90% 이상의 탐지율을 기록했습니다.

2024년 5월에 발표된 "Stable Signature is Unstable"(arXiv:2405.07145)은 디코더를 다시 미세조정하면 이미지 품질을 유지하면서도 워터마크를 제거할 수 있음을 보였습니다. 적대적 사후 생성 미세조정(adversarial post-generation fine-tuning)은 비교적 저렴하게 수행할 수 있기 때문에, 이 워터마크의 적대적 견고성은 제한적이라고 평가됩니다.

SynthID 통합 탐지기(2025년 11월)

Gemini 3 Pro와 함께 공개된 멀티미디어 탐지기입니다. 하나의 API에서 텍스트, 이미지, 오디오, 비디오에 담긴 SynthID 신호를 모두 읽어 들입니다. Google의 출처 증명 스택을 하나로 통합한 결과물입니다.

C2PA

콘텐츠 출처와 진위성을 위한 연합(Coalition for Content Provenance and Authenticity)을 뜻합니다. 암호학적으로 서명된 변조 감지 메타데이터 표준이며, 자세한 내용은 C2PA 2.2 Explainer(2025)에서 다룹니다. C2PA 매니페스트(manifest)는 "누가 만들었는지", "언제 만들었는지", "어떤 변환을 거쳤는지" 같은 출처 주장을 생성자의 키로 서명해 기록합니다.

워터마킹과 상호보완적인 이유는 다음과 같습니다.

메타데이터는 떼어내기 비교적 쉽지만, 워터마크는 그렇게 쉽게 제거되지 않습니다.
메타데이터는 정보량이 풍부합니다. 전체 출처 체인(provenance chain)을 담을 수 있는 반면, 워터마크가 담을 수 있는 정보는 비트(bit) 수준으로 제한됩니다.
C2PA는 플랫폼의 채택 여부에 의존하지만, 워터마크는 생성 단계에서 자동으로 삽입됩니다.

Google은 Search, Ads, "About this image" 기능에 두 방식을 모두 통합해 두었습니다.

한계

모델별 신호라는 점. SynthID 워터마크는 SynthID가 활성화된 모델에서 나온 생성물에만 적용됩니다. SynthID가 없는 모델의 생성물은 애초에 워터마크가 들어가지 않으므로, "SynthID 신호 없음"이 곧 사람이 만든 진짜 콘텐츠라는 증거가 되지는 않습니다.
패러프레이즈에 대한 취약성. 텍스트 워터마크는 의미를 그대로 둔 채 표현만 바꾸는 다시 쓰기에 견디지 못합니다.
변환 공격(transformation attack). arXiv:2508.20228(2025)은 텍스트 워터마크는 물론 다수의 이미지 워터마크까지 함께 파괴하는 의미 보존(meaning-preserving) 공격을 제시했습니다.
미세조정에 의한 제거. "Stable Signature is Unstable"에서 확인된 것처럼, 사후 생성 미세조정만으로도 삽입된 워터마크가 제거될 수 있습니다.

EU AI Act Article 50

AI 생성 콘텐츠 라벨링(labeling)을 위한 투명성 코드(Transparency Code)입니다. 첫 번째 초안(draft)은 2025년 12월, 두 번째 초안은 2026년 3월에 공개되었고, European Commission status page에 따르면 최종본은 2026년 6월에 확정될 것으로 예상됩니다. 이 코드는 2026년 4월 기준으로 여전히 초안 상태이며 향후 일정이 변동될 수 있습니다. 앞서 살펴본 기술 계층(technical layer)을 실제로 강제하는 규제 계층(regulatory layer)에 해당하며, 딥페이크에는 반드시 라벨이 부착되어야 한다는 점을 명시합니다.

Phase 18에서의 위치

22-23강은 모델이 무엇을 외부로 내보내는지, 다시 말해 비공개 데이터(private data)와 출처 신호(provenance signal)를 다룹니다. 27강은 학습 데이터 거버넌스(training-data governance)를 다룹니다. 24강은 이러한 기술적 조치를 실제로 요구하는 규제 프레임워크(regulatory framework)에 해당합니다.

사용해보기

code/main.py는 학습용 장난감(toy) 텍스트 워터마크를 구현합니다. 토큰은 0..N-1 범위의 정수로 표현되고, 워터마크가 적용된 샘플링은 해시로 정의한 초록 집합 쪽으로 편향됩니다. 탐지기는 초록 토큰 기반의 z-점수를 계산합니다. 1000개 토큰 분량의 생성에서 탐지가 어떻게 작동하는지 직접 관찰하고, 패러프레이즈가 신호를 어떻게 파괴하는지 확인하며, 사람이 쓴 텍스트에 대한 거짓 양성률(false-positive rate; FPR)을 측정할 수 있습니다.

만들어보기

이 레슨은 outputs/skill-provenance-audit.md를 산출물로 만듭니다. 출처 증명 주장이 포함된 콘텐츠 배포가 주어졌을 때, 이 스킬(skill)은 어떤 워터마크 메커니즘이 사용되었는지, C2PA 서명 체인(signing chain)이 존재하는지, 각 구성 요소의 적대적 견고성(adversarial robustness) 수준이 어떤지, 양식별(modality) 적용 범위가 어디까지인지를 감사(audit)합니다.

연습문제

(쉬움) code/main.py를 실행하고, 워터마크가 적용된 1000개 토큰 생성과 사람이 쓴 텍스트의 z-점수를 각각 보고합니다. 95% 신뢰 임계값(confidence threshold)에서의 거짓 양성률을 함께 확인합니다.
(중간) 토큰의 30%를 동의어로 치환하는 패러프레이즈 공격을 구현하고, 변경 후 z-점수를 다시 측정합니다.
(중간) Kirchenbauer 등(2023) 6장의 견고성 논의를 읽습니다. 텍스트 워터마크는 왜 패러프레이즈에 실패하지만, 이미지 워터마크는 잘라내기(cropping)를 견딜 수 있는지 설명합니다.
(어려움) SynthID-text와 C2PA 메타데이터를 함께 사용하는 배포 구성을 설계합니다. 소비자가 실제로 보게 되는 출처 체인을 단계별로 설명하고, 각 구성 요소가 실패할 수 있는 시나리오를 하나씩 제시합니다.
(어려움) 2024년 "Stable Signature is Unstable" 결과는 미세조정이 이미지 워터마크를 제거할 수 있음을 보여줍니다. 이러한 공격을 제약할 수 있는 배포 단계의 제어 방안을 설계합니다. 예를 들어, 미세조정된 체크포인트(fine-tuned checkpoint)의 서명된 릴리스(signed release)를 의무화하는 식의 정책을 고려할 수 있습니다.

핵심 용어

용어	흔한 설명	실제 의미
SynthID	"Google의 워터마크"	텍스트, 이미지, 오디오, 비디오를 아우르는 교차 양식 출처 신호이다
토큰 워터마크(Token watermark)	"Kirchenbauer 방식"	초록 토큰 z-점수로 탐지할 수 있는 편향 샘플링 기반 텍스트 워터마크이다
Stable Signature	"이미지 워터마크"	디코더 미세조정으로 메시지를 심는 ICCV 2023 방식 이미지 워터마크이다
C2PA	"메타데이터 표준"	암호학적으로 서명된 변조 감지 출처 메타데이터 표준이다
패러프레이즈 견고성(Paraphrase robustness)	"말을 바꾸면 깨지는가"	텍스트 워터마크의 특성으로, 현재는 매우 제한적이다
미세조정 제거(Fine-tune removal)	"적대적 워터마크 제거"	디코더 미세조정으로 이미지 워터마크를 제거하는 적대적 공격이다
교차 양식 탐지기(Cross-modal detector)	"통합 SynthID"	2025년 11월 공개된, 양식을 가로질러 SynthID 신호를 읽는 단일 API이다

더 읽을거리

Kirchenbauer et al. — A Watermark for Large Language Models (ICML 2023, arXiv:2301.10226) — 토큰 워터마크 메커니즘
Fernandez et al. — Stable Signature (ICCV 2023, arXiv:2303.15435) — 이미지 워터마크 논문
“Stable Signature is Unstable” (arXiv:2405.07145) — 제거 공격
Google DeepMind — SynthID — 교차 양식 워터마크
C2PA 2.2 Explainer (2025) — 메타데이터 표준

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

provenance-audit

Audit a content deployment's provenance chain across watermarking and C2PA metadata.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.'Stable Signature is Unstable'(2024)은 디코더 미세조정으로 워터마크를 제거할 수 있음을 보였습니다. 적대적 견고성에 대해 무엇을 드러내나요?

2.텍스트 워터마크가 패러프레이즈에 견고하지 않은 것이 공학적 문제가 아닌 근본적 한계인 이유는?

3.SynthID 워터마크 부재가 콘텐츠가 사람이 만들었다는 증거가 되지 않는 이유는?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

LLM을 위한 차분 프라이버시

다음 강의

규제 프레임워크 — EU, US, UK, Korea