음성 안티스푸핑과 오디오 워터마킹(Voice Anti-Spoofing & Audio Watermarking) — ASVspoof 5, AudioSeal, WaveVerify
음성 복제(Voice cloning) 기술은 방어 기술보다 빠르게 배포되었습니다. 2026년의 운영(production) 음성 시스템에는 두 가지가 필요합니다. 진짜 음성과 가짜 음성을 분류하는 탐지기(detector; AASIST, RawNet2)와, 압축(compression)과 편집(editing)을 견디는 워터마크(watermark; AudioSeal)입니다. 둘 다 출시(ship)할 수 없다면 음성 복제도 출시해서는 안 됩니다.
유형: Build
언어: Python
선수 강의: Phase 6 · 06 (Speaker Recognition), Phase 6 · 08 (Voice Cloning)
예상 시간: 약 75분
학습 목표
안티스푸핑(anti-spoofing), 오디오 워터마킹(audio watermarking), 인증된 출처(authenticated provenance)를 구분합니다.
ASVspoof 5, AASIST, RawNet2, AudioSeal의 역할을 설명합니다.
동일 오류율(Equal Error Rate; EER)과 비트 복구 정확도(Bit Recovery Accuracy)를 계산하고 해석합니다.
음성 생성 파이프라인(voice generation pipeline)에 탐지기, 워터마크, 매니페스트(manifest), 감사 로그(audit log)를 통합하는 방식을 이해합니다.
문제
서로 연관된 방어(defense)는 세 가지입니다.
안티스푸핑 / 딥페이크 탐지(Anti-spoofing / deepfake detection). 주어진 오디오 클립이 합성(synthetic)인지 실제(real)인지를 분류합니다. ASVspoof 벤치마크(ASVspoof 2019 → 2021 → 5)가 사실상의 표준(gold standard)입니다.
오디오 워터마킹(Audio watermarking). 생성된 오디오 안에 사람이 들을 수 없는(imperceptible) 신호를 심어 두고, 나중에 탐지기가 이를 추출하도록 합니다. AudioSeal(Meta)과 WavMark가 공개 옵션(open option)입니다.
인증된 출처(Authenticated provenance). 오디오 파일과 메타데이터(metadata)에 암호학적 서명(cryptographic signature)을 붙입니다. C2PA / Content Authenticity Initiative가 여기에 해당합니다.
탐지(detection)는 협조하지 않는 공격자(adversary)에 대응합니다. 워터마킹(watermarking)은 컴플라이언스(compliance)를 다룹니다. 즉 AI가 생성한 오디오는 그 사실이 식별 가능해야 합니다. 2026년 환경에서는 두 가지 모두 필수입니다.
사전 테스트
2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요
1.방어 메커니즘으로서 안티스푸핑 탐지(anti-spoofing detection)와 오디오 워터마킹(audio watermarking)의 핵심 차이는 무엇인가요?
2.음성 안티스푸핑에서 동일 오류율(Equal Error Rate; EER)은 무엇을 측정하나요?
0/2 답변 완료
개념
ASVspoof 5 — 2024-2025 벤치마크(benchmark)
이전 회차(edition)와 비교한 가장 큰 변화는 다음과 같습니다.
크라우드소싱 데이터(Crowdsourced data). 스튜디오 수준의 깨끗한 음성이 아니라 현실 조건(realistic condition)에서 수집한 데이터입니다.
약 2,000명의 화자(speakers). 이전 대회의 약 100명 수준보다 훨씬 큰 규모입니다.
32개 공격 알고리즘(attack algorithms). TTS, 음성 변환(voice conversion), 적대적 섭동(adversarial perturbation)을 모두 포함합니다.
두 가지 트랙(Two tracks). 단독 탐지를 위한 대응책(Countermeasure; CM) 트랙과, 생체 인식 시스템(biometric system)을 위한 스푸핑 강건 화자 검증(Spoofing-robust ASV; SASV) 트랙입니다.
ASVspoof 5의 최신 기술(state-of-the-art; SOTA)은 약 7.23% EER 수준입니다. 더 오래된 ASVspoof 2019 LA에서는 0.42% EER도 나옵니다. 실제 배포(real-world deployment) 환경에서는 자연 환경에서 수집한(in-the-wild) 클립에서 5~10% EER을 예상해야 합니다.
AASIST와 RawNet2 — 탐지 모델 계열(detection model families)
AASIST(2021년 발표, 2026년까지 갱신 중). 스펙트럴 특징(spectral feature) 위에 그래프 어텐션(graph-attention)을 적용한 모델입니다. ASVspoof 5의 대응책(CM) 과제에서 현재 SOTA 계열에 속합니다.
RawNet2. 원시 파형(raw waveform) 위의 컨볼루션 프론트엔드(convolutional front-end)와 TDNN 백본(backbone)을 결합한 구조입니다. 더 단순한 베이스라인(baseline)이지만, 파인튜닝(fine-tuning)을 거치면 여전히 경쟁력 있는 성능을 냅니다.
생성기와 탐지기를 함께 학습(Generator + detector jointly trained). 생성기(generator)는 들리지 않는 신호를 심도록 학습되고, 탐지기(detector)는 여러 증강(augmentation)을 거쳐 그 신호를 찾아내도록 학습됩니다.
강건성(Robust). MP3 / AAC 압축(compression), 이퀄라이저(EQ), ±10% 속도 변경(speed-shift), +10 dB 신호 대 잡음비(SNR)의 잡음 혼합(noise mix)을 견딥니다.
속도(Fast). 탐지기가 실시간(realtime) 대비 485배 빠르게 동작하며, WavMark 대비 1,000배 빠릅니다.
용량(Capacity). 각 발화(utterance)에 16비트 페이로드(payload)를 심을 수 있습니다. 모델 ID(model ID), 생성 타임스탬프(generation timestamp), 사용자 ID(user ID) 같은 값을 인코딩할 수 있습니다.
WavMark
AudioSeal 이전의 공개 베이스라인입니다. 가역 신경망(invertible neural network) 구조이며 초당 32비트(bits/sec)의 용량을 가집니다. 다음과 같은 문제가 있습니다.
동기화(synchronization)를 완전 탐색(brute-force)으로 처리하므로 느립니다.
가우시안 잡음(Gaussian noise)이나 MP3 압축으로 쉽게 제거될 수 있습니다.
실시간(real-time) 환경에 잘 맞지 않습니다.
WaveVerify (2025년 7월)
AudioSeal의 약점, 특히 역재생(reversal)과 속도 변경(speed) 같은 시간축 조작(temporal manipulation)을 보완합니다. FiLM 기반 생성기(FiLM-based generator)와 전문가 혼합 탐지기(Mixture-of-Experts detector)를 사용합니다. 표준 공격(standard attack)에서는 AudioSeal과 경쟁력 있는 성능을 보이고, 시간축 편집(temporal edit)을 더 잘 처리합니다.
공격자가 이용하는 빈틈(gap)
AudioMarkBench에 따르면, 음높이 변경(pitch shift)에서는 모든 워터마크의 비트 복구 정확도(Bit Recovery Accuracy)가 0.6 미만으로 떨어져 사실상 제거됩니다. 음높이 변경은 보편적인 공격(universal attack)입니다. 2026년 시점에서 어떤 워터마크도 강한 음높이 변형(aggressive pitch modification)에 완전히 강건하지 않습니다. 그래서 워터마킹과 함께 탐지(AASIST)도 필요합니다.
C2PA / Content Authenticity Initiative
기계학습 기법(ML technique)이 아니라 매니페스트 형식(manifest format)입니다. 오디오 파일이 제작 도구(creation tool), 작성자(author), 날짜(date)에 대해 암호학적으로 서명된(cryptographically signed) 메타데이터를 함께 담습니다. Audobox와 Seamless가 이를 사용합니다. 출처(provenance) 추적에는 좋지만, 악의적 사용자가 재인코딩(re-encode)하여 메타데이터를 제거하면 무력화됩니다.
직접 만들기
Step 1: 간단한 스펙트럴 특징 탐지기(spectral-feature detector, toy)
defspectral_rolloff(spec, percentile=0.85):
cum = 0
total = sum(spec)
if total == 0:
return0
threshold = total * percentile
for k, v inenumerate(spec):
cum += v
if cum >= threshold:
return k
returnlen(spec) - 1defis_suspicious(audio):
spec = magnitude_spectrum(audio)
rolloff = spectral_rolloff(spec)
return rolloff / len(spec) > 0.92
합성된 음성(synthetic speech)은 비정상적으로 평탄한(flat) 고주파 에너지(high-frequency energy)를 갖는 경우가 많습니다. 운영 환경의 탐지기는 이 토이 코드가 아니라 AASIST를 사용합니다. 다만 이 토이 탐지기는 핵심적인 직관(intuition)을 보여줍니다.
defeer(real_scores, fake_scores):
thresholds = sorted(set(real_scores + fake_scores))
best = (1.0, 0.0)
for t in thresholds:
far = sum(1for s in fake_scores if s >= t) / len(fake_scores)
frr = sum(1for s in real_scores if s < t) / len(real_scores)
ifabs(far - frr) < best[0]:
best = (abs(far - frr), (far + frr) / 2)
return best[1]
탐지기를 실행하지 않는 워터마크. 의미가 없습니다. 지속적 통합(CI) 파이프라인에 탐지기를 포함해 배포합니다.
보정(calibration) 없는 탐지. ASVspoof LA로 학습된 AASIST는 과적합(overfit)되기 쉽고, 실제 환경에서는 정확도가 떨어집니다. 자신의 도메인에서 보정합니다.
음높이 변경(pitch-shift) 빈틈. 강한 음높이 변경은 대부분의 워터마크를 제거합니다. 탐지(detection) 폴백을 둡니다.
메타데이터 제거 후 재게시(strip-and-rehost). C2PA는 재인코딩만으로 손쉽게 우회됩니다. 암호학적 방어와 지각적 워터마크(perceptual watermark)를 항상 함께 두어야 합니다.
활성 검증을 탐지로 오해. 무작위 문구(random phrase)를 말하게 하면 재생 공격(replay attack)은 막을 수 있지만, 실시간 복제(real-time cloning)는 막지 못합니다.
산출물 만들기
outputs/skill-spoof-defender.md로 저장합니다. 음성 생성 배포(voice-gen deployment)에 필요한 탐지 모델, 워터마크, 출처 매니페스트(provenance manifest), 운영 플레이북(operational playbook)을 결정하도록 돕는 스킬(skill)입니다.