데이터 출처와 학습 데이터 거버넌스

EU AI Act는 2025년 8월까지 GPAI를 위한 기계 판독 가능(opt-out) 거부 표준을 요구합니다(EU Copyright Directive의 텍스트와 데이터 마이닝(Text and Data Mining; TDM) 예외를 통해). California AB 2013(2024년 서명)은 생성형 AI 훈련 데이터 투명성 법으로, 개발자가 12개 필수 필드를 포함한 데이터셋 요약을 공개하도록 요구합니다. 2025년에는 정당한 이익(legitimate interest)에 대한 DPA 입장이 정렬되는 흐름이 있었습니다. Irish DPC(2025년 5월 21일)는 EDPB 의견 이후 보호장치를 전제로 Meta가 EU/EEA 성인 사용자의 1자 공개 콘텐츠(first-party public content)를 LLM 훈련에 사용하는 것을 받아들였습니다. Cologne Higher Regional Court(2025년 5월 23일)는 가처분 신청을 기각했습니다. Hamburg DPA는 긴급 절차를 중단했습니다. UK ICO(2025년 9월 23일)는 LinkedIn의 AI 훈련 보호장치(투명성, 단순화된 opt-out, 확장된 이의 제기 기간)에 긍정적 규제 반응을 냈고 계속 모니터링 중입니다. 이는 공식 허가가 아닙니다. Brazilian ANPD(2024년 7월 2일)는 정보 투명성이 부족하다는 이유로 Meta의 처리를 중단시켰습니다. Meta가 준수 계획을 제출한 뒤 2024년 8월 30일 예방 조치가 해제되었습니다. 핵심은 비가역성 문제입니다. 쿠키 동의(cookie consent) 프레임워크는 실시간이고 되돌릴 수 있는 추적을 위해 설계되었습니다. 하지만 데이터가 모델 가중치에 들어가면 외과적으로 지우는 것은 불가능합니다. 훈련된 신경망에는 실용적인 GDPR 삭제권(right to erasure)이 없습니다. 규정 준수 창구는 수집 시점입니다. Data Provenance Initiative(dataprovenance.org, Longpre, Mahari, Lee 등, "Consent in Crisis", 2024년 7월)는 대규모 감사에서 발행자들이 robots.txt 제한을 추가하면서 AI 데이터 공유지(AI data commons)가 빠르게 줄어들고 있음을 보였습니다.

유형: Learn 언어: Python (표준 라이브러리, California AB 2013 12개 필드 스캐폴딩 생성기) 선수 지식: Phase 18 · 24 (규제), Phase 18 · 26 (카드) 소요 시간: 약 60분

학습 목표

  • 생성형 AI 훈련 데이터 투명성을 위한 California AB 2013의 12개 필수 필드를 설명합니다.
  • 정당한 이익 기반 LLM 훈련에 대한 2025년 DPA 입장(Irish DPC, UK ICO, Hamburg, Cologne)을 말합니다.
  • 비가역성 문제를 설명합니다. GDPR 삭제권이 왜 훈련된 신경망에서는 실용적 등가물을 갖지 못하는지 설명합니다.
  • Data Provenance Initiative의 "Consent in Crisis" 발견을 말합니다.

문제

훈련 데이터 거버넌스는 모든 모델 카드(26강)와 규제 의무(24강)의 업스트림입니다. 2024-2025년의 규제 환경은 세 가지 원칙으로 수렴했습니다. opt-out 인프라, 데이터셋별 공개, 공개적으로 이용 가능한 데이터에 대한 정당한 이익 조정입니다. 수집 시점에 준수하지 않는 제공자는 다운스트림에서 이를 바로잡기 어렵습니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.California AB 2013은 12개 필수 필드의 훈련 데이터 요약 공개를 요구합니다. Gebru 등의 데이터시트와 비교해 새로운 필드는?

2.훈련 데이터 거버넌스에서 비가역성 문제란 무엇인가요?

0/2 답변 완료

개념

California AB 2013

2024년에 서명되었습니다. 2022년 1월 1일 이후 출시된 시스템에 대해서는 2026년 1월 1일 또는 그 이전에 문서가 게시되어야 합니다. Section 3111(a)는 개발자가 훈련에 사용한 데이터셋의 상위 수준 요약을 12개 법정 항목과 함께 공개하도록 요구합니다.

  1. 데이터셋의 출처 또는 소유자.
  2. 데이터셋이 AI 시스템의 의도된 목적을 어떻게 진전시키는지에 대한 설명.
  3. 데이터셋의 데이터 포인트 수(일반 범위 허용, 동적 데이터셋은 추정치 허용).
  4. 데이터 포인트 유형 설명(라벨 있는 데이터셋은 라벨 유형, 라벨 없는 데이터셋은 일반 특성).
  5. 데이터셋에 저작권, 상표, 특허로 보호되는 데이터가 포함되는지, 또는 전부 공개 도메인인지 여부.
  6. 데이터셋을 구매했거나 라이선스했는지 여부.
  7. 데이터셋에 개인정보(personal information, Cal. Civ. Code §1798.140(v))가 포함되는지 여부.
  8. 데이터셋에 집계 소비자 정보(aggregate consumer information, Cal. Civ. Code §1798.140(b))가 포함되는지 여부.
  9. 개발자가 수행한 정리, 처리, 기타 수정과 그 의도된 목적.
  10. 데이터가 수집된 기간, 수집이 진행 중이면 그 고지.
  11. 개발 중 데이터셋이 처음 사용된 날짜.
  12. 시스템이 합성 데이터 생성(synthetic data generation)을 사용하거나 지속적으로 사용하는지 여부.

12번 항목(합성 데이터)은 Gebru 등(2018)의 데이터시트와 비교해 새로운 항목입니다. 7번 항목(개인정보)은 California Privacy Rights Act(CPRA) 의무를 유발합니다. 이 법은 보안/무결성, 항공기 운항, 연방 전용 국가안보 시스템을 면제합니다(Section 3111(b)).

EU AI Act(24강)와 TDM opt-out

EU Copyright Directive의 텍스트와 데이터 마이닝 예외는 권리자가 opt-out하지 않는 한 공개적으로 이용 가능한 콘텐츠에 대한 훈련을 허용합니다. EU AI Act GPAI Code of Practice의 저작권 장은 GPAI 제공자가 기계 판독 가능한 opt-out 신호(robots.txt, C2PA "No AI Training" claim 등)를 존중하도록 요구합니다.

정당한 이익에 대한 2025년 DPA 수렴

Irish DPC(2025년 5월 21일): EDPB 의견 이후 보호장치를 전제로, Meta가 EU/EEA 성인 사용자의 1자 공개 콘텐츠를 훈련에 사용하는 계획을 받아들였습니다. Cologne Higher Regional Court(2025년 5월 23일)는 Meta에 대한 가처분을 기각했습니다. opt-out이면 충분하다는 판단입니다. Hamburg DPA는 EU 전역의 일관성을 위해 긴급 절차를 중단했습니다. UK ICO(2025년 9월 23일)는 유사한 보호장치와 지속 모니터링을 전제로 LinkedIn의 AI 훈련 재개에 긍정적 규제 반응을 냈습니다. 다만 공식 허가는 아닙니다.

수렴 원칙은 이렇습니다. 공개적으로 이용 가능한 1자 콘텐츠에 대한 훈련은 opt-out을 전제로 정당한 이익으로 정당화될 수 있습니다. 동의(consent)는 필요하지 않습니다.

Brazilian ANPD(2024년 6월)

Brazilian ANPD는 정보 투명성이 부족하다는 이유로 Meta의 브라질 사용자 데이터 AI 훈련 처리를 중단했습니다. EU DPA들과는 다른 결과입니다. ANPD는 정당한 이익의 허용 가능성보다 투명성을 우선했습니다.

비가역성 문제

쿠키 동의는 실시간이고 되돌릴 수 있는 추적을 위해 설계되었습니다. 훈련 데이터는 다릅니다. 데이터가 모델 가중치에 들어가면 외과적으로 제거할 수 없습니다. 처음부터 다시 훈련하는 것이 유일하게 완전한 구제책이지만, 비용이 너무 큽니다.

부분적 구제책은 다음과 같습니다.

  • 언러닝(Unlearning). 근사적 제거입니다. MIA(22강)로 측정합니다.
  • 영향 함수 기반 위치 지정(Influence function-based localization). 특정 데이터가 가장 크게 영향을 준 가중치를 식별하고 선택적으로 업데이트합니다.
  • 미세조정 억제(Fine-tune-suppression). 해당 데이터에서 파생된 출력을 거절하도록 모델을 훈련합니다.

어떤 방법도 문제를 완전히 해결하지는 못합니다. 규정 준수 창구는 수집 시점입니다.

Data Provenance Initiative

dataprovenance.org. Longpre, Mahari, Lee 등의 "Consent in Crisis"(2024년 7월)는 AI 훈련 데이터 공유지에 대한 대규모 감사입니다. 발견은 이렇습니다. 발행자들이 점점 더 빠른 속도로 robots.txt 제한을 추가하고 있습니다. 공개적으로 훈련 가능한 공유지는 빠르게 축소되고 있습니다. 2023년에서 2024년 사이 상위 훈련 출처의 약 25%가 어떤 형태로든 제한을 추가했습니다. 함의는 분명합니다. 미래의 훈련 데이터 가용성은 새로운 획득 패러다임(라이선싱, 합성 생성, 인센티브 기반 참여)에 달려 있습니다.

Phase 18에서의 위치

26강은 모델 수준 문서화입니다. 27강은 데이터셋 수준 거버넌스입니다. 둘은 함께 투명성 계층을 정의합니다. 28강은 이러한 질문을 연구하는 생태계를 매핑합니다.

사용해보기

code/main.py는 장난감 데이터셋에 대해 California AB 2013을 준수하는 12개 필드 데이터셋 요약 스캐폴드를 생성합니다. 필드를 채우고 어떤 필드가 프라이버시 또는 저작권 후속 의무를 유발하는지 관찰할 수 있습니다.

만들어보기

이 레슨은 outputs/skill-provenance-check.md를 산출합니다. 훈련에 사용된 데이터셋이 주어지면, 이 스킬은 AB 2013의 12개 필드 포괄성, opt-out 인프라 준수, DPA 정렬, 비가역성 위험 평가를 확인합니다.

연습문제

  1. code/main.py를 실행합니다. 장난감 데이터셋에 대한 12개 필드 요약을 만들고, 어떤 필드가 덜 명시되었는지 식별합니다.

  2. EU Copyright Directive의 TDM opt-out은 기계 판독 가능해야 합니다. opt-out 신호의 표준 형식을 제안하고, robots.txt 및 C2PA "No AI Training"과 비교합니다.

  3. Data Provenance Initiative의 "Consent in Crisis"(2024년 7월)를 읽습니다. 가장 빠르게 제한되는 콘텐츠 범주 세 가지를 설명하고, 경제적 결과 하나를 논증합니다.

  4. 2025년 DPA 정렬은 공개 콘텐츠 훈련에 대해 정당한 이익을 받아들입니다. 정당한 이익만으로 충분하지 않은 시나리오를 구성하고, 제공자가 대신 필요로 할 법적 근거를 식별합니다.

  5. AB 2013 필드와 각 데이터셋에 대한 C2PA 서명 출처 체인을 결합하는 훈련 데이터 출처 매니페스트를 개략적으로 설계합니다. 기술적 장벽 하나와 법적 장벽 하나를 식별합니다.

핵심 용어

용어흔한 설명실제 의미
AB 2013"캘리포니아 법"생성형 AI 훈련 데이터 투명성, 12개 필수 필드
TDM exception"텍스트와 데이터 마이닝"opt-out을 포함한 EU Copyright Directive의 훈련 데이터 예외
Legitimate interest"EU 근거"공개 콘텐츠 훈련을 정당화할 수 있는 GDPR Article 6 근거
Opt-out signal"기계 판독 no-train"robots.txt, C2PA "No AI Training", TDM.Reservation
Irreversibility"되돌려 훈련 해제할 수 없음"모델 가중치 안의 데이터는 외과적으로 제거할 수 없음
Unlearning"근사적 제거"특정 데이터에 대한 모델 의존도를 줄이기 위한 사후 훈련 개입
Consent in Crisis"DPI 감사"robots.txt 제한이 가속화되고 있음을 보인 2024년 7월 발견

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

provenance-check

Check a training dataset against California AB 2013 and EU TDM opt-out obligations.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.2025년 DPA 수렴은 공개 콘텐츠 훈련에 대해 정당한 이익(legitimate interest)을 받아들였습니다. 요구되는 조건은?

2.Data Provenance Initiative의 'Consent in Crisis'(2024)는 AI 데이터 공유지가 빠르게 줄어들고 있다고 발견했습니다. 이유는?

3.브라질 ANPD는 2024년 6월 EU DPA들과 달리 Meta의 데이터 처리를 중단시켰습니다. ANPD가 우선한 원칙은?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다