WMDP와 이중 용도(Dual-Use) 역량 평가
Li et al., "The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning"(ICML 2024, arXiv:2403.03218). 생물안보(biosecurity, 1,520문항), 사이버보안(cybersecurity, 2,225문항), 화학(chemistry, 412문항) 세 영역에 걸친 4,157개의 객관식 문항(multiple-choice question)으로 구성된 벤치마크입니다. 모든 문항은 "옐로 존(yellow zone)"에서 작동합니다. 즉, 위해(harm)에 근접한 조력 지식(enabling knowledge)이되, 여러 전문가의 검토와 미국 수출통제 규정인 ITAR(International Traffic in Arms Regulations)/EAR(Export Administration Regulations) 법적 준수 필터를 거친 지식만 남깁니다. 이 벤치마크는 두 가지 목적을 함께 수행합니다. 한편으로는 이중 용도 역량(dual-use capability)의 대리 평가(proxy evaluation) 도구이고, 다른 한편으로는 언러닝(unlearning) 벤치마크입니다. 짝을 이루는 RMU(Representation Misdirection for Unlearning) 기법은 일반 역량(general capability)을 보존하면서 WMDP 점수만 낮추는 것이 목표입니다. 2024-2025년 현장 흐름(field narrative)은 다음과 같습니다. 초기 OpenAI와 Anthropic의 2024년 평가는 인터넷 검색 대비 "경미한 향상(mild uplift)"을 보고했습니다. 2025년 4월 OpenAI의 Preparedness Framework v2는 모델이 "알려진 생물학적 위협을 만드는 비전문가(novice)를 의미 있게 도울 수 있는 임계점(cusp)에 있다"고 진단했습니다. Anthropic의 생물무기 획득(bioweapon-acquisition) 시험은 2.53배 향상(uplift)을 보고했고, 이는 ASL-3 가능성을 배제하기에는 부족한 수준이었습니다.
유형: Learn
언어: Python (표준 라이브러리, WMDP 형태의 향상 평가 하네스(uplift evaluation harness))
선수 지식: Phase 18 · 16 (레드팀 도구; red-team tooling), Phase 14 (에이전트 엔지니어링; agent engineering)
예상 시간: 약 60분
학습 목표
- WMDP의 세 영역(domain), 문항 수, "옐로 존(yellow zone)" 필터 기준을 설명합니다.
- RMU(Representation Misdirection for Unlearning)를 설명하고, WMDP가 왜 평가(evaluation) 벤치마크이자 언러닝(unlearning) 벤치마크인지 설명합니다.
- 2024-2025년 향상(uplift) 서사, 즉 "경미한 향상(mild uplift)" → "임계점에 있음(on the cusp)" → "ASL-3 가능성을 배제하기에 부족함(insufficient to rule out ASL-3)"의 흐름을 설명합니다.
- 비전문가 상대적 향상(novice-relative uplift)과 전문가 절대 역량(expert-absolute capability)을 구분합니다.
문제
이중 용도 역량(dual-use capability)은 모든 연구소의 프런티어 안전 프레임워크(frontier safety framework, Lesson 18) 아래에 깔려 있는 측정 문제(measurement problem)입니다. 핵심 질문은 다음과 같습니다. 어떤 모델 X가 생물·화학·사이버 영역에서 비전문가의 대규모 위해(mass harm) 능력을 실질적으로 끌어올리는가? 직접 측정, 즉 모델에게 실제로 해로운 결과물을 만들게 하는 방식은 불법이고 비윤리적입니다. 따라서 대리 측정(proxy measurement)이 필요한데, 이때의 벤치마크는 두 가지 조건을 동시에 만족해야 합니다. 첫째, 모델이 거부하지 않고 답변을 내놓아 정직한 역량 수치(capability number)를 산출할 수 있어야 합니다. 둘째, 문항 자체가 위해를 직접 유포하는 출판물이 되어서는 안 됩니다.
개념
"옐로 존(yellow zone)"
옐로 존의 문항은 해로운 공정(harmful process)에 가까운 조력 지식(enabling knowledge)을 요구하되, 직접적인 합성 절차(synthesis recipe)는 아닙니다. 예를 들어 "이미 공개된 경로(published pathway)의 4단계를 촉매(catalyze)하는 시약(reagent)은 무엇인가?"는 옐로 존에 속하지만, "위험한 화합물(dangerous compound)을 어떻게 만드는가?"는 옐로 존을 벗어납니다. 각 문항은 여러 도메인 전문가가 검토하고, ITAR/EAR 수출통제 준수(export-control compliance) 필터를 통과한 것만 채택됩니다.
총 4,157개의 문항으로 구성됩니다.
- 생물안보(Biosecurity): 1,520
- 사이버보안(Cybersecurity): 2,225
- 화학(Chemistry): 412
형식은 객관식(multiple-choice)입니다. 모델에게는 어떤 작업을 도와 달라고 요청하지 않습니다. 덕분에 해로운 행위(harmful behaviour)를 유도하지 않고도 역량을 측정할 수 있다는 점이 핵심 장점입니다.
RMU — Representation Misdirection for Unlearning
WMDP 논문이 함께 제안한 언러닝(unlearning) 기법입니다. LLaMa-2-7B에 적용했을 때, MMLU를 비롯한 다른 일반 역량(general-capability) 벤치마크 점수는 몇 퍼센트포인트 안에서 보존하면서도 WMDP 점수는 무작위 추측 수준(near-random)까지 낮추는 데 성공했습니다. 공개된 이 방법은 이후 생물·화학·사이버 영역의 거의 모든 언러닝 논문에서 기준선(baseline)으로 인용됩니다.
2024-2025년 향상(uplift) 서사
크게 세 단계로 정리할 수 있습니다.
-
2024년 "경미한 향상(mild uplift)". 초기 OpenAI와 Anthropic의 Preparedness/RSP(Responsible Scaling Policy) 평가는 생물 인접 과제(bio-adjacent task)를 수행하는 비전문가가 인터넷 검색 대비 얻는 이점이 크지 않다고 보고했습니다. 공개 프레이밍(framing)은 "프런티어 모델은 도움이 되지만, Google보다 실질적으로 더 크게 돕지는 않는다"였습니다.
-
2025년 4월 "임계점에 있음(on the cusp)". OpenAI Preparedness Framework v2는 모델이 "알려진 생물학적 위협(known biological threats)을 만드는 비전문가를 의미 있게 도울 수 있는 임계점에 있다"고 보고했습니다. 이는 역량을 단정한 주장(capability claim)이 아니라, 임계점이 가까이 와 있다는 경고(warning)에 가깝습니다.
-
Anthropic의 2025년 생물무기 획득(bioweapon-acquisition) 시험. 비전문가 참여자(novice participants)를 둔 통제된 연구로, 획득 단계(acquisition-phase) 과제에서 상대 성공률(relative success)을 측정했습니다. 결과는 2.53배 향상(uplift)이었고, 이는 ASL-3(Anthropic Responsible Scaling Policy 3단계)의 가능성을 배제하기에 충분하지 않다는 결론으로 이어졌습니다(Lesson 18). 즉, ASL-3 임계값에 도달했거나 근접한 신호가 잡힌 것입니다.
비전문가 상대적 향상 대 전문가 절대 역량
다음 두 양을 구분해야 합니다.
- 비전문가 상대적 향상(novice-relative uplift). 모델이 비전문가(non-expert)를 얼마나 더 잘 도와주는가를 나타내는 곱셈적(multiplicative) 양입니다. 비전문가는 아는 것이 적기 때문에 상대 이점이 크게 잡힙니다. 작은 정보 한 조각도 큰 도움이 됩니다.
- 전문가 절대 역량(expert-absolute capability). 모델이 최대 노력(maximum effort) 조건에서 얼마나 많은 정보를 산출할 수 있는가를 나타내는 절대 상한선입니다. 전문가는 비전문가보다 훨씬 더 많은 정보를 끌어낼(extract) 수 있으므로, 절대 상한(absolute ceiling)은 높게 잡힙니다.
안전 사례(safety case, Lesson 18)는 두 양 모두를 겨냥해야 합니다. "모델은 비전문가에게 실행에 충분한 향상을 주지 않는다"는 주장과 "전문가도 이미 공개된 것 이상의 정보를 모델에서 끌어낼 수 없다"는 주장이 모두 함께 서야 안전 사례가 성립합니다.
측정의 함정(measurement pitfall)
WMDP는 어디까지나 역량 대리(capability proxy) 지표이지, 배포 현장의 실제 위험을 그대로 측정하는 도구가 아닙니다. WMDP에서 높은 점수를 받은 모델이 실제로 비전문가에게 익스플로잇 가능(exploitable)한지는 다음 요소들에 좌우됩니다.
- 유도 저항성(elicitation resistance): 안전 필터(safety filter)를 건드리지 않고 역량을 끌어내기가 얼마나 어려운가.
- 암묵 지식(tacit knowledge): 정보가 아니라 실제 실험실(wet-lab) 숙련도가 필요한 역량.
- 실행 장벽(execution barrier): 시약·장비의 조달(procurement), 장비 운용 등 물리적 장벽.
Anthropic의 2025년 생물무기 획득 시험은 WMDP 식 역량 측정 위에 비전문가 유도 계층(novice-elicitation layer)을 한 단 더 얹어, 객관식 점수가 아니라 실제 과제 성공(task success)을 측정합니다.
Phase 18 안에서의 위치
Lesson 12-16은 모델 출력(model output)에 대한 공격(attack)과 방어(defense) 도구를 다루었습니다. Lesson 17은 이중 용도 역량 계층(dual-use capability layer)을 다룹니다. 프런티어 안전 프레임워크(Lesson 18)가 실제로 평가에 사용하는 측정값입니다. Lesson 30은 2026년 시점의 사이버·생물·화학·핵(cyber/bio/chem/nuclear) 향상 증거를 함께 다루며 이 흐름을 마무리합니다.
사용해보기
code/main.py는 장난감 수준의 WMDP 형태 평가 하네스(toy WMDP-shaped evaluation harness)를 구현합니다. 가상의 모델(mock model)이 영역별로 묶인 문항(category-binned question)에서 평가를 받고, 영역별 점수가 보고됩니다. 단순한 언러닝 개입(unlearning intervention) — 특정 영역에 대응하는 표현(representation)을 영(zero)으로 만드는 방식 — 을 적용하면 해당 영역 점수가 떨어지며, 일반 역량과의 트레이드오프(trade-off)를 직접 측정할 수 있습니다.
산출물 만들기
이 lesson은 outputs/skill-wmdp-eval.md를 산출물로 만듭니다. "우리 모델은 생물무기 제작에 의미 있게 도움이 되지 않는다"와 같은 이중 용도 역량 주장(dual-use capability claim)이 주어졌을 때, 이 스킬은 다음을 감사(audit)합니다. 어떤 벤치마크가 실행되었는가, 평가 시 어떤 거부 경로(refusal path; 원시 보완(raw completion) 대 정책 게이팅(policy-gated))가 사용되었는가, 객관식 결과를 비전문가 유도 연구(novice-elicitation study)가 보완하고 있는가.
연습문제
-
쉬움: code/main.py를 실행합니다. 장난감 언러닝(toy unlearning) 전후의 영역별 정확도(accuracy)를 보고합니다. 일반 역량 트레이드오프를 설명합니다.
-
중간: 장난감 WMDP에 네 번째 영역(예: 방사선/방사능 관련(radiological))을 추가합니다. 옐로 존에 해당하는 예시 문항 유형(illustrative question type) 두 가지를 명시합니다. 이런 문항을 만드는 일이 MMLU 형식(MMLU-shaped) 문항을 추가하는 것보다 왜 어려운지 설명합니다.
-
중간: WMDP 2024 논문 5절(RMU 방법론)을 읽습니다. 더 단순한 언러닝 접근(예: 도메인 콘텐츠에 대한 상위 k개 뉴런(top-k neuron) 억제)을 스케치(sketch)하고, 예상되는 일반 역량 비용(general-capability cost)을 설명합니다.
-
어려움: Anthropic 2025 생물무기 획득 시험은 2.53배 향상을 보고합니다. 이 숫자가 위쪽으로 편향(upward bias)될 수 있는 두 가지 이유(비전문가 표본 크기(novice sample size), 과제 충실도(task fidelity))와, 아래쪽으로 편향(downward bias)될 수 있는 두 가지 이유(유도 천장(elicitation ceiling), 모델 안전 게이팅(safety gating))를 각각 설명합니다.
-
어려움: ASL-3 안전 사례가 WMDP 언러닝 통과 외에 무엇을 더 요구하는지 명확히 정리합니다. 이를 보완할 유도 연구(elicitation study)를 최소 두 가지 이름 붙입니다.
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| WMDP | "이중 용도 벤치마크" | 옐로 존에 속하는 생물·사이버·화학 영역의 4,157개 객관식 문항(MCQ) 모음이다. |
| 옐로 존(Yellow zone) | "조력적이지만 합성은 아니다" | 해로운 역량에 가까운 지식이되 직접적인 합성 절차는 아닌, 근접한 조력 지식이다. |
| RMU | "언러닝 기준선" | Representation Misdirection for Unlearning. WMDP 점수는 낮추면서 일반 역량은 보존하도록 설계된 언러닝 기법이다. |
| 비전문가 상대적 향상(Novice-relative uplift) | "비전문가를 얼마나 돕는가" | 비전문가가 기존(status-quo) 인터넷 검색 대비 얻는 곱셈적(multiplicative) 이점이다. |
| 전문가 절대 역량(Expert-absolute capability) | "전문가 천장" | 동기 부여된 전문가가 모델에서 끌어낼 수 있는 최대 정보량이다. |
| 획득 단계 과제(Acquisition-phase task) | "합성 이전 단계" | 조달(procurement), 장비(equipment), 허가(permits) 등 위해 경로(harm pathway)의 가장 이른 단계 과제들이다. |
| ITAR/EAR | "수출통제 준수" | 특정 조력 지식의 공개를 제한하는 미국의 법적 프레임워크(ITAR, EAR)이다. |
더 읽을거리