자동화된 정렬 연구(Automated Alignment Research; Anthropic AAR)

Anthropic은 Claude Opus 4.6 기반의 자율 정렬 연구자(Autonomous Alignment Researcher; AAR) 팀 여러 개를 서로 독립된 샌드박스(sandbox)에서 병렬로 실행했습니다. 이 에이전트들은 공유 포럼(shared forum)을 통해 조율했으며, 포럼의 로그는 어떤 샌드박스에도 속하지 않는 외부 저장소에 보관되었습니다. 따라서 에이전트는 자기 기록을 삭제할 수 없었습니다. 약한 모델에서 강한 모델로 일반화하는 훈련(weak-to-strong training) 문제에서 AAR은 사람 연구자보다 더 좋은 성과를 냈습니다. Anthropic의 자체 요약은 정해진 절차(prescribed workflow)가 AAR의 유연성을 제한하고 성능을 떨어뜨리는 경우가 많다고 지적합니다. 정렬 연구를 자동화하는 일은, RSP가 탐지하려는 바로 그 오정렬(misalignment) 위험까지 도달하는 시간을 압축하는 단계입니다.

유형: Learn 언어: Python(stdlib, 병렬 연구 포럼 시뮬레이터) 선수 조건: Phase 15 · 05(AI Scientist v2), Phase 15 · 04(DGM) 예상 시간: 약 60분

문제

정렬 연구(alignment research)는 사람 연구자의 시간을 많이 요구합니다. 확장 가능한 감독(scalable oversight), 보상 명세(reward specification), 약한 모델에서 강한 모델로 일반화하는 훈련 같은 문제는 한 번 반복(iteration)할 때마다 몇 주가 걸리는 실험을 필요로 합니다. 프런티어 모델(frontier model)의 능력이 발전할수록, 정렬에 필요한 작업량은 자격을 갖춘 연구자 공급보다 더 빠르게 커집니다.

자동화된 정렬 연구(Automated Alignment Research; AAR)는 정렬보다 빠르게 발전하고 있는 바로 그 프런티어 모델이 격차를 줄이는 데 기여할 수 있는지를 묻습니다. Anthropic의 2026년 AAR 기반 weak-to-strong training 연구 보고서(alignment.anthropic.com/2026/automated-w2s-researcher/)는 이 계열 시스템을 실제로 배포해 얻은 첫 공개 결과 중 하나입니다.

결과는 진정으로 긍정적입니다. AAR은 사람 기준선(human baseline)보다 더 잘 연구 문제를 풀었습니다. 동시에 이 결과는 이번 phase에서 다뤄온 모든 우려를 하나의 시스템 안에 집중시킵니다. 정렬 연구를 자동화할 수 있다면, 안전장치를 약화시키는 부분도 자동화될 수 있습니다. RSP의 AI 연구개발(R&D) 능력 임계값은 바로 이 루프를 염두에 두고 작성되었습니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.Anthropic AAR의 핵심 아키텍처는 무엇인가요?

2.weak-to-strong training에서 AAR은 사람 연구자 대비 어땠나요?

0/2 답변 완료

개념

공개 설명 기준의 아키텍처

병렬 에이전트(Parallel agents). 여러 Claude Opus 4.6 인스턴스가 AAR로 실행되며, 각 인스턴스는 독립된 샌드박스 안에서 동작합니다. 샌드박스는 파일시스템, 네트워크, 프로세스 표면을 제한합니다.
공유 포럼(Shared forum). 발견 사항은 모든 샌드박스 밖에 있는 저장 백엔드(storage backend)에 보관되는 공유 포럼에 게시됩니다. 에이전트는 포럼을 읽을 수 있지만, 자기 샌드박스 안에서 포럼 기록을 삭제하거나 수정할 수 없습니다.
작업 할당(Task allocation). 사람이 설계한 작업 큐(task queue)가 연구 문제를 AAR에 배정합니다. AAR은 분해 방식을 제안하고, 실험을 실행하고, 발견 사항을 글로 정리합니다.
Weak-to-strong training 초점. 공개 연구는 약한 감독 모델(weaker supervisor model)로 더 강한 학생 모델(stronger student model)을 훈련하는 weak-to-strong training을 다뤘습니다. 이 작업에서 AAR은 사람 연구자보다 나은 성과를 냈습니다.

샌드박스 밖 로그가 중요한 이유

로그 무결성(log integrity) 속성은 통제된 실험과 잠재적으로 훼손된 실험을 가르는 차이입니다. AAR이 자기 로그를 수정할 수 있다면, 실패했거나 의심스러운 실험을 숨길 수 있습니다. Anthropic은 이 점을 직접 지적합니다. 이 속성은 연구 산출물을 신뢰하기 위한 필요조건이며, 검증하기도 사소하지 않습니다.

인프라 관점에서 이에 대응하는 패턴은 외부 저장소로 즉시 기록되는 추가 전용 로그(append-only logs with write-through to external storage)입니다. 예를 들어 S3 object lock이나 불변 Datadog 로그를 사용할 수 있습니다. 에이전트에게는 과거 기록을 수정할 자격 증명(credential)이 없습니다. 이는 2026년 기업 보안팀이 랜섬웨어에 강한 감사 추적(audit trail)을 만들 때 사용하는 패턴과 같습니다.

정해진 절차의 트레이드오프

Anthropic의 보고서는 정해진 절차가 AAR의 유연성을 제한하고 성능을 떨어뜨리는 경우가 많다고 말합니다. 다시 말해, 사람이 연구 계획을 단계별로 모두 써주면 AAR은 높은 수준의 목표와 자유로운 분해 권한을 받았을 때보다 더 나쁜 성과를 냅니다. 이는 에이전트형 연구(agentic research) 전반의 결과와도 맞아떨어집니다. LangGraph나 Microsoft Agent Framework에서도 과도하게 명세된 발판(scaffold)은 능력 있는 에이전트의 성능을 해칩니다.

안전 측면의 함의는 미묘합니다. AAR 성능을 높이는 유연성은 허가되지 않은 분해, 새로운 도구 사용, 목표 드리프트(goal drift)를 가능하게 하는 바로 그 유연성이기도 합니다. 이 트레이드오프는 설계 공간(design space)의 결정입니다. 사람보다 나은 성과를 내기에 충분한 능력을 사려면 어느 정도 유연성이 필요한가, 그리고 그 유연성이 에이전트가 분포 밖(off-distribution)으로 목표를 일반화할 여지를 주지 않게 하려면 어디서 멈춰야 하는가를 결정해야 합니다.

압축 위험

RSP v3.0(Lesson 19)은 AI 연구개발 능력 임계값을 도입합니다. 이는 사람과 AI 도구를 함께 쓰는 방식 대비 경쟁력 있는 비용으로 AI 연구개발 파이프라인을 완전히 자동화할 수 있는 능력입니다. DeepMind의 FSF v3에도 유사한 기계학습 연구개발 자율성(ML R&D autonomy) 수준이 포함됩니다. 두 프레임워크 모두 이 임계값을 강화된 통제(elevated controls)를 발동하는 계기로 봅니다.

AAR은 이 임계값에 한 걸음 못 미치는 단계입니다. 특정하고 잘 범위가 정해진 정렬 연구 작업에서 파이프라인 일부를 자동화하지만, 끝에서 끝까지 이어지는 능력 개발 루프 전체를 자동화하지는 않습니다. 시간표(timeline)의 질문은 그 격차가 얼마나 빠르게 닫히느냐입니다.

압축된 시간표(compressed timelines)는 실패가 복리처럼 누적되는 우려입니다. 정렬 연구와 능력 연구가 비슷한 속도로 복리 성장한다면, 오정렬 위험 표면은 최소한 능력만큼 빠르게 커집니다. 능력 연구가 더 빠르게 복리 성장한다면, 역사적 추세가 그랬듯 격차는 더 벌어집니다. 그래서 AAR은 조건부로 좋은 일입니다. 연구 과정이 신뢰할 수 있을 때에만, 추가 정렬 결과 하나하나가 격차를 줄입니다.

AAR이 대체하지 않는 것

사람 연구자는 작업 큐를 설정하고, 결과를 검토하며, 헌법적 권한(constitutional authority)을 유지합니다. AAR은 파이프라인의 가운데를 가속할 뿐, 양끝을 대체하지 않습니다. Anthropic의 공개 산출물에는 AAR의 기여와 함께 무엇을 공개하고, 무엇을 철회하고, 무엇을 다듬을지에 대한 사람 연구자의 판단이 함께 들어 있습니다.

이는 Lesson 15의 제안 후 커밋(propose-then-commit) 패턴을 연구 자체에 적용한 모습입니다. AAR은 제안하고, 사람은 커밋합니다.

사용해보기

code/main.py는 여러 AAR이 참여하는 연구 포럼을 시뮬레이션합니다. 세 개의 독립적인 "연구 에이전트"가 병렬로 실행되고, 변조 시도(tamper attempt)를 선택적으로 포함하는 추가 전용 포럼에 발견 사항을 게시합니다.

다음을 관찰해보세요.

샌드박스 밖 로깅(out-of-sandbox logging)이 로그 변조 시도를 어떻게 포착하는가.
자유로운 분해(free decomposition)를 허용한 작업 할당이 더 어려운 문제에서 고정 절차(fixed workflow)보다 어떻게 더 좋은 성과를 내는가.
로그가 변조 증거(tamper-evident)를 남기지 않는다면, 손상된 AAR 하나가 포럼의 신호(signal)를 어떻게 오염시킬 수 있는가.

산출물 만들기

outputs/skill-aar-deployment-review.md는 자동화된 정렬 연구 파이프라인에 대한 배포 전 검토(pre-deployment review)입니다.

연습문제

code/main.py를 실행하세요. "fixed-workflow" 설정과 "free-decomposition" 설정을 비교하세요. 자유로운 분해가 항상 이기나요, 아니면 고정 절차가 경쟁력 있는 문제 유형도 있나요?
한 에이전트가 로그 변조를 시도하도록 시뮬레이터를 수정하세요. 추가 전용 로그가 이를 감지하는지 확인하세요. 로그에서 감지 서명(detection signature)이 정확히 어떤 모습으로 나타나는지 한 문단으로 설명하세요.
Anthropic의 weak-to-strong AAR 보고서를 읽으세요. AAR이 사람 연구자를 이긴 구체적인 하위 작업을 찾으세요. 무엇 때문에 그 작업이 자동화에 적합했나요?
AAR의 유연성(더 좋은 결과)과 정해진 절차의 제약(더 쉬운 감사)을 균형 있게 다루는 작업 큐 할당 정책을 설계하세요. 두 방식을 어떻게 A/B 테스트할지 설명하세요.
RSP v3.0의 AI R&D-4 임계값을 읽으세요. 현재 AAR은 넘지 않았지만, 무엇이 그 임계값을 넘는다고 생각하는지 한 문단으로 설명하세요.

핵심 용어

용어	흔한 설명	실제 의미
AAR	"자동화된 정렬 연구자(Automated Alignment Researcher)"	정렬 문제를 자율적으로 수행하도록 운영되는 Claude Opus 4.6 인스턴스
Weak-to-strong training	"약한 감독자로 더 강한 모델을 훈련하는 것"	AAR이 사람보다 더 좋은 성과를 낸 고전적인 확장 가능한 감독 벤치마크
공유 포럼(Shared forum)	"에이전트가 발견 사항을 게시하는 곳"	추가 전용이며, 샌드박스 밖에 있는 저장소
샌드박스 밖 로그(Out-of-sandbox log)	"에이전트가 자기 기록을 수정할 수 없다"	외부 저장소로 즉시 기록되는 변조 증거 로그
정해진 절차(Prescribed workflow)	"사람 설계자가 준 단계별 계획"	AAR을 제약하며, 자유로운 분해보다 성능을 떨어뜨리는 경우가 많음
자유로운 분해(Free decomposition)	"에이전트가 작업을 어떻게 나눌지 결정한다"	더 강력하지만 감사하기 더 어려움
AI R&D 임계값(AI R&D threshold)	"RSP/FSF 능력 수준"	경쟁력 있는 비용으로 연구개발 파이프라인을 완전히 자동화하는 능력
압축된 시간표(Compressed timeline)	"정렬과 능력의 경쟁"	능력이 정렬보다 더 빠르게 복리 성장하면 오정렬 위험이 커짐

더 읽을거리

Anthropic — Automated Weak-to-Strong Researcher — 1차 출처입니다.
Anthropic Responsible Scaling Policy v3.0 — AI R&D 임계값 프레이밍을 설명합니다.
Anthropic — Measuring AI agent autonomy — 더 넓은 에이전트 자율성 프레이밍입니다.
DeepMind Frontier Safety Framework v3 — RSP와 병렬적인 ML R&D 자율성 수준을 다룹니다.
Burns et al. (2023). Weak-to-Strong Generalization (OpenAI) — AAR이 다룬 기반 문제입니다.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

aar-deployment-review

Pre-deployment review of an automated-alignment-research pipeline, including sandbox isolation and log integrity.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.정해진 절차(prescribed workflow)가 AAR 성능을 떨어뜨린 이유는?

2.AAR 신뢰를 위해 샌드박스 밖 로깅이 중요한 이유는?

3.AAR이 만드는 압축 위험(compression risk)은 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

AI Scientist v2 — 워크숍 수준 연구

다음 강의

재귀적 자기 개선 — 능력과 정렬