정렬 연구 생태계(Alignment Research Ecosystem) — MATS, Redwood, Apollo, METR
2026년의 비연구소(non-lab) 정렬 연구 계층은 다섯 조직으로 정의됩니다. MATS(ML Alignment & Theory Scholars)는 2021년 말 이후 527명 이상의 연구자, 180편 이상의 논문, 1만 회 이상의 인용, h-index 47을 기록했습니다. 2024년 여름 기수(cohort)는 약 90명의 스컬러(scholar)와 40명의 멘토(mentor)로 구성되었고 501(c)(3) 비영리 법인으로 등록되었습니다. 2025년 이전 동문의 80%는 안전/보안 분야에서 일하며, Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR, Apollo에 200명 이상이 자리 잡고 있습니다. Redwood Research는 Buck Shlegeris가 설립한 응용 정렬(applied alignment) 연구소로, AI Control 의제(10강)를 도입했고 UK AISI와 함께 제어 안전 사례(control safety case)를 만들어 갑니다. Apollo Research는 프런티어 연구소를 위한 사전 배포 책략(scheming) 평가를 수행하며, In-Context Scheming(8강)과 Towards Safety Cases for AI Scheming을 저술했습니다. METR(Model Evaluation and Threat Research)은 과제 기반 역량 평가(task-based capability evaluation), 자율 과제 시간 지평선 연구(autonomous-task time-horizon study), 그리고 연구소들의 프레임워크를 비교하는 "Common Elements of Frontier AI Safety Policies"를 수행합니다. Eleos AI Research는 모델 복지(model welfare) 사전 배포 평가를 수행하며(19강), Claude Opus 4 복지 평가를 진행했습니다.
유형: Learn
언어: 없음
선수 지식: Phase 18 · 01-27 (이전 Phase 18 레슨)
소요 시간: 약 45분
학습 목표
- 비연구소 정렬 연구 생태계를 이루는 다섯 조직과 각 조직의 핵심 산출물을 식별합니다.
- MATS의 규모(스컬러 수, 논문 수, h-index)와 인재 파이프라인(talent pipeline) 역할을 설명합니다.
- Redwood의 AI Control 의제와 UK AISI와의 협업 구조를 설명합니다.
- METR의 과제 기반 평가(task-based evaluation) 방법론을 설명합니다.
문제
프런티어 연구소(18강)는 안전 평가를 내부에서 만들고 선택한 결과만 공개합니다. 연구소 바깥의 생태계는 그 평가를 다시 검증하고, 새로운 실패 양상을 가장 먼저 발견하며, 다음 세대의 연구자를 길러 내는 곳입니다. 이 생태계의 구조를 이해해야 어떤 연구 결과를 누가 신뢰하는지를 정확히 해석할 수 있습니다.
개념
MATS(ML Alignment & Theory Scholars)
2021년 말에 시작된 연구 멘토링 프로그램입니다. 스컬러(scholar)는 특정 정렬 문제를 주제로 시니어 연구자(senior researcher)와 10-12주 동안 함께 작업합니다.
규모(2026):
- 시작 이후 527명 이상의 연구자가 거쳐 갔습니다.
- 180편 이상의 논문이 출판되었습니다.
- 1만 회 이상의 인용이 누적되었습니다.
- h-index 47을 기록하고 있습니다.
- 2024년 여름 기수: 스컬러 90명 + 멘토 40명, 501(c)(3) 비영리 법인으로 등록.
경력 결과: 2025년 이전 동문의 약 80%가 안전/보안 분야에서 일하고 있습니다. Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR, Apollo에만 200명 이상이 자리 잡았습니다.
Redwood Research
응용 정렬 연구소입니다. Buck Shlegeris가 설립했습니다. AI Control 의제(10강)를 처음으로 정식 제안했습니다. UK AISI와 함께 제어 안전 사례를 만들어 갑니다. DeepMind와 Anthropic에는 평가 설계를 자문합니다.
대표 논문: Greenblatt, Shlegeris 외, "AI Control"(arXiv:2312.06942, ICML 2024), Alignment Faking(Greenblatt, Denison, Wright 외, arXiv:2412.14093, Anthropic과 공동 저자).
스타일: 구체적인 위협 모델, 최악의 적대자(worst-case adversary), 그리고 스트레스 테스트가 가능한 구체적 프로토콜에 초점을 둡니다.
Apollo Research
프런티어 연구소를 위한 사전 배포 책략(scheming) 평가를 수행합니다. In-Context Scheming(8강, arXiv:2412.04984)을 저술했습니다. 2025년 OpenAI 반책략 학습(anti-scheming training) 협업의 파트너입니다. Towards Safety Cases for AI Scheming(2024)도 같은 팀에서 나왔습니다.
스타일: 기만(deception)이 드러날 수 있는 에이전트형 설정(agentic setting) 평가에 집중하며, 세 축 분해(오정렬, 목표지향성, 상황 인식)로 책략을 분석합니다.
METR(Model Evaluation and Threat Research)
과제 기반 역량 평가를 수행합니다. 자율 과제 완료 시간 지평선(time-horizon) 연구도 함께 진행합니다. "Common Elements of Frontier AI Safety Policies"(metr.org/common-elements, 2025)에서는 연구소들의 안전 프레임워크를 횡단 비교합니다.
Apollo와 함께 AI Scheming 안전 사례 스케치에도 공저자로 참여했습니다.
스타일: 장기 과제 평가, 경험적 역량 측정, 그리고 여러 연구소의 정책을 종합하는 메타 분석을 강점으로 합니다.
Eleos AI Research
모델 복지 사전 배포 평가를 수행합니다. 시스템 카드(system card) 5.3절에 문서화된 Claude Opus 4 복지 평가를 진행했습니다. 19강의 복지 관련 주장에 대한 외부 방법론 검토를 담당합니다.
생태계의 흐름
MATS는 연구자를 길러 냅니다. 졸업생은 Anthropic, DeepMind, OpenAI(연구소 내부 안전팀) 또는 Redwood, Apollo, METR, Eleos(외부 평가 조직)로 흘러갑니다. 외부 평가자는 다시 연구소 그리고 UK AISI / CAISI와 협력합니다. 그 결과로 나온 출판물은 생태계로 다시 돌아가 다음 MATS 기수를 양성하는 자양분이 됩니다.
이 계층이 중요한 이유
단일 출처 평가는 신뢰하기 어렵습니다. 연구소가 자신이 만든 모델을 직접 평가할 때는 구조적인 이해 상충(conflict of interest)이 존재합니다. 외부 평가자는 연구소가 과소 보고할 수 있는 실패 양상을 제기하고 독립적으로 검증할 수 있습니다. 실제로 2024년 Sleeper Agents 논문(7강)은 Anthropic + Redwood, Alignment Faking은 Anthropic + Redwood, In-Context Scheming은 Apollo, Anti-Scheming은 Apollo + OpenAI 공동 저자로 나왔습니다. 이러한 다중 조직 구조가 곧 품질 관리 장치입니다.
Phase 18에서의 위치
7-11강은 Redwood와 Apollo의 연구를 참조합니다. 18강은 METR의 프레임워크 비교를 참조합니다. 19강은 Eleos의 복지 평가를 참조합니다. 28강은 Phase 18의 나머지 강의가 의존하는 생태계의 조직 지도를 명시적으로 정리하는 강의입니다.
사용해보기
별도의 코드는 없습니다. 대신 연구소 내부 정책 작업에 외부의 종합 분석이 어떤 가치를 더하는지를 보여 주는 예로, METR의 "Common Elements of Frontier AI Safety Policies"를 직접 읽어 봅니다.
만들어보기
이 강의는 outputs/skill-ecosystem-map.md를 산출물로 만듭니다. 정렬 관련 주장이나 평가가 주어지면 이 스킬은 작성 조직, 출판 매체, 방법론 스타일을 식별하고, 알려진 대응 조직(counterpart organisation)과 교차 검증합니다.
연습문제
-
(쉬움) 7-15강의 논문 한 편을 고르고 관련 조직을 식별합니다. 저자를 MATS 동문 명단 및 현재 생태계 소속과 교차 확인합니다.
-
(중간) METR의 "Common Elements of Frontier AI Safety Policies"를 읽습니다. 글이 강조하는 연구소 간 수렴점 세 가지와 가장 큰 차이 두 가지를 정리합니다.
-
(중간) MATS의 경력 결과는 약 80%가 안전/보안 분야에 진출합니다. 이 선택 압력이 적응적(분야 전체를 훈련시킴)인지, 편향적(이단적 입장을 걸러 냄)인지 두 입장 모두에서 논증합니다.
-
(중간) Redwood와 Apollo는 둘 다 제어(control)와 책략(scheming)을 다루지만 접근 방식이 다릅니다. 구체적인 실패 양상 하나를 고르고, 두 조직이 각각 어떻게 조사할지를 설명합니다.
-
(어려움) Eleos AI는 유일한 순수 모델 복지 조직입니다. 인지 자유(cognitive liberty), 로봇 체화(robotic embodiment) 등 다른 복지 인접 질문에 초점을 둔 가상의 두 번째 조직을 설계하고, 그 방법론을 한 단락으로 설명합니다.
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| MATS | "멘토링 프로그램" | ML Alignment & Theory Scholars, 2021년 이후 527명 이상의 연구자를 배출한 멘토링 프로그램이다 |
| Redwood Research | "제어(control) 연구소" | 응용 정렬 연구소이며, AI Control 의제의 저자이자 UK AISI의 협력 파트너이다 |
| Apollo Research | "책략(scheming) 평가 조직" | 프런티어 연구소를 위한 사전 배포 책략 평가를 전담하는 조직이다 |
| METR | "시간 지평선 평가 조직" | 과제 기반 역량 평가와 연구소 간 프레임워크 종합을 수행하는 조직이다 |
| Eleos AI | "복지 연구소" | 모델 복지 사전 배포 평가를 전문으로 하는 조직이다 |
| 인재 파이프라인(talent pipeline) | "MATS -> 연구소" | MATS 졸업생이 Anthropic, DeepMind, OpenAI, Redwood, Apollo, METR로 이동하는 인재 흐름이다 |
| 외부 평가(external evaluation) | "비연구소 검토" | 모델을 만든 조직이 아닌 외부에서 수행하는 평가이며, 신뢰도를 높이는 장치이다 |
더 읽을거리