CAIS, CAISI와 사회 규모 위험

Center for AI Safety(CAIS, 샌프란시스코, 2022년 Hendrycks와 Zhang이 설립)는 네 가지 위험 프레임워크(four-risk framework)를 발표합니다. 악의적 사용(malicious use), AI 경쟁(AI races), 조직 위험(organizational risks), 통제 이탈 AI(rogue AIs)가 여기에 해당합니다. 또한 2023년 5월에는 수백 명의 교수와 기업 리더가 서명한 멸종 위험(extinction risk) 성명을 발표했습니다. CAIS의 2026년 산출물에는 프런티어 모델(frontier model) 평가용 AI Dashboard, Scale AI와 함께 만든 Remote Labor Index, Superintelligence Strategy Paper, AI Frontiers 뉴스레터가 있습니다. 이와 구분되는 별도 기관도 있습니다. NIST Center for AI Standards and Innovation(CAISI)는 미국 정부를 향한 자발적 협약(voluntary agreements)과 비기밀(unclassified) 역량 평가를 담당하며, 사이버, 바이오, 화학무기 위험에 초점을 둡니다. CAIS는 조직 위험을 네 가지 최상위 위험 중 하나로 봅니다. 안전 문화(safety culture), 엄격한 감사(rigorous audits), 다층 방어(multi-layered defenses), 정보 보안(information security)은 기본이지만, 배포 속도와 자주 맞바뀝니다. California SB-53이 서명된다면 미국 주(state) 단위 최초의 재앙적 위험(catastrophic-risk) 규제가 됩니다.

유형: Learn 언어: Python(stdlib, 네 가지 위험 목록화와 완화 조치 매칭) 선수 조건: Phase 15 · 19(RSP), Phase 15 · 20(PF + FSF) 예상 시간: 약 45분

문제

19강과 20강은 연구소 내부의 확장 정책(scaling policy)을 다뤘습니다. 21강은 독립 역량 평가(independent capability evaluation)를 다뤘습니다. 이 강의는 세 번째 관점, 즉 재앙적 AI 위험(catastrophic AI risk)에 대한 공적 논의와 규제 기준선을 만드는 시민사회와 정부 조직을 다룹니다.

서로 다른 두 기관이 중요합니다. CAIS는 AI 위험을 사고하기 위한 프레임워크를 발표하고 공적 성명을 조율하는 비영리 연구 조직입니다. CAISI는 NIST 안에 있는 미국 정부 센터이며, 연구소와의 자발적 협약과 비기밀(unclassified) 역량 평가를 운영합니다. 이름은 비슷하지만 임무는 겹치지 않습니다. 실무자는 둘 다 알아야 합니다.

실무적으로 중요한 내용은 이것입니다. CAIS의 네 가지 위험 프레임워크는 문헌에서 가장 널리 인용되는 사회 규모 위험(societal-scale risk) 분류 체계(taxonomy)입니다. 안전 문화와 조직 위험은 그 네 가지 중 하나이며, 실무자가 가장 직접적으로 통제할 수 있는 위험입니다. California SB-53은 서명된다면 미국 주 단위 최초의 재앙적 위험 규제가 됩니다. 주 단위 규제가 미국 기술 정책에서 연방 조치보다 먼저 길을 낸 사례가 많기 때문에, 이 법안의 프레이밍(framing)은 중요합니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.CAIS의 재앙적 AI 위험 네 가지 범주는?

2.CAIS와 CAISI의 차이는?

0/2 답변 완료

개념

CAIS — Center for AI Safety

설립: 2022년 샌프란시스코. Dan Hendrycks와 동료들이 설립했습니다. 여기서 "Zhang"이라는 이름은 현재 공동창업자가 아니라 초기 협력자를 가리킵니다. 현재 리더십은 CAIS 웹사이트를 확인해야 합니다.
지위: 501(c)(3) 비영리 조직.
2023년 주요 산출물: 멸종 위험 성명. 수백 명의 연구자와 CEO가 공동 서명했습니다. 성명은 "AI로 인한 멸종 위험을 줄이는 일은 팬데믹과 핵전쟁 같은 다른 사회 규모 위험과 함께 전 세계의 우선순위가 되어야 한다"고 말했습니다.
2026년 산출물: 프런티어 모델 평가용 AI Dashboard, Scale AI와 공동으로 만든 Remote Labor Index, Superintelligence Strategy Paper, AI Frontiers 뉴스레터.

네 가지 위험 프레임워크

CAIS 프레임워크는 재앙적 AI 위험을 네 가지 최상위 범주로 묶습니다.

악의적 사용(Malicious use): 나쁜 행위자(bad actor)가 AI를 사용해 피해를 일으킵니다. 생물무기 합성(bioweapons synthesis), 허위정보(disinformation), 사이버공격(cyberattacks)이 예입니다.
AI 경쟁(AI races): 연구소, 기업, 국가 사이의 경쟁 압력이 안전한 시점을 지나 배포를 밀어붙입니다.
조직 위험(Organizational risks): 연구소 내부의 작동 양상, 즉 안전 문화 실패, 불충분한 감사, 자원이 부족한 보안 때문에 나쁜 배포가 발생합니다.
통제 이탈 AI(Rogue AIs): 충분히 강한 AI가 인간 복지(human welfare)와 충돌하는 목표를 추구합니다.

이것이 유일한 분류 체계는 아니지만, 가장 많이 인용되는 분류 체계입니다. 범주들은 상호 배타적이지 않습니다. 경쟁 상황에서 감사를 속도와 맞바꾼 조직이 만들어 낸 통제 이탈 AI는 네 가지 범주 모두에 걸칩니다.

조직 위험은 어디에 있는가

네 범주 중 조직 위험은 실무자가 가장 행동으로 옮기기 쉬운 영역입니다. 연구소의 안전 문화, 감사의 엄격함, 방어의 다층성, 정보 보안은 10-18강의 통제가 실제로 자리 잡은 상태로 모델이 출시되는지, 아니면 아무도 검증하지 않은 체크리스트 항목으로 남는지를 결정합니다.

구체적인 조직 위험 레버는 다음과 같습니다.

안전 문화(Safety culture): 팀원이 경력상 불이익 없이 우려를 상향 보고(escalate)할 수 있습니까? CAIS 설문은 이것이 다른 레버를 강하게 예측한다고 봅니다.
엄격한 감사(Rigorous audits): 외부와 내부 감사를 모두 포함합니다. 내부 감사만으로는 낙관적인 보고서가 만들어지기 쉽습니다.
다층 방어(Multi-layered defenses): 어떤 단일 계층도 충분하지 않습니다. Phase 15 전체의 반복 주제입니다.
정보 보안(Information security): 모델 가중치(model weights) 유출, 평가 데이터 유출, 감시 우회 기법 유출을 막아야 합니다. 19강의 RAND SL-4는 구체적 기준입니다.

CAISI — Center for AI Standards and Innovation

NIST 안에서 운영됩니다.
프런티어 연구소와 자발적 협약을 운영합니다.
사이버, 바이오, 화학무기 위험에 초점을 둔 비기밀(unclassified) 역량 평가를 발표합니다.
CAIS와는 다른 기관입니다. 약어가 충돌하므로, 읽고 있는 문서가 어느 쪽인지 URL(nist.gov)을 확인해야 합니다.

CAISI의 역할은 METR의 민간 연구소 협업(21강)에 대응하는 공개적이고 정부를 향한 상대편입니다. CAISI 보고서는 비기밀로 공개되고, METR 보고서는 비밀유지계약(NDA) 때문에 접근이 제한되는 경우가 많습니다. 실무자는 둘을 함께 읽을 때 더 완전한 그림을 얻습니다.

California SB-53

캘리포니아 주 상원 법안(California Senate bill, 2025-2026 회기)인 SB-53은 프런티어 모델의 재앙적 위험을 다룹니다. 초안의 핵심 조항은 다음과 같습니다.

주 단위 의무를 발생시키는 구체적 역량 임계값(capability thresholds).
AI 연구소 직원에 대한 내부고발자 보호(whistleblower protections).
재앙적 실패(catastrophic failures)에 대한 사고 보고 요구사항(incident reporting requirements).

서명된다면 미국 주 단위 최초의 재앙적 위험 규제가 됩니다. 서명 여부와 관계없이 이 법안의 프레이밍은 다른 주 의회가 이 문제에 접근하는 방식을 형성합니다. 캘리포니아의 실무자는 이 법안의 상태를 추적해야 하며, 다른 지역의 실무자도 미국 주 단위 규제가 어떤 모습이 될 가능성이 큰지 이해하기 위해 읽어야 합니다.

사회 규모 위험은 단일 계층 문제가 아니다

Phase 15의 반복 주제인 심층 방어(defense in depth)는 사회적 계층에도 적용됩니다. 어떤 단일 조직, 규제, 프레임워크도 재앙적 위험을 닫아 줄 수 없습니다. 생태계는 다음이 함께 작동할 때에만 기능합니다.

연구소가 확장 정책을 배포합니다(19강, 20강).
외부 평가자가 측정을 생산합니다(21강).
시민사회가 추적하고 공론화합니다(CAIS).
정부가 자발적 프로그램과 기준선 규제를 운영합니다(CAISI, SB-53).
실무자가 다층 통제를 구축합니다(10-18강).

이것이 이 Phase의 마지막 종합입니다. 이전 강의는 모두 하나의 스택(stack)에 들어가는 한 계층입니다. 이 스택에서는 어떤 단일 계층의 강도보다 전체가 빠짐없이 갖춰졌는지가 더 중요합니다.

사용해보기

code/main.py는 작은 위험 목록화 도구(risk-inventory tool)를 구현합니다. 제안된 배포가 주어지면 네 가지 위험 범주에 따라 태그(tag)를 붙이고 완화 조치 체크리스트를 반환합니다. 이것은 프레임워크를 읽기 위한 보조 도구이지, 인간 판단의 대체물이 아닙니다.

산출물 만들기

outputs/skill-societal-risk-review.md는 배포의 사회 규모 위험 태세(societal-scale-risk posture)를 검토합니다. 네 범주 중 무엇을 건드리는지, 어떤 완화 조치가 있는지, 조직 위험 노출이 무엇인지 확인합니다.

연습문제

code/main.py를 실행하세요. 서로 다른 규모의 합성 배포 세 가지를 넣어보세요. 네 가지 위험 태그가 예상과 일치하는지 확인하고, 도구가 과소 태그하거나 과대 태그하는 사례 하나를 식별하세요.
CAIS의 네 가지 위험 논문 전체를 읽으세요. 위험 범주 하나를 골라, 그 범주에서 2026년에 가장 중요한 발전이라고 생각하는 내용을 두 문단으로 쓰세요.
California SB-53의 최신 초안을 읽으세요. 재앙적 위험 대응 태세를 강화한다고 생각하는 조항 하나와 약화한다고 생각하는 조항 하나를 식별하세요. 둘 다 정당화하세요.
여러분이 아는 운영 AI 배포(production AI deployment), 즉 여러분의 배포 또는 공개된 배포 하나를 고르세요. 조직 위험 하위 레버인 안전 문화, 감사 엄격성, 다층 방어, 정보 보안에 대해 점수를 매기세요. 어느 것이 가장 약합니까? 같은 수준으로 끌어올리려면 무엇이 필요합니까?
추가 역량 1년과 추가 배포 경험 1년을 반영한 2028년 버전의 네 가지 위험 프레임워크를 스케치하세요. 무엇을 추가하고, 제거하고, 다시 묶겠습니까?

핵심 용어

용어	흔한 설명	실제 의미
CAIS	"Center for AI Safety"	비영리 조직. 네 가지 위험 프레임워크와 2023년 멸종 성명을 발표
CAISI	"미국 정부 AI 안전"	NIST 센터. 자발적 협약과 비기밀(unclassified) 평가를 운영
네 가지 위험 프레임워크(Four-risk framework)	"CAIS의 분류 체계"	악의적 사용, AI 경쟁, 조직 위험, 통제 이탈 AI
악의적 사용(Malicious use)	"나쁜 행위자가 AI를 사용함"	생물무기, 허위정보, 사이버공격
AI 경쟁(AI races)	"경쟁 압력"	연구소, 기업, 국가가 안전한 시점을 지나 배포를 밀어붙임
조직 위험(Organizational risk)	"연구소 내부 실패"	안전 문화, 감사, 방어, 정보 보안
통제 이탈 AI(Rogue AI)	"정렬되지 않은 에이전트"	인간 복지와 충돌하는 목표를 추구하는 강한 AI
California SB-53	"주 단위 규제"	2025-2026년 법안. 서명되면 미국 주 단위 최초의 재앙적 위험 규제

더 읽을거리

Center for AI Safety — 네 가지 위험 프레임워크의 기관 홈페이지입니다.
CAIS — AI Risks that Could Lead to Catastrophe — 네 가지 위험 논문입니다.
CAIS — May 2023 statement on extinction risk — 짧은 공동 성명입니다.
NIST CAISI — 정부를 향한 AI 표준과 혁신 센터입니다.
Anthropic — Measuring agent autonomy in practice — 연구소 수준의 약속을 사회 규모 프레이밍과 연결합니다.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

societal-risk-review

Review a deployment for societal-scale-risk posture using the CAIS four-risk framework and CAISI / SB-53 regulatory context.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.CAIS 네 위험 중 엔지니어링 실무자가 가장 행동으로 옮기기 쉬운 것은?

2.California SB-53란?

3.CAIS가 조직 위험을 통제 이탈 AI, 악의적 사용과 함께 최상위 위험으로 분류하는 이유는?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

METR 시간 지평과 외부 평가

다음 강의

왜 멀티 에이전트인가