스케일링 법칙(Scaling Laws)

2020년 카플란(Kaplan) 논문은 모델(model)이 클수록 손실(loss)이 낮아진다고 말했습니다. 2022년 호프만(Hoffmann) 논문은 그 모델들이 학습 부족(under-training) 상태였다고 말했습니다. 학습 계산량(compute)은 파라미터(parameters)와 토큰(tokens)이라는 두 묶음(bucket)으로 나뉘며, 그 둘의 분배 비율은 생각보다 명확하지 않습니다.

유형: Learn 언어: Python 선수 지식: Phase 7 · 05 (Full Transformer), Phase 7 · 07 (GPT) 예상 시간: 약 45분

문제

학습 계산량(training compute) C FLOPs를 가지고 가장 좋은 모델을 만들고 싶다면 두 개의 손잡이(knob)를 마주하게 됩니다.

파라미터 수는 얼마로 할까(N)? 모델이 클수록 표현 용량(capacity)이 커집니다.
학습 토큰 수는 얼마로 할까(D)? 데이터가 많을수록 그 표현 용량을 더 잘 활용합니다.

FLOPs는 대략 6 × N × D로 비례합니다. N을 올리고 D를 줄일 수도 있고, D를 올리고 N을 줄일 수도 있습니다. 어느 쪽이 더 좋을까요?

2022년 이전까지 답은 "N을 강하게 밀어라"에 가까웠습니다. GPT-3(2020)는 175B(billion) 파라미터를 약 300B 토큰으로 학습했습니다. 파라미터 하나당 토큰은 약 1.7개였습니다. 카플란(Kaplan) 스케일링 법칙(scaling laws)은 이러한 방향을 뒷받침했습니다.

호프만 등(Hoffmann et al., 2022)은 친칠라(Chinchilla)라는 작은 모델 패밀리(model family)를 학습하면서 다른 결론을 얻었습니다. 최적 비율(optimal ratio)은 파라미터 하나당 약 20개의 토큰에 더 가깝다는 것입니다. GPT-3는 10배 학습 부족(undertrained) 상태였습니다. 친칠라(70B 파라미터, 1.4T 토큰)는 GPT-3(175B, 300B 토큰)를 모든 벤치마크(benchmark)에서 이겼고, 추론 비용(inference cost)은 2.5배 더 낮았습니다.

2026년은 친칠라의 세계입니다. 다만 중요한 반전(twist) 하나가 있습니다. Llama 3 8B는 15T 토큰으로 학습되어 토큰/파라미터(D/N) 비율이 1,875에 달합니다. 친칠라 최적(Chinchilla-optimal) 지점보다 94배 더 학습한 셈입니다. 대규모로 서빙되는 모델에서는 학습 비용보다 추론 비용이 더 중요해지므로, 더 작고 배포하기 좋은 풋프린트(footprint)를 얻기 위해 친칠라 지점을 넘어 과학습(over-training)하는 것이 2026년의 기본값(default)이 되었습니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.친칠라(Chinchilla) 논문은 GPT-3(175B 파라미터, 300B 토큰)가 심각하게 학습 부족(undertrained) 상태였다는 것을 밝혔습니다. 친칠라가 계산 최적(compute-optimal)으로 제시한 토큰 대 파라미터 비율은 얼마인가요?

2.표준 트랜스포머(transformer)에서 학습 계산량(training compute) C는 대략 어떤 식에 비례하나요?

0/2 답변 완료

개념

호프만 법칙(Hoffmann law)

친칠라(Chinchilla) 논문에서 손실은 다음 형태를 따릅니다.

L(N, D) = A / N^α + B / D^β + E

N = 파라미터 수(non-embedding 기준).
D = 학습 토큰 수.
α ≈ 0.34, β ≈ 0.28 (대략 대칭).
E ≈ 1.69, 줄일 수 없는 손실 천장(irreducible loss ceiling).
A ≈ 406, B ≈ 411.

두 항(term)은 모델 규모가 커질수록 서로 맞바꿈(trade-off) 관계를 이룹니다. 고정 계산량 C = 6ND에서 N에 대해 미분하고 푸는 과정을 거치면 다음과 같은 계산 최적 경계(compute-optimal frontier)가 나옵니다.

N_opt ≈ 0.6 × (C/6)^0.5
D_opt ≈ 0.6 × (C/6)^0.5
D_opt / N_opt ≈ 20

즉, 계산 최적(compute-optimal) 지점에서는 파라미터 하나당 토큰이 약 20개입니다.

그런데 왜 과학습(over-training)을 하는가

친칠라 최적(Chinchilla-optimal) 지점은 학습 FLOP당 학습 손실(training loss per training FLOP)을 최소화합니다. 하지만 학습 비용은 한 번만 지불하는 반면, 추론 비용은 계속해서 지불해야 합니다.

한 달에 1조(trillion) 단위의 토큰을 서빙(serving)하는 챗봇(chatbot)이라면 전체 비용은 추론 비용에 의해 좌우됩니다. Llama 방식의 접근은 작게 만들고 더 오래 학습하는 것입니다. 8B 모델을 15T 토큰으로 학습한 사례는 추론 최적화(inference-optimized)에 깊이 맞춰져 있습니다.

소비자용 GPU(consumer GPU)에 올라갑니다.
지연 시간(latency)이 70B 친칠라 최적 모델의 일부 수준에 불과합니다.
대부분의 과제(task)에서 품질(quality)이 충분히 근접합니다.

딥마인드(DeepMind)의 2024년 논문 "Over-training is the new optimal" 흐름은 이를 정식화했습니다. 추론이 지배적인 워크로드(inference-dominated workload)에서는 서빙 규모(serving volume)에 따라 파라미터당 100~500개 토큰에 가까운 비율이 적절합니다.

창발(emergence)과 매끄러움(smoothness)

산술(arithmetic), 다단계 추론(multi-step reasoning), 사고 흐름 따라가기(chain-of-thought following) 같은 능력이 특정 규모(scale)에서 갑자기 "창발(emerge)"한다는 주장이 있었습니다.

셰퍼 등(Schaeffer et al., 2023)은 이것이 측정 인공물(measurement artifact)이라고 주장했습니다. 정확 일치(exact match)나 임계값 기반 정확도(accuracy at threshold)처럼 불연속적인 채점(discontinuous scoring)을 쓰면 내부 로짓(logits)의 매끄러운 향상이 가려져 마치 갑작스러운 도약(jump)처럼 보입니다. 교차 엔트로피(cross-entropy)와 같은 연속 지표(continuous metric)에서는 매끄러운 곡선이 드러납니다.

2026년의 합의는 다음과 같습니다. 연속 손실(continuous loss)을 통한 예측은 신뢰할 만하다. 벤치마크에서 보이는 도약은 채점기 아티팩트(scorer artifact)일 때가 많다. 예산 계획(budget planning)은 연속 지표에 맞춰 세워야 한다.

2026년의 그림

스케일링 법칙(scaling laws)은 여전히 작동하지만, 다음 요소가 곡선을 움직입니다.

요인(Factor)	어떻게 바뀌었나
데이터 품질(Data quality)	"좋은" 토큰을 큐레이팅(curating)하는 Phi 계열 방식은 유효 계산량(effective compute)을 2배 이상 움직일 수 있음
MoE(Mixture of Experts)	전체 파라미터(total params)와 활성 FLOPs(active FLOPs)가 분리되어 활성 FLOP 기준 스케일링 법칙이 필요
사후 학습(Post-training)	명령 따르기(instruction following), 코드 능력 등 일부는 사전 학습보다 SFT+RLHF로 더 크게 이동
다중 모달리티(Multimodality)	이미지(image)와 텍스트(text) 토큰이 함께 확장되며 모달리티(modality)별로 별도 곡선이 필요
합성 데이터(Synthetic data)	모델이 학습 데이터를 생성해 유효 계산량이 누적(compound)될 수 있음

뮤온(Muon) 옵티마이저(Kimi Moonlight, 2024)는 AdamW 대비 동일 데이터에서 약 2배의 유효 계산량 이득을 보였습니다. 2026년의 일부 학습 실행(training run)은 Muon을 기본값으로 사용합니다. 이는 스케일링 법칙의 형태(shape)가 아니라 절대 상수(absolute constant)를 바꿉니다.

직접 만들기

code/main.py에서는 친칠라 손실 방정식(Chinchilla loss equation)을 구현하고, 여러 계산 예산(compute budget)에서 계산 최적 (N, D)를 찾습니다.

Step 1: 친칠라 손실(Chinchilla loss)

def chinchilla_loss(N, D, A=406.4, B=410.7, alpha=0.34, beta=0.28, E=1.69):
    return A / N ** alpha + B / D ** beta + E

고정 C = 6ND 위의 (N, D) 등고선(contour)에서 손실을 계산하고 최솟값을 찾습니다.

Step 2: 계산 최적 경계(compute-optimal frontier)

1e17부터 1e25 FLOPs까지 계산 예산을 바꾸며 손실을 최소화하는 (N, D)를 찾습니다. 실용적인 범위(practical range)에서 D/N ≈ 20이 되는지 확인합니다.

Step 3: 과학습 비용(over-training cost)

최적 N의 1/10 크기 모델을 최적 D의 10배 토큰으로 학습하는 경우의 추가 손실을 계산합니다. 그 대신 N에 비례해 추론 FLOP 절감(inference FLOP savings)을 얻습니다.

Step 4: 실제 모델과 비교

GPT-3, 친칠라(Chinchilla), Llama 3 8B, DeepSeek-V3(활성 파라미터; active params)의 (N, D)를 대입해 예측 손실과 보고된 손실을 비교합니다.

사용해보기

프런티어 모델(frontier model)을 직접 학습할 일은 많지 않겠지만, 스케일링 법칙은 다음을 알려줍니다.

파인튜닝 데이터(fine-tune data)가 충분한지. 과제별 데이터(task-specific data)가 베이스 모델의 파라미터당 20개 토큰보다 적다면, 어떤 손실 바닥(loss floor)에서 포화(saturation)될 것으로 예상해야 합니다.
더 큰 베이스 모델(base model)을 골라야 할지. 예산 대부분을 추론에 쓰고 있다면, 더 작고 더 오래 학습한 모델을 선호합니다.
수익 체감(diminishing returns)이 시작되는 지점. 친칠라 최적 지점의 1000배를 넘어가면 로그 손실(log-loss)의 변화는 잡음(noise) 수준에 가까워집니다.

2026년 연구 궤적(research trajectory):

데이터 제약 구간(Data-constrained regime). 웹에는 필터링을 거친 고품질 영어 토큰이 약 5~10조(trillion)개로 유한합니다. 프런티어 사전 학습(frontier pretraining)은 이 천장에 다가가고 있습니다. 합성 데이터(synthetic data), 다국어(multilingual), 다중 모달(multimodal), RLHF 기반 파인튜닝이 다음 지렛대(lever)입니다.
계산 배수 기법(Compute-multiplier tricks). 뮤온(Muon) 옵티마이저, MoE, 더 나은 데이터 큐레이션(data curation)은 각각 절대 상수를 이동시키지만 점근선(asymptote) 자체를 바꾸지는 않습니다.
RL 스케일링 법칙(scaling laws for RL). 아직 열린 질문입니다. 초기 증거는 RL 샘플 수에도 거듭제곱 법칙(power-law)이 있음을 시사하지만, 사전 학습과는 지수(exponent)가 매우 다릅니다.

산출물 만들기

outputs/skill-training-budget-estimator.md를 참조합니다. 이 스킬(skill)은 계산 예산, 배포 제약(deployment constraint), 목표 손실(target loss)을 받아 (N, D, hours, GPU)를 추정합니다.

연습문제

쉬움. code/main.py를 실행합니다. 1e20, 1e22, 1e24 계산 예산에서 친칠라 최적 (N, D)를 출력하고 실제 모델 표와 비교합니다.
중간. 호프만 손실을 계산량의 함수로 나타낸 곡선(loss-as-function-of-compute curve)을 구현합니다. 계산 최적 경계 위에서 손실 대 log10(C)를 그래프로 그리고, 교차 엔트로피를 0.1만큼 더 줄이려면 언제쯤 >10^28 FLOPs가 필요한지 식별합니다.
어려움. 같은 데이터셋(dataset)에서 100K~10M 파라미터의 작은 모델 5개를 학습해 직접 스케일링 법칙을 적합(fitting)시킵니다. α와 E를 추정하고, 공개된 지수(published exponents)와 얼마나 잘 일치하는지 확인합니다.

핵심 용어

용어	흔한 설명	실제 의미
파라미터(Parameters, N)	"모델 크기(Model size)"	non-embedding 가중치(weight)의 개수다. 표현 용량(capacity)을 결정한다.
토큰(Tokens, D)	"학습 데이터(Training data)"	학습 중 본 토큰의 수다. 파라미터가 얼마나 잘 활용되는지를 결정한다.
계산량(Compute, C)	"사용한 FLOPs"	표준 트랜스포머(transformer)에서는 대략 `6 × N × D`다.
친칠라 최적(Chinchilla-optimal)	"D/N ≈ 20"	사전 학습 FLOP당 손실을 최소화하는 비율이다.
과학습(Over-training)	"친칠라 너머"	추론 FLOP를 아끼기 위해 학습 FLOP를 더 쓰는 것이다. D/N이 20을 크게 넘는다.
줄일 수 없는 손실(Irreducible loss)	"바닥(floor)"	스케일링 법칙의 `E` 항이다. 데이터 자체의 엔트로피(entropy)에 가깝다.
창발 능력(Emergent capability)	"규모에서 갑작스러운 도약"	채점기 아티팩트(scorer artifact)인 경우가 많다. 연속 손실은 매끄럽다.
유효 계산량(Effective compute)	"학습 효율성 배수(training-efficiency multiplier)"	데이터, 옵티마이저, 아키텍처가 FLOP 하나의 가치를 얼마나 키우는지다.

더 읽을거리

Kaplan et al. (2020). Scaling Laws for Neural Language Models — 최초의 스케일링 법칙 논문이며, 학습 부족(undertrained)이었던 시기를 다룹니다.
Hoffmann et al. (2022). Training Compute-Optimal Large Language Models — 친칠라(Chinchilla) 논문입니다.
Schaeffer et al. (2023). Are Emergent Abilities of Large Language Models a Mirage? — 창발(emergence)을 측정 인공물(measurement artifact)로 해석합니다.
Sardana, Frankle (2024). Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws — Llama의 과학습(over-training)이 해당 워크로드에 왜 옳은지 보여줍니다.
Jordan et al. (2024). Muon: An optimizer for hidden layers in neural networks — 2배 계산 배수(compute multiplier)의 예입니다.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

training-budget-estimator

Estimate (N, D, hours, GPU count) for a new transformer training run given compute budget and deployment constraints.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.Llama 3 8B는 15T 토큰으로 학습되어 D/N 비율이 약 1,875, 즉 친칠라 최적 지점의 약 94배입니다. 이 의도적인 과학습(over-training)이 합리적인 전략인 이유는 무엇인가요?

2.산술(arithmetic)이나 다단계 추론(multi-step reasoning) 같은 능력이 특정 모델 규모에서 갑자기 '창발(emerge)'한다는 주장이 있었습니다. 셰퍼 등(Schaeffer et al., 2023)은 이 현상에 대해 무엇을 주장했나요?

3.친칠라 손실 공식은 L(N,D) = A/N^alpha + B/D^beta + E입니다. 줄일 수 없는 손실(irreducible loss) 항 E는 무엇을 나타내며, 스케일링으로도 제거할 수 없는 이유는 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

KV 캐시, Flash Attention과 추론 최적화

다음 강의

트랜스포머 직접 구현 — Capstone