오디오-언어 모델(Audio-Language Models): Whisper에서 Audio Flamingo 3까지의 흐름
Whisper(Radford et al., 2022년 12월)는 음성 인식(speech recognition) 분야를 정리한 모델입니다. 68만 시간의 약지도 다국어 음성(weakly-supervised multilingual speech), 단순한 인코더-디코더 트랜스포머(encoder-decoder transformer), 이후 모든 ASR 릴리스가 인용하게 만든 벤치마크까지 갖추었습니다. 하지만 인식(recognition)은 추론(reasoning)이 아닙니다. "이 녹음에는 어떤 악기가 있나요?", "화자는 어떤 감정을 표현하고 있나요?", "3분 지점에는 무슨 일이 있었나요?" 같은 질문에는 텍스트 변환(transcription)이 아니라 오디오 이해(audio understanding)가 필요합니다. Qwen-Audio, SALMONN, LTU, NVIDIA의 Audio Flamingo 3(AF3, 2025년 7월)은 이 스택을 점진적으로 쌓아 올렸습니다. Whisper급 인코더를 유지하고, Q-former를 붙이고, 오디오-텍스트 지시 데이터(instruction data)로 학습하며, 사고 연쇄(chain-of-thought) 추론을 추가했습니다. 이번 강의에서는 그 흐름을 따라갑니다.
유형: Build
언어: Python (표준 라이브러리, 로그-멜 스펙트로그램 + 오디오 Q-former 뼈대)
선수 지식: Phase 6 (음성과 오디오), Phase 12 · 03 (Q-Former)
예상 시간: 약 180분
학습 목표
- 파형(waveform)에서 로그-멜 스펙트로그램(log-Mel spectrogram)을 계산합니다. 창 함수 적용(windowing), FFT, 필터 뱅크(filter banks), 로그 변환을 포함합니다.
- Whisper 인코더, BEATs, AF-Whisper 하이브리드 같은 인코더 선택지를 비교하고 각각 언제 유리한지 설명합니다.
- 오디오 Q-former를 만듭니다. N개의 학습 가능한 쿼리(learnable queries)가 스펙트로그램 패치에 교차 어텐션(cross-attention)합니다.
- 캐스케이드 방식(Whisper-then-LLM)과 종단간(end-to-end) 오디오 LLM 학습을 비교하고, 추론에는 왜 종단간 방식이 더 잘 확장되는지 설명합니다.
문제
음성 인식은 Whisper가 해결했습니다. 오디오의 OCR이라고 할 수 있는 작업은 이미 범용 상품(commodity)이 되었습니다. 하지만 "상품화"의 범위는 텍스트 변환에서 멈춥니다. 모델이 들은 것에 대해 추론할 수 없다면, 즉 타이밍, 화자, 감정, 음악 구조, 환경음(environmental sounds)을 다룰 수 없다면 텍스트 변환만으로는 제품 기능을 만들 수 없습니다.
명백한 경로는 세 가지입니다.
-
캐스케이드(cascade): Whisper가 음성을 텍스트로 변환하고, LLM이 그 전사문(transcript)을 바탕으로 추론합니다. 순수 음성 시나리오에서는 잘 작동합니다. 음악, 환경음, 다중 화자 겹침, 감정에서는 실패합니다.
-
종단간 오디오 LLM(end-to-end audio-LLM): 오디오 인코더가 오디오 토큰(audio tokens)을 직접 LLM에 넣고, 텍스트 변환을 건너뜁니다. 감정, 화자, 환경 같은 음향 정보(acoustic information)를 보존합니다. 대신 새로운 학습 데이터가 필요합니다.
-
하이브리드(hybrid): 오디오 인코더 + 텍스트 디코더 구조로, 전사와 추론을 모두 수행할 수 있습니다. Qwen-Audio와 Audio Flamingo는 이 경로를 택합니다.
개념
로그-멜 스펙트로그램: 입력 특징
모든 오디오 인코더는 같은 특징(feature)에서 시작합니다. 바로 로그-멜 스펙트로그램입니다.
- 16 kHz로 리샘플링(resample)합니다.
- 25ms 창(window), 10ms 홉(hop)으로 단시간 푸리에 변환(Short-Time Fourier Transform; STFT)을 수행합니다.
- FFT 결과의 크기(magnitude)를 취합니다.
- 멜 필터 뱅크(Mel filter banks)를 적용합니다. 보통 0-8000 Hz를 로그 간격으로 나눈 80개 필터를 사용해 지각적 주파수(perceptual frequency)로 휘게 만듭니다.
- 동적 범위(dynamic range)를 줄이기 위해
log(1 + x)로 로그 압축(log compression)합니다.
결과는 (T, 80) 형태의 2차원 배열입니다. 여기서 T는 시간 프레임 수입니다. 100 Hz 프레임 속도의 30초 클립이라면 형태는 (3000, 80)입니다.
Whisper의 인코더
Whisper의 인코더는 로그-멜 스펙트로그램을 시간 프레임 시퀀스로 처리하는 12층 ViT 스타일 트랜스포머입니다. 출력은 시간 프레임마다 하나의 은닉 상태(hidden-state) 벡터입니다.
ASR에서는 Whisper의 디코더가 인코더 출력에 조건화된 텍스트 토큰을 생성하는 교차 어텐션 트랜스포머입니다. 표준 인코더-디코더 구조입니다.
오디오 LLM(Audio-Language Models; ALM)에서는 이 인코더 출력을 다른 LLM의 입력으로 쓰고 싶습니다. 전형적인 패턴은 Whisper 인코더를 동결(freeze)하고, Q-former는 학습 가능하게 두며, LLM은 동결하거나 미세조정(tune)하는 것입니다.
BEATs와 오디오 특화 인코더
Whisper는 음성 중심 데이터로 학습되었습니다. 따라서 음악과 환경 오디오에는 약합니다.
BEATs(Chen et al., 2022)는 AudioSet으로 학습된 자기지도(self-supervised) 트랜스포머입니다. 같은 파라미터 수라면 음악과 환경음을 Whisper보다 더 잘 포착합니다.
AF-Whisper(Audio Flamingo 3의 하이브리드)는 Whisper 특징과 BEATs 특징을 이어 붙여(concat) 오디오 입력으로 사용합니다. Whisper는 언어적 신호(linguistic signal)를, BEATs는 음향 신호(acoustic signal)를 담당합니다.
패턴은 BLIP-2의 비주얼 Q-former와 같습니다. 고정된 수의 학습 가능한 쿼리, 보통 32개 또는 64개가 오디오 인코더의 출력 프레임 전체에 교차 어텐션합니다. 이 쿼리들은 LLM이 소비하는 오디오 토큰이 됩니다.
정렬 단계(alignment stage)에서는 Q-former만 학습합니다. AudioCaps, Clotho 같은 오디오-텍스트 쌍에 대해 대조 학습(contrastive)과 캡셔닝 손실(captioning losses)을 사용합니다. 지시 학습 단계(instruction stage)에서는 종단간으로 학습하며, LLM의 동결을 풀고 지시 데이터(instruction data)로 함께 학습합니다.
흐름 — SALMONN, Qwen-Audio, AF3
SALMONN(Tang et al., 2023)은 Whisper + BEATs + Q-former + LLaMA 구조입니다. 진지한 추론 능력을 갖춘 첫 공개 오디오 LLM입니다. MMAU 벤치마크에서 약 0.55의 종합 점수를 보였습니다.
Qwen-Audio(Chu et al., 2023)는 유사한 구조를 사용하지만 더 풍부한 데이터셋으로 학습했고, 멀티턴 대화(multi-turn dialogue)에 맞게 조정되었습니다. MMAU는 약 0.60입니다.
LTU(Listen, Think, Understand; Gong et al., 2023)는 명시적 추론 데이터에 집중하며, 오디오 클립에 대한 사고 연쇄를 강조합니다. 더 작지만 초점이 분명합니다.
Audio Flamingo 3(Goel et al., 2025년 7월)은 현재 공개 모델 기준 SOTA입니다. 8B LLM 백본(Qwen2 7B), Whisper-large 인코더와 BEATs의 결합, 64개 쿼리 기반 Q-former, 100만 개 이상의 오디오-텍스트 지시(instruction) 쌍 학습을 사용합니다. MMAU 0.72를 기록하며 일부 하위 과제에서는 독점 최전선 모델과 맞먹습니다.
AF3는 오디오를 위한 온디맨드 사고(on-demand chain-of-thought)도 도입합니다. 모델은 필요할 때 최종 답변 전에 "먼저 악기를 식별해 보겠습니다: ..." 같은 사고 토큰(thinking tokens)을 출력할 수 있습니다. 사고가 켜져 있으면 복잡한 추론 과제의 정확도가 3-5점 올라갑니다.
캐스케이드와 종단간
캐스케이드 파이프라인은 다음과 같습니다.
- Whisper가 오디오를 텍스트로 전사합니다.
- LLM이 텍스트를 바탕으로 추론합니다.
"이 팟캐스트를 요약해줘" 같은 요청에는 완벽하게 작동합니다. 하지만 다음에는 실패합니다.
- "이 노래의 분위기는 어떤가요?" 분위기는 단어가 아니라 소리에 있습니다.
- "Alice와 Bob 중 누가 말하고 있나요?" 화자 식별(speaker identification)이 필요합니다.
- "폭발은 몇 초에 일어나나요?" 텍스트 변환 과정에서 시간 그라운딩이 사라집니다.
- "이 오디오는 실제인가요, 생성된 것인가요?" 딥페이크 감지(deepfake detection)에는 음향 특징이 필요합니다.
종단간 방식은 음향 신호를 보존합니다. Qwen-Audio와 AF3는 음악, 환경, 감정을 별도의 우회 없이 모델 안에서 직접 다룹니다.
2026년 프로덕션 레시피
새 오디오 이해 제품을 만든다면 다음 기준으로 고릅니다.
- 목표가 전사이고, 음악이나 감정 추론이 없다면 캐스케이드 방식을 씁니다.
- 음악, 감정, 다중 화자, 복잡한 오디오 추론이 필요하다면 AF3 / Qwen-Audio 계열을 씁니다.
캐스케이드는 더 저렴하고 단순합니다. 종단간 방식은 더 강력합니다.
MMAU — 오디오 추론 벤치마크
MMAU(Massive Multimodal Audio Understanding)는 2024-2025년 오디오 추론 벤치마크입니다.
- 음성, 음악, 환경음 전반에 걸쳐 10,000개의 오디오-텍스트 QA 쌍을 포함합니다.
- 분류, 시간 추론, 인과 추론, 개방형 QA를 다룹니다.
- 캐스케이드 파이프라인이 체계적으로 놓치는 지점을 테스트합니다.
공개 SOTA(AF3)는 0.72이고, 독점 최전선 모델(Gemini 2.5 Pro, Claude Opus 4.7)은 약 0.78입니다. 이 격차는 VideoMME의 공개 모델과 폐쇄형 모델 사이 격차보다 작습니다. 이는 오디오 LLM이 성숙해지고 있음을 보여줍니다.
사용해보기
code/main.py는 다음을 포함합니다.
- 표준 라이브러리만으로 구현한 로그-멜 스펙트로그램 계산: 창 적용, 순진한 DFT, 멜 필터 뱅크
- 오디오 Q-former 뼈대: 인코더 출력 프레임이 주어졌을 때 Q, K, V, 어텐션을 계산하고 N개의 토큰을 출력합니다.
- 장난감 과제에서 캐스케이드와 종단간 방식을 비교합니다.
산출물 만들기
이 강의는 outputs/skill-audio-llm-pipeline-picker.md를 만듭니다. 오디오 과제(전사, 음악 태깅, 감정 추론, 다중 화자 분리(diarization), 환경 분류)가 주어지면 캐스케이드, 종단간 AF3, 하이브리드 중 하나를 고릅니다.
연습문제
-
16 kHz, 25ms 창, 10ms 홉, 80 Mel bin 설정에서 30초 클립의 로그-멜 스펙트로그램 차원을 계산합니다. 48 kHz에서는 어떻게 바뀝니까?
-
Whisper는 왜 음악에서 성능이 낮습니까? BEATs는 Whisper가 포착하지 못하는 어떤 오디오 특징을 포착합니까?
-
64개 쿼리를 쓰는 오디오 Q-former와 32개 쿼리를 쓰는 오디오 Q-former를 비교합니다. 64개가 본전을 뽑는 과제 복잡도는 어느 수준입니까? 32개는 어떤 과제에서 계산량을 아낍니까?
-
AF3 논문의 Section 4(온디맨드 사고)를 읽습니다. 사고 연쇄가 가장 도움이 되는 오디오 과제 세 가지를 제안합니다.
-
AF3 출력을 사용해 최소 화자 분리(diarization) 파이프라인을 구현합니다. 화자 변경(speaker changes)을 어떻게 신호로 표현하겠습니까?
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| 로그-멜 스펙트로그램(Log-Mel spectrogram) | "Mel 특징" | Mel 필터 뱅크 이후 로그 크기 값을 담은 2차원 시간-주파수 배열 |
| 오디오 Q-former(Audio Q-former) | "오디오 Perceiver" | 오디오 인코더 출력을 LLM에 넣을 고정 길이 쿼리로 바꾸는 교차 어텐션 병목 |
| 캐스케이드(Cascaded) | "ASR 후 LLM" | Whisper가 전사하고 텍스트 LLM이 추론하는 파이프라인. 음향 정보는 손실된다 |
| 종단간(End-to-end) | "Audio-LLM" | 오디오 특징이 Q-former를 통해 직접 LLM으로 들어가며 음향 신호를 보존하는 구조 |
| BEATs | "AudioSet 오디오 인코더" | AudioSet으로 학습된 SSL 트랜스포머. 음악과 환경음에 강하다 |
| MMAU | "오디오 추론 벤치마크" | 음성, 음악, 환경을 포괄하는 10k QA 쌍. 2024년 평가 표준 |
| 온디맨드 사고(On-demand thinking) | "오디오 CoT" | 최종 답변 전에 추론 토큰을 선택적으로 출력해 정확도를 3-5점 높이는 방식 |
더 읽을거리