오디오-언어 모델(Audio-Language Models) — Qwen2.5-Omni, Audio Flamingo, GPT-4o Audio

2026년의 오디오-언어 모델(audio-language model)은 음성(speech), 환경음(environmental sound), 음악(music)을 함께 다루며 추론(reasoning)합니다. Qwen2.5-Omni-7B는 MMAU-Pro에서 GPT-4o Audio에 근접하는 성능을 보이고, Audio Flamingo Next는 LongAudioBench에서 Gemini 2.5 Pro를 앞섭니다. 오픈(open)과 클로즈드(closed) 모델 간 격차는 사실상 좁혀졌습니다. 다만 다중 오디오(multi-audio) 과제에서는 모든 모델이 거의 무작위(random) 수준에 머무릅니다.

유형: Learn 언어: Python 선수 강의: Phase 6 · 04 (ASR), Phase 12 · 03 (Vision-Language Models), Phase 7 · 10 (Audio Transformers) 예상 시간: 약 45분

학습 목표

오디오-언어 모델(LALM/ALM)이 순수 음성 인식(pure ASR)과 어떻게 다른지 설명합니다.
오디오 인코더(audio encoder), 프로젝터(projector), LLM 디코더(LLM decoder)라는 3-구성요소 템플릿(3-component template)을 이해합니다.
MMAU-Pro와 LongAudioBench가 각각 무엇을 측정하는지 구분합니다.
LALM이 적합한 과제(task)와 특화 모델(specialized model)로 폴백(fallback)해야 하는 과제를 구분합니다.

문제

5초 길이의 오디오가 있다고 가정해 봅니다. 개가 짖고, 누군가 "stop!"이라고 외친 뒤, 침묵이 이어집니다. 이때 던질 수 있는 유용한 질문은 여러 축을 가집니다.

전사(Transcription). "무엇을 말했습니까?" — 음성 인식(ASR)의 영역입니다.
의미 추론(Semantic reasoning). "그 사람이 위험한 상황입니까?" — 짖음, 외침, 침묵을 함께 이해해야 합니다.
음악 추론(Music reasoning). "어떤 악기(instrument)가 멜로디(melody)를 연주합니까?"
장시간 오디오 검색(Long-audio retrieval). "90분짜리 강의(lecture)에서 강사가 경사 하강법(gradient descent)을 설명한 위치는 어디입니까?"

이 모든 질문에 하나의 프롬프트로 답하는 단일 모델이 바로 오디오-언어 모델(audio-language model; LALM / ALM) 입니다. 순수 ASR과는 다릅니다. LALM은 전사문(transcript)만 내는 것이 아니라 자유 형식의 자연어 답변(free-form natural-language answers)을 생성합니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.오디오-언어 모델(LALM)은 순수 음성 인식(ASR) 시스템과 어떻게 다른가요?

2.2026년의 모든 오디오-언어 모델은 공통된 세 구성요소 아키텍처를 공유합니다. 이 세 구성요소는 무엇인가요?

0/2 답변 완료

개념

세 구성요소 템플릿(three-component template)

2026년의 모든 LALM은 같은 골격(skeleton)을 가집니다.

오디오 인코더(Audio encoder). Whisper 인코더, BEATs, CLAP, WavLM 또는 모델별 자체 인코더(custom encoder)를 사용합니다.
프로젝터(Projector). 오디오 인코더의 특징(feature)을 LLM의 토큰 임베딩 공간(token embedding space)으로 연결하는 선형 계층(linear) 또는 MLP입니다.
LLM. Llama, Qwen, Gemma 기반 디코더입니다. 텍스트와 오디오 토큰이 교차된(interleaved) 시퀀스를 받아 텍스트를 생성합니다.

학습(training)은 보통 다음 순서로 진행됩니다.

Stage 1. 인코더와 LLM은 동결(freeze)하고, ASR/캡셔닝(captioning) 데이터로 프로젝터만 학습합니다.
Stage 2. 질의응답(QA), 추론(reasoning), 음악 이해(music understanding) 같은 지시 따르기(instruction-following) 오디오 과제에 대해 전체 미세조정(full fine-tune) 또는 LoRA 미세조정(LoRA fine-tune)을 수행합니다.
Stage 3(선택). 음성 입출력(voice-in / voice-out)을 위해 음성 디코더(speech decoder)를 추가합니다. Qwen2.5-Omni와 AF3-Chat이 이 방식을 사용합니다.

2026년 모델 지도(model map)

모델	Backbone	Audio encoder	Output modality	Access
Qwen2.5-Omni-7B	Qwen2.5-7B	Custom + Whisper	text + speech	Apache-2.0
Qwen3-Omni	Qwen3	Custom	text + speech	Apache-2.0
Audio Flamingo 3	Qwen2	AF-CLAP	text	NVIDIA non-commercial
Audio Flamingo Next	Qwen2	AF-CLAP v2	text	NVIDIA non-commercial
SALMONN	Vicuna	Whisper + BEATs	text	Apache-2.0
LTU / LTU-AS	Llama	CAV-MAE	text	Apache-2.0
GAMA	Llama	AST + Q-Former	text	Apache-2.0
Gemini 2.5 Flash/Pro(closed)	Gemini	proprietary	text + speech	API
GPT-4o Audio(closed)	GPT-4o	proprietary	text + speech	API

벤치마크 현실 점검(Benchmark reality check, 2026)

MMAU-Pro 는 음성/소리/음악/혼합(speech / sound / music / mixed)을 다루는 1800개 질의응답(QA) 쌍으로 구성됩니다. 다중 오디오(multi-audio) 부분집합(subset)이 포함되어 있습니다.

모델	Overall	Speech	Sound	Music	Multi-audio
Gemini 2.5 Pro	~60%	73.4%	51.9%	64.9%	~22%
Gemini 2.5 Flash	~57%	73.4%	50.5%	64.9%	21.2%
GPT-4o Audio	52.5%	-	-	-	26.5%
Qwen2.5-Omni-7B	52.2%	57.4%	47.6%	61.5%	~20%
Audio Flamingo 3	~54%	-	-	-	-
Audio Flamingo Next	LongAudioBench SOTA	-	-	-	-

다중 오디오 열(multi-audio column)은 모든 모델에 가혹합니다. 4지 선다 객관식(multiple choice)의 무작위 확률(random chance)은 25%인데, 대부분 모델이 그 근처에 머무릅니다. LALM은 여전히 두 클립(clip)을 비교하는 일에 약합니다.

2026년에 LALM이 유용한 곳

콜센터 녹취 컴플라이언스 감사(call-center recording compliance audit). "상담원(agent)이 필수 고지(disclosure)를 말했는가?"
접근성(accessibility). 청각 장애 사용자(deaf user)에게 단순 전사가 아니라 소리 이벤트(sound event)를 함께 설명합니다.
콘텐츠 모더레이션(content moderation). 폭력적 언어, 위협적 어조(threatening tone), 배경 맥락(background context)을 함께 감지합니다.
팟캐스트/회의 챕터링(podcast / meeting chaptering). 화자 전환(speaker turn)뿐 아니라 의미 기반 요약(semantic summary)을 만듭니다.
음악 카탈로그 분석(music catalog analysis). "B-섹션에서 조성 변화(B-section key change)가 있는 트랙을 모두 찾기" 같은 질문입니다.

아직 유용하지 않은 곳

세밀한 음악 이론(music theory) (코드 수준 이하)
긴 대화에서의 화자별 추론(speaker-attributed reasoning) (10분을 넘어가면 성능 저하)
다중 오디오 비교(multi-audio comparison) (22-26%는 무작위보다 조금 나은 수준)
실시간 스트리밍 추론(real-time streaming reasoning) (대부분이 오프라인 배치 추론(offline batch inference))

직접 만들기

Step 1: Qwen2.5-Omni에 질의하기

from transformers import AutoModelForCausalLM, AutoProcessor

processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto")

audio, sr = load_wav("clip.wav", sr=16000)
messages = [{
    "role": "user",
    "content": [
        {"type": "audio", "audio": audio},
        {"type": "text", "text": "What sounds do you hear, and what's happening?"},
    ],
}]
inputs = processor.apply_chat_template(messages, tokenize=True, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(output[0], skip_special_tokens=True))

Step 2: 프로젝터 패턴(projector pattern)

import torch.nn as nn

class AudioProjector(nn.Module):
    def __init__(self, audio_dim=1280, llm_dim=4096):
        super().__init__()
        self.down = nn.Linear(audio_dim, llm_dim)
        self.act = nn.GELU()
        self.up = nn.Linear(llm_dim, llm_dim)

    def forward(self, audio_features):
        return self.up(self.act(self.down(audio_features)))

이게 전부입니다. 프로젝터는 보통 1-3개의 선형 계층(linear layer)으로 구성됩니다. ASR 쌍(audio → transcript)으로 이 프로젝터를 학습시키는 것이 Stage-1 사전 과제(pretext task)입니다.

Step 3: MMAU / LongAudioBench 벤치마킹

from datasets import load_dataset
mmau = load_dataset("MMAU/MMAU-Pro")

correct = 0
for item in mmau["test"]:
    answer = call_model(item["audio"], item["question"], item["choices"])
    if answer == item["correct_choice"]:
        correct += 1
print(f"Accuracy: {correct / len(mmau['test']):.3f}")

음성/소리/음악/다중 오디오 범주(category)별로 따로 보고합니다. 집계 수치(aggregate number)는 모델이 어디에서 실패하는지를 숨기기 때문입니다.

사용하기

과제(Task)	2026년 추천(pick)
자유 형식 오디오 QA (오픈 모델)	Qwen2.5-Omni-7B
장시간 오디오에서 가장 강한 오픈 모델	Audio Flamingo Next
가장 강한 클로즈드 모델	Gemini 2.5 Pro
음성 입출력(voice-in / voice-out) 에이전트	Qwen2.5-Omni 또는 GPT-4o Audio
음악 추론(music reasoning)	Audio Flamingo 3 또는 2 (음악 특화 AF-CLAP)
콜센터 감사(call-center audit)	정책 문서(policy docs)에 대한 RAG와 결합한 Gemini 2.5 Pro API

흔한 함정

다중 오디오 과신(over-trust on multi-audio). 과제가 "어느 클립이 X인가?"를 요구하면 무작위에 가까운 성능이 실제로 나타납니다.
장시간 오디오 성능 저하(long-audio degradation). 10분을 넘기면 대부분 모델의 화자 귀속(speaker attribution)이 깨집니다. 먼저 화자 분리(diarize)를 수행하고(Lesson 6), 그다음에 요약(summarize)합니다.
침묵에서의 환각(silence hallucination). Whisper 인코더를 사용하는 LALM은 Whisper 계열 이슈를 물려받아 침묵 구간에서 환각(hallucination)을 일으킬 수 있습니다. 음성 활동 감지(VAD)로 게이팅(gating)합니다.
벤치마크 체리 피킹(benchmark cherry-picking). 벤더의 블로그 글은 최상위 범주(best-case category)를 강조합니다. MMAU-Pro 다중 오디오 부분집합을 직접 실행해 확인합니다.

산출물 만들기

outputs/skill-alm-picker.md로 저장합니다. 오디오 이해(audio-understanding) 과제에 맞는 LALM, 벤치마크 부분집합, 출력 모달리티(text vs speech)를 골라 주는 스킬(skill)입니다.

연습문제

쉬움. code/main.py를 실행합니다. 장난감 수준의 프로젝터 패턴(toy projector pattern)과 (audio-embedding, text-tokens) -> output tokens 형태의 모의 LALM 라우팅(fake LALM routing)을 확인합니다.
중간. MMAU-Pro 음성(speech) 항목 100개에 대해 Qwen2.5-Omni-7B를 채점(scoring)합니다. 논문에서 보고한 수치(reported number)와 비교합니다.
어려움. 최소 오디오 캡셔닝 베이스라인(minimal audio-captioning baseline)을 만듭니다. BEATs 인코더 + 2층 프로젝터 + 동결된 Llama-3.2-1B를 사용하고, AudioCaps에서 프로젝터만 미세조정(fine-tune)합니다. SALMONN의 Clotho-AQA 결과와 비교합니다.

핵심 용어

용어	흔한 설명	실제 의미
LALM	오디오 ChatGPT	오디오 인코더 + 프로젝터 + LLM 디코더로 구성된 모델입니다.
프로젝터(Projector)	어댑터(adapter)	오디오 특징을 LLM 임베딩 공간으로 매핑(mapping)하는 작은 MLP입니다.
MMAU	그 벤치마크	음성, 소리, 음악 전반의 10k개 오디오-QA 쌍입니다.
MMAU-Pro	더 어려운 MMAU	1800개의 다중 오디오/추론 중심(multi-audio / reasoning-heavy) 문항입니다.
LongAudioBench	장시간 평가(long-form eval)	수 분 단위 클립과 의미 기반 질의(semantic query)를 평가합니다.
음성 입출력(Voice-in / voice-out)	음성 네이티브(speech-native)	텍스트 우회 없이 음성을 입력받고 음성을 출력합니다.

더 읽을거리

Chu et al. (2024). Qwen2-Audio — 참조 아키텍처(reference architecture)입니다.
Alibaba (2025). Qwen2.5-Omni — 음성 입력에서 음성 출력까지(speech-in-speech-out) 모델입니다.
NVIDIA (2025). Audio Flamingo 3 — 오픈 진영의 장시간 오디오 선두 주자입니다.
NVIDIA (2026). Audio Flamingo Next — LongAudioBench의 최신 SOTA입니다.
Tang et al. (2023). SALMONN — 듀얼 인코더(dual-encoder) 선구자입니다.
MMAU-Pro leaderboard — 2026년 실시간 순위(live ranking)입니다.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

alm-picker

Pick an audio-language model, benchmark subset, output modality (text vs speech), and guardrails for an audio-understanding task.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.오디오 QA 시스템을 구축했는데, 단일 클립 질문에는 잘 수행하지만 두 개의 오디오 클립을 비교해야 하는 과제에서는 무작위 확률(약 25%) 수준의 점수를 받습니다. 이것이 현재 LALM의 한계에 대해 무엇을 보여주나요?

2.LALM 학습에서 Stage 1은 오디오 인코더와 LLM을 모두 동결(freeze)하고 ASR/캡셔닝(captioning) 데이터로 프로젝터만 학습시킵니다. 처음부터 모든 것을 종단간(end-to-end)으로 학습하지 않고 이런 단계적 접근을 사용하는 이유는 무엇인가요?

3.LALM이 Whisper 인코더를 사용하는데, 오디오 입력의 무음(silence) 구간에서 'Thanks for watching' 같은 환각된 텍스트(hallucinated text)를 생성합니다. 올바른 완화 방법은 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

음악 생성

다음 강의

실시간 오디오 처리