에이전트 경제, 토큰 인센티브와 평판(Agent Economies, Token Incentives, Reputation)

장기 자율 에이전트(Long-horizon autonomous agents; METR의 1시간에서 8시간 작업 곡선(work-curve))는 경제적 행위 능력(economic agency)을 필요로 합니다. 새롭게 떠오르는 5계층 스택(5-layer stack)DePIN(물리 컴퓨팅; physical compute) → 신원(Identity)(W3C DIDs + 평판 자본(reputation capital)) → 인지(Cognition)(RAG + MCP) → 결제(Settlement)(계정 추상화(account abstraction)) → 거버넌스(Governance)(에이전트형 DAO(Agentic DAOs)) 순서로 구성됩니다. 실제 운영 단계의 에이전트 인센티브 네트워크에는 Bittensor(TAO 서브넷이 작업별 모델(task-specific models)에 보상을 지급), Fetch.ai / ASI Alliance(ASI-1 Mini LLM + FET 토큰), Gonka(트랜스포머 기반 작업증명(transformer-based PoW)으로 생산적 AI 작업에 컴퓨팅을 재할당)가 있습니다. 학술적으로는 AAMAS 2025의 분산형 LaMAS(decentralized LaMAS)가 샤플리 값 기반 기여 분배(Shapley-value credit attribution) 로 기여한 에이전트를 공정하게 보상하고, 구글 리서치(Google Research)의 "Mechanism design for large language models"는 단조 집계(monotone aggregation) 하에서 차순위 가격 결제(second-price payment)를 사용하는 토큰 경매(token auctions) 를 제안합니다. 이 강의는 최소한의 에이전트 마켓플레이스(agent marketplace)를 만들고, 멀티 에이전트 파이프라인(multi-agent pipeline)에 샤플리 값 기반 기여 분배를 적용하며, 차순위 가격 토큰 경매를 실행하여 게임 이론(game theory) 기제를 구체적으로 익히게 합니다.

유형: Learn 언어: Python (stdlib) 선수 지식: Phase 16 · 16 (협상과 교섭), Phase 16 · 09 (병렬 Swarm과 네트워크형 아키텍처) 예상 시간: 약 75분

문제

멀티 에이전트 시스템(multi-agent system)은 여러 에이전트가 공동으로 가치를 만들지만 보상은 개별적으로 이루어져야 할 때 복잡해집니다. 균등 분배(equal split)나 마지막 기여자 독식(last-contributor-takes-all) 같은 고전적인 기제(classical mechanism)는 불공정하거나 조작이 가능합니다. 샤플리 값(Shapley value)에 기반한 연합 기반 보상(coalition-based rewarding)은 구조적으로 공정하지만 계산 비용이 큽니다. 2025-2026년 연구들은 유용한 근사 기법(approximation)들을 발전시키고 있습니다. 샤플리 샘플링(Shapley sampling), 단조 집계 경매(monotone aggregation auction), 그리고 확정된 기여(confirmed contribution)에서 누적되는 온체인 평판(on-chain reputation)이 그 예입니다.

기여 분배(credit attribution)를 넘어서, 이 분야는 실제 경제적 행위를 하는 에이전트로 옮겨가고 있습니다. Bittensor TAO는 서브넷별 모델을 미세 조정하는 채굴(mining) 컴퓨팅에 보상을 지급하고, Fetch.ai/ASI는 ASI-1 Mini LLM 사용을 FET 토큰으로 보상하며, Gonka는 트랜스포머 작업증명을 생산적인 AI 작업으로 재할당합니다. 자율적으로 거래(transact)하는 에이전트는 이미 존재합니다. 문제는 인센티브를 어떻게 정렬(align)할 것인가입니다.

이 강의는 에이전트 경제(agent economies)를 기여 분배, 메커니즘 디자인(mechanism design), 평판(reputation)이라는 구체적인 문제군으로 다루고, 핵심 아이디어가 머릿속에 남도록 최소한의 수식으로 각각을 직접 만들어 봅니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.샤플리 값(Shapley value)이 협력하는 에이전트들 사이에서 기여를 분배하는 '공정한' 방법으로 여겨지는 이유는 무엇인가요?

2.LLM 출력 집계(aggregation)를 위한 차순위 가격 경매(second-price auction)에서 낙찰자가 자기 입찰가가 아닌 차순위 입찰가를 지불하는 이유는 무엇인가요?

0/2 답변 완료

개념

5계층 에이전트 경제 스택(5-layer agent-economy stack)

  1. DePIN(물리 컴퓨팅). GPU, 저장소(storage), 대역폭(bandwidth)을 임대하는 분산 인프라(decentralized infrastructure)입니다. Bittensor 서브넷(subnets), Render Network, Akash가 여기에 속합니다. 에이전트 전용이 아니지만 에이전트가 활용합니다.
  2. 신원(Identity). W3C 분산 식별자(Decentralized Identifiers; DIDs)는 각 에이전트에 어떤 플랫폼과도 독립적인 영속적인 식별자(durable ID)를 제공합니다. 평판은 DID에 누적됩니다. 에이전트 네트워크 프로토콜(Agent Network Protocol; ANP)은 DID를 발견(discovery) 계층으로 사용합니다.
  3. 인지(Cognition). 에이전트의 추론 루프(reasoning loop)입니다. LLM + RAG + MCP로 구성됩니다. 이 부분은 다른 phase들에서 만듭니다.
  4. 결제(Settlement). 계정 추상화(ERC-4337)는 에이전트가 ETH를 직접 보유하지 않고도 자기 잔액(balance)에서 가스(gas)를 지불할 수 있게 합니다. 에이전트는 서비스, 다른 에이전트, 혹은 컴퓨팅 자원에 대해 비용을 지불할 수 있습니다.
  5. 거버넌스(Governance). 에이전트형 DAO(Agentic DAOs)입니다. 사람과 에이전트가 함께 프로토콜 변경 사항에 투표하고, 투표권은 평판에 연동됩니다.

모든 운영 시스템이 다섯 계층을 전부 사용하는 것은 아닙니다. Bittensor는 1, 2번을 사용하고 3, 4번을 부분적으로 사용하며 5번은 사용하지 않습니다. OpenAI의 에이전트는 3번만 사용합니다. 이 스택은 요구사항이 아니라 참조용 지도(reference map)입니다.

Bittensor, Fetch.ai, Gonka — 실제로 동작하는 것

Bittensor (TAO). 서브넷은 언어 모델링(language modeling), 이미지 생성(image generation), 예측(forecasting) 같은 특화된 작업입니다. 채굴자(miners)는 모델 출력을 제출합니다. 검증자(validators)가 이를 평가해 순위를 매기고, 지분 가중 점수(stake-weighted scoring)가 TAO 보상을 분배합니다. 각 서브넷은 고유한 평가 방식을 가집니다. 이 경제 모델에서 얻을 수 있는 교훈은, 사용한 컴퓨팅 양이 아니라 작업별 산출 품질(task-specific output quality)에 대해 비용을 지불해야 한다는 점입니다.

Fetch.ai / ASI Alliance. ASI-1 Mini LLM은 Fetch.ai 네트워크 위에서 실행되며, 사용자는 추론(inference) 비용을 FET 토큰으로 지불합니다. 여기서는 에이전트가 동료처럼 거래한다는 서사(agents-as-peers narrative)가 더 강하게 드러납니다. Fetch 위의 에이전트가 다른 에이전트를 작업에 호출하고 FET로 비용을 지불할 수 있기 때문입니다.

Gonka. 트랜스포머 작업증명(Transformer proof-of-work)입니다. 여기서 "작업"은 트랜스포머의 순전파(forward pass)입니다. 채굴자는 학습 데이터에서 이미 정답이 알려진 추론 작업을 수행해 보상을 얻습니다. 해시 기반 작업증명(hash-based PoW) 대신 자원이 실제 가치를 만드는 작업증명(resource-productive PoW)입니다.

세 가지 모두 2026년 4월 기준 운영 단계(production-grade)에 있습니다. 보상 분배(payoff distribution) 방식은 서로 다릅니다. Bittensor는 서브넷 검증자 기준의 품질에 보상하고, Fetch는 비용을 지불하는 사용자가 측정한 유용성(utility)을 보상하며, Gonka는 검증 가능한 추론 작업(verifiable inference work)에 보상합니다.

샤플리 값 기반 기여 분배(Shapley-value credit attribution)

세 에이전트가 하나의 작업에 협업한다고 합시다. 결과의 점수는 0.8입니다. 누가 무엇에 얼마나 기여했을까요?

샤플리 값은 네 가지 공리(axiom)인 효율성(efficiency), 대칭성(symmetry), 선형성(linearity), 무기여(null)를 만족하는 유일한 기여 배분(credit allocation)입니다. 에이전트 i에 대해 다음과 같이 정의됩니다.

shapley(i) = (1/N!) * sum over all orderings O of (v(S_i_O ∪ {i}) - v(S_i_O))

여기서 S_i_O는 순서 O에서 i보다 앞에 위치한 에이전트들의 집합입니다. 실제 계산은 모든 순열(permutation)을 나열한 뒤 각 순열에서 각 에이전트의 한계 기여(marginal contribution)를 기록하고 평균을 내는 방식입니다.

에이전트가 N=3개이면 순열은 6개입니다. N=10이면 약 360만 개로 늘어납니다. 그래서 실무에서는 모든 순열을 나열하는 대신 순서를 표본 추출(sampling)합니다.

집계를 위한 차순위 가격 경매(Second-price auction for aggregation)

구글 리서치의 "Mechanism design for large language models"는 LLM 출력 집계(aggregation)를 위한 차순위 가격 토큰 경매(second-price token auction)를 제안합니다. 설정은 다음과 같습니다. N개의 에이전트가 각각 완성문(completion)을 제안하고, 각 에이전트는 자신이 선택될 때 얻는 사적 가치(private value)를 가집니다. 경매 운영자(auctioneer)는 가장 높은 가치를 제안한 항목을 선택하되, 지불하는 금액은 차순위 가치입니다. 단조 집계(monotone aggregation) 가정 하에서, 즉 가치가 어떤 제안이 선택되는지에만 의존하고 입찰 수에는 의존하지 않을 때, 이 기제는 진실 보고를 유도합니다(truthful). 각 에이전트는 자신의 진짜 가치를 그대로 입찰할 동기를 가집니다.

이 점이 LLM 시스템에서 중요한 이유는, 서로 다른 가격 정책을 가진 여러 에이전트에게 완성 작업을 외주(outsource)할 수 있기 때문입니다. 경매는 가장 좋은 결과를 선택하면서도 공정하게 비용을 지불하고, 에이전트는 잘못된 값을 보고할 동기가 사라집니다.

평판 자본(Reputation capital)

DID에 묶인 평판 점수는 확정된 기여(confirmed contribution)로부터 누적됩니다. 가장 단순한 갱신 규칙은 다음과 같습니다.

rep(i, t+1) = alpha * rep(i, t) + (1 - alpha) * contribution_quality(i, t)

감쇠 계수(decay factor) alpha는 1에 가깝게 둡니다. 평판은 다음과 같은 성질을 가집니다.

  • 라우팅(routing) 의사 결정에서 저렴하게 읽을 수 있습니다. 예: 어려운 작업은 평판이 높은 에이전트에게 보냅니다.
  • 위조(forge) 비용이 큽니다. 시간이 지나며 누적되고 DID에 묶이기 때문입니다.
  • 슬래싱(slashing)이 가능합니다. 검증에 실패한 기여는 평판에서 차감됩니다.

AAMAS 2025 분산형 LaMAS(decentralized LaMAS)

AAMAS 2025의 LaMAS 제안은 DID 신원, 샤플리 값 기반 기여 분배, 단순한 경매 기제를 결합한 구조입니다. 핵심 주장은, 기여 분배 단계를 분산화(decentralize)하면 시스템이 감사 가능(auditable)해지고 단일 지점 조작(single-point manipulation)에 면역이 된다는 점입니다.

경제 모델이 무너지는 지점

  • 가격 오라클 조작(Price oracle manipulation). 기여 함수가 게이밍(gaming)될 수 있으면 에이전트는 반드시 그렇게 행동합니다. 모든 기제에는 적대적 테스트(adversarial test)가 필요합니다.
  • 시빌 공격(Sybil attacks). 한 운영자가 가짜 에이전트를 N개 띄워 자신의 기여를 부풀리는 공격입니다. DID는 이 공격을 늦추지만 차단하지는 못합니다. 위조 비용이 큰 평판이 완화책(mitigation)입니다.
  • 검증 비용(Verification cost). 기여 분배는 검증자(verifier)만큼만 공정합니다. 검증이 저렴하면(작은 LLM) 게이밍이 가능해지고, 비싸면(인적 패널) 시스템이 확장되지 않습니다.
  • 규제 부담(Regulatory overhang). 에이전트 경제는 금융 규제와 맞닿아 있습니다. 2026년 기준 Bittensor, Fetch, Gonka는 일부 관할권(jurisdiction)에서 법적 회색 지대(legal gray area)에 있습니다.

에이전트 경제가 적합한 경우

  • 운영자가 이질적인 개방 네트워크(open networks). 모든 에이전트를 한 팀이 통제하지 않을 때입니다.
  • 검증 가능한 산출물(verifiable outputs). 검증이 없으면 기여 분배는 추측입니다.
  • 장기 작업 흐름(long-horizon workflows). 일회성 작업은 평판 누적의 이점을 얻지 못합니다.
  • 해당 관할권에서 토큰 결제가 법적으로 가능한 경우(Tokenized payments are legally viable).

폐쇄적인 사내 시스템에서는 경제 모델보다 더 단순한 자원 배분이 자연스럽습니다. 관리자가 업무를 배정하고 지표는 내부적으로 관리됩니다. 경제학 논의는 주로 개방 네트워크에 적용됩니다.

직접 만들기

code/main.py는 다음을 구현합니다.

  • shapley(value_fn, agents) — 작은 N에 대해 모든 순열을 나열해 정확한 샤플리 값(exact Shapley)을 계산합니다.
  • second_price_auction(bids) — 진실 유도 기제(truthful mechanism)입니다. 낙찰자는 차순위 입찰가를 지불합니다.
  • Reputation — 지수 감쇠(exponential decay)와 슬래싱을 가진 DID 기반 평판 클래스입니다.
  • Demo 1: 세 에이전트가 협업하고, 정확한 샤플리 값으로 기여를 분배합니다.
  • Demo 2: 다섯 에이전트가 작업 슬롯(task slot)에 입찰하고, 차순위 가격 경매가 낙찰자와 결제 금액을 결정합니다.
  • Demo 3: 이질적인 평판을 가진 에이전트에게 100라운드의 작업을 할당합니다. 평판 가중 라우팅(rep-weighted routing)이 워밍업(warmup) 이후 무작위 할당(random)보다 우수합니다.

실행 방법은 다음과 같습니다.

python3 code/main.py

예상 출력은 각 에이전트의 샤플리 값, 진실 입찰 균형(truthful-bid equilibrium)을 보여 주는 경매 결과, 그리고 워밍업 이후 무작위 할당보다 조금 더 나은 품질을 보이는 평판 가중 라우팅입니다. 현재 데모의 시드(seed)와 설정에서는 약 3-5% 개선이 나타납니다.

사용해보기

outputs/skill-economy-designer.md는 최소 형태의 에이전트 경제를 설계합니다. 신원 계층, 기여 분배 기제, 결제 기제, 평판 규칙을 선택합니다.

배포 전 확인

2026년에 실제로 에이전트 경제를 운영한다면 다음을 권장합니다.

  • 토큰이 아니라 평판부터 시작합니다(Start with reputation, not tokens). 평판은 구현 비용이 낮고 그 자체만으로도 가치가 있습니다. 토큰은 법적·경제적 복잡성을 추가합니다.
  • 보상보다 검증을 먼저 합니다(Verify before you reward). 독립적인 검증 없이 기여를 분배하지 않습니다. 자체 보고된 품질(self-reported quality)은 시빌 공격을 키웁니다.
  • 샤플리는 정확 계산 대신 샘플링을 사용합니다(Shapley-sample, not Shapley-exact). 순서를 100-1000개 표본 추출합니다. 모든 순열을 나열하는 방식은 확장되지 않습니다.
  • 감쇠 계수를 상한·하한으로 고정합니다(Cap decay factor and floor reputation). 무제한 감쇠는 정당한 기여자를 지워 버리고, 너무 느린 감쇠는 오래된 고평판 에이전트만 계속 보상합니다.
  • 기제를 적대적으로 감사합니다(Audit mechanisms adversarially). 네트워크를 열기 전에 레드팀(red-team) 시나리오를 실행합니다. 모든 기제에는 게임 이론이 따라옵니다. 빈틈은 공격자가 아니라 우리가 먼저 찾아야 합니다.

연습문제

  1. (쉬움) code/main.py를 실행합니다. 샤플리 값들의 합이 총 가치와 일치하는지(효율성 공리) 확인합니다. 가치 함수(value function)를 변경하면 샤플리 분배가 예상한 방향으로 변하는지 살펴봅니다.
  2. (중간) 샤플리 샘플링을 구현합니다. K개의 순서에 대해 몬테카를로(Monte Carlo) 방식으로 평균을 냅니다. K가 근사 정확도에 어떤 영향을 주는지 확인합니다. N=4에서 정확 값과 비교합니다.
  3. (중간) 경매 전에 연합 형성(coalition-forming) 단계를 추가합니다. 에이전트가 팀으로 합쳐 하나의 단위로 입찰할 수 있게 합니다. 어떤 연합이 형성됩니까? 그 결과가 개별 입찰보다 파레토 우월(Pareto-better)합니까?
  4. (중간) 구글 리서치의 메커니즘 디자인 글을 읽습니다. 위배되면 진실 보고(truthfulness)가 깨지는 가정 하나를 찾습니다. LLM 환경에서 그 실패 모드는 어떤 모습으로 나타납니까?
  5. (어려움) AAMAS 2025의 분산형 LaMAS 논문을 읽습니다. 10개의 에이전트가 참여하는 합성 작업에 샤플리 단계를 구현합니다. 정확 계산은 얼마나 오래 걸립니까? 100번 표본 추출 시 정확 값에 얼마나 근접합니까?

핵심 용어

용어흔한 설명실제 의미
DePIN"분산 물리 인프라(Decentralized physical infrastructure)"토큰 인센티브가 붙은 컴퓨팅/저장/대역폭. Bittensor, Akash, Render가 해당된다.
DID"분산 식별자(Decentralized identifier)"이식 가능한 ID를 위한 W3C 명세. 에이전트 평판은 플랫폼이 아니라 DID에 묶인다.
ERC-4337"계정 추상화(Account abstraction)"가스(gas)를 대신 부담할 수 있는 컨트랙트 계정으로, 에이전트 결제를 가능하게 한다.
샤플리 값(Shapley value)"공정한 기여 분배(fair credit attribution)"효율성, 대칭성, 선형성, 무기여를 만족하는 유일한 배분이다.
차순위 가격 경매(Second-price auction)"비커리 경매(Vickrey auction)"낙찰자가 차순위 입찰가를 지불하는 진실 유도 기제. 단조 집계와 호환된다.
평판 자본(Reputation capital)"누적된 품질 점수"확정된 기여에서 만들어지는 DID 기반 점수. 시간이 지나며 감쇠한다.
에이전트형 DAO(Agentic DAO)"에이전트와 사람이 함께 통치(agents + humans govern)"에이전트 투표자를 일급(first-class)으로 포함하고 투표권을 평판에 묶는 DAO.
TAO / FET / GPU credits"토큰 단위(token denominations)"Bittensor TAO, Fetch.ai FET, 다양한 DePIN 토큰들.

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

economy-designer

Design a minimal agent economy — identity, credit attribution, payment mechanism, reputation. Picks the smallest stack that solves the user's multi-agent incentive problem.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.정확한 샤플리 값을 계산하려면 모든 N! 순열을 평가해야 합니다. 에이전트가 10개면 약 360만 순열입니다. 실용적인 해결책은 무엇인가요?

2.한 운영자가 50개의 가짜 에이전트 신원(시빌 공격, Sybil attack)을 만들어 샤플리 기반 보상에서 자기 몫을 부풀립니다. 가장 효과적인 방어 계층은 무엇인가요?

3.같은 조직이 모든 에이전트를 통제하는 내부 멀티 에이전트 시스템을 구축합니다. 토큰 인센티브가 포함된 완전한 에이전트 경제를 구현해야 할까요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다