Skip to content

成本控制

🎯 学习目标

  • 按功能/租户统计 Token 与美元成本
  • 用小模型做意图路由降低主模型调用
  • Prompt Cache 与检索结果缓存降本

引言

成本 = 输入 Token + 输出 Token + Embedding + Rerank + 存储。不监控会在月结单面前惊讶。

章节正文

第 1 步:成本记账

python
def log_usage(trace_id, model, usage, feature):
    cost = pricing[model]["in"] * usage.prompt_tokens + pricing[model]["out"] * usage.completion_tokens
    metrics.emit("llm_cost_usd", cost, tags={"feature": feature, "tenant": tenant_id})

Dashboard:按 feature、tenant、model 聚合;设日预算告警。

第 2 步:降本手段

  • 意图路由:简单 FAQ → 小模型;复杂 → 大模型
  • Prompt Cache:稳定 system 前缀(见 5.5)
  • 检索缓存:相同 query 5min TTL
  • 压缩上下文:摘要历史
  • Trace 采样:全量存 Prompt 太贵,1% 采样 + 错误全存

动手练习

  1. 为一次 chat 计算并打印美元成本
  2. 设计意图路由:关键词命中 FAQ 则跳过 Agent

本节小结

按 feature 记账;路由+缓存+压缩降本;Trace 采样平衡可观测与存储成本。