成本控制
🎯 学习目标
- 按功能/租户统计 Token 与美元成本
- 用小模型做意图路由降低主模型调用
- Prompt Cache 与检索结果缓存降本
引言
成本 = 输入 Token + 输出 Token + Embedding + Rerank + 存储。不监控会在月结单面前惊讶。
章节正文
第 1 步:成本记账
python
def log_usage(trace_id, model, usage, feature):
cost = pricing[model]["in"] * usage.prompt_tokens + pricing[model]["out"] * usage.completion_tokens
metrics.emit("llm_cost_usd", cost, tags={"feature": feature, "tenant": tenant_id})Dashboard:按 feature、tenant、model 聚合;设日预算告警。
第 2 步:降本手段
- 意图路由:简单 FAQ → 小模型;复杂 → 大模型
- Prompt Cache:稳定 system 前缀(见 5.5)
- 检索缓存:相同 query 5min TTL
- 压缩上下文:摘要历史
- Trace 采样:全量存 Prompt 太贵,1% 采样 + 错误全存
动手练习
- 为一次 chat 计算并打印美元成本
- 设计意图路由:关键词命中 FAQ 则跳过 Agent
本节小结
按 feature 记账;路由+缓存+压缩降本;Trace 采样平衡可观测与存储成本。