Skip to content

部署发布

🎯 学习目标

  • 选择 Serverless vs 容器 vs 专用 GPU 推理
  • 设计 Prompt/模型灰度与 Eval 门禁
  • 提供运行时 Kill Switch 与 feature flag

引言

Agent 必须跑在服务端;浏览器只做 UI。发布不是 git push 就完,需要灰度、回滚与开关。

章节正文

第 1 步:部署选型

形态适用风险
Serverless流量波动、短请求冷启动、超时限制
K8s 容器稳定 QPS、长 Agent运维成本
自托管 vLLM数据合规、大批量GPU 运维

同步 Chat API vs 异步 Worker 分离部署。

第 2 步:CI/CD 流水线

PR → promptfoo subset → merge
→ build → deploy staging → eval full → smoke
→ canary 5% traffic → monitor 24h → 100%

Smoke:固定 3 问断言 status 200 + 关键词。

第 3 步:运行时控制

Feature flag:use_rerankmodel_versionmax_agent_iterations

Kill Switch:一键关闭 Agent 工具,降级为纯 Chat。

ACP / Admin API:运维不调代码改配置。

动手练习

  1. 写 deploy checklist:eval、smoke、canary、rollback
  2. 设计 3 个 feature flag 及其默认值

本节小结

Agent 服务端运行;CI 含 eval;灰度+监控;Kill Switch 与 flag 是生产必备。