部署发布
🎯 学习目标
- 选择 Serverless vs 容器 vs 专用 GPU 推理
- 设计 Prompt/模型灰度与 Eval 门禁
- 提供运行时 Kill Switch 与 feature flag
引言
Agent 必须跑在服务端;浏览器只做 UI。发布不是 git push 就完,需要灰度、回滚与开关。
章节正文
第 1 步:部署选型
| 形态 | 适用 | 风险 |
|---|---|---|
| Serverless | 流量波动、短请求 | 冷启动、超时限制 |
| K8s 容器 | 稳定 QPS、长 Agent | 运维成本 |
| 自托管 vLLM | 数据合规、大批量 | GPU 运维 |
同步 Chat API vs 异步 Worker 分离部署。
第 2 步:CI/CD 流水线
PR → promptfoo subset → merge
→ build → deploy staging → eval full → smoke
→ canary 5% traffic → monitor 24h → 100%Smoke:固定 3 问断言 status 200 + 关键词。
第 3 步:运行时控制
Feature flag:use_rerank、model_version、max_agent_iterations
Kill Switch:一键关闭 Agent 工具,降级为纯 Chat。
ACP / Admin API:运维不调代码改配置。
动手练习
- 写 deploy checklist:eval、smoke、canary、rollback
- 设计 3 个 feature flag 及其默认值
本节小结
Agent 服务端运行;CI 含 eval;灰度+监控;Kill Switch 与 flag 是生产必备。