模型选型
🎯 学习目标
- 了解国内主流模型厂商与代表产品的大致定位
- 区分通用对话模型与 Reasoning Model(推理模型)的适用场景
- 掌握任务、成本、合规、生态四维选型法
- 能设计简单的模型对比实验与降级方案
引言
2024–2025 年,国产大模型在中文理解、代码、推理与价格上快速追赶,DeepSeek-V3/R1 等模型甚至在部分 benchmark 与成本曲线上引发全球讨论。对国内团队而言,选型不再只是「OpenAI 还是 Azure」,而是 通义、文心、豆包、混元、智谱、DeepSeek、月之暗面 等多路并行——还要考虑 数据出境、私有化、Function Calling、Embedding 配套 与 推理模型 等新维度。
本节不做「谁最强」的排行榜(变化太快),而是给你一套 可重复的选型框架:先定任务类型与 SLA,再小样本实测,最后定 主模型 + 备用降级 + Embedding/Rerank 配套。你会学会何时为数学规划单独开 Reasoning 模型,何时用 7B 本地模型扛简单 QPS,以及如何避免「合同只允许 A 云、开发却全用 B 家 API」的合规坑。
章节正文
第 1 步:国产生态一览:厂商、开源与 API
以下概览帮助快速定向(具体型号以各厂商最新发布为准):
| 厂商/系列 | 代表 | 常见亮点 |
|---|---|---|
| 阿里通义 | Qwen2.5/3 系列 | 开源尺寸全、工具调用与多模态生态 |
| 百度文心 | ERNIE | 中文与搜索、企业云集成 |
| 字节豆包 | Doubao | 火山引擎产品化、低延迟场景 |
| 腾讯混元 | Hunyuan | 微信/云生态 |
| 智谱 | GLM-4 系列 | 长上下文、Agent 实践多 |
| DeepSeek | V3(通用)、R1(推理) | 高性价比、开源权重、推理链 |
| 月之暗面 | Kimi | 长文本产品化 |
两类接入方式:
- 公有云 API:按 Token 计费,开通快,需关注数据协议
- 开源权重自托管:Llama 类流程,Qwen、DeepSeek 等提供权重,用 Ollama/vLLM 部署
DeepSeek 特别说明:V3 偏通用对话与代码;R1 强化链式推理,适合复杂逻辑但 响应更慢、思考 Token 可能很多。勿用 R1 做简单客服,除非质量收益覆盖成本。
第 2 步:通用模型 vs 推理模型:别用手术刀切西瓜
通用 Instruct 模型(GPT-4o、Claude Sonnet、Qwen-Instruct、DeepSeek-V3):
- 低延迟、成本可控
- 对话、写作、代码补全、RAG 问答、工具调用
- 简单推理「够用但不保证」
推理模型 Reasoning Model(OpenAI o 系列、DeepSeek-R1 等):
- 内部生成长 chain-of-thought(思维链) 再输出答案
- 数学、竞赛题、复杂 bug 分析、多步规划更强
- 通常 更贵、更慢,且思考过程可能占大量 Token
路由策略(Model Routing):先用小/快模型分类意图,复杂题再 escalate 到推理模型。例:客服 95% 走 Qwen-7B 或轻量 API,5% 「算税费、解方程」走 R1。
Eval 必做:用 你自己的 50–200 条真实 query 对比,不要只看公开 leaderboard——业务分布与公开 benchmark 往往不一致。
第 3 步:四维选型:任务、成本、合规、生态
1. 任务类型
- 纯文本 QA / RAG → 强 Instruct + 配套 Embedding
- 代码 Agent → 看 HumanEval/SWE-bench 类表现与工具调用稳定度
- 多模态图问 → 选 Vision 型号(1.6 节)
- 批量抽取 JSON → 结构化输出支持(2.6 节)+ 低 temperature
2. 成本与 SLA
- 估算 日均 Token(见 1.3)与 P95 延迟
- 对比 输入/输出单价、是否 Prompt Cache、是否按 思考 Token 计费(推理模型)
- 高 QPS 考虑 自托管量化模型 vs 包年 API
3. 合规与部署
- 数据能否出境?是否需 VPC 专线、私有化、信创
- 日志留存、是否用于厂商训练(企业版 often opt-out)
- 行业监管(金融、医疗、政务)可能 指定云与模型清单
4. 生态
- Function Calling / JSON Schema 是否成熟
- Embedding、Rerank、Moderation 是否同厂(减少集成碎片)
- SDK 兼容 OpenAI API 格式 可降低迁移成本
第 4 步:对比实验与生产降级设计
最小可行对比(1–2 天):
- 冻结 Prompt 模板 与 RAG 检索结果(若有)
- 选 2–3 家模型,统一 temperature、max_tokens
- 跑内部测试集,指标:准确率 / 引用正确率 / JSON 可解析率 / P95 延迟 / 单次成本
- 人工盲评 30 条「感觉」最要命的 bad case
生产架构:
请求 → 路由层 → 主模型
↘ 超时/429/5xx → 备用模型
↘ 简单意图 → 轻量模型- 抽象 Provider 接口(同一
chat(messages, options)签名) - 配置 model registry:
primary、fallback、embedding、reasoning - Feature flag 按租户或百分比灰度新模型
降级不是丢脸:主模型维护窗口、区域故障、限流时,备用模型保证 可用性;质量略降优于完全不可用。
第 5 步:常见误区与团队协同事项
误区 1:「最新最大 = 最适合」—— 7B 量化在分类、关键词提取上常足够,且 QPS 高一个数量级。
误区 2:「只选一个模型走天下」—— Embedding、Rerank、Reasoning、Moderation 分工更经济。
误区 3:「Benchmark 第一就签单」—— 你的 PDF 表格、方言、内部缩写才是试金石。
误区 4:「开发用境外 API,上线再换国产」—— Prompt、工具 schema、安全策略早期就分裂,迁移成本倍增。
团队清单:
- 架构师:Provider 抽象 + 降级 + 观测(Token、延迟、错误率)
- 法务/安全:数据协议、私有化边界
- 产品:定义「可接受错误率」与拒答策略
- 运营:模型 changelog 订阅(厂商频繁发新版)
选型是 持续过程,建议 季度复盘 Token 账单与 Eval 指标,而非一次性招标定论。
动手练习
- 选两家你可用的 API,对同一 20 条内部问题跑对比,记录准确率主观分、平均延迟、单次平均成本。
- 为你当前假设的产品写「主模型 + fallback + embedding」配置 JSON(含选型理由一句)。
- 列出一项若数据不能出境,从开发到生产的部署路径(VPC API / 私有化 / 本地 Ollama)。
- 定义一条「应路由到推理模型」与一条「应留在轻量模型」的用户问题示例,并写路由 Prompt 或分类规则草稿。
常见问题
Q:DeepSeek 开源权重和 API 选哪个?
要快、少运维、弹性计费用 API;要数据不出内网、固定高 QPS 用自托管权重。也可混合:开发 API、生产私有化同一 family 权重以减少行为差异。
Q:OpenAI 兼容接口是什么意思?
许多国内厂商提供与 OpenAI SDK 相同的路径(如 /v1/chat/completions),改 baseURL 和 apiKey 即可切换。注意仍要测 tool_calls、JSON mode 等细节差异。
Q:模型版本升级要不要自动跟进?
不要无脑 latest。新版本在 Eval 集回归通过后再切;保留上一版本 alias 至少一个发布周期,便于回滚。
本节小结
国产模型生态已覆盖通用对话、推理、Embedding 与多模态;DeepSeek V3/R1 分别对应通用与推理场景。选型应基于真实任务的 Eval,从任务、成本、合规、生态四维权衡,并设计主备降级与 Provider 抽象。最大或最新不一定最合适;持续复盘账单与质量才是长期做法。