模型选型

🎯 学习目标
了解国内主流模型厂商与代表产品的大致定位
区分通用对话模型与 Reasoning Model（推理模型）的适用场景
掌握任务、成本、合规、生态四维选型法
能设计简单的模型对比实验与降级方案

引言

2024–2025 年，国产大模型在中文理解、代码、推理与价格上快速追赶，DeepSeek-V3/R1 等模型甚至在部分 benchmark 与成本曲线上引发全球讨论。对国内团队而言，选型不再只是「OpenAI 还是 Azure」，而是 通义、文心、豆包、混元、智谱、DeepSeek、月之暗面 等多路并行——还要考虑 数据出境、私有化、Function Calling、Embedding 配套 与 推理模型 等新维度。

本节不做「谁最强」的排行榜（变化太快），而是给你一套 可重复的选型框架：先定任务类型与 SLA，再小样本实测，最后定 主模型 + 备用降级 + Embedding/Rerank 配套。你会学会何时为数学规划单独开 Reasoning 模型，何时用 7B 本地模型扛简单 QPS，以及如何避免「合同只允许 A 云、开发却全用 B 家 API」的合规坑。

章节正文

第 1 步：国产生态一览：厂商、开源与 API

以下概览帮助快速定向（具体型号以各厂商最新发布为准）：

厂商/系列	代表	常见亮点
阿里通义	Qwen2.5/3 系列	开源尺寸全、工具调用与多模态生态
百度文心	ERNIE	中文与搜索、企业云集成
字节豆包	Doubao	火山引擎产品化、低延迟场景
腾讯混元	Hunyuan	微信/云生态
智谱	GLM-4 系列	长上下文、Agent 实践多
DeepSeek	V3（通用）、R1（推理）	高性价比、开源权重、推理链
月之暗面	Kimi	长文本产品化

两类接入方式：

公有云 API：按 Token 计费，开通快，需关注数据协议
开源权重自托管：Llama 类流程，Qwen、DeepSeek 等提供权重，用 Ollama/vLLM 部署

DeepSeek 特别说明：V3 偏通用对话与代码；R1 强化链式推理，适合复杂逻辑但 响应更慢、思考 Token 可能很多。勿用 R1 做简单客服，除非质量收益覆盖成本。

第 2 步：通用模型 vs 推理模型：别用手术刀切西瓜

通用 Instruct 模型（GPT-4o、Claude Sonnet、Qwen-Instruct、DeepSeek-V3）：

低延迟、成本可控
对话、写作、代码补全、RAG 问答、工具调用
简单推理「够用但不保证」

推理模型 Reasoning Model（OpenAI o 系列、DeepSeek-R1 等）：

内部生成长 chain-of-thought（思维链） 再输出答案
数学、竞赛题、复杂 bug 分析、多步规划更强
通常 更贵、更慢，且思考过程可能占大量 Token

路由策略（Model Routing）：先用小/快模型分类意图，复杂题再 escalate 到推理模型。例：客服 95% 走 Qwen-7B 或轻量 API，5% 「算税费、解方程」走 R1。

Eval 必做：用 你自己的 50–200 条真实 query 对比，不要只看公开 leaderboard——业务分布与公开 benchmark 往往不一致。

第 3 步：四维选型：任务、成本、合规、生态

1. 任务类型

纯文本 QA / RAG → 强 Instruct + 配套 Embedding
代码 Agent → 看 HumanEval/SWE-bench 类表现与工具调用稳定度
多模态图问 → 选 Vision 型号（1.6 节）
批量抽取 JSON → 结构化输出支持（2.6 节）+ 低 temperature

2. 成本与 SLA

估算 日均 Token（见 1.3）与 P95 延迟
对比 输入/输出单价、是否 Prompt Cache、是否按 思考 Token 计费（推理模型）
高 QPS 考虑 自托管量化模型 vs 包年 API

3. 合规与部署

数据能否出境？是否需 VPC 专线、私有化、信创
日志留存、是否用于厂商训练（企业版 often opt-out）
行业监管（金融、医疗、政务）可能 指定云与模型清单

4. 生态

Function Calling / JSON Schema 是否成熟
Embedding、Rerank、Moderation 是否同厂（减少集成碎片）
SDK 兼容 OpenAI API 格式 可降低迁移成本

第 4 步：对比实验与生产降级设计

最小可行对比（1–2 天）：

冻结 Prompt 模板 与 RAG 检索结果（若有）
选 2–3 家模型，统一 temperature、max_tokens
跑内部测试集，指标：准确率 / 引用正确率 / JSON 可解析率 / P95 延迟 / 单次成本
人工盲评 30 条「感觉」最要命的 bad case

生产架构：

请求 → 路由层 → 主模型
              ↘ 超时/429/5xx → 备用模型
              ↘ 简单意图 → 轻量模型

抽象 Provider 接口（同一 chat(messages, options) 签名）
配置 model registry：primary、fallback、embedding、reasoning
Feature flag 按租户或百分比灰度新模型

降级不是丢脸：主模型维护窗口、区域故障、限流时，备用模型保证 可用性；质量略降优于完全不可用。

第 5 步：常见误区与团队协同事项

误区 1：「最新最大 = 最适合」—— 7B 量化在分类、关键词提取上常足够，且 QPS 高一个数量级。

误区 2：「只选一个模型走天下」—— Embedding、Rerank、Reasoning、Moderation 分工更经济。

误区 3：「Benchmark 第一就签单」—— 你的 PDF 表格、方言、内部缩写才是试金石。

误区 4：「开发用境外 API，上线再换国产」—— Prompt、工具 schema、安全策略早期就分裂，迁移成本倍增。

团队清单：

架构师：Provider 抽象 + 降级 + 观测（Token、延迟、错误率）
法务/安全：数据协议、私有化边界
产品：定义「可接受错误率」与拒答策略
运营：模型 changelog 订阅（厂商频繁发新版）

选型是 持续过程，建议 季度复盘 Token 账单与 Eval 指标，而非一次性招标定论。

动手练习

选两家你可用的 API，对同一 20 条内部问题跑对比，记录准确率主观分、平均延迟、单次平均成本。
为你当前假设的产品写「主模型 + fallback + embedding」配置 JSON（含选型理由一句）。
列出一项若数据不能出境，从开发到生产的部署路径（VPC API / 私有化 / 本地 Ollama）。
定义一条「应路由到推理模型」与一条「应留在轻量模型」的用户问题示例，并写路由 Prompt 或分类规则草稿。

常见问题

Q：DeepSeek 开源权重和 API 选哪个？

要快、少运维、弹性计费用 API；要数据不出内网、固定高 QPS 用自托管权重。也可混合：开发 API、生产私有化同一 family 权重以减少行为差异。

Q：OpenAI 兼容接口是什么意思？

许多国内厂商提供与 OpenAI SDK 相同的路径（如 /v1/chat/completions），改 baseURL 和 apiKey 即可切换。注意仍要测 tool_calls、JSON mode 等细节差异。

Q：模型版本升级要不要自动跟进？

不要无脑 latest。新版本在 Eval 集回归通过后再切；保留上一版本 alias 至少一个发布周期，便于回滚。

本节小结

国产模型生态已覆盖通用对话、推理、Embedding 与多模态；DeepSeek V3/R1 分别对应通用与推理场景。选型应基于真实任务的 Eval，从任务、成本、合规、生态四维权衡，并设计主备降级与 Provider 抽象。最大或最新不一定最合适；持续复盘账单与质量才是长期做法。

模型选型 ​

引言 ​

章节正文 ​

第 1 步：国产生态一览：厂商、开源与 API ​

第 2 步：通用模型 vs 推理模型：别用手术刀切西瓜 ​

第 3 步：四维选型：任务、成本、合规、生态 ​

第 4 步：对比实验与生产降级设计 ​

第 5 步：常见误区与团队协同事项 ​

动手练习 ​

常见问题 ​

本节小结 ​