Skip to content

模型选型

🎯 学习目标

  • 了解国内主流模型厂商与代表产品的大致定位
  • 区分通用对话模型与 Reasoning Model(推理模型)的适用场景
  • 掌握任务、成本、合规、生态四维选型法
  • 能设计简单的模型对比实验与降级方案

引言

2024–2025 年,国产大模型在中文理解、代码、推理与价格上快速追赶,DeepSeek-V3/R1 等模型甚至在部分 benchmark 与成本曲线上引发全球讨论。对国内团队而言,选型不再只是「OpenAI 还是 Azure」,而是 通义、文心、豆包、混元、智谱、DeepSeek、月之暗面 等多路并行——还要考虑 数据出境、私有化、Function Calling、Embedding 配套推理模型 等新维度。

本节不做「谁最强」的排行榜(变化太快),而是给你一套 可重复的选型框架:先定任务类型与 SLA,再小样本实测,最后定 主模型 + 备用降级 + Embedding/Rerank 配套。你会学会何时为数学规划单独开 Reasoning 模型,何时用 7B 本地模型扛简单 QPS,以及如何避免「合同只允许 A 云、开发却全用 B 家 API」的合规坑。

章节正文

第 1 步:国产生态一览:厂商、开源与 API

以下概览帮助快速定向(具体型号以各厂商最新发布为准):

厂商/系列代表常见亮点
阿里通义Qwen2.5/3 系列开源尺寸全、工具调用与多模态生态
百度文心ERNIE中文与搜索、企业云集成
字节豆包Doubao火山引擎产品化、低延迟场景
腾讯混元Hunyuan微信/云生态
智谱GLM-4 系列长上下文、Agent 实践多
DeepSeekV3(通用)、R1(推理)高性价比、开源权重、推理链
月之暗面Kimi长文本产品化

两类接入方式

  1. 公有云 API:按 Token 计费,开通快,需关注数据协议
  2. 开源权重自托管:Llama 类流程,Qwen、DeepSeek 等提供权重,用 Ollama/vLLM 部署

DeepSeek 特别说明V3 偏通用对话与代码;R1 强化链式推理,适合复杂逻辑但 响应更慢、思考 Token 可能很多。勿用 R1 做简单客服,除非质量收益覆盖成本。

第 2 步:通用模型 vs 推理模型:别用手术刀切西瓜

通用 Instruct 模型(GPT-4o、Claude Sonnet、Qwen-Instruct、DeepSeek-V3):

  • 低延迟、成本可控
  • 对话、写作、代码补全、RAG 问答、工具调用
  • 简单推理「够用但不保证」

推理模型 Reasoning Model(OpenAI o 系列、DeepSeek-R1 等):

  • 内部生成长 chain-of-thought(思维链) 再输出答案
  • 数学、竞赛题、复杂 bug 分析、多步规划更强
  • 通常 更贵、更慢,且思考过程可能占大量 Token

路由策略(Model Routing):先用小/快模型分类意图,复杂题再 escalate 到推理模型。例:客服 95% 走 Qwen-7B 或轻量 API,5% 「算税费、解方程」走 R1。

Eval 必做:用 你自己的 50–200 条真实 query 对比,不要只看公开 leaderboard——业务分布与公开 benchmark 往往不一致。

第 3 步:四维选型:任务、成本、合规、生态

1. 任务类型

  • 纯文本 QA / RAG → 强 Instruct + 配套 Embedding
  • 代码 Agent → 看 HumanEval/SWE-bench 类表现与工具调用稳定度
  • 多模态图问 → 选 Vision 型号(1.6 节)
  • 批量抽取 JSON → 结构化输出支持(2.6 节)+ 低 temperature

2. 成本与 SLA

  • 估算 日均 Token(见 1.3)与 P95 延迟
  • 对比 输入/输出单价、是否 Prompt Cache、是否按 思考 Token 计费(推理模型)
  • 高 QPS 考虑 自托管量化模型 vs 包年 API

3. 合规与部署

  • 数据能否出境?是否需 VPC 专线、私有化、信创
  • 日志留存、是否用于厂商训练(企业版 often opt-out)
  • 行业监管(金融、医疗、政务)可能 指定云与模型清单

4. 生态

  • Function Calling / JSON Schema 是否成熟
  • Embedding、Rerank、Moderation 是否同厂(减少集成碎片)
  • SDK 兼容 OpenAI API 格式 可降低迁移成本

第 4 步:对比实验与生产降级设计

最小可行对比(1–2 天)

  1. 冻结 Prompt 模板RAG 检索结果(若有)
  2. 2–3 家模型,统一 temperature、max_tokens
  3. 跑内部测试集,指标:准确率 / 引用正确率 / JSON 可解析率 / P95 延迟 / 单次成本
  4. 人工盲评 30 条「感觉」最要命的 bad case

生产架构

请求 → 路由层 → 主模型
              ↘ 超时/429/5xx → 备用模型
              ↘ 简单意图 → 轻量模型
  • 抽象 Provider 接口(同一 chat(messages, options) 签名)
  • 配置 model registryprimaryfallbackembeddingreasoning
  • Feature flag 按租户或百分比灰度新模型

降级不是丢脸:主模型维护窗口、区域故障、限流时,备用模型保证 可用性;质量略降优于完全不可用。

第 5 步:常见误区与团队协同事项

误区 1:「最新最大 = 最适合」—— 7B 量化在分类、关键词提取上常足够,且 QPS 高一个数量级。

误区 2:「只选一个模型走天下」—— Embedding、Rerank、Reasoning、Moderation 分工更经济。

误区 3:「Benchmark 第一就签单」—— 你的 PDF 表格、方言、内部缩写才是试金石。

误区 4:「开发用境外 API,上线再换国产」—— Prompt、工具 schema、安全策略早期就分裂,迁移成本倍增。

团队清单

  • 架构师:Provider 抽象 + 降级 + 观测(Token、延迟、错误率)
  • 法务/安全:数据协议、私有化边界
  • 产品:定义「可接受错误率」与拒答策略
  • 运营:模型 changelog 订阅(厂商频繁发新版)

选型是 持续过程,建议 季度复盘 Token 账单与 Eval 指标,而非一次性招标定论。

动手练习

  1. 选两家你可用的 API,对同一 20 条内部问题跑对比,记录准确率主观分、平均延迟、单次平均成本。
  2. 为你当前假设的产品写「主模型 + fallback + embedding」配置 JSON(含选型理由一句)。
  3. 列出一项若数据不能出境,从开发到生产的部署路径(VPC API / 私有化 / 本地 Ollama)。
  4. 定义一条「应路由到推理模型」与一条「应留在轻量模型」的用户问题示例,并写路由 Prompt 或分类规则草稿。

常见问题

Q:DeepSeek 开源权重和 API 选哪个?

要快、少运维、弹性计费用 API;要数据不出内网、固定高 QPS 用自托管权重。也可混合:开发 API、生产私有化同一 family 权重以减少行为差异。

Q:OpenAI 兼容接口是什么意思?

许多国内厂商提供与 OpenAI SDK 相同的路径(如 /v1/chat/completions),改 baseURL 和 apiKey 即可切换。注意仍要测 tool_calls、JSON mode 等细节差异。

Q:模型版本升级要不要自动跟进?

不要无脑 latest。新版本在 Eval 集回归通过后再切;保留上一版本 alias 至少一个发布周期,便于回滚。

本节小结

国产模型生态已覆盖通用对话、推理、Embedding 与多模态;DeepSeek V3/R1 分别对应通用与推理场景。选型应基于真实任务的 Eval,从任务、成本、合规、生态四维权衡,并设计主备降级与 Provider 抽象。最大或最新不一定最合适;持续复盘账单与质量才是长期做法。