Skip to content

行业定制

🎯 学习目标

  • 完成选型 → 数据清洗 → SFT → Eval → 部署闭环认知
  • 建立领域 benchmark 与人工评估流程
  • 规划增量数据与灾难性遗忘 mitigation

引言

行业定制不是「下载模型开训」,而是数据工程 + 评估 + 部署一体化项目。

章节正文

第 1 步:端到端流程

  1. 选型:Qwen2.5、Llama 3、DeepSeek 等(中文场景优先测中文榜)
  2. 数据:清洗、去重、PII 脱敏、合规审查
  3. 训练:SFT → 可选 DPO/RLHF
  4. 评估:领域 benchmark + 人工盲测
  5. 部署:vLLM + 量化
  6. 迭代:新数据增量训练,监控遗忘

第 2 步:数据质量

几百条人工审核 > 万条爬虫噪声。

检查清单:

  • [ ] 无 PII 泄露
  • [ ] 无错误标签
  • [ ] 格式与线上一致
  • [ ] 覆盖长尾 case

第 3 步:部署

bash
vllm serve ./merged-model --quantization awq --max-model-len 8192

与 LangChain ChatOpenAI(base_url=...) 对接,应用层无感切换。

动手练习

  1. 为你领域写 5 条 benchmark 问答题
  2. 列出数据合规审查 4 项

本节小结

行业定制 = 高质量数据 + SFT/LoRA + 领域 Eval + vLLM 部署;持续迭代防遗忘。