行业定制
🎯 学习目标
- 完成选型 → 数据清洗 → SFT → Eval → 部署闭环认知
- 建立领域 benchmark 与人工评估流程
- 规划增量数据与灾难性遗忘 mitigation
引言
行业定制不是「下载模型开训」,而是数据工程 + 评估 + 部署一体化项目。
章节正文
第 1 步:端到端流程
- 选型:Qwen2.5、Llama 3、DeepSeek 等(中文场景优先测中文榜)
- 数据:清洗、去重、PII 脱敏、合规审查
- 训练:SFT → 可选 DPO/RLHF
- 评估:领域 benchmark + 人工盲测
- 部署:vLLM + 量化
- 迭代:新数据增量训练,监控遗忘
第 2 步:数据质量
几百条人工审核 > 万条爬虫噪声。
检查清单:
- [ ] 无 PII 泄露
- [ ] 无错误标签
- [ ] 格式与线上一致
- [ ] 覆盖长尾 case
第 3 步:部署
bash
vllm serve ./merged-model --quantization awq --max-model-len 8192与 LangChain ChatOpenAI(base_url=...) 对接,应用层无感切换。
动手练习
- 为你领域写 5 条 benchmark 问答题
- 列出数据合规审查 4 项
本节小结
行业定制 = 高质量数据 + SFT/LoRA + 领域 Eval + vLLM 部署;持续迭代防遗忘。