Skip to content

训练推理优化

🎯 学习目标

  • 了解 DDP、FSDP、DeepSpeed 分工
  • 理解 FP16/BF16 与 Flash Attention 的收益
  • 应用工程师掌握 GPTQ/AWQ 量化与 vLLM 推理

引言

训练优化多由 ML 平台团队负责;应用工程师应熟悉推理侧量化与批处理降本。

章节正文

第 1 步:训练侧(概念)

  • DDP:数据并行
  • FSDP / DeepSpeed ZeRO:分片参数降显存
  • 混合精度:BF16 训练
  • Flash Attention:更快更省显存的 attention kernel

第 2 步:推理优化

手段效果
INT8/INT4 量化显存↓、吞吐↑,略损精度
GPTQ / AWQ权重量化方案
连续 batchingvLLM 提高 GPU 利用率
KV Cache长对话加速

应用层:优先 API 提供的量化模型;自托管用 vLLM + AWQ。

动手练习

  1. 对比同一模型 fp16 vs awq 的 tokens/s(若有 GPU)
  2. 列出你项目推理成本占训练成本的比例(通常 100% 推理)

本节小结

训练用分布式+混合精度;应用侧重 vLLM+量化+批处理;不必深入剪枝等研究向优化。