训练推理优化

🎯 学习目标
了解 DDP、FSDP、DeepSpeed 分工
理解 FP16/BF16 与 Flash Attention 的收益
应用工程师掌握 GPTQ/AWQ 量化与 vLLM 推理

引言

训练优化多由 ML 平台团队负责；应用工程师应熟悉推理侧量化与批处理降本。

应用层：优先 API 提供的量化模型；自托管用 vLLM + AWQ。

训练用分布式+混合精度；应用侧重 vLLM+量化+批处理；不必深入剪枝等研究向优化。