深度学习数学

🎯 学习目标
建立「模型是可训练函数」的心智模型
知道损失、梯度下降、Attention 在讲什么
明确应用开发无需手推公式

引言

只保留概念层，避免拖慢应用工程主线。训练细节交给 ML 工程师；你要会选型、会 Eval、会 RAG。

预训练 → SFT → RLHF 是同一套「调参数降损失」，数据与目标不同（见 1.4）。

LLM = Decoder-only Transformer + 自回归预测下一 token。

你不需要算梯度，但需要知道：

想深入训练：9.x + 专门 DL 课程。

损失+梯度=训练；Attention=Transformer 核心；应用工程师重 Eval/RAG，不重手推公式。