深度学习数学
🎯 学习目标
- 建立「模型是可训练函数」的心智模型
- 知道损失、梯度下降、Attention 在讲什么
- 明确应用开发无需手推公式
引言
只保留概念层,避免拖慢应用工程主线。训练细节交给 ML 工程师;你要会选型、会 Eval、会 RAG。
章节正文
第 1 步:训练在做什么
- 损失函数:预测与标签的差距(如交叉熵)
- 梯度下降:沿梯度反方向微调参数,使损失下降
- 神经网络:多层非线性变换堆叠
预训练 → SFT → RLHF 是同一套「调参数降损失」,数据与目标不同(见 1.4)。
第 2 步:CNN、RNN、Attention
- CNN:卷积核扫图像,擅长视觉
- RNN/LSTM:按时间步处理序列,长依赖难(已基本被 Transformer 取代)
- Attention:对每个 token 学习「该看哪里」,Transformer 核心
LLM = Decoder-only Transformer + 自回归预测下一 token。
第 3 步:与应用的关系
你不需要算梯度,但需要知道:
- 温度影响采样分布(2.2)
- Embedding 是语义向量(1.3、4.4)
- 窗口长度是硬限制(1.3)
想深入训练:9.x + 专门 DL 课程。
动手练习
- 用一句话向同事解释「为什么 RAG 比微调更适合更新 FAQ」
- 列出 3 个你在应用层关心的概念(Token、Embedding、…)
本节小结
损失+梯度=训练;Attention=Transformer 核心;应用工程师重 Eval/RAG,不重手推公式。