Skip to content

深度学习数学

🎯 学习目标

  • 建立「模型是可训练函数」的心智模型
  • 知道损失、梯度下降、Attention 在讲什么
  • 明确应用开发无需手推公式

引言

只保留概念层,避免拖慢应用工程主线。训练细节交给 ML 工程师;你要会选型、会 Eval、会 RAG。

章节正文

第 1 步:训练在做什么

  1. 损失函数:预测与标签的差距(如交叉熵)
  2. 梯度下降:沿梯度反方向微调参数,使损失下降
  3. 神经网络:多层非线性变换堆叠

预训练 → SFT → RLHF 是同一套「调参数降损失」,数据与目标不同(见 1.4)。

第 2 步:CNN、RNN、Attention

  • CNN:卷积核扫图像,擅长视觉
  • RNN/LSTM:按时间步处理序列,长依赖难(已基本被 Transformer 取代)
  • Attention:对每个 token 学习「该看哪里」,Transformer 核心

LLM = Decoder-only Transformer + 自回归预测下一 token。

第 3 步:与应用的关系

你不需要算梯度,但需要知道:

  • 温度影响采样分布(2.2)
  • Embedding 是语义向量(1.3、4.4)
  • 窗口长度是硬限制(1.3)

想深入训练:9.x + 专门 DL 课程。

动手练习

  1. 用一句话向同事解释「为什么 RAG 比微调更适合更新 FAQ」
  2. 列出 3 个你在应用层关心的概念(Token、Embedding、…)

本节小结

损失+梯度=训练;Attention=Transformer 核心;应用工程师重 Eval/RAG,不重手推公式。