中文
神经网络矩阵微积分:从 y = Wx + b 推导 MSE 梯度
深度学习里的“矩阵微积分”不是为了把公式写复杂,而是为了让你检查每一层的维度、梯度方向和代码实现。只要能把 y_hat = Wx + b 的梯度手算清楚,后面的反向传播、卷积和注意力都会更容易落地。
这一篇从一个线性层开始:输入是列向量,参数是矩阵,损失是均方误差。我们用真实脚本做数值梯度检查,确认手算公式和代码输出一致。
一、先把形状写出来
设输入 x 是 3 x 1,权重 W 是 2 x 3,偏置 b 是 2 x 1:
y_hat = W x + b
e = y_hat - y
L = 1/2 * e^T e
这里的核心不是记住符号,而是检查形状:W x 得到 2 x 1,所以 e 也是 2 x 1。梯度 dL/dW 必须和 W 同形状,也就是 2 x 3。
二、手算一个梯度
对 L = 1/2 * e^T e,先有 dL/de = e。又因为 e = Wx + b - y,所以:
dL/dW = e x^T
dL/db = e
假设某次前向计算得到 e = [0.2, 1.25]^T,输入 x = [1.5, -2.0, 0.5]^T,那么:
dL/dW =
[0.2 ] [ 1.5, -2.0, 0.5 ] = [ 0.300, -0.400, 0.100 ]
[1.25] [ 1.875, -2.500, 0.625 ]
这个结果和实验包里的 gradient-check-results.csv 一致:W00=0.300000、W11=-2.500000,数值梯度差异为 0.000000。
三、用有限差分检查代码
数值梯度检查的思想是:稍微增加和减少一个参数,看 loss 的变化率是否等于解析梯度。
def numeric_gradient(W, b, x, y, eps=1e-5):
grad = np.zeros_like(W)
for row in range(W.shape[0]):
for col in range(W.shape[1]):
original = W[row, col]
W[row, col] = original + eps
plus, _ = forward(W, b, x, y)
W[row, col] = original - eps
minus, _ = forward(W, b, x, y)
W[row, col] = original
grad[row, col] = (plus - minus) / (2 * eps)
return grad
如果解析梯度和数值梯度差距很大,通常不是优化器问题,而是链式法则、广播、转置或 shape 写错了。
四、动画看什么
e 和 x^T 的外积展开成 dL/dW 的每个元素。看动画时重点观察三件事:误差向量控制输出维度,输入转置控制输入维度,外积刚好填满权重矩阵。
五、工程检查清单
- 每个中间张量先写 shape,再写公式。
- loss 最好先用
1/2系数,手算时可以消掉平方的2。 - 广播虽然方便,但调试梯度时要明确偏置是列向量还是一维数组。
- 小模型先跑数值梯度检查,再上批量训练和复杂网络。
下一篇会把这个线性层接入计算图,继续推导两层 MLP 的反向传播。
英文
Matrix Calculus for Neural Networks: Deriving the MSE Gradient
在独立页面打开Matrix calculus in deep learning is not about making notation look difficult. It is a way to verify tensor shapes, gradient directions, and code. Once you can derive the gradient of y_hat = Wx + b, backpropagation, convolution, and attention become much easier to debug.
This article starts with a single linear layer, a mean squared error loss, and a deterministic gradient check. The goal is to connect the formula, the hand calculation, and the runnable NumPy output.
1. Start With Shapes
Let x be a 3 x 1 column vector, W a 2 x 3 matrix, and b a 2 x 1 bias:
y_hat = W x + b
e = y_hat - y
L = 1/2 * e^T e
The important habit is shape checking. Wx is 2 x 1, so the error vector e is also 2 x 1. The gradient dL/dW must have the same shape as W, namely 2 x 3.
2. Hand Calculate One Gradient
For L = 1/2 * e^T e, we first get dL/de = e. Since e = Wx + b - y, the parameter gradients are:
dL/dW = e x^T
dL/db = e
Suppose the forward pass gives e = [0.2, 1.25]^T and x = [1.5, -2.0, 0.5]^T. Then:
dL/dW =
[0.2 ] [ 1.5, -2.0, 0.5 ] = [ 0.300, -0.400, 0.100 ]
[1.25] [ 1.875, -2.500, 0.625 ]
The companion lab writes the same numbers to gradient-check-results.csv: W00=0.300000, W11=-2.500000, and the finite-difference error is 0.000000.
3. Check With Finite Differences
Finite differences perturb one parameter at a time and estimate the loss slope from the change in loss.
def numeric_gradient(W, b, x, y, eps=1e-5):
grad = np.zeros_like(W)
for row in range(W.shape[0]):
for col in range(W.shape[1]):
original = W[row, col]
W[row, col] = original + eps
plus, _ = forward(W, b, x, y)
W[row, col] = original - eps
minus, _ = forward(W, b, x, y)
W[row, col] = original
grad[row, col] = (plus - minus) / (2 * eps)
return grad
Large disagreement usually points to a chain-rule, transpose, broadcasting, or shape bug rather than an optimizer problem.
4. What The Animation Shows
e x^T into the entries of dL/dW.Watch how the error vector controls the output dimension, the input transpose controls the input dimension, and their outer product fills the weight matrix.
5. Engineering Checklist
- Write the shape before writing the formula.
- Use the
1/2factor in MSE while hand-checking gradients. - Make bias broadcasting explicit during debugging.
- Run numerical checks on a tiny model before training a larger one.
The next article turns this linear layer into a computation graph and derives two-layer MLP backpropagation.
深度学习里的“矩阵微积分”不是为了把公式写复杂,而是为了让你检查每一层的维度、梯度方向和代码实现。只要能把 y_hat = Wx + b 的梯度手算清楚,后面的反向传播、卷积和注意力都会更容易落地。
这一篇从一个线性层开始:输入是列向量,参数是矩阵,损失是均方误差。我们用真实脚本做数值梯度检查,确认手算公式和代码输出一致。
一、先把形状写出来
设输入 x 是 3 x 1,权重 W 是 2 x 3,偏置 b 是 2 x 1:
y_hat = W x + b
e = y_hat - y
L = 1/2 * e^T e
这里的核心不是记住符号,而是检查形状:W x 得到 2 x 1,所以 e 也是 2 x 1。梯度 dL/dW 必须和 W 同形状,也就是 2 x 3。
二、手算一个梯度
对 L = 1/2 * e^T e,先有 dL/de = e。又因为 e = Wx + b - y,所以:
dL/dW = e x^T
dL/db = e
假设某次前向计算得到 e = [0.2, 1.25]^T,输入 x = [1.5, -2.0, 0.5]^T,那么:
dL/dW =
[0.2 ] [ 1.5, -2.0, 0.5 ] = [ 0.300, -0.400, 0.100 ]
[1.25] [ 1.875, -2.500, 0.625 ]
这个结果和实验包里的 gradient-check-results.csv 一致:W00=0.300000、W11=-2.500000,数值梯度差异为 0.000000。
三、用有限差分检查代码
数值梯度检查的思想是:稍微增加和减少一个参数,看 loss 的变化率是否等于解析梯度。
def numeric_gradient(W, b, x, y, eps=1e-5):
grad = np.zeros_like(W)
for row in range(W.shape[0]):
for col in range(W.shape[1]):
original = W[row, col]
W[row, col] = original + eps
plus, _ = forward(W, b, x, y)
W[row, col] = original - eps
minus, _ = forward(W, b, x, y)
W[row, col] = original
grad[row, col] = (plus - minus) / (2 * eps)
return grad
如果解析梯度和数值梯度差距很大,通常不是优化器问题,而是链式法则、广播、转置或 shape 写错了。
四、动画看什么
e 和 x^T 的外积展开成 dL/dW 的每个元素。看动画时重点观察三件事:误差向量控制输出维度,输入转置控制输入维度,外积刚好填满权重矩阵。
五、工程检查清单
- 每个中间张量先写 shape,再写公式。
- loss 最好先用
1/2系数,手算时可以消掉平方的2。 - 广播虽然方便,但调试梯度时要明确偏置是列向量还是一维数组。
- 小模型先跑数值梯度检查,再上批量训练和复杂网络。
下一篇会把这个线性层接入计算图,继续推导两层 MLP 的反向传播。
搜索问题
常见问题
这篇文章适合谁读?
这篇文章适合想用 进阶 难度理解“神经网络矩阵微积分:从 y = Wx + b 推导 MSE 梯度”的读者,预计阅读时间约 13 分钟,重点覆盖 Matrix Calculus, NumPy, Gradient Check。
读完后下一步应该看什么?
推荐下一步阅读“反向传播计算图:两层 MLP 的前向、局部梯度和反向传播”,这样可以把当前知识点接到更完整的学习路线里。
这篇文章有没有可运行代码或配套资源?
有。页面里的运行说明、资源卡片和下载入口会指向复现实验所需的命令、数据、代码或说明文件。
这篇文章和整个网站的学习路线有什么关系?
它会通过文章上下文、学习路线、资源库和项目时间线连接到同一主题下的其他内容。
文章上下文
人工智能项目
从 AI、机器学习、训练评估、神经网络到 Python 小实战、手写数字识别、CIFAR-10 CNN、对抗性流量防御和 AI 安全攻防,按顺序建立基础。
配套资源
人工智能项目 / GUIDE
Deep Learning Math Lab 说明
包含安装命令、脚本入口、输出结果和文章图示生成说明。
人工智能项目 / DATASET
梯度检查结果 CSV
保存 MSE 梯度解析值、数值差分值和误差范数。
人工智能项目 / DIAGRAM
深度学习数学图示目录
包含矩阵形状、计算图、loss contour、卷积扫描和 attention heatmap。
人工智能项目 / TOOL
深度学习数学交互演示
在浏览器里调梯度检查、优化轨迹、卷积输出尺寸和 attention 权重热图。
项目时间线
已发布文章
- 人工智能基础学习路线:先理解什么是 AI、机器学习和深度学习 面向有编程基础的读者,梳理 AI、机器学习、深度学习的关系,并给出可执行的人工智能基础学习路线。
- 机器学习完整流程:从数据、特征到模型预测 从工程视角拆解机器学习完整流程:定义问题、理解数据、处理特征、训练模型、预测和评估。
- 机器学习算法怎么选:分类、回归、聚类和推荐场景对照表 用任务类型、数据规模、解释性和部署成本选择机器学习算法,覆盖逻辑回归、决策树、随机森林、K-means 和表格数据基线模型。
- 特征工程入门实战:用 scikit-learn 处理缺失值、类别变量和数值标准化 用 scikit-learn Pipeline 和 ColumnTransformer 完成特征工程,处理缺失值、类别变量、数值标准化,并避免数据泄漏。
- 模型训练与评估入门:损失函数、过拟合和准确率怎么理解 讲清楚模型训练中的参数、损失函数、梯度下降、过拟合,以及准确率、召回率、F1 等分类评估指标。
- 过拟合和欠拟合怎么解决:机器学习模型调优实战指南 用训练分数和验证分数判断过拟合与欠拟合,并通过模型复杂度、正则化、交叉验证和特征工程调整机器学习模型。
- 神经网络基础:从感知机到多层网络 从一个神经元讲起,解释权重、偏置、激活函数、前向传播、反向传播和典型神经网络训练循环。
- 神经网络矩阵微积分:从 y = Wx + b 推导 MSE 梯度 用手算、矩阵形状图、NumPy 代码和梯度检查解释 y = Wx + b 下 dL/dW = (ŷ - y)x^T 的来源。
- 反向传播计算图:两层 MLP 的前向、局部梯度和反向传播 把两层 MLP 拆成计算图,手算 ReLU、softmax cross-entropy、dW2、dW1,并用 NumPy 复现实验结果。
- 梯度下降与优化器几何:Momentum、Adam 和 loss surface 轨迹 在二维二次函数上手算梯度下降前几步,比较 Momentum 和 Adam 的轨迹,并用代码生成 loss contour。
- 卷积与感受野数学:5×5 输入、3×3 kernel、padding 和 im2col 手算一次 5x5 输入与 3x3 kernel 的离散卷积,解释输出尺寸、padding、stride、感受野和 im2col。
- Transformer Attention 数学:Q/K/V、Softmax 权重、Mask 与 KV Cache 用 3 个 token 手算 scaled dot-product attention,解释 Q/K/V、softmax、mask、多头注意力和 KV cache。
- Python 人工智能小实战:用 scikit-learn 完成一个分类任务 使用 scikit-learn 内置教学数据集跑通一个分类任务,覆盖数据加载、拆分、标准化、训练、预测、评估和实验记录。
- 手写数字识别项目入门:先读懂 train.csv、test.csv 和标签结构 从项目文件结构入手,读懂手写数字训练集、测试集、标签列和 784 维像素输入,为后续 C 分类器和实验台打基础。
- 用 C 实现手写数字 Softmax 分类器:从 784 维像素到 submission.csv 结合当前项目源码,讲清楚 softmax 多分类、损失函数、梯度更新、混淆矩阵输出,以及 submission.csv 的生成过程。
- 手写数字实验记录:怎么把离线分类项目接进浏览器实验台 解释浏览器实验台为什么采用轻量预训练模型、它和离线 C 项目的关系,以及如何用样本浏览和手绘输入理解预测结果。
- CIFAR-10 Tiny CNN 教程:用 C 语言实现小型卷积神经网络图像分类 用单文件 C 程序完成 CIFAR-10 小型 CNN 图像分类,讲解数据格式、网络结构、训练命令、loss、accuracy、常见错误和改进方向。
- 构建高熵流量防御:基于 Python 的连接层白噪声混淆与对抗性机器学习实践 以 mld_chaffing_v2.py 虚幻镜项目为例,讲解加密元数据泄漏、信息熵、分布距离、混淆矩阵、空闲窗口微脉冲和性能测试取舍。
- AI 安全威胁建模:用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图 用 NIST Adversarial ML、MITRE ATLAS 和 OWASP LLM Top 10 建立 AI 安全威胁模型,覆盖资产、攻击面、证据和剩余风险。
- 对抗样本与鲁棒评估:从 FGSM 公式到 scikit-learn 数字分类实验 从 FGSM 公式解释对抗样本,用 scikit-learn digits toy 实验评估 clean accuracy、perturbed accuracy 和扰动预算。
- 数据投毒与后门攻击防御:污染率、触发器和训练管线隔离 用 toy digits 实验解释数据投毒、后门触发器、attack success rate、数据来源审计和训练管线隔离。
- 模型隐私与模型窃取风险:成员推断、模型抽取和输出接口防护 用本地 toy 实验解释成员推断、模型抽取、membership AUC、surrogate fidelity、输出最小化和查询治理。
- LLM/RAG/Agent 安全:Prompt Injection、工具权限和边界感知防护 从 RAG 和 Agent 架构解释 prompt injection、外部数据降权、工具 allowlist、人工审批和边界感知防护。
- 人工智能 NLP 基础:词袋模型与 TF-IDF 详解 介绍自然语言处理中最基础的文本表示方法:词袋模型(Bag of Words)与 TF-IDF,理解它们的工作原理及优缺点。
- 循环神经网络 (RNN) 基础:处理序列数据的记忆力 理解 RNN 的核心思想、隐藏状态的作用,以及它在处理自然语言序列任务时的优势与挑战。
- Transformer 与自注意力机制:AI 领域的革命性突破 深入浅出地讲解 Transformer 架构的核心:自注意力机制(Self-Attention)及其运作方式。
- 用 C 从零实现 CIFAR-10 Tiny CNN:卷积、池化和反向传播 基于实际 cifar10_tiny_cnn.c 项目,讲解 CIFAR-10 数据格式、3x3 卷积、ReLU、最大池化、全连接层、softmax、反向传播和本地运行方式。
已公开资源
- Python AI 小实战代码说明 文章内包含可直接复制运行的 scikit-learn 分类脚本。
- digit_softmax_classifier.c 手写数字 softmax 分类器的 C 语言源码。
- train.csv.zip 手写数字训练集压缩包,包含 42000 条带标签样本。
- test.csv.zip 手写数字测试集压缩包,包含 28000 条待预测样本。
- sample_submission.csv 官方提交格式示例,可直接对照最终输出字段。
- submission.csv 当前 C 项目跑出的预测结果文件。
- digit-playground-model.json 浏览器实验台使用的轻量 softmax 演示模型与样本。
- digit-sample-grid.svg 从训练集中抽取的小型手写数字预览网格。
- 手写数字项目打包下载 包含源码、压缩数据、提交文件、浏览器模型和样本预览图。
- cifar10_tiny_cnn.c 源码 单文件 C 语言 tiny CNN,包含 CIFAR-10 读取、卷积、池化、softmax 和反向传播。
- model_weights.bin 样例权重 一次本地小样本运行生成的模型权重文件。
- test_predictions.csv 预测样例 CIFAR-10 tiny CNN 输出的测试预测样例。
- CNN 项目说明 PDF 配套 CNN 项目说明材料。
- 虚幻镜脱敏代码骨架 去除控制口令、真实节点和目标列表后的 mld_chaffing_v2.py 控制流程说明。
- 虚幻镜压力测试记录模板 用于记录 CPU、内存、线程峰值、微脉冲速率、延迟和错误数的脱敏 CSV 模板。
- 虚幻镜分类器评估模板 用于记录 TP、FN、FP、TN、accuracy、precision、recall、F1、ROC-AUC、熵和 JS 散度的 CSV 模板。
- 虚幻镜资源说明 说明公开资源为何只提供脱敏代码、测试模板和架构笔记。
- AI Security Lab 说明 说明 AI 安全攻防系列的安全边界、安装命令和 quick-run 实验。
- AI Security Lab 完整实验包 包含安全 toy scripts、结果 CSV、风险登记表、攻防矩阵和架构图。
- AI 安全风险登记表 面向 AI 威胁建模和上线评审的 CSV 风险登记模板。
- AI 攻防矩阵 把攻击面、toy demo、指标和防护控制映射到一张 CSV 表。
- AI Security Lab 架构图 展示威胁建模、鲁棒评估、数据完整性、模型隐私和 RAG 防护之间的关系。
- FGSM digits 鲁棒评估脚本 本地 digits 分类器的 FGSM-style 扰动和准确率下降实验。
- 数据投毒与后门 toy 脚本 用 digits 数据演示污染率、触发器和 attack success rate。
- 模型隐私与抽取 toy 脚本 输出 membership AUC、target accuracy、surrogate fidelity 和 surrogate accuracy。
- RAG prompt injection guard toy 脚本 用确定性 toy agent 演示外部数据降权和工具权限阻断。
- Deep Learning Math Lab 说明 包含安装命令、脚本入口、输出结果和文章图示生成说明。
- 深度学习数学完整实验包 打包 NumPy 脚本、CSV 结果、公式图、loss contour、卷积图和 attention 热图。
- 梯度检查结果 CSV 保存 MSE 梯度解析值、数值差分值和误差范数。
- 优化器轨迹 CSV 记录梯度下降、Momentum 和 Adam 在二维二次函数上的逐步坐标与 loss。
- Attention 权重 CSV 三 token scaled dot-product attention 的 scores、softmax weights 和 context 输出。
- 深度学习数学图示目录 包含矩阵形状、计算图、loss contour、卷积扫描和 attention heatmap。
- 深度学习数学交互演示 在浏览器里调梯度检查、优化轨迹、卷积输出尺寸和 attention 权重热图。
- 深度学习专题分享图 用于分享深度学习 / CNN 专题页的 1200x630 SVG 图。
- 从零实现机器学习分享图 用于分享 K-means、Iris 和机器学习流程专题页的 1200x630 SVG 图。
- 学生 AI 项目分享图 用于分享手写数字、C 分类器和浏览器实验台专题页的 1200x630 SVG 图。
- CNN 卷积扫描动画 Remotion 生成的 8 秒短动画,展示 3x3 卷积核如何扫描输入并形成特征图。
当前学习路线
- 人工智能基础学习路线 学习路线节点
- 机器学习完整流程 学习路线节点
- 机器学习算法怎么选 学习路线节点
- 特征工程入门实战 学习路线节点
- 模型训练与评估入门 学习路线节点
- 过拟合和欠拟合怎么解决 学习路线节点
- 神经网络基础 学习路线节点
- 神经网络矩阵微积分 学习路线节点
- 反向传播计算图 学习路线节点
- 梯度下降与优化器几何 学习路线节点
- 卷积与感受野数学 学习路线节点
- Transformer Attention 数学 学习路线节点
- Transformer 自注意力机制 学习路线节点
- LLM 可视化教学台 学习路线节点
- Python 人工智能小实战 学习路线节点
- 手写数字数据结构入门 学习路线节点
- 用 C 实现手写数字 Softmax 分类器 学习路线节点
- 手写数字实验台说明 学习路线节点
- CIFAR-10 Tiny CNN 教程 学习路线节点
- 高熵流量防御实验 学习路线节点
- AI 安全威胁建模 学习路线节点
- 对抗样本与鲁棒评估 学习路线节点
- 数据投毒与后门防御 学习路线节点
- 模型隐私与模型抽取防护 学习路线节点
- LLM/RAG/Agent 安全 学习路线节点
下一步计划
- 补充更多图像分类和误差分析案例
- 把常见指标整理成速查表
- 继续补充 AI 安全防御实验记录
