神经网络基础教程：感知机、激活函数和反向传播

Q: 这篇文章适合谁读？

这篇文章适合想用 进阶 难度理解“神经网络基础：从感知机到多层网络”的读者，预计阅读时间约 8 分钟，重点覆盖 Neural Networks, Backpropagation, Python。

阅读信息

难度: 进阶阅读时间: 8 分钟

Neural Networks
Backpropagation
Python

打开知识图谱

中文

神经网络基础：从感知机到多层网络

神经网络经常被包装成很复杂的东西，但从入门角度看，可以先把它理解成一种可训练的函数组合：每一层做一次变换，多层连起来，就能表达更复杂的关系。

这篇文章从感知机讲起，逐步解释神经元、权重、激活函数、前向传播和反向传播的基本直觉。目标不是推完所有公式，而是让你能读懂神经网络训练代码的大体结构。

读这篇时可以先抓住一个主线：神经网络先用当前参数做预测，再根据损失反向更新参数。

一、从一个神经元开始

一个最简单的神经元可以写成：

z = w1 * x1 + w2 * x2 + ... + b
output = activation(z)

这里：

x 是输入特征
w 是权重
b 是偏置
activation 是激活函数

如果没有激活函数，多层线性变换叠在一起仍然可以合并成一个线性变换。激活函数的意义是给网络加入非线性表达能力。

二、感知机能做什么

感知机可以看成早期的简单神经网络。它根据输入特征加权求和，再通过阈值得到分类结果。

if w1 * x1 + w2 * x2 + b > 0:
    predict 1
else:
    predict 0

这个模型能解决线性可分问题，也就是可以用一条线、一个平面或更高维超平面分开的数据。

但现实中的关系往往不是线性的，所以我们需要多层网络和非线性激活函数。

三、层是什么

神经网络里的一层，就是把一组输入同时送入多个神经元，得到一组输出。常见结构包括：

输入层：接收原始特征
隐藏层：中间的特征变换层
输出层：输出分类概率或预测数值

一个简单的多层网络可以表示成：

输入特征 -> 隐藏层 1 -> 隐藏层 2 -> 输出层

每一层都有自己的权重和偏置。训练时，模型会同时调整这些参数。

四、前向传播是什么

前向传播就是从输入开始，一层一层算到输出。

x -> layer1 -> activation -> layer2 -> activation -> output

在代码里，前向传播通常对应模型的 forward 函数。它回答的是：

给定当前参数和一批输入，模型会预测什么？

训练和预测都会用到前向传播。区别是训练时还要根据预测误差更新参数。

五、反向传播的直觉

反向传播用于计算每个参数对损失的影响。直觉上，它要回答：

如果这个权重稍微变大或变小，最终损失会怎么变化？

有了这个信息，优化器就可以更新参数，让损失下降。

预测输出 -> 计算损失 -> 反向传播梯度 -> 更新参数

你不需要一开始手写反向传播。PyTorch、TensorFlow 这类框架会自动完成梯度计算。但你需要知道训练循环为什么会有 loss.backward() 和 optimizer.step() 这类步骤。

六、一个典型训练循环

用伪代码表示，神经网络训练通常长这样：

for epoch in range(num_epochs):
    for X_batch, y_batch in train_loader:
        y_pred = model(X_batch)
        loss = loss_fn(y_pred, y_batch)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

这段代码可以拆成五步：

取一批训练数据
前向传播得到预测
计算预测和真实标签之间的损失
反向传播计算梯度
优化器根据梯度更新参数

七、深度学习为什么需要更多数据和算力

神经网络的表达能力很强，但代价也很明显：

参数多，容易过拟合
训练通常需要更多数据
调参空间更大
训练速度更依赖硬件

这也是为什么入门时建议先学传统机器学习流程。你先掌握数据、特征、训练和评估，再进入神经网络，会更容易判断模型到底有没有学到可泛化的规律。

八、神经网络和大模型的关系

大语言模型、图像生成模型、语音识别模型，本质上都属于深度学习系统。它们通常使用更复杂的网络结构、更大的数据集和更长的训练过程。

但无论模型多大，基础问题仍然相似：

输入如何表示成数字
模型结构如何把输入变成输出
损失函数如何衡量预测错误
训练过程如何更新参数
评估方式是否能反映真实使用效果

所以，理解神经网络基础不是为了马上训练大模型，而是为了看懂现代 AI 系统背后的共同语言。

九、初学者容易误解的点

刚接触神经网络时，下面几个误解很常见：

以为层数越多一定越好，忽略数据量、过拟合和训练成本
把激活函数当成可有可无的细节，没有理解非线性的作用
只关注模型结构，不关注损失函数和评估指标
看到训练集 loss 下降就认为模型已经可靠

神经网络的强大来自表达能力，但可靠性仍然要靠数据划分、评估和错误分析来确认。

十、下一步读什么

上一篇是模型训练与评估入门。如果你想把前面几篇串成一次完整练习，可以继续读 Python 人工智能小实战。

英文

Neural Network Basics: From Perceptrons to Multi-Layer Networks

在独立页面打开

Neural networks are often presented as complicated systems, but the entry-level view can be simple: a neural network is a trainable composition of functions. Each layer transforms its input, and multiple layers together can represent more complex relationships.

This article starts with a single neuron and explains weights, bias, activation functions, forward propagation, and the intuition behind backpropagation. The goal is not to derive every formula, but to make neural network training code easier to read.

While reading, keep one main loop in mind: the network predicts with current parameters, measures loss, then updates parameters in the direction that reduces loss.

1. Start With One Neuron

A simple neuron can be written as:

z = w1 * x1 + w2 * x2 + ... + b
output = activation(z)

The parts are:

x: input features
w: weights
b: bias
activation: an activation function

Without activation functions, multiple linear layers can still be collapsed into one linear transformation. Activation functions give the network nonlinear expressive power.

2. What a Perceptron Can Do

A perceptron can be viewed as an early simple neural network. It computes a weighted sum of inputs, then applies a threshold to produce a class label.

if w1 * x1 + w2 * x2 + b > 0:
    predict 1
else:
    predict 0

This can solve linearly separable problems, where classes can be separated by a line, plane, or higher-dimensional hyperplane.

Real data often contains nonlinear relationships, so we need multi-layer networks and nonlinear activation functions.

3. What Is a Layer?

A layer sends a group of inputs through multiple neurons and returns a group of outputs. Common layer roles include:

Input layer: receives raw features
Hidden layer: performs intermediate transformations
Output layer: returns class probabilities or numeric predictions

A small multi-layer network can be represented as:

input features -> hidden layer 1 -> hidden layer 2 -> output layer

Each layer has its own weights and biases. Training adjusts these parameters together.

4. Forward Propagation

Forward propagation means computing from input to output, layer by layer.

x -> layer1 -> activation -> layer2 -> activation -> output

In code, this usually corresponds to a model's forward function. It answers:

Given the current parameters and a batch of input, what does the model predict?

Both training and inference use forward propagation. During training, the prediction is also used to compute loss and update parameters.

5. The Intuition Behind Backpropagation

Backpropagation calculates how each parameter affects the loss. Intuitively, it asks:

If this weight became slightly larger or smaller, how would the final loss change?

With that information, an optimizer can update parameters in a direction that reduces loss.

prediction -> compute loss -> backpropagate gradients -> update parameters

You do not need to hand-write backpropagation at the beginning. Frameworks such as PyTorch and TensorFlow compute gradients automatically. But you should understand why training code contains steps such as loss.backward() and optimizer.step().

6. A Typical Training Loop

In pseudocode, neural network training often looks like this:

for epoch in range(num_epochs):
    for X_batch, y_batch in train_loader:
        y_pred = model(X_batch)
        loss = loss_fn(y_pred, y_batch)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

The loop can be read as five steps:

Take a batch of training data
Run forward propagation to get predictions
Compute loss against the true labels
Backpropagate gradients
Let the optimizer update parameters

7. Why Deep Learning Needs More Data and Compute

Neural networks can express complex patterns, but the cost is real:

They have many parameters and can overfit
They usually need more data
They have a larger tuning space
Training speed depends more heavily on hardware

This is why it is useful to learn the traditional machine learning workflow first. Once data, features, training, and evaluation are clear, neural networks become easier to reason about.

8. Neural Networks and Large Models

Large language models, image generation systems, and speech recognition systems are deep learning systems. They use more complex architectures, larger datasets, and longer training processes.

Even when the model is large, the foundation questions remain similar:

How is input represented as numbers?
How does the model transform input into output?
How does the loss function measure prediction error?
How does training update parameters?
Does the evaluation method reflect real use?

Learning neural network basics is not only about training a network immediately. It gives you the shared language behind modern AI systems.

9. Common Beginner Misunderstandings

When first learning neural networks, these misunderstandings are common:

Assuming more layers are always better while ignoring data size, overfitting, and training cost
Treating activation functions as minor details instead of understanding their nonlinear role
Focusing only on architecture while ignoring the loss function and evaluation metrics
Assuming the model is reliable just because training loss goes down

Neural networks are powerful because of their expressive capacity, but reliability still depends on data splits, evaluation, and error analysis.

10. What to Read Next

The previous article is Model Training and Evaluation. To connect the whole series in one runnable exercise, continue with Python AI Mini Practice.

读这篇时可以先抓住一个主线：神经网络先用当前参数做预测，再根据损失反向更新参数。

一、从一个神经元开始

一个最简单的神经元可以写成：

z = w1 * x1 + w2 * x2 + ... + b
output = activation(z)

这里：

x 是输入特征
w 是权重
b 是偏置
activation 是激活函数

如果没有激活函数，多层线性变换叠在一起仍然可以合并成一个线性变换。激活函数的意义是给网络加入非线性表达能力。

二、感知机能做什么

感知机可以看成早期的简单神经网络。它根据输入特征加权求和，再通过阈值得到分类结果。

if w1 * x1 + w2 * x2 + b > 0:
    predict 1
else:
    predict 0

这个模型能解决线性可分问题，也就是可以用一条线、一个平面或更高维超平面分开的数据。

但现实中的关系往往不是线性的，所以我们需要多层网络和非线性激活函数。

三、层是什么

神经网络里的一层，就是把一组输入同时送入多个神经元，得到一组输出。常见结构包括：

输入层：接收原始特征
隐藏层：中间的特征变换层
输出层：输出分类概率或预测数值

一个简单的多层网络可以表示成：

输入特征 -> 隐藏层 1 -> 隐藏层 2 -> 输出层

每一层都有自己的权重和偏置。训练时，模型会同时调整这些参数。

四、前向传播是什么

前向传播就是从输入开始，一层一层算到输出。

x -> layer1 -> activation -> layer2 -> activation -> output

在代码里，前向传播通常对应模型的 forward 函数。它回答的是：

给定当前参数和一批输入，模型会预测什么？

训练和预测都会用到前向传播。区别是训练时还要根据预测误差更新参数。

五、反向传播的直觉

反向传播用于计算每个参数对损失的影响。直觉上，它要回答：

如果这个权重稍微变大或变小，最终损失会怎么变化？

有了这个信息，优化器就可以更新参数，让损失下降。

预测输出 -> 计算损失 -> 反向传播梯度 -> 更新参数

六、一个典型训练循环

用伪代码表示，神经网络训练通常长这样：

for epoch in range(num_epochs):
    for X_batch, y_batch in train_loader:
        y_pred = model(X_batch)
        loss = loss_fn(y_pred, y_batch)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

这段代码可以拆成五步：

取一批训练数据
前向传播得到预测
计算预测和真实标签之间的损失
反向传播计算梯度
优化器根据梯度更新参数

七、深度学习为什么需要更多数据和算力

神经网络的表达能力很强，但代价也很明显：

参数多，容易过拟合
训练通常需要更多数据
调参空间更大
训练速度更依赖硬件

八、神经网络和大模型的关系

大语言模型、图像生成模型、语音识别模型，本质上都属于深度学习系统。它们通常使用更复杂的网络结构、更大的数据集和更长的训练过程。

但无论模型多大，基础问题仍然相似：

输入如何表示成数字
模型结构如何把输入变成输出
损失函数如何衡量预测错误
训练过程如何更新参数
评估方式是否能反映真实使用效果

所以，理解神经网络基础不是为了马上训练大模型，而是为了看懂现代 AI 系统背后的共同语言。

九、初学者容易误解的点

刚接触神经网络时，下面几个误解很常见：

以为层数越多一定越好，忽略数据量、过拟合和训练成本
把激活函数当成可有可无的细节，没有理解非线性的作用
只关注模型结构，不关注损失函数和评估指标
看到训练集 loss 下降就认为模型已经可靠

神经网络的强大来自表达能力，但可靠性仍然要靠数据划分、评估和错误分析来确认。

十、下一步读什么

上一篇是模型训练与评估入门。如果你想把前面几篇串成一次完整练习，可以继续读 Python 人工智能小实战。

搜索问题

常见问题

这篇文章适合谁读？

这篇文章适合想用进阶难度理解“神经网络基础：从感知机到多层网络”的读者，预计阅读时间约 8 分钟，重点覆盖 Neural Networks, Backpropagation, Python。

读完后下一步应该看什么？

推荐下一步阅读“Python 人工智能小实战：用 scikit-learn 完成一个分类任务”，这样可以把当前知识点接到更完整的学习路线里。

这篇文章有没有可运行代码或配套资源？

这篇文章以解释为主，文末相关阅读会继续指向更接近实战的代码和资源页面。

这篇文章和整个网站的学习路线有什么关系？

它会通过文章上下文、学习路线、资源库和项目时间线连接到同一主题下的其他内容。

文章上下文

人工智能项目

从 AI、机器学习、训练评估、神经网络到 Python 小实战、手写数字识别、CIFAR-10 CNN、对抗性流量防御和 AI 安全攻防，按顺序建立基础。

难度: 进阶阅读时间: 8 分钟

Neural Networks
Backpropagation
Python

继续下一步

继续：Transformer 自注意力机制

先补基础查看项目

对应语言版本 Neural Network Basics: From Perceptrons to Multi-Layer Networks

可分享摘要 神经网络基础：从感知机到多层网络

从一个神经元讲起，解释权重、偏置、激活函数、前向传播、反向传播和典型神经网络训练循环。

下载分享图打开分享中心

发表回复取消回复

要发表评论，您必须先登录。

项目时间线

已发布文章

人工智能基础学习路线：先理解什么是 AI、机器学习和深度学习面向有编程基础的读者，梳理 AI、机器学习、深度学习的关系，并给出可执行的人工智能基础学习路线。
机器学习完整流程：从数据、特征到模型预测从工程视角拆解机器学习完整流程：定义问题、理解数据、处理特征、训练模型、预测和评估。
机器学习算法怎么选：分类、回归、聚类和推荐场景对照表用任务类型、数据规模、解释性和部署成本选择机器学习算法，覆盖逻辑回归、决策树、随机森林、K-means 和表格数据基线模型。
特征工程入门实战：用 scikit-learn 处理缺失值、类别变量和数值标准化用 scikit-learn Pipeline 和 ColumnTransformer 完成特征工程，处理缺失值、类别变量、数值标准化，并避免数据泄漏。
模型训练与评估入门：损失函数、过拟合和准确率怎么理解讲清楚模型训练中的参数、损失函数、梯度下降、过拟合，以及准确率、召回率、F1 等分类评估指标。
过拟合和欠拟合怎么解决：机器学习模型调优实战指南用训练分数和验证分数判断过拟合与欠拟合，并通过模型复杂度、正则化、交叉验证和特征工程调整机器学习模型。
神经网络基础：从感知机到多层网络从一个神经元讲起，解释权重、偏置、激活函数、前向传播、反向传播和典型神经网络训练循环。
Python 人工智能小实战：用 scikit-learn 完成一个分类任务使用 scikit-learn 内置教学数据集跑通一个分类任务，覆盖数据加载、拆分、标准化、训练、预测、评估和实验记录。
手写数字识别项目入门：先读懂 train.csv、test.csv 和标签结构从项目文件结构入手，读懂手写数字训练集、测试集、标签列和 784 维像素输入，为后续 C 分类器和实验台打基础。
用 C 实现手写数字 Softmax 分类器：从 784 维像素到 submission.csv 结合当前项目源码，讲清楚 softmax 多分类、损失函数、梯度更新、混淆矩阵输出，以及 submission.csv 的生成过程。
手写数字实验记录：怎么把离线分类项目接进浏览器实验台解释浏览器实验台为什么采用轻量预训练模型、它和离线 C 项目的关系，以及如何用样本浏览和手绘输入理解预测结果。
CIFAR-10 Tiny CNN 教程：用 C 语言实现小型卷积神经网络图像分类用单文件 C 程序完成 CIFAR-10 小型 CNN 图像分类，讲解数据格式、网络结构、训练命令、loss、accuracy、常见错误和改进方向。
构建高熵流量防御：基于 Python 的连接层白噪声混淆与对抗性机器学习实践以 mld_chaffing_v2.py 虚幻镜项目为例，讲解加密元数据泄漏、信息熵、分布距离、混淆矩阵、空闲窗口微脉冲和性能测试取舍。
AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图用 NIST Adversarial ML、MITRE ATLAS 和 OWASP LLM Top 10 建立 AI 安全威胁模型，覆盖资产、攻击面、证据和剩余风险。
对抗样本与鲁棒评估：从 FGSM 公式到 scikit-learn 数字分类实验从 FGSM 公式解释对抗样本，用 scikit-learn digits toy 实验评估 clean accuracy、perturbed accuracy 和扰动预算。
数据投毒与后门攻击防御：污染率、触发器和训练管线隔离用 toy digits 实验解释数据投毒、后门触发器、attack success rate、数据来源审计和训练管线隔离。
模型隐私与模型窃取风险：成员推断、模型抽取和输出接口防护用本地 toy 实验解释成员推断、模型抽取、membership AUC、surrogate fidelity、输出最小化和查询治理。
LLM/RAG/Agent 安全：Prompt Injection、工具权限和边界感知防护从 RAG 和 Agent 架构解释 prompt injection、外部数据降权、工具 allowlist、人工审批和边界感知防护。
人工智能 NLP 基础：词袋模型与 TF-IDF 详解介绍自然语言处理中最基础的文本表示方法：词袋模型（Bag of Words）与 TF-IDF，理解它们的工作原理及优缺点。
循环神经网络 (RNN) 基础：处理序列数据的记忆力理解 RNN 的核心思想、隐藏状态的作用，以及它在处理自然语言序列任务时的优势与挑战。
Transformer 与自注意力机制：AI 领域的革命性突破深入浅出地讲解 Transformer 架构的核心：自注意力机制（Self-Attention）及其运作方式。
用 C 从零实现 CIFAR-10 Tiny CNN：卷积、池化和反向传播基于实际 cifar10_tiny_cnn.c 项目，讲解 CIFAR-10 数据格式、3x3 卷积、ReLU、最大池化、全连接层、softmax、反向传播和本地运行方式。

已公开资源

Python AI 小实战代码说明文章内包含可直接复制运行的 scikit-learn 分类脚本。
digit_softmax_classifier.c 手写数字 softmax 分类器的 C 语言源码。
train.csv.zip 手写数字训练集压缩包，包含 42000 条带标签样本。
test.csv.zip 手写数字测试集压缩包，包含 28000 条待预测样本。
sample_submission.csv 官方提交格式示例，可直接对照最终输出字段。
submission.csv 当前 C 项目跑出的预测结果文件。
digit-playground-model.json 浏览器实验台使用的轻量 softmax 演示模型与样本。
digit-sample-grid.svg 从训练集中抽取的小型手写数字预览网格。
手写数字项目打包下载包含源码、压缩数据、提交文件、浏览器模型和样本预览图。
cifar10_tiny_cnn.c 源码单文件 C 语言 tiny CNN，包含 CIFAR-10 读取、卷积、池化、softmax 和反向传播。
model_weights.bin 样例权重一次本地小样本运行生成的模型权重文件。
test_predictions.csv 预测样例 CIFAR-10 tiny CNN 输出的测试预测样例。
CNN 项目说明 PDF 配套 CNN 项目说明材料。
虚幻镜脱敏代码骨架去除控制口令、真实节点和目标列表后的 mld_chaffing_v2.py 控制流程说明。
虚幻镜压力测试记录模板用于记录 CPU、内存、线程峰值、微脉冲速率、延迟和错误数的脱敏 CSV 模板。
虚幻镜分类器评估模板用于记录 TP、FN、FP、TN、accuracy、precision、recall、F1、ROC-AUC、熵和 JS 散度的 CSV 模板。
虚幻镜资源说明说明公开资源为何只提供脱敏代码、测试模板和架构笔记。
AI Security Lab 说明说明 AI 安全攻防系列的安全边界、安装命令和 quick-run 实验。
AI Security Lab 完整实验包包含安全 toy scripts、结果 CSV、风险登记表、攻防矩阵和架构图。
AI 安全风险登记表面向 AI 威胁建模和上线评审的 CSV 风险登记模板。
AI 攻防矩阵把攻击面、toy demo、指标和防护控制映射到一张 CSV 表。
AI Security Lab 架构图展示威胁建模、鲁棒评估、数据完整性、模型隐私和 RAG 防护之间的关系。
FGSM digits 鲁棒评估脚本本地 digits 分类器的 FGSM-style 扰动和准确率下降实验。
数据投毒与后门 toy 脚本用 digits 数据演示污染率、触发器和 attack success rate。
模型隐私与抽取 toy 脚本输出 membership AUC、target accuracy、surrogate fidelity 和 surrogate accuracy。
RAG prompt injection guard toy 脚本用确定性 toy agent 演示外部数据降权和工具权限阻断。
深度学习专题分享图用于分享深度学习 / CNN 专题页的 1200x630 SVG 图。
从零实现机器学习分享图用于分享 K-means、Iris 和机器学习流程专题页的 1200x630 SVG 图。
学生 AI 项目分享图用于分享手写数字、C 分类器和浏览器实验台专题页的 1200x630 SVG 图。
CNN 卷积扫描动画 Remotion 生成的 8 秒短动画，展示 3x3 卷积核如何扫描输入并形成特征图。

当前学习路线

人工智能基础学习路线学习路线节点
机器学习完整流程学习路线节点
机器学习算法怎么选学习路线节点
特征工程入门实战学习路线节点
模型训练与评估入门学习路线节点
过拟合和欠拟合怎么解决学习路线节点
神经网络基础学习路线节点
Transformer 自注意力机制学习路线节点
LLM 可视化教学台学习路线节点
Python 人工智能小实战学习路线节点
手写数字数据结构入门学习路线节点
用 C 实现手写数字 Softmax 分类器学习路线节点
手写数字实验台说明学习路线节点
CIFAR-10 Tiny CNN 教程学习路线节点
高熵流量防御实验学习路线节点
AI 安全威胁建模学习路线节点
对抗样本与鲁棒评估学习路线节点
数据投毒与后门防御学习路线节点
模型隐私与模型抽取防护学习路线节点
LLM/RAG/Agent 安全学习路线节点

下一步计划

补充更多图像分类和误差分析案例
把常见指标整理成速查表
继续补充 AI 安全防御实验记录

一、从一个神经元开始

二、感知机能做什么

三、层是什么

四、前向传播是什么

五、反向传播的直觉

六、一个典型训练循环

七、深度学习为什么需要更多数据和算力

八、神经网络和大模型的关系

九、初学者容易误解的点

十、下一步读什么

1. Start With One Neuron

2. What a Perceptron Can Do

3. What Is a Layer?

4. Forward Propagation

5. The Intuition Behind Backpropagation

6. A Typical Training Loop

7. Why Deep Learning Needs More Data and Compute

8. Neural Networks and Large Models

9. Common Beginner Misunderstandings

10. What to Read Next

一、从一个神经元开始

二、感知机能做什么

三、层是什么

四、前向传播是什么

五、反向传播的直觉

六、一个典型训练循环

七、深度学习为什么需要更多数据和算力

八、神经网络和大模型的关系

九、初学者容易误解的点

十、下一步读什么

这篇文章适合谁读？

读完后下一步应该看什么？

这篇文章有没有可运行代码或配套资源？

这篇文章和整个网站的学习路线有什么关系？

发表回复 取消回复

项目时间线

发表回复取消回复