中文
循环神经网络 (RNN) 基础:处理序列数据的记忆力
在了解了词袋模型(Bag of Words)和 TF-IDF 后,我们发现它们有一个致命的弱点:丢弃了文本的顺序信息。在人类语言中,词序往往决定了整句话的含义。为了处理带有时间先后顺序或者序列结构的数据,深度学习引入了循环神经网络(RNN)。
这篇文章将带你理解 RNN 的基本思想、隐藏状态的作用,以及它在处理自然语言任务时为什么比普通的前馈神经网络更具优势。
一、为什么普通神经网络处理不了句子?
普通的前馈神经网络(如我们在手写数字分类中使用的全连接网络)在处理输入时,有两个非常严格的限制:
- 输入长度必须固定:它要求每个输入向量的大小完全一样(比如都是 784 维)。但人类说出的一句话可能有 3 个词,也可能有 30 个词。
- 输入之间互相独立:前向传播是一次性的计算,模型在处理“今天”这个词时,不会记得刚才它处理过“天气”这个词。
这就像是一个失忆的阅读者,每次只能看一个词,看完立刻忘掉。显然,这种机制无法理解长篇大论。我们需要一个能够“记住”上文的网络。
二、RNN 的核心:记忆的延续
循环神经网络(Recurrent Neural Network, RNN)的突破在于,它为网络增加了一个内部的隐藏状态(Hidden State),作为短期记忆。
你可以把 RNN 想象成一条流水线。当它在处理一个长句子时,它会按顺序一个个读取词汇(通常是经过词嵌入后的向量)。在时刻 t,RNN 会接收两个输入:
- 当前时刻的新单词
x_t。 - 上一时刻传递过来的隐藏状态
h_{t-1}(里面包含了之前所有词的总结信息)。
网络会将这两部分信息结合在一起,进行一次线性计算和激活(比如使用 tanh 函数),然后生成当前时刻的最新隐藏状态 h_t。这个 h_t 既可以用来预测当前的结果,又会被传递到下一个时刻 t+1,周而复始。
# RNN 伪代码核心逻辑
h = 初始状态
for word in sentence:
h = tanh( W_hh * h + W_xh * word + bias )
output = W_hy * h
三、RNN 的几种常见结构
因为 RNN 是沿着序列展开的,它可以非常灵活地适应不同的任务:
- 多对一(Many-to-One):输入一段完整的句子,最后输出一个分类结果。例如:情感分析(判断影评是正面还是负面)。
- 多对多(Many-to-Many):输入一个序列,网络在每个时刻都给出一个输出。例如:命名实体识别(判断每个词是不是人名或地名)。
- 编码器-解码器(Encoder-Decoder):先用一个 RNN 把原句子压缩成一个记忆向量,再用另一个 RNN 根据这个记忆逐词生成新句子。例如:机器翻译。
四、RNN 面临的困境:梯度消失
虽然 RNN 的理念很完美,但在实际使用中,如果句子很长,它会遇到著名的梯度消失(Vanishing Gradient)问题。
在反向传播时,误差需要沿着时间轴一路往前传。因为中间经过了多次相同的矩阵乘法,如果权重小于 1,梯度在传了十几个词之后就会衰减到几乎为 0。这就导致 RNN 变成了一个“金鱼脑”:它能记住刚刚读过的两三个词,但对几十个词之前的关键信息无能为力。
为了解决这个问题,研究人员发明了 LSTM(长短期记忆网络)和 GRU(门控循环单元)。它们在 RNN 的内部增加了一些“门”结构,能够主动决定哪些信息该记住,哪些信息该遗忘,大大缓解了长距离依赖的问题。
五、下一步走向何方?
LSTM 和 GRU 统治了 NLP 领域很多年,它们非常强大。但 RNN 家族始终有一个结构上的阿喀琉斯之踵:它必须按顺序一个词一个词地计算,无法像 CNN 那样在 GPU 上高度并行化。这使得在海量数据上训练超大模型变得极其耗时。
这就呼唤了一种能彻底摆脱“循环”和“顺序读取”的新架构。下一篇文章,我们将介绍彻底改变了 NLP 格局的技术:注意力机制(Attention)与 Transformer。
英文
RNN Basics: Handling Sequential Data with Memory
在独立页面打开After exploring the Bag of Words model and TF-IDF, we found that they share a fatal weakness: they discard the sequential information of text. In human language, word order often dictates the entire meaning of a sentence. To handle data with a chronological order or sequential structure, deep learning introduced the Recurrent Neural Network (RNN).
This article will guide you through the fundamental ideas behind RNNs, the role of the hidden state, and why they hold a significant advantage over standard feedforward neural networks when it comes to natural language tasks.
1. Why Regular Neural Networks Fail at Sentences
A standard feedforward neural network (like the fully connected networks we used for handwritten digit classification) has two very strict limitations when processing inputs:
- Fixed Input Length: It requires every input vector to be exactly the same size (e.g., exactly 784 dimensions). But a sentence spoken by a human could be 3 words long, or 30 words long.
- Inputs are Independent: Forward propagation is a one-off computation. When the model processes the word "today", it does not remember that it just processed the word "weather".
It behaves like an amnesiac reader who can only look at one word at a time, instantly forgetting it right after. Naturally, this mechanism cannot comprehend paragraphs of text. We need a network that can "remember" what came before.
2. The Core of RNN: A Continuous Memory
The breakthrough of the Recurrent Neural Network (RNN) is that it adds an internal Hidden State to the network, acting as short-term memory.
You can think of an RNN as an assembly line. When it processes a long sentence, it reads the vocabulary word by word in sequence (usually as vectors after word embedding). At time step t, the RNN receives two inputs:
- The new word at the current time step,
x_t. - The hidden state passed from the previous time step,
h_{t-1}(which contains a summary of all the words seen so far).
The network combines these two pieces of information, performs a linear calculation and an activation (like using the tanh function), and then generates the latest hidden state h_t for the current time step. This h_t can be used to predict the current output, and it is also passed along to the next time step t+1, repeating the cycle.
# Pseudocode for core RNN logic
h = initial_state
for word in sentence:
h = tanh( W_hh * h + W_xh * word + bias )
output = W_hy * h
3. Common RNN Architectures
Because an RNN unrolls along a sequence, it can adapt flexibly to various tasks:
- Many-to-One: Input a complete sentence and output a single classification result at the end. Example: Sentiment analysis (judging whether a movie review is positive or negative).
- Many-to-Many: Input a sequence, and the network provides an output at every time step. Example: Named Entity Recognition (judging whether each word is a person's name or a location).
- Encoder-Decoder: Use one RNN to compress the original sentence into a memory vector, and use another RNN to generate a new sentence word by word based on that memory. Example: Machine Translation.
4. The Dilemma of RNNs: Vanishing Gradients
While the concept of an RNN is elegant, in practical applications, it encounters the infamous Vanishing Gradient problem if the sentence is very long.
During backpropagation, the error needs to travel backwards along the time axis. Because it passes through the same matrix multiplications repeatedly, if the weights are less than 1, the gradient will decay to almost zero after passing through a dozen words. This turns the RNN into a network with a "goldfish memory": it can remember the last two or three words it just read, but is powerless to retain critical information from dozens of words ago.
To solve this, researchers invented the LSTM (Long Short-Term Memory) and GRU (Gated Recurrent Unit). These add "gate" structures inside the RNN, allowing it to actively decide which information to remember and which to forget, greatly alleviating the long-range dependency problem.
5. Where to Next?
LSTMs and GRUs dominated the NLP field for many years and are extremely powerful. But the RNN family always had a structural Achilles' heel: it must compute sequentially, word by word. It cannot be highly parallelized on GPUs like a CNN. This makes training massive models on colossal datasets painstakingly slow.
This called for a new architecture that could completely break free from "recurrence" and "sequential reading." In the next article, we will introduce the technology that fundamentally altered the NLP landscape: the Attention mechanism and the Transformer.
在了解了词袋模型(Bag of Words)和 TF-IDF 后,我们发现它们有一个致命的弱点:丢弃了文本的顺序信息。在人类语言中,词序往往决定了整句话的含义。为了处理带有时间先后顺序或者序列结构的数据,深度学习引入了循环神经网络(RNN)。
这篇文章将带你理解 RNN 的基本思想、隐藏状态的作用,以及它在处理自然语言任务时为什么比普通的前馈神经网络更具优势。
一、为什么普通神经网络处理不了句子?
普通的前馈神经网络(如我们在手写数字分类中使用的全连接网络)在处理输入时,有两个非常严格的限制:
- 输入长度必须固定:它要求每个输入向量的大小完全一样(比如都是 784 维)。但人类说出的一句话可能有 3 个词,也可能有 30 个词。
- 输入之间互相独立:前向传播是一次性的计算,模型在处理“今天”这个词时,不会记得刚才它处理过“天气”这个词。
这就像是一个失忆的阅读者,每次只能看一个词,看完立刻忘掉。显然,这种机制无法理解长篇大论。我们需要一个能够“记住”上文的网络。
二、RNN 的核心:记忆的延续
循环神经网络(Recurrent Neural Network, RNN)的突破在于,它为网络增加了一个内部的隐藏状态(Hidden State),作为短期记忆。
你可以把 RNN 想象成一条流水线。当它在处理一个长句子时,它会按顺序一个个读取词汇(通常是经过词嵌入后的向量)。在时刻 t,RNN 会接收两个输入:
- 当前时刻的新单词
x_t。 - 上一时刻传递过来的隐藏状态
h_{t-1}(里面包含了之前所有词的总结信息)。
网络会将这两部分信息结合在一起,进行一次线性计算和激活(比如使用 tanh 函数),然后生成当前时刻的最新隐藏状态 h_t。这个 h_t 既可以用来预测当前的结果,又会被传递到下一个时刻 t+1,周而复始。
# RNN 伪代码核心逻辑
h = 初始状态
for word in sentence:
h = tanh( W_hh * h + W_xh * word + bias )
output = W_hy * h
三、RNN 的几种常见结构
因为 RNN 是沿着序列展开的,它可以非常灵活地适应不同的任务:
- 多对一(Many-to-One):输入一段完整的句子,最后输出一个分类结果。例如:情感分析(判断影评是正面还是负面)。
- 多对多(Many-to-Many):输入一个序列,网络在每个时刻都给出一个输出。例如:命名实体识别(判断每个词是不是人名或地名)。
- 编码器-解码器(Encoder-Decoder):先用一个 RNN 把原句子压缩成一个记忆向量,再用另一个 RNN 根据这个记忆逐词生成新句子。例如:机器翻译。
四、RNN 面临的困境:梯度消失
虽然 RNN 的理念很完美,但在实际使用中,如果句子很长,它会遇到著名的梯度消失(Vanishing Gradient)问题。
在反向传播时,误差需要沿着时间轴一路往前传。因为中间经过了多次相同的矩阵乘法,如果权重小于 1,梯度在传了十几个词之后就会衰减到几乎为 0。这就导致 RNN 变成了一个“金鱼脑”:它能记住刚刚读过的两三个词,但对几十个词之前的关键信息无能为力。
为了解决这个问题,研究人员发明了 LSTM(长短期记忆网络)和 GRU(门控循环单元)。它们在 RNN 的内部增加了一些“门”结构,能够主动决定哪些信息该记住,哪些信息该遗忘,大大缓解了长距离依赖的问题。
五、下一步走向何方?
LSTM 和 GRU 统治了 NLP 领域很多年,它们非常强大。但 RNN 家族始终有一个结构上的阿喀琉斯之踵:它必须按顺序一个词一个词地计算,无法像 CNN 那样在 GPU 上高度并行化。这使得在海量数据上训练超大模型变得极其耗时。
这就呼唤了一种能彻底摆脱“循环”和“顺序读取”的新架构。下一篇文章,我们将介绍彻底改变了 NLP 格局的技术:注意力机制(Attention)与 Transformer。
搜索问题
常见问题
这篇文章适合谁读?
这篇文章适合想用 进阶 难度理解“循环神经网络 (RNN) 基础:处理序列数据的记忆力”的读者,预计阅读时间约 9 分钟,重点覆盖 RNN, Sequence Models, Neural Networks。
读完后下一步应该看什么?
推荐下一步阅读“Transformer 与自注意力机制:AI 领域的革命性突破”,这样可以把当前知识点接到更完整的学习路线里。
这篇文章有没有可运行代码或配套资源?
这篇文章以解释为主,文末相关阅读会继续指向更接近实战的代码和资源页面。
这篇文章和整个网站的学习路线有什么关系?
它会通过文章上下文、学习路线、资源库和项目时间线连接到同一主题下的其他内容。
文章上下文
人工智能项目
从 AI、机器学习、训练评估、神经网络到 Python 小实战、手写数字识别、CIFAR-10 CNN、对抗性流量防御和 AI 安全攻防,按顺序建立基础。
项目时间线
已发布文章
- 人工智能基础学习路线:先理解什么是 AI、机器学习和深度学习 面向有编程基础的读者,梳理 AI、机器学习、深度学习的关系,并给出可执行的人工智能基础学习路线。
- 机器学习完整流程:从数据、特征到模型预测 从工程视角拆解机器学习完整流程:定义问题、理解数据、处理特征、训练模型、预测和评估。
- 机器学习算法怎么选:分类、回归、聚类和推荐场景对照表 用任务类型、数据规模、解释性和部署成本选择机器学习算法,覆盖逻辑回归、决策树、随机森林、K-means 和表格数据基线模型。
- 特征工程入门实战:用 scikit-learn 处理缺失值、类别变量和数值标准化 用 scikit-learn Pipeline 和 ColumnTransformer 完成特征工程,处理缺失值、类别变量、数值标准化,并避免数据泄漏。
- 模型训练与评估入门:损失函数、过拟合和准确率怎么理解 讲清楚模型训练中的参数、损失函数、梯度下降、过拟合,以及准确率、召回率、F1 等分类评估指标。
- 过拟合和欠拟合怎么解决:机器学习模型调优实战指南 用训练分数和验证分数判断过拟合与欠拟合,并通过模型复杂度、正则化、交叉验证和特征工程调整机器学习模型。
- 神经网络基础:从感知机到多层网络 从一个神经元讲起,解释权重、偏置、激活函数、前向传播、反向传播和典型神经网络训练循环。
- Python 人工智能小实战:用 scikit-learn 完成一个分类任务 使用 scikit-learn 内置教学数据集跑通一个分类任务,覆盖数据加载、拆分、标准化、训练、预测、评估和实验记录。
- 手写数字识别项目入门:先读懂 train.csv、test.csv 和标签结构 从项目文件结构入手,读懂手写数字训练集、测试集、标签列和 784 维像素输入,为后续 C 分类器和实验台打基础。
- 用 C 实现手写数字 Softmax 分类器:从 784 维像素到 submission.csv 结合当前项目源码,讲清楚 softmax 多分类、损失函数、梯度更新、混淆矩阵输出,以及 submission.csv 的生成过程。
- 手写数字实验记录:怎么把离线分类项目接进浏览器实验台 解释浏览器实验台为什么采用轻量预训练模型、它和离线 C 项目的关系,以及如何用样本浏览和手绘输入理解预测结果。
- CIFAR-10 Tiny CNN 教程:用 C 语言实现小型卷积神经网络图像分类 用单文件 C 程序完成 CIFAR-10 小型 CNN 图像分类,讲解数据格式、网络结构、训练命令、loss、accuracy、常见错误和改进方向。
- 构建高熵流量防御:基于 Python 的连接层白噪声混淆与对抗性机器学习实践 以 mld_chaffing_v2.py 虚幻镜项目为例,讲解加密元数据泄漏、信息熵、分布距离、混淆矩阵、空闲窗口微脉冲和性能测试取舍。
- AI 安全威胁建模:用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图 用 NIST Adversarial ML、MITRE ATLAS 和 OWASP LLM Top 10 建立 AI 安全威胁模型,覆盖资产、攻击面、证据和剩余风险。
- 对抗样本与鲁棒评估:从 FGSM 公式到 scikit-learn 数字分类实验 从 FGSM 公式解释对抗样本,用 scikit-learn digits toy 实验评估 clean accuracy、perturbed accuracy 和扰动预算。
- 数据投毒与后门攻击防御:污染率、触发器和训练管线隔离 用 toy digits 实验解释数据投毒、后门触发器、attack success rate、数据来源审计和训练管线隔离。
- 模型隐私与模型窃取风险:成员推断、模型抽取和输出接口防护 用本地 toy 实验解释成员推断、模型抽取、membership AUC、surrogate fidelity、输出最小化和查询治理。
- LLM/RAG/Agent 安全:Prompt Injection、工具权限和边界感知防护 从 RAG 和 Agent 架构解释 prompt injection、外部数据降权、工具 allowlist、人工审批和边界感知防护。
- 人工智能 NLP 基础:词袋模型与 TF-IDF 详解 介绍自然语言处理中最基础的文本表示方法:词袋模型(Bag of Words)与 TF-IDF,理解它们的工作原理及优缺点。
- 循环神经网络 (RNN) 基础:处理序列数据的记忆力 理解 RNN 的核心思想、隐藏状态的作用,以及它在处理自然语言序列任务时的优势与挑战。
- Transformer 与自注意力机制:AI 领域的革命性突破 深入浅出地讲解 Transformer 架构的核心:自注意力机制(Self-Attention)及其运作方式。
- 用 C 从零实现 CIFAR-10 Tiny CNN:卷积、池化和反向传播 基于实际 cifar10_tiny_cnn.c 项目,讲解 CIFAR-10 数据格式、3x3 卷积、ReLU、最大池化、全连接层、softmax、反向传播和本地运行方式。
已公开资源
- Python AI 小实战代码说明 文章内包含可直接复制运行的 scikit-learn 分类脚本。
- digit_softmax_classifier.c 手写数字 softmax 分类器的 C 语言源码。
- train.csv.zip 手写数字训练集压缩包,包含 42000 条带标签样本。
- test.csv.zip 手写数字测试集压缩包,包含 28000 条待预测样本。
- sample_submission.csv 官方提交格式示例,可直接对照最终输出字段。
- submission.csv 当前 C 项目跑出的预测结果文件。
- digit-playground-model.json 浏览器实验台使用的轻量 softmax 演示模型与样本。
- digit-sample-grid.svg 从训练集中抽取的小型手写数字预览网格。
- 手写数字项目打包下载 包含源码、压缩数据、提交文件、浏览器模型和样本预览图。
- cifar10_tiny_cnn.c 源码 单文件 C 语言 tiny CNN,包含 CIFAR-10 读取、卷积、池化、softmax 和反向传播。
- model_weights.bin 样例权重 一次本地小样本运行生成的模型权重文件。
- test_predictions.csv 预测样例 CIFAR-10 tiny CNN 输出的测试预测样例。
- CNN 项目说明 PDF 配套 CNN 项目说明材料。
- 虚幻镜脱敏代码骨架 去除控制口令、真实节点和目标列表后的 mld_chaffing_v2.py 控制流程说明。
- 虚幻镜压力测试记录模板 用于记录 CPU、内存、线程峰值、微脉冲速率、延迟和错误数的脱敏 CSV 模板。
- 虚幻镜分类器评估模板 用于记录 TP、FN、FP、TN、accuracy、precision、recall、F1、ROC-AUC、熵和 JS 散度的 CSV 模板。
- 虚幻镜资源说明 说明公开资源为何只提供脱敏代码、测试模板和架构笔记。
- AI Security Lab 说明 说明 AI 安全攻防系列的安全边界、安装命令和 quick-run 实验。
- AI Security Lab 完整实验包 包含安全 toy scripts、结果 CSV、风险登记表、攻防矩阵和架构图。
- AI 安全风险登记表 面向 AI 威胁建模和上线评审的 CSV 风险登记模板。
- AI 攻防矩阵 把攻击面、toy demo、指标和防护控制映射到一张 CSV 表。
- AI Security Lab 架构图 展示威胁建模、鲁棒评估、数据完整性、模型隐私和 RAG 防护之间的关系。
- FGSM digits 鲁棒评估脚本 本地 digits 分类器的 FGSM-style 扰动和准确率下降实验。
- 数据投毒与后门 toy 脚本 用 digits 数据演示污染率、触发器和 attack success rate。
- 模型隐私与抽取 toy 脚本 输出 membership AUC、target accuracy、surrogate fidelity 和 surrogate accuracy。
- RAG prompt injection guard toy 脚本 用确定性 toy agent 演示外部数据降权和工具权限阻断。
- 深度学习专题分享图 用于分享深度学习 / CNN 专题页的 1200x630 SVG 图。
- 从零实现机器学习分享图 用于分享 K-means、Iris 和机器学习流程专题页的 1200x630 SVG 图。
- 学生 AI 项目分享图 用于分享手写数字、C 分类器和浏览器实验台专题页的 1200x630 SVG 图。
- CNN 卷积扫描动画 Remotion 生成的 8 秒短动画,展示 3x3 卷积核如何扫描输入并形成特征图。
当前学习路线
- 人工智能基础学习路线 学习路线节点
- 机器学习完整流程 学习路线节点
- 机器学习算法怎么选 学习路线节点
- 特征工程入门实战 学习路线节点
- 模型训练与评估入门 学习路线节点
- 过拟合和欠拟合怎么解决 学习路线节点
- 神经网络基础 学习路线节点
- Transformer 自注意力机制 学习路线节点
- LLM 可视化教学台 学习路线节点
- Python 人工智能小实战 学习路线节点
- 手写数字数据结构入门 学习路线节点
- 用 C 实现手写数字 Softmax 分类器 学习路线节点
- 手写数字实验台说明 学习路线节点
- CIFAR-10 Tiny CNN 教程 学习路线节点
- 高熵流量防御实验 学习路线节点
- AI 安全威胁建模 学习路线节点
- 对抗样本与鲁棒评估 学习路线节点
- 数据投毒与后门防御 学习路线节点
- 模型隐私与模型抽取防护 学习路线节点
- LLM/RAG/Agent 安全 学习路线节点
下一步计划
- 补充更多图像分类和误差分析案例
- 把常见指标整理成速查表
- 继续补充 AI 安全防御实验记录
