Transformer 自注意力机制教程：Q/K/V、多头注意力和位置编码

Q: 这篇文章适合谁读？

这篇文章适合想用 进阶 难度理解“Transformer 与自注意力机制：AI 领域的革命性突破”的读者，预计阅读时间约 10 分钟，重点覆盖 Transformer, Self-Attention, QKV, NLP。

阅读信息

难度: 进阶阅读时间: 10 分钟

Transformer
Self-Attention
QKV
NLP

打开知识图谱

中文

Transformer 与自注意力机制：AI 领域的革命性突破

我们在前一篇文章讨论了 RNN 和 LSTM。它们虽然解决了短距离的序列记忆问题，但由于必须“一个词接一个词”地顺序计算，导致训练速度极慢，且对于非常长距离的上下文依然无能为力。

2017 年，Google 提出了一篇名为《Attention Is All You Need》的论文，彻底颠覆了传统的序列模型。他们提出了 Transformer 架构。今天，包括 GPT 和 BERT 在内的所有大型语言模型，都是基于 Transformer 构建的。它的核心魔法就是：自注意力机制（Self-Attention）。

一、告别顺序：让所有词同时看到彼此

RNN 的工作方式像是一个接力赛，信息必须从第一个词传到第二个词，再传到第三个词。而 Transformer 的方式像是一场圆桌会议：句子里的所有词同时坐在桌边，每个人都可以直接看向其他所有人。

这种“看向其他人”的动作，就是注意力（Attention）。

举个经典的例子：“The animal didn't cross the street because it was too tired.”（那只动物没有过马路，因为它太累了）。

这里的“it”指的是动物还是马路？对于人类来说，这取决于“tired（累）”这个词，因为动物才会累，马路不会。在 Transformer 中，当计算“it”这个词的表示时，自注意力机制会给“animal”和“tired”分配极高的注意力权重。这样，“it”不仅是一个孤立的代词，它融合了动物和疲惫的语义，从而消除了歧义。

二、Q、K、V：注意力的运作机制

在工程实现上，注意力机制是如何让词互相“看”的呢？Transformer 借用了数据库查询的概念：Query（查询）、Key（键）和 Value（值）。

在自注意力中，每个输入的词汇向量，都会通过三个不同的线性变换（乘以三个矩阵），生成三个新的向量：

Query (Q)：这个词正在寻找什么信息？
Key (K)：这个词包含了什么信息？可以被别人找到吗？
Value (V)：如果别人对这个词感兴趣，这个词实际能提供的内容是什么？

计算过程如下：

用当前词的 Q 去和句子里所有词（包括自己）的 K 计算点积（Dot Product）。点积结果越大，说明两个词越匹配，这就是注意力得分。
把得分进行 softmax 归一化，变成加和为 1 的概率权重。
用这些权重去乘以对应词的 V（Value）。
把所有乘完的 V 加起来，得到的结果就是当前词融合了整个句子上下文的新向量。

最令人惊叹的是，整个句子的 Q、K、V 计算都可以用矩阵乘法一次性完成，这让它在 GPU 上可以进行极其高效的并行计算。

三、多头注意力（Multi-Head Attention）

一个词在不同的语境下可能需要关注不同的东西。比如在翻译时，既要关注语法结构，又要关注情感色彩，还要关注主谓宾搭配。

Transformer 的解决方案是：不只用一组 Q、K、V，而是用多组（比如 8 组或 12 组）。这就是多头注意力。每一组（每一个“头”）都会学习到句子中不同维度的关联关系。最后再把所有头的输出拼接起来，交给前馈神经网络。

四、位置编码（Positional Encoding）

你可能会发现一个问题：既然所有的词是同时参与计算的，那“A 咬了 B”和“B 咬了 A”不就完全一样了吗？

确实，纯粹的注意力机制是没有位置概念的。为了解决这个问题，Transformer 在输入阶段引入了位置编码。它会根据单词在句子中的位置生成一个特殊的向量，然后加到单词原本的词向量上。

这就相当于给每个词贴上了一个“座位号”。模型在计算注意力时，不仅能看到词的意思，还能知道它在句子中的相对或绝对位置。

五、总结：AI 的新基石

Transformer 通过自注意力机制解决了长距离依赖问题，通过矩阵运算解决了并行计算问题，通过位置编码保留了序列信息。这个精妙的组合让 AI 能够一口气处理成千上万个词的上下文。

从词袋模型的生硬统计，到 RNN 的艰难传递，再到 Transformer 的全景视角，这就是自然语言处理模型演进的主线。理解了 Transformer，你就拿到了通往现代大语言模型（LLM）的钥匙。

英文

Transformers and Self-Attention: A Revolutionary Breakthrough in AI

在独立页面打开

In the previous article, we discussed RNNs and LSTMs. While they resolved short-term sequence memory issues, their requirement to compute "word by word" sequentially resulted in extremely slow training speeds. Furthermore, they still struggle with very long-range context dependencies.

In 2017, Google published a paper titled "Attention Is All You Need," which completely overturned traditional sequence models. They introduced the Transformer architecture. Today, all Large Language Models (LLMs), including GPT and BERT, are built on the Transformer. Its core magic is the Self-Attention Mechanism.

1. Bidding Farewell to Sequence: Let All Words See Each Other at Once

An RNN works like a relay race: information must be passed from the first word to the second, and then to the third. A Transformer, on the other hand, operates more like a round-table conference: all the words in a sentence sit at the table at the same time, and everyone can look directly at everyone else.

This action of "looking at others" is what we call Attention.

Take this classic example: "The animal didn't cross the street because it was too tired."

Does the word "it" refer to the animal or the street? For humans, it depends on the word "tired," because an animal can be tired, but a street cannot. In a Transformer, when computing the representation for the word "it", the Self-Attention mechanism will assign extremely high attention weights to "animal" and "tired". Thus, "it" is no longer an isolated pronoun; it fuses the semantics of the animal and its exhaustion, thereby resolving the ambiguity.

2. Q, K, V: How Attention Works

From an engineering perspective, how does the attention mechanism allow words to "look" at each other? The Transformer borrows concepts from database queries: Query (Q), Key (K), and Value (V).

In Self-Attention, every input word vector is multiplied by three different matrices to generate three new vectors:

Query (Q): What kind of information is this word looking for?
Key (K): What information does this word contain? How can it be found by others?
Value (V): If others are interested in this word, what actual content can it provide?

The calculation process is as follows:

Take the current word's Q and compute the Dot Product with the K of every word in the sentence (including itself). A larger dot product means a better match; this is the attention score.
Apply a softmax function to these scores to normalize them into probability weights that sum up to 1.
Multiply these weights by the corresponding word's V (Value).
Sum up all the weighted V vectors. The result is the new representation for the current word, now fused with the context of the entire sentence.

The most amazing part is that the Q, K, and V calculations for the entire sentence can be done all at once using matrix multiplication. This allows it to be highly parallelized on GPUs, making it incredibly efficient.

3. Multi-Head Attention

A word might need to focus on different things in different contexts. For example, during translation, a model needs to pay attention to grammatical structure, emotional tone, and subject-verb-object relationships.

The Transformer's solution is to use not just one set of Q, K, and V, but multiple sets (e.g., 8 or 12 sets). This is called Multi-Head Attention. Each set (or "head") learns a different dimension of relationships within the sentence. Finally, the outputs from all the heads are concatenated and passed to a feedforward neural network.

4. Positional Encoding

You might notice a problem: since all words participate in the calculation simultaneously, wouldn't "A bit B" and "B bit A" look exactly the same to the model?

Indeed, a pure attention mechanism has no concept of order or position. To solve this, the Transformer introduces Positional Encoding at the input stage. It generates a special vector based on the word's position in the sentence and adds it to the original word vector.

This is akin to giving each word a "seat number." When the model computes attention, it can not only see the meaning of the words but also recognize their relative or absolute positions within the sequence.

5. Summary: The New Cornerstone of AI

The Transformer solves long-range dependency issues through the Self-Attention mechanism, tackles parallel computing problems via matrix operations, and preserves sequence information using Positional Encoding. This elegant combination allows AI to process contexts containing thousands of words in one go.

From the rigid statistics of the Bag of Words model, to the sequential struggles of the RNN, and finally to the panoramic view of the Transformer—this is the main evolutionary timeline of NLP models. Understanding the Transformer gives you the key to modern Large Language Models (LLMs).

一、告别顺序：让所有词同时看到彼此

这种“看向其他人”的动作，就是注意力（Attention）。

举个经典的例子：“The animal didn’t cross the street because it was too tired.”（那只动物没有过马路，因为它太累了）。

二、Q、K、V：注意力的运作机制

在工程实现上，注意力机制是如何让词互相“看”的呢？Transformer 借用了数据库查询的概念：Query（查询）、Key（键）和 Value（值）。

在自注意力中，每个输入的词汇向量，都会通过三个不同的线性变换（乘以三个矩阵），生成三个新的向量：

Query (Q)：这个词正在寻找什么信息？
Key (K)：这个词包含了什么信息？可以被别人找到吗？
Value (V)：如果别人对这个词感兴趣，这个词实际能提供的内容是什么？

计算过程如下：

用当前词的 Q 去和句子里所有词（包括自己）的 K 计算点积（Dot Product）。点积结果越大，说明两个词越匹配，这就是注意力得分。
把得分进行 softmax 归一化，变成加和为 1 的概率权重。
用这些权重去乘以对应词的 V（Value）。
把所有乘完的 V 加起来，得到的结果就是当前词融合了整个句子上下文的新向量。

最令人惊叹的是，整个句子的 Q、K、V 计算都可以用矩阵乘法一次性完成，这让它在 GPU 上可以进行极其高效的并行计算。

三、多头注意力（Multi-Head Attention）

一个词在不同的语境下可能需要关注不同的东西。比如在翻译时，既要关注语法结构，又要关注情感色彩，还要关注主谓宾搭配。

四、位置编码（Positional Encoding）

你可能会发现一个问题：既然所有的词是同时参与计算的，那“A 咬了 B”和“B 咬了 A”不就完全一样了吗？

这就相当于给每个词贴上了一个“座位号”。模型在计算注意力时，不仅能看到词的意思，还能知道它在句子中的相对或绝对位置。

五、总结：AI 的新基石

搜索问题

常见问题

这篇文章适合谁读？

这篇文章适合想用进阶难度理解“Transformer 与自注意力机制：AI 领域的革命性突破”的读者，预计阅读时间约 10 分钟，重点覆盖 Transformer, Self-Attention, QKV, NLP。

读完后下一步应该看什么？

推荐下一步阅读“LLM 可视化教学台”，这样可以把当前知识点接到更完整的学习路线里。

这篇文章有没有可运行代码或配套资源？

这篇文章以解释为主，文末相关阅读会继续指向更接近实战的代码和资源页面。

这篇文章和整个网站的学习路线有什么关系？

它会通过文章上下文、学习路线、资源库和项目时间线连接到同一主题下的其他内容。

文章上下文

人工智能项目

从 AI、机器学习、训练评估、神经网络到 Python 小实战、手写数字识别、CIFAR-10 CNN、对抗性流量防御和 AI 安全攻防，按顺序建立基础。

难度: 进阶阅读时间: 10 分钟

Transformer
Self-Attention
QKV
NLP

继续下一步

继续：LLM 可视化教学台

先补基础查看项目

对应语言版本 Transformers and Self-Attention: A Revolutionary Breakthrough in AI

可分享摘要 Transformer 与自注意力机制：AI 领域的革命性突破

深入浅出地讲解 Transformer 架构的核心：自注意力机制（Self-Attention）及其运作方式。

打开分享中心

发表回复取消回复

要发表评论，您必须先登录。

项目时间线

已发布文章

人工智能基础学习路线：先理解什么是 AI、机器学习和深度学习面向有编程基础的读者，梳理 AI、机器学习、深度学习的关系，并给出可执行的人工智能基础学习路线。
机器学习完整流程：从数据、特征到模型预测从工程视角拆解机器学习完整流程：定义问题、理解数据、处理特征、训练模型、预测和评估。
机器学习算法怎么选：分类、回归、聚类和推荐场景对照表用任务类型、数据规模、解释性和部署成本选择机器学习算法，覆盖逻辑回归、决策树、随机森林、K-means 和表格数据基线模型。
特征工程入门实战：用 scikit-learn 处理缺失值、类别变量和数值标准化用 scikit-learn Pipeline 和 ColumnTransformer 完成特征工程，处理缺失值、类别变量、数值标准化，并避免数据泄漏。
模型训练与评估入门：损失函数、过拟合和准确率怎么理解讲清楚模型训练中的参数、损失函数、梯度下降、过拟合，以及准确率、召回率、F1 等分类评估指标。
过拟合和欠拟合怎么解决：机器学习模型调优实战指南用训练分数和验证分数判断过拟合与欠拟合，并通过模型复杂度、正则化、交叉验证和特征工程调整机器学习模型。
神经网络基础：从感知机到多层网络从一个神经元讲起，解释权重、偏置、激活函数、前向传播、反向传播和典型神经网络训练循环。
Python 人工智能小实战：用 scikit-learn 完成一个分类任务使用 scikit-learn 内置教学数据集跑通一个分类任务，覆盖数据加载、拆分、标准化、训练、预测、评估和实验记录。
手写数字识别项目入门：先读懂 train.csv、test.csv 和标签结构从项目文件结构入手，读懂手写数字训练集、测试集、标签列和 784 维像素输入，为后续 C 分类器和实验台打基础。
用 C 实现手写数字 Softmax 分类器：从 784 维像素到 submission.csv 结合当前项目源码，讲清楚 softmax 多分类、损失函数、梯度更新、混淆矩阵输出，以及 submission.csv 的生成过程。
手写数字实验记录：怎么把离线分类项目接进浏览器实验台解释浏览器实验台为什么采用轻量预训练模型、它和离线 C 项目的关系，以及如何用样本浏览和手绘输入理解预测结果。
CIFAR-10 Tiny CNN 教程：用 C 语言实现小型卷积神经网络图像分类用单文件 C 程序完成 CIFAR-10 小型 CNN 图像分类，讲解数据格式、网络结构、训练命令、loss、accuracy、常见错误和改进方向。
构建高熵流量防御：基于 Python 的连接层白噪声混淆与对抗性机器学习实践以 mld_chaffing_v2.py 虚幻镜项目为例，讲解加密元数据泄漏、信息熵、分布距离、混淆矩阵、空闲窗口微脉冲和性能测试取舍。
AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图用 NIST Adversarial ML、MITRE ATLAS 和 OWASP LLM Top 10 建立 AI 安全威胁模型，覆盖资产、攻击面、证据和剩余风险。
对抗样本与鲁棒评估：从 FGSM 公式到 scikit-learn 数字分类实验从 FGSM 公式解释对抗样本，用 scikit-learn digits toy 实验评估 clean accuracy、perturbed accuracy 和扰动预算。
数据投毒与后门攻击防御：污染率、触发器和训练管线隔离用 toy digits 实验解释数据投毒、后门触发器、attack success rate、数据来源审计和训练管线隔离。
模型隐私与模型窃取风险：成员推断、模型抽取和输出接口防护用本地 toy 实验解释成员推断、模型抽取、membership AUC、surrogate fidelity、输出最小化和查询治理。
LLM/RAG/Agent 安全：Prompt Injection、工具权限和边界感知防护从 RAG 和 Agent 架构解释 prompt injection、外部数据降权、工具 allowlist、人工审批和边界感知防护。
人工智能 NLP 基础：词袋模型与 TF-IDF 详解介绍自然语言处理中最基础的文本表示方法：词袋模型（Bag of Words）与 TF-IDF，理解它们的工作原理及优缺点。
循环神经网络 (RNN) 基础：处理序列数据的记忆力理解 RNN 的核心思想、隐藏状态的作用，以及它在处理自然语言序列任务时的优势与挑战。
Transformer 与自注意力机制：AI 领域的革命性突破深入浅出地讲解 Transformer 架构的核心：自注意力机制（Self-Attention）及其运作方式。
用 C 从零实现 CIFAR-10 Tiny CNN：卷积、池化和反向传播基于实际 cifar10_tiny_cnn.c 项目，讲解 CIFAR-10 数据格式、3x3 卷积、ReLU、最大池化、全连接层、softmax、反向传播和本地运行方式。

已公开资源

Python AI 小实战代码说明文章内包含可直接复制运行的 scikit-learn 分类脚本。
digit_softmax_classifier.c 手写数字 softmax 分类器的 C 语言源码。
train.csv.zip 手写数字训练集压缩包，包含 42000 条带标签样本。
test.csv.zip 手写数字测试集压缩包，包含 28000 条待预测样本。
sample_submission.csv 官方提交格式示例，可直接对照最终输出字段。
submission.csv 当前 C 项目跑出的预测结果文件。
digit-playground-model.json 浏览器实验台使用的轻量 softmax 演示模型与样本。
digit-sample-grid.svg 从训练集中抽取的小型手写数字预览网格。
手写数字项目打包下载包含源码、压缩数据、提交文件、浏览器模型和样本预览图。
cifar10_tiny_cnn.c 源码单文件 C 语言 tiny CNN，包含 CIFAR-10 读取、卷积、池化、softmax 和反向传播。
model_weights.bin 样例权重一次本地小样本运行生成的模型权重文件。
test_predictions.csv 预测样例 CIFAR-10 tiny CNN 输出的测试预测样例。
CNN 项目说明 PDF 配套 CNN 项目说明材料。
虚幻镜脱敏代码骨架去除控制口令、真实节点和目标列表后的 mld_chaffing_v2.py 控制流程说明。
虚幻镜压力测试记录模板用于记录 CPU、内存、线程峰值、微脉冲速率、延迟和错误数的脱敏 CSV 模板。
虚幻镜分类器评估模板用于记录 TP、FN、FP、TN、accuracy、precision、recall、F1、ROC-AUC、熵和 JS 散度的 CSV 模板。
虚幻镜资源说明说明公开资源为何只提供脱敏代码、测试模板和架构笔记。
AI Security Lab 说明说明 AI 安全攻防系列的安全边界、安装命令和 quick-run 实验。
AI Security Lab 完整实验包包含安全 toy scripts、结果 CSV、风险登记表、攻防矩阵和架构图。
AI 安全风险登记表面向 AI 威胁建模和上线评审的 CSV 风险登记模板。
AI 攻防矩阵把攻击面、toy demo、指标和防护控制映射到一张 CSV 表。
AI Security Lab 架构图展示威胁建模、鲁棒评估、数据完整性、模型隐私和 RAG 防护之间的关系。
FGSM digits 鲁棒评估脚本本地 digits 分类器的 FGSM-style 扰动和准确率下降实验。
数据投毒与后门 toy 脚本用 digits 数据演示污染率、触发器和 attack success rate。
模型隐私与抽取 toy 脚本输出 membership AUC、target accuracy、surrogate fidelity 和 surrogate accuracy。
RAG prompt injection guard toy 脚本用确定性 toy agent 演示外部数据降权和工具权限阻断。
深度学习专题分享图用于分享深度学习 / CNN 专题页的 1200x630 SVG 图。
从零实现机器学习分享图用于分享 K-means、Iris 和机器学习流程专题页的 1200x630 SVG 图。
学生 AI 项目分享图用于分享手写数字、C 分类器和浏览器实验台专题页的 1200x630 SVG 图。
CNN 卷积扫描动画 Remotion 生成的 8 秒短动画，展示 3x3 卷积核如何扫描输入并形成特征图。

当前学习路线

人工智能基础学习路线学习路线节点
机器学习完整流程学习路线节点
机器学习算法怎么选学习路线节点
特征工程入门实战学习路线节点
模型训练与评估入门学习路线节点
过拟合和欠拟合怎么解决学习路线节点
神经网络基础学习路线节点
Transformer 自注意力机制学习路线节点
LLM 可视化教学台学习路线节点
Python 人工智能小实战学习路线节点
手写数字数据结构入门学习路线节点
用 C 实现手写数字 Softmax 分类器学习路线节点
手写数字实验台说明学习路线节点
CIFAR-10 Tiny CNN 教程学习路线节点
高熵流量防御实验学习路线节点
AI 安全威胁建模学习路线节点
对抗样本与鲁棒评估学习路线节点
数据投毒与后门防御学习路线节点
模型隐私与模型抽取防护学习路线节点
LLM/RAG/Agent 安全学习路线节点

下一步计划

补充更多图像分类和误差分析案例
把常见指标整理成速查表
继续补充 AI 安全防御实验记录

一、告别顺序：让所有词同时看到彼此

二、Q、K、V：注意力的运作机制

三、多头注意力（Multi-Head Attention）

四、位置编码（Positional Encoding）

五、总结：AI 的新基石

1. Bidding Farewell to Sequence: Let All Words See Each Other at Once

2. Q, K, V: How Attention Works

3. Multi-Head Attention

4. Positional Encoding

5. Summary: The New Cornerstone of AI

一、告别顺序：让所有词同时看到彼此

二、Q、K、V：注意力的运作机制

三、多头注意力（Multi-Head Attention）

四、位置编码（Positional Encoding）

五、总结：AI 的新基石

这篇文章适合谁读？

读完后下一步应该看什么？

这篇文章有没有可运行代码或配套资源？

这篇文章和整个网站的学习路线有什么关系？

发表回复 取消回复

项目时间线

发表回复取消回复