博客文章

这里收录浩天博客的主要技术文章，重点是机器学习、算法实现、深度学习数学、网络协议和 AI 安全。文章会尽量提供问题背景、实现解释、代码或实验输出，而不是只发布短摘要。

如果你是第一次访问，建议先按专题阅读：机器学习路线从数据和评估开始，算法路线从 8 皇后和 K-means 开始，网络路线从 DNS/TCP/TLS 到代理与缓存，AI 安全路线从威胁建模和 toy lab 开始。

当前重点路线

从零实现机器学习：机器学习流程、特征工程、模型评估、K-means 和 Python/C 实践。
深度学习教程：神经网络、矩阵微积分、反向传播、优化器、卷积、Attention 和 CIFAR-10 Tiny CNN。
网络基础原理可视化：DNS、CIDR、TCP、TLS、HTTP 缓存、代理隧道和反向代理健康检查。
AI 安全攻防专题：威胁建模、对抗样本、数据投毒、模型隐私、RAG 和 Agent 安全。

如何判断一篇文章是否值得读

本站会尽量避免只写“概念简介”或“工具清单”。一篇有价值的技术文章至少应该说明问题是什么、输入是什么、输出如何验证、关键代码在哪里，以及结论的适用边界。对于算法和机器学习内容，文章会优先保留中间状态、评估指标、错误样本或可下载材料；对于网络协议内容，文章会优先保留请求头、状态码、缓存状态、时间线和实验命令。

如果某篇文章只是入口、索引或工具说明，它应该明确指向更完整的主题页或正文文章，而不是假装自己已经解决了技术问题。这样的组织方式可以让首次访问者快速判断：这里是阅读路线、实验入口、下载资源，还是一篇完整教程。

内容类型与证据要求

内容类型	应该回答的问题	页面中应该保留的证据
机器学习实现	数据如何进入模型，指标为什么可信？	数据切分、基线、训练命令、错误样本、指标定义。
算法与 C/Python 代码	核心状态如何更新，边界条件在哪里？	输入格式、循环不变量、复杂度、输出示例和失败输入。
网络协议排查	问题发生在 DNS、TLS、代理、缓存还是应用层？	请求头、响应头、状态码、时间线、缓存命中和复现命令。
AI 安全实验	实验证明了什么，又没有证明什么？	授权边界、toy lab 条件、指标、缓解措施和误用限制。

近期维护方向

后续内容会继续围绕“可复现”和“可解释”补强。机器学习文章会增加数据切分、基线模型、错误分析和复现实验记录；网络文章会增加从浏览器、Cloudflare、Nginx 到应用层的分层排查案例；AI 安全文章会继续强调授权边界、toy lab 限制和防御性评审流程。

如果一个旧页面只有短摘要或单一链接，它会被扩写、合并、重定向或保持 noindex。目标不是制造更多 URL，而是让公开可索引页面都能回答读者的问题，并且能让 AdSense 或搜索审核看出这个站点的原创解释、代码实践和长期维护价值。

全部文章索引

下面的索引按站点当前分类自动生成。工具页和问卷页不会作为核心文章显示，读者可以优先选择有完整正文、代码和实验说明的文章阅读。

分类博客

按项目阅读文章

文章按网络基础、电池建模、人工智能、算法实现和站点建设组织，每组都保留难度、阅读时间和技术栈。

专题系列

深度学习数学可视化系列

五篇文章从矩阵微积分、反向传播、优化器、卷积到 Attention，每篇都有手算、代码、图和动画。

5 篇文章

神经网络矩阵微积分：从 y = Wx + b 推导 MSE 梯度

用手算、矩阵形状图、NumPy 代码和梯度检查解释 y = Wx + b 下 dL/dW = (ŷ - y)x^T 的来源。

难度: 进阶阅读时间: 13 分钟

Matrix Calculus
NumPy
Gradient Check

反向传播计算图：两层 MLP 的前向、局部梯度和反向传播

把两层 MLP 拆成计算图，手算 ReLU、softmax cross-entropy、dW2、dW1，并用 NumPy 复现实验结果。

难度: 进阶阅读时间: 14 分钟

Backpropagation
Computation Graph
Softmax

梯度下降与优化器几何：Momentum、Adam 和 loss surface 轨迹

在二维二次函数上手算梯度下降前几步，比较 Momentum 和 Adam 的轨迹，并用代码生成 loss contour。

难度: 进阶阅读时间: 13 分钟

Gradient Descent
Momentum
Adam
Loss Surface

卷积与感受野数学：5×5 输入、3×3 kernel、padding 和 im2col

手算一次 5x5 输入与 3x3 kernel 的离散卷积，解释输出尺寸、padding、stride、感受野和 im2col。

难度: 进阶阅读时间: 13 分钟

Convolution
Receptive Field
im2col

Transformer Attention 数学：Q/K/V、Softmax 权重、Mask 与 KV Cache

用 3 个 token 手算 scaled dot-product attention，解释 Q/K/V、softmax、mask、多头注意力和 KV cache。

难度: 进阶阅读时间: 14 分钟

Transformer
Attention
QKV
KV Cache

项目分类

网络基础原理

从 DNS、TCP、TLS 与 HTTP/3 到代理隧道、负载均衡和共享缓存，以可重现的代码和图分析网页请求路径。

10 篇文章

DNS 解析过程详解：从域名查询到 TTL 缓存的 Python 实验

从 RFC DNS 报文与递归查询出发，用 Python 和 C 实验计算 TTL 缓存命中对解析延迟的影响。

难度: 进阶阅读时间: 12 分钟

DNS
Python
C
RFC 1035

CIDR、子网掩码与最长前缀匹配：用代码算清 IP 路由和 MTU

手算 CIDR 网段、最长前缀匹配与 MTU/MSS 分段，并用 Python/C 输出固定路由结果。

难度: 进阶阅读时间: 12 分钟

IPv4
CIDR
MTU
Python
C

TCP 三次握手、重传与拥塞窗口：可运行的序列号实验

从 TCP sequence/ACK 和慢启动出发，用确定性丢包曲线与 localhost C socket 实验理解可靠传输。

难度: 进阶阅读时间: 13 分钟

TCP
Congestion Control
Python
C sockets

HTTPS 与 TLS 1.3 握手原理：密钥交换、证书和 RTT 实验

解释 TLS 1.3 消息 flight、证书与临时密钥交换，用安全的教学模型计算一次 RTT 握手。

难度: 专业阅读时间: 13 分钟

TLS 1.3
HTTPS
Key Agreement
Python

HTTP/2、HTTP/3 与 CDN 缓存：从网络瀑布图理解网页加载速度

用确定性 waterfall 模型拆解 HTTP/2、HTTP/3、QUIC stream 和 CDN HIT/MISS 对网页等待时间的影响。

难度: 专业阅读时间: 14 分钟

HTTP/2
HTTP/3
QUIC
CDN
Python

正向代理与反向代理原理：连接路径、信任边界和时延计算

从连接方向和 TLS 终止点解释正向代理、反向代理与隧道代理，并用 Python 模型分段计算代理 hop 与缓存收益。

难度: 进阶阅读时间: 12 分钟

Forward Proxy
Reverse Proxy
TLS
Python

HTTP CONNECT 与 HTTPS 代理隧道：TLS 边界和握手时延

以 RFC CONNECT 状态机解释 HTTPS 代理隧道、TLS 可见性和首次加密请求时延。

难度: 专业阅读时间: 12 分钟

HTTP CONNECT
HTTPS
TLS 1.3
Python

SOCKS5 代理原理：协议字节、DNS 解析边界与泄漏风险

按 RFC 1928 拆解 SOCKS5 CONNECT 字节，通过安全编码实验比较本地 DNS 与代理侧域名解析。

难度: 专业阅读时间: 13 分钟

SOCKS5
DNS
Protocol Bytes
Python

反向代理负载均衡原理：队列、健康检查和可复现调度实验

用固定请求队列比较 round robin 与负载感知调度，并解释反向代理健康检查和重试边界。

难度: 专业阅读时间: 13 分钟

Reverse Proxy
Load Balancing
Health Checks
Python

代理缓存与重新验证：Cache-Control、ETag 和可观测性实验

依据 RFC 9111 计算共享缓存 MISS、HIT 与 304 revalidation 的时延，并解释缓存 key 和隐私边界。

难度: 专业阅读时间: 13 分钟

HTTP Cache
ETag
Observability
Python

项目分类

电池建模与 AI

围绕 PyBaMM、EIS、老化仿真和 AI 标签数据，建立可复查的物理建模到机器学习数据管线。

4 篇文章

PyBaMM 快速解读：从 Oxford 电池模型架构到 AI 数据管线

面向博士生拆解 PyBaMM expression tree、Simulation 管线、模型选项和 AI 数据 schema。

难度: 博士生阅读时间: 14 分钟

PyBaMM
DFN
Expression Tree
AI Dataset

PyBaMM 阻抗谱数据生成：EISSimulation、SOC sweep 与 AI 标签

用 PyBaMM core 的 EISSimulation 生成阻抗谱，提取 Nyquist/Bode 特征并对齐老化标签。

难度: 博士生阅读时间: 13 分钟

PyBaMM
EISSimulation
Impedance
Labels

用 PyBaMM 生成电池老化与阻抗 AI 数据集：标签、切分和质量控制

构建可复现 PyBaMM 数据工厂，生成 SOH、RUL、LLI、LAM、plating 和 EIS 特征标签。

难度: 博士生阅读时间: 15 分钟

PyBaMM
Battery Aging
SOH
RUL
Data Quality

训练电池 AI 实例：用 PyBaMM 仿真数据预测 SOH 与 RUL

用 PyBaMM 或 surrogate 生成的 EIS 特征和工况数据训练 scikit-learn 模型，预测电池 SOH 与 RUL。

难度: 博士生阅读时间: 14 分钟

PyBaMM
scikit-learn
SOH
RUL
Group Split

项目分类

人工智能项目

从 AI、机器学习、训练评估、神经网络到 Python 小实战、手写数字识别、CIFAR-10 CNN、对抗性流量防御和 AI 安全攻防，按顺序建立基础。

23 篇文章

人工智能基础学习路线：先理解什么是 AI、机器学习和深度学习

面向有编程基础的读者，梳理 AI、机器学习、深度学习的关系，并给出可执行的人工智能基础学习路线。

难度: 入门阅读时间: 8 分钟

AI
Machine Learning
Deep Learning

机器学习完整流程：从数据、特征到模型预测

从工程视角拆解机器学习完整流程：定义问题、理解数据、处理特征、训练模型、预测和评估。

难度: 入门阅读时间: 9 分钟

Machine Learning
Features
scikit-learn

机器学习算法怎么选：分类、回归、聚类和推荐场景对照表

用任务类型、数据规模、解释性和部署成本选择机器学习算法，覆盖逻辑回归、决策树、随机森林、K-means 和表格数据基线模型。

难度: 入门阅读时间: 10 分钟

Machine Learning
Model Selection
scikit-learn

特征工程入门实战：用 scikit-learn 处理缺失值、类别变量和数值标准化

用 scikit-learn Pipeline 和 ColumnTransformer 完成特征工程，处理缺失值、类别变量、数值标准化，并避免数据泄漏。

难度: 实战阅读时间: 11 分钟

Feature Engineering
Pipeline
ColumnTransformer

模型训练与评估入门：损失函数、过拟合和准确率怎么理解

讲清楚模型训练中的参数、损失函数、梯度下降、过拟合，以及准确率、召回率、F1 等分类评估指标。

难度: 入门阅读时间: 9 分钟

Model Training
Metrics
Evaluation

过拟合和欠拟合怎么解决：机器学习模型调优实战指南

用训练分数和验证分数判断过拟合与欠拟合，并通过模型复杂度、正则化、交叉验证和特征工程调整机器学习模型。

难度: 实战阅读时间: 10 分钟

Overfitting
Cross Validation
Model Tuning

神经网络基础：从感知机到多层网络

从一个神经元讲起，解释权重、偏置、激活函数、前向传播、反向传播和典型神经网络训练循环。

难度: 进阶阅读时间: 8 分钟

Neural Networks
Backpropagation
Python

神经网络矩阵微积分：从 y = Wx + b 推导 MSE 梯度

用手算、矩阵形状图、NumPy 代码和梯度检查解释 y = Wx + b 下 dL/dW = (ŷ - y)x^T 的来源。

难度: 进阶阅读时间: 13 分钟

Matrix Calculus
NumPy
Gradient Check

反向传播计算图：两层 MLP 的前向、局部梯度和反向传播

把两层 MLP 拆成计算图，手算 ReLU、softmax cross-entropy、dW2、dW1，并用 NumPy 复现实验结果。

难度: 进阶阅读时间: 14 分钟

Backpropagation
Computation Graph
Softmax

梯度下降与优化器几何：Momentum、Adam 和 loss surface 轨迹

在二维二次函数上手算梯度下降前几步，比较 Momentum 和 Adam 的轨迹，并用代码生成 loss contour。

难度: 进阶阅读时间: 13 分钟

Gradient Descent
Momentum
Adam
Loss Surface

卷积与感受野数学：5×5 输入、3×3 kernel、padding 和 im2col

手算一次 5x5 输入与 3x3 kernel 的离散卷积，解释输出尺寸、padding、stride、感受野和 im2col。

难度: 进阶阅读时间: 13 分钟

Convolution
Receptive Field
im2col

Transformer Attention 数学：Q/K/V、Softmax 权重、Mask 与 KV Cache

用 3 个 token 手算 scaled dot-product attention，解释 Q/K/V、softmax、mask、多头注意力和 KV cache。

难度: 进阶阅读时间: 14 分钟

Transformer
Attention
QKV
KV Cache

Python 人工智能小实战：用 scikit-learn 完成一个分类任务

使用 scikit-learn 内置教学数据集跑通一个分类任务，覆盖数据加载、拆分、标准化、训练、预测、评估和实验记录。

难度: 实战阅读时间: 10 分钟

Python
scikit-learn
Classification

手写数字识别项目入门：先读懂 train.csv、test.csv 和标签结构

从项目文件结构入手，读懂手写数字训练集、测试集、标签列和 784 维像素输入，为后续 C 分类器和实验台打基础。

难度: 入门阅读时间: 8 分钟

Dataset
CSV
Image Classification

用 C 实现手写数字 Softmax 分类器：从 784 维像素到 submission.csv

结合当前项目源码，讲清楚 softmax 多分类、损失函数、梯度更新、混淆矩阵输出，以及 submission.csv 的生成过程。

难度: 实战阅读时间: 11 分钟

C
Softmax
Classification

手写数字实验记录：怎么把离线分类项目接进浏览器实验台

解释浏览器实验台为什么采用轻量预训练模型、它和离线 C 项目的关系，以及如何用样本浏览和手绘输入理解预测结果。

难度: 实战阅读时间: 8 分钟

Browser Demo
Softmax
Visualization

CIFAR-10 Tiny CNN 教程：用 C 语言实现小型卷积神经网络图像分类

用单文件 C 程序完成 CIFAR-10 小型 CNN 图像分类，讲解数据格式、网络结构、训练命令、loss、accuracy、常见错误和改进方向。

难度: 进阶阅读时间: 13 分钟

C
CNN
CIFAR-10
Backpropagation

构建高熵流量防御：基于 Python 的连接层白噪声混淆与对抗性机器学习实践

以 mld_chaffing_v2.py 虚幻镜项目为例，讲解加密元数据泄漏、信息熵、分布距离、混淆矩阵、空闲窗口微脉冲和性能测试取舍。

难度: 进阶阅读时间: 16 分钟

Python
Traffic Analysis
Adversarial ML
Networking

AI 安全威胁建模：用 NIST AML、MITRE ATLAS 和 OWASP 建立攻防地图

用 NIST Adversarial ML、MITRE ATLAS 和 OWASP LLM Top 10 建立 AI 安全威胁模型，覆盖资产、攻击面、证据和剩余风险。

难度: 专业阅读时间: 12 分钟

AI Security
Threat Modeling
NIST
MITRE ATLAS
OWASP

对抗样本与鲁棒评估：从 FGSM 公式到 scikit-learn 数字分类实验

从 FGSM 公式解释对抗样本，用 scikit-learn digits toy 实验评估 clean accuracy、perturbed accuracy 和扰动预算。

难度: 专业阅读时间: 11 分钟

Adversarial Examples
FGSM
Robust Evaluation
scikit-learn

数据投毒与后门攻击防御：污染率、触发器和训练管线隔离

用 toy digits 实验解释数据投毒、后门触发器、attack success rate、数据来源审计和训练管线隔离。

难度: 专业阅读时间: 11 分钟

Data Poisoning
Backdoor Defense
Training Pipeline
scikit-learn

模型隐私与模型窃取风险：成员推断、模型抽取和输出接口防护

用本地 toy 实验解释成员推断、模型抽取、membership AUC、surrogate fidelity、输出最小化和查询治理。

难度: 专业阅读时间: 12 分钟

Model Privacy
Membership Inference
Model Extraction
Prediction API

LLM/RAG/Agent 安全：Prompt Injection、工具权限和边界感知防护

从 RAG 和 Agent 架构解释 prompt injection、外部数据降权、工具 allowlist、人工审批和边界感知防护。

难度: 专业阅读时间: 12 分钟

LLM Security
RAG
Agent Tools
Prompt Injection

项目分类

算法实现项目

围绕回溯、位运算和聚类实现，保留可以复查的代码、流程图和下载资料。

5 篇文章

人物图片转 SVG 动画资产管线：ComfyUI、Grounded-SAM、OpenPose 与 vtracer

2D 动画原理专栏第一篇：用 ComfyUI IP-Adapter、OpenPose 拆件、Grounded-SAM 抠图和 vtracer 生成 SVG 骨骼资产库。

难度: 实战阅读时间: 14 分钟

ComfyUI
IP-Adapter
OpenPose
Grounded-SAM
vtracer
SVG

回溯算法入门：用 C 和 Python 解决 8 皇后问题

用 C 和 Python 讲清楚 8 皇后回溯搜索的状态表示、冲突判断、递归过程与完整求解思路。

难度: 入门阅读时间: 12 分钟

C
Python
Backtracking

回溯算法进阶：用位运算优化 8 皇后（C / Python）

介绍如何用位运算优化 8 皇后搜索，降低状态判断成本，并给出 C / Python 对照实现。

难度: 进阶阅读时间: 12 分钟

C
Python
Bit Operations
Backtracking

K-means 聚类算法入门：基于 Iris 数据集的 C 语言实现

结合 Iris.csv、C 语言源码、流程图和可视化，完整讲解 K-means++ 初始化、迭代收敛与结果分析。

难度: 进阶阅读时间: 14 分钟

C
K-means
Iris Dataset

图片转 Unicode 四象限 ANSI：原理、实现与浏览器工具

解释如何把任意图片压缩成 truecolor Unicode 四象限 ANSI：2 x 2 像素、两色最小误差、.ans 文件和浏览器端隐私边界。

难度: 入门阅读时间: 10 分钟

C
Python
Backtracking
K-means

项目分类

站点建设项目

记录这个双语技术站的结构、内容同步、分类、评论和部署方式。

1 篇文章

欢迎来到浩天博客：这个双语技术站会发布什么

介绍浩天博客的定位、双语结构，以及后续会持续发布的算法、编程与项目内容。

难度: 说明阅读时间: 3 分钟

WordPress
Cloudflare
Content Workflow