别再死记硬背公式了！用Python从零实现Self-Attention，5分钟搞懂Transformer核心

张

张建站

2026/5/9 16:32:06

10分钟阅读

别再死记硬背公式了！用Python从零实现Self-Attention，5分钟搞懂Transformer核心

用NumPy手撕Self-Attention5行代码理解Transformer核心当你第一次听说Self-Attention时是否被那些晦涩的数学符号劝退今天我们将用Python的NumPy库从零实现这个改变NLP游戏规则的技术。不需要记忆任何公式只需要跟着代码一步步操作你会在动手实践中真正理解为什么Transformer能够如此强大。1. 准备知识什么是Self-Attention想象你在阅读一段文字时大脑会自动聚焦于关键词语——比如看到苹果时你会根据上下文判断这是指水果还是科技公司。Self-Attention就是让机器学会这种注意力分配能力的数学工具。核心思想每个词都可以查看句子中的所有其他词并决定应该关注哪些词。这种关注程度不是固定的而是根据上下文动态计算的。让我们先定义几个关键变量Q (Query)当前正在处理的词就像你正在思考的问题K (Key)所有词提供的线索V (Value)所有词实际包含的信息import numpy as np # 假设每个词用4维向量表示 x1 np.array([1, 0, 1, 0]) # 比如苹果 x2 np.array([0, 1, 0, 1]) # 比如公司 x3 np.array([1, 1, 0, 0]) # 比如吃 X np.stack([x1, x2, x3]) # 组成3x4的矩阵2. 从零实现基础Self-Attention2.1 生成Q, K, V矩阵首先需要三个可学习的权重矩阵它们负责将原始输入转换为Q、K、Vnp.random.seed(42) W_Q np.random.rand(4, 3) # 4是输入维度3是输出维度 W_K np.random.rand(4, 3) W_V np.random.rand(4, 3) Q X W_Q # (3,4) (4,3) - (3,3) K X W_K V X W_V2.2 计算注意力分数注意力分数表示词与词之间的关联强度scores Q K.T # (3,3) (3,3) - (3,3)这个简单的矩阵乘法就是Self-Attention的核心它计算了每个词(query)与其他所有词(key)的点积。2.3 Scale和Softmax归一化为了防止点积结果过大导致梯度消失我们需要进行缩放dk K.shape[-1] # 这里是3 scaled_scores scores / np.sqrt(dk) attention_weights np.exp(scaled_scores) / np.sum(np.exp(scaled_scores), axis1, keepdimsTrue)2.4 加权求和得到输出最后用注意力权重对V进行加权output attention_weights V # (3,3) (3,3) - (3,3)这就是Self-Attention的完整过程让我们用5行代码总结def self_attention(X, W_Q, W_K, W_V): Q, K, V X W_Q, X W_K, X W_V scores (Q K.T) / np.sqrt(K.shape[-1]) weights np.exp(scores) / np.sum(np.exp(scores), axis1, keepdimsTrue) return weights V3. 可视化注意力权重理解Self-Attention最好的方式就是观察它的注意力分布。我们用matplotlib绘制热力图import matplotlib.pyplot as plt plt.imshow(attention_weights, cmapviridis) plt.colorbar() plt.xticks([0,1,2], [苹果, 公司, 吃]) plt.yticks([0,1,2], [苹果, 公司, 吃]) plt.title(注意力权重热力图) plt.show()你会看到苹果与公司的关联强度以及吃与苹果的关联强度。这种可视化能直观展示模型如何理解词语关系。4. 为什么需要多头注意力单一Self-Attention有个局限它只能学习一种类型的词语关系。实际上词语之间可能有多种关系关系类型示例语法关系动词-宾语语义关系同义词/反义词指代关系代词-所指对象多头注意力并行运行多组Self-Attentionclass MultiHeadAttention: def __init__(self, d_model4, num_heads2): self.heads [SelfAttentionHead(d_model) for _ in range(num_heads)] def __call__(self, X): return np.concatenate([head(X) for head in self.heads], axis-1)每组注意力可以专注于不同方面的关系最后将结果拼接起来。这就是为什么Transformer能捕捉丰富的语言特征。5. 与PyTorch实现对比为了验证我们的实现对比PyTorch官方版本import torch import torch.nn.functional as F # PyTorch实现 def torch_attention(Q, K, V): return F.scaled_dot_product_attention(Q, K, V) # 对比结果差异 print(最大差异:, np.max(np.abs(output - torch_output.detach().numpy())))你会发现核心逻辑完全一致只是工业级实现加入了更多优化内存优化避免存储中间大矩阵数值稳定更安全的softmax计算并行计算充分利用GPU优势6. 实际应用技巧在真实项目中应用Self-Attention时有几个实用技巧位置编码因为Self-Attention不考虑词序需要额外添加位置信息def positional_encoding(seq_len, d_model): position np.arange(seq_len)[:, np.newaxis] div_term np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model)) pe np.zeros((seq_len, d_model)) pe[:, 0::2] np.sin(position * div_term) pe[:, 1::2] np.cos(position * div_term) return peMask机制处理变长输入时避免关注padding位置残差连接缓解深层网络梯度消失问题class TransformerBlock: def __init__(self, d_model, num_heads): self.attention MultiHeadAttention(d_model, num_heads) self.norm1 LayerNorm(d_model) self.ffn PositionwiseFFN(d_model) self.norm2 LayerNorm(d_model) def __call__(self, X): attn_output self.attention(X) X self.norm1(X attn_output) # 残差连接 ffn_output self.ffn(X) return self.norm2(X ffn_output)理解这些底层实现后当你使用HuggingFace的Transformer库时就能真正明白那些参数的含义而不是盲目调参。比如你可以根据任务特点调整注意力头的数量或者自定义位置编码方式。

18.【LangChain学院】Foundation (1.3.1）- Short_Memory(3)_自定义存储内容及数据访问 | 本地小模型 | 结构化信息提取

这是这是我们《AI开发实践》系列的第18篇，我们继续学习Langchain。前面两节中，我们学习了langchain中是如何解决LLM失忆问题的，研究了如何压缩数据不超过LLM的上下文窗口大小。但是实际上问题仍旧没有结束，因为，在实际…...

2026/5/9 16:30:49 阅读更多 →

CANN/catlass矩阵乘模板总结

矩阵乘模板总结【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 当前库上examples内包含多种矩阵乘的样例模板，其来源是不同的matmul理论模板…...

2026/5/9 16:24:32 阅读更多 →

AlphaSuite：开源量化分析平台实战，从策略构建到风险管理

1. 项目概述：AlphaSuite，一个为严肃交易者打造的量化分析平台如果你和我一样，在量化交易这条路上摸索过一段时间，大概率会陷入一个尴尬的境地：一边是功能强大但价格昂贵、学习曲线陡峭的机构级平台，另一边是…...

2026/5/9 16:21:06 阅读更多 →

如何用Python脚本绕过百度网盘限速？5个实用技巧大揭秘

如何用Python脚本绕过百度网盘限速？5个实用技巧大揭秘【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 上周，当我需要从百度网盘下载一个3GB的设计素材时…...

2026/5/8 0:39:19 阅读更多 →

构建Web3多智能体世界：从账户抽象到AI驱动的链上经济

1. 项目概述：一个由AI驱动的Web3多智能体世界EmpowerTours 是一个我深度参与构建的、运行在 Monad 区块链上的综合性 Web3 平台。它不仅仅是一个应用，更是一个持续运行的多智能体世界，并深度集成在 Farcaster 社交协议中，作为一个…...

2026/5/8 0:40:09 阅读更多 →

2026届最火的降AI率网站推荐榜单

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 需要从源头优化以及后期校正两方同时着手，来降低文本里AIGC也就是人工智能生成内…...

2026/5/8 0:02:56 阅读更多 →