从零手写 FlashAttention（PyTorch实现 + 原理推导）

张

张建站

2026/4/30 14:53:30

10分钟阅读

本文基于一个最小 PyTorch 示例手写实现 FlashAttention的核心计算流程并详细解释其数值稳定性和分块计算原理。1. 标准 Attention 回顾标准 Attention 的计算公式Attention(Q,K,V)softmax(QKT)V Attention(Q,K,V) softmax(QK^T)VAttention(Q,K,V)softmax(QKT)Vimporttorch querytorch.randn(1,12,10)keytorch.randn(1,12,10)valuetorch.randn(1,12,10)logitstorch.einsum(bqd,bkd-bqk,query,key)probstorch.nn.functional.softmax(logits,dim-1)softmax_outputtorch.einsum(bqk,bkd-bqd,probs,value)2. FlashAttention 核心思想FlashAttention 的核心目标避免显式存储整个 attention matrixQK^T关键手段分块计算block-wise在线 Softmaxonline softmax3. 数值稳定 Softmaxsoftmax(xj)exj−m∑kexk−m,mmax(x) softmax(x_j) \frac{e^{x_j - m}}{\sum_k e^{x_k - m}}, \quad m max(x)softmax(xj)∑kexk−mexj−m,mmax(x)4. 核心递推mimax(mi−1,mij) m_i max(m_{i-1}, m_{ij})mimax(mi−1,mij)lili−1emi−1−mi∑exij−mi l_i l_{i-1} e^{m_{i-1} - m_i} \sum e^{x_{ij} - m_i}lili−1emi−1−mi∑exij−mioioi−1emi−1−mi∑(exij−miVj) o_i o_{i-1} e^{m_{i-1} - m_i} \sum (e^{x_{ij} - m_i} V_j)oioi−1emi−1−mi∑(exij−miVj) 关键细节深入理解很多人在理解这里时容易卡住为什么需要对历史的oi−1o_{i-1}oi−1做rescale我们一步一步拆解1️⃣oi−1o_{i-1}oi−1并不是最终正确的值在第i−1i-1i−1次循环时我们用的是局部最大值mi−1m_{i-1}mi−1所以 softmax 实际是exi−1∑exi−1exi−1−mi−1∑exi−1−mi−1 \frac{e^{x_{i-1}}}{\sum e^{x_{i-1}}} \frac{e^{x_{i-1} - m_{i-1}}}{\sum e^{x_{i-1} - m_{i-1}}}∑exi−1exi−1∑exi−1−mi−1exi−1−mi−1 注意这里的归一化是基于局部 block 的尺度2️⃣ 当进入第iii个 block 时发生了什么我们得到了新的最大值mimax(mi−1,mij) m_i max(m_{i-1}, m_{ij})mimax(mi−1,mij) 这个mim_imi更接近全局最大值3️⃣ 问题的本质此时出现一个不一致项目使用的 maxoi−1o_{i-1}oi−1mi−1m_{i-1}mi−1当前 blockmim_imi 如果直接相加会导致不同尺度的指数项被混合数值错误4️⃣ 解决方法统一尺度rescale我们需要把旧的oi−1o_{i-1}oi−1从ex−mi−1 e^{x - m_{i-1}}ex−mi−1转换到ex−mi e^{x - m_i}ex−mi变换方式ex−mi−1ex−mi⋅emi−mi−1 e^{x - m_{i-1}} e^{x - m_i} \cdot e^{m_i - m_{i-1}}ex−mi−1ex−mi⋅emi−mi−1 因此oi−1→oi−1⋅emi−1−mi o_{i-1} \rightarrow o_{i-1} \cdot e^{m_{i-1} - m_i}oi−1→oi−1⋅emi−1−mi5️⃣ 对应代码o_i o_i_1 * torch.exp(m_i_1 - m_i)[…, None] torch.einsum(‘bqk,bkd-bqd’, exp_term, v_i)含义是第一项旧结果 rescale 到新尺度第二项当前 block 的贡献6️⃣ 一个直观理解可以把整个过程理解为我们在不断修正历史让所有累积值都统一到当前最稳定的坐标系最大值下随着循环进行mim_imi会逐步逼近全局最大值所有历史贡献都会被重新缩放到这个统一尺度7️⃣ 最终结果当所有 block 处理完mim_imi 全局最大值oi/lio_i / l_ioi/li 完整 softmax 结果5. PyTorch实现flash_softmax_outputs[]q_chunks4q_chunk_sizequery.shape[1]//q_chunks k_chunks3k_chunk_sizekey.shape[1]//k_chunksforiinrange(q_chunks):q_iquery[:,i*q_chunk_size:(i1)*q_chunk_size]m_i_1torch.full((q_i.shape[0],q_i.shape[1]),-float(inf))l_i_1torch.zeros_like(m_i_1)o_i_1torch.zeros((q_i.shape[0],q_i.shape[1],value.shape[-1]))forjinrange(k_chunks):k_ikey[:,j*k_chunk_size:(j1)*k_chunk_size]# (B, K_block, D)v_ivalue[:,j*k_chunk_size:(j1)*k_chunk_size]# (B, K_block, Dv)logits_itorch.einsum(nqd,nkd-nqk,q_i,k_i)# (B, Q_block, K_block)# ---- 更新 m ----m_ijtorch.max(logits_i,dim-1)[0]# (B, Q_block)m_itorch.maximum(m_i_1,m_ij)# 计算Softmax分子e^(x_i - m_i)exp_termtorch.exp(logits_i-m_i[...,None])# (B, Q_block, K_block)# 更新Softmax分母# rescale * 旧的softmax分母新的softmax分母l_il_i_1*torch.exp(m_i_1-m_i)exp_term.sum(dim-1)# ---- 更新 O关键----# rescale * 旧的logit * v 新的logit * vo_io_i_1*torch.exp(m_i_1-m_i)[...,None]torch.einsum(nqk,nkd-nqd,exp_term,v_i)# ---- 状态更新 ----m_i_1m_i l_i_1l_i o_i_1o_i# ---- 最后除以Softmax分母----outputo_i/l_i[...,None]flash_softmax_outputs.append(output)flash_softmax_outputstorch.cat(flash_softmax_outputs,dim1)6. 正确性验证torch.allclose(softmax_output,flash_softmax_outputs)7. 总结FlashAttention 本质分块计算在线 softmax动态重标定rescale复杂度从 O(N^2) 降到 O(N)

uBlock Origin (uBO) 浏览器插件：各浏览器状态、功能及安装使用全解析

uBlock Origin (uBO) 浏览器安装相关信息各浏览器插件状态如下：Firefox 附加组件：uBO 在 Firefox 上表现最佳。Edge 附加组件：可正常使用。Opera 附加组件：可正常使用。Chrome 网上应用店：谷歌 Chrome 提示“此扩展程序…...

2026/4/30 14:53:29 阅读更多 →

从手动安装whl到conda命令：PyTorch 2.1.0与CUDA 12.1环境搭建的两种实战路径对比

PyTorch 2.1.0与CUDA 12.1环境搭建：从官方源到手动whl的完整生存指南当你正准备在Linux服务器上部署一个基于PyTorch的深度学习项目时，突然发现conda install命令卡在"Solving environment"阶段长达半小时，或是pip install不断抛…...

2026/4/30 14:51:04 阅读更多 →

Allegro PCB尺寸标注保姆级教程：从参数设置到导出PDF/DXF的完整避坑指南

Allegro PCB尺寸标注全流程实战：从参数配置到生产文件输出的深度解析在PCB设计流程中，尺寸标注往往是被工程师忽视的"最后一公里"。当设计文件从电子工程师转移到结构工程师或生产部门时，精确的尺寸标注就像两种专业语言之间的翻译…...

2026/4/30 14:50:05 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/30 11:20:20 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/30 11:20:21 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/29 14:47:33 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/30 11:20:20 阅读更多 →