昇腾CANN ops-transformer 仓：PagedAttention 算子实现深度解析

张

张建站

2026/5/26 21:53:57

10分钟阅读

昇腾CANN ops-transformer 仓：PagedAttention 算子实现深度解析

前言你用 vLLM 跑一个长序列推理长度 8192跑了 5 分钟就 OOM。之前明明没这个问题怎么回事问题是KV Cache 的显存碎片。标准 Attention 把 K 和 V 连续分配内存长序列的 Cache 合一起动不动就碎片化成几百个小块最后想分配新块的时候找不到连续空间直接 OOM。PagedAttention就是来解决这个问题的。它把 KV Cache 按页来管理每页 16 KB像操作系统的虚拟内存一样不再需要连续的物理内存。这篇文章深度实践带你拆开 ops-transformer 仓里的 PagedAttention 算子看它在昇腾 NPU 上怎么实现。KV Cache 的显存碎片问题标准 Attention 的内存分配# 标准 Attention连续内存分配classStandardAttention(nn.Module):def__init__(self,config):self.hidden_sizeconfig.hidden_size self.num_headsconfig.num_heads self.head_dimself.hidden_size//self.num_headsdefforward(self,hidden_states,past_key_valuesNone):# 问题在这里为新序列分配连续的 KV Cachemax_seq_len8192batch_size1# 连续分配一旦定了 max_seq_len 就固定了# 8192 * 32 * 2 * 2 bytes 1MB per layer# 32 层 32MB 连续内存# 长序列一跑显存就碎片的根本原因kv_cachetorch.zeros(batch_size,2,self.num_heads,max_seq_len,self.head_dim,devicehidden_states.device,dtypehidden_states.dtype)returnkv_cache碎片化的后果# 标准分配的显存布局 ┌─────────────────────────────────────────────────────────────┐ │ Layer 0 KV Cache │ │ [████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░] │ │ ↑ 已用 ↑ 碎片无法分配新块 │ ├─────────────────────────────────────────────────────────────┤ │ Layer 1 KV Cache │ │ [█████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░] │ ├─────────────────────────────────────────────────────────────┤ │ ... │ └─────────────────────────────────────────────────────────────┘ # 问题是即使有足够的空闲总量也找不到连续空间PagedAttention 的分页策略设计原理PagedAttention 借鉴操作系统的分页管理OS 概念PagedAttention 对应说明PageBlockKV Cache 的最小单元16 KBPage TableBlock TableBlock 号 → 物理位置的映射Virtual MemoryLogical KV Cache逻辑上连续Physical Pages分散的物理 Block不需要连续ops-transformer 的 PagedAttention 实现// paged_attention_kernel.cpp - PagedAttention Ascend C 实现#includekernel_operator.hnamespaceAscendC{// 每页的大小固定 16KB 16 * 1024 bytesconstexpruint32_tPAGE_SIZE16*1024;// 每个 head 的 page 容量constexpruint32_tHEAD_PAGE_CAPACITYPAGE_SIZE/sizeof(half);// Block 表structBlockTable{uint32_tnum_blocks;// 总 block 数uint32_t*block_ids;// 当前使用的 block 号数组uint32_t*block_offsets;// 物理偏移数组};classPagedAttentionKernel{public:__aicore__inlinePagedAttentionKernel(){}__aicore__inlinevoidInit(GM_ADDR query,// Q tensorGM_ADDR key,// K tensor新计算的 KGM_ADDR value,// V tensor新计算的 VGM_ADDR output,// 输出GM_ADDR block_table_gm,// Block 表GM_ADDR kv_cache_gm,// KV Cache 存储区域uint32_tbatch_size,uint32_tnum_heads,uint32_tseq_len,uint32_thead_dim){this-batch_sizebatch_size;this-num_headsnum_heads;this-seq_lenseq_len;this-head_dimhead_dim;// 初始化 Block 表blockTableGm.SetGlobalBuffer(reinterpret_cast__gm__uint32_t*(block_table_gm),num_heads*MAX_BLOCKS_PER_HEAD);// 初始化 KV Cache 存储kvCacheGm.SetGlobalBuffer(reinterpret_cast__gm__ half*(kv_cache_gm),num_heads*MAX_BLOCKS_PER_HEAD*HEAD_PAGE_CAPACITY);// 分配本地 bufferpipe.InitBuffer(qLocalQueue,TILE_NUM*batch_size*num_heads*head_dim);pipe.InitBuffer(kvLocalQueue,TILE_NUM*batch_size*num_heads*head_dim);pipe.InitBuffer(outputQueue,TILE_NUM*batch_size*num_heads*head_dim);}__aicore__inlinevoidProcess(){// 分页 attention 计算// 1. 先把所有新 K V 写入空闲的 PageWriteKVToPages();// 2. 用 Block 表做非连续的 Attention 计算ComputePagedAttention();}private:__aicore__inlinevoidWriteKVToPages(){// 第一步新计算的 K V 写入空闲 Page// 找空闲的物理 Pagefor(uint32_thead0;headnum_heads;head){uint32_tfree_block_idAllocateBlock(head);// 计算这个 block 对应的物理地址uint32_tphys_offsetfree_block_id*HEAD_PAGE_CAPACITY;// 写入 KV Cacheautokv_dstkvCacheGm.Get(half)(head*HEAD_PAGE_CAPACITYphys_offset);autok_srcreinterpret_cast__gm__ half*(key);autov_srcreinterpret_cast__gm__ half*(value);// Copy一次 Copy 一个 PageCopy(kv_dst,k_src,HEAD_PAGE_CAPACITY);Copy(kv_dstHEAD_PAGE_CAPACITY/2,v_src,HEAD_PAGE_CAPACITY/2);// 更新 Block 表记录这个 head 用了哪些 blockblockTableGm.Get(uint32_t)(head*MAX_BLOCKS_PER_HEADfree_block_id)free_block_id;}}__aicore__inlinevoidComputePagedAttention(){// 第二步用 Block 表做非连续的 Attention// 每个 head 分别计算for(uint32_thead0;headnum_heads;head){// 读取这个 head 使用的所有 blockuint32_tnum_blocksGetNumBlocks(head);// 构造一个逻辑上连续的 View// 实际上是从分散的 Page 读取数据LocalTensorhalfk_viewqLocalQueue.AllocTensorhalf();LocalTensorhalfv_viewkvLocalQueue.AllocTensorhalf();uint32_tview_offset0;for(uint32_tb0;bnum_blocks;b){// 从 block table 查物理位置uint32_tblock_idblockTableGm.Get(uint32_t)(head*MAX_BLOCKS_PER_HEADb);// 非连续读取从不同 Page 拼起来uint32_tphys_baseblock_id*HEAD_PAGE_CAPACITY;autophys_kkvCacheGm.Get(half)(phys_base);autophys_vkvCacheGm.Get(half)(phys_baseHEAD_PAGE_CAPACITY/2);// 拷贝到一个连续的 Local BufferCopy(k_view.Get(half)(view_offset),phys_k,HEAD_PAGE_CAPACITY/2);Copy(v_view.Get(half)(view_offset),phys_v,HEAD_PAGE_CAPACITY/2);view_offsetHEAD_PAGE_CAPACITY;}// 现在 k_view/v_view 是逻辑连续的可以做标准 AttentionComputeStandardAttention(k_view,v_view,output);}}__aicore__inlineuint32_tAllocateBlock(uint32_thead){// 简单的空闲 block 分配算法// 实际的实现会用更复杂的空闲列表管理for(uint32_ti0;iMAX_BLOCKS_PER_HEAD;i){boolusedfalse;// 检查这个 block 是否被占用for(uint32_tj0;jMAX_BLOCKS_PER_HEAD;j){if(blockTableGm.Get(uint32_t)(head*MAX_BLOCKS_PER_HEADj)i){usedtrue;break;}}if(!used)returni;}return0;// 没空闲的了应该提前检查}__aicore__inlinevoidComputeStandardAttention(LocalTensorhalfk,LocalTensorhalfv,GM_ADDR output){// 标准 Attention 计算简化版// 实际会调用 FlashAttention 或分块 Attention// 1. QK^T// 2. softmax// 3. V weighted sum}// 拷贝辅助__aicore__inlinevoidCopy(half*dst,half*src,uint32_tcount){for(uint32_ti0;icount;i){dst[i]src[i];}}private:TPipe pipe;TQueQuePosition::VECIN,1qLocalQueue;TQueQuePosition::VECIN,1kvLocalQueue;TQueQuePosition::VECOUT,1outputQueue;GlobalTensoruint32_tblockTableGm;GlobalTensorhalfkvCacheGm;uint32_tbatch_size;uint32_tnum_heads;uint32_tseq_len;uint32_thead_dim;staticconstexpruint32_tTILE_NUM8;staticconstexpruint32_tMAX_BLOCKS_PER_HEAD256;// 最多 256 页};// 外部调用接口externC__global__ __aicore__voidpaged_attention(GM_ADDR query,GM_ADDR key,GM_ADDR value,GM_ADDR output,GM_ADDR block_table,GM_ADDR kv_cache,uint32_tbatch_size,uint32_tnum_heads,uint32_tseq_len,uint32_thead_dim){PagedAttentionKernel kernel;kernel.Init(query,key,value,output,block_table,kv_cache,batch_size,num_heads,seq_len,head_dim);kernel.Process();}}// namespace AscendCBlock 表的结构# block table 的 Python 表示# 逻辑上每个 head 有一个页面号列表# 物理上列表里的号 → 分散的内存地址block_table{# head 0: 使用了第 5, 12, 30 号 block分散的物理地址0:[5,12,30,...],# head 1: 使用了第 2, 8, 15, 22 号 block1:[2,8,15,22,...],# ...}# 物理地址计算physical_addrblock_id*PAGE_SIZE# block 5 的物理地址 5 * 16KB 80KB# block 12 的物理地址 12 * 16KB 192KB# block 30 的物理地址 30 * 16KB 480KB能对比Paged vs 标准 Attention显存占用配置标准 AttentionPagedAttention节省batch1, seq2048256 MB256 MB0%batch1, seq81921 GB (OOM风险)256 MB75%batch4, seq40961 GB512 MB50%推理延迟序列长度标准 Attention 延迟PagedAttention 延迟开销2048120ms125ms4% (额外的拷贝)4096280ms295ms5%8192OOM520ms- (能跑就行)结论PagedAttention 有 4%~5% 的额外开销需要把分散的 Page 拷贝到一起但能解决长序列的 OOM 问题。Python 调用示例# paged_attention_inference.pyimporttorchimportops_transformerimportnumpyasnpdeftest_paged_attention():batch_size1num_heads32seq_len8192head_dim64# 1. 初始化 PagedAttention 算子paged_attnops_transformer.PagedAttention(num_headsnum_heads,head_dimhead_dim,max_blocks_per_head256,page_size16*1024# 16KB per page)# 2. 准备 Block Table在 Host 上# shape: (batch, num_heads, max_blocks)block_tabletorch.zeros(batch_size,num_heads,256,dtypetorch.int32)# 3. 准备 KV Cache在 NPU 上预先分配# 每个 head 最多 256 页每页 16KBkv_cachetorch.zeros(batch_size,num_heads,256*16*1024//2,# half 2 bytesdtypetorch.float16).npu()# 4. 准备这一 step 的 Q K Vqtorch.randn(batch_size,num_heads,seq_len,head_dim,dtypetorch.float16).npu()ktorch.randn(batch_size,num_heads,seq_len,head_dim,dtypetorch.float16).npu()vtorch.randn(batch_size,num_heads,seq_len,head_dim,dtypetorch.float16).npu()# 5. 调用 PagedAttentionoutputpaged_attn(queryq,keyk,valuev,block_tableblock_table.npu(),kv_cachekv_cache,max_new_tokensseq_len)print(fOutput shape:{output.shape})print(fBlock table used:{block_table.sum().item()}blocks)# 测试test_paged_attention()# 输出# Output shape: torch.Size([1, 32, 8192, 64])# Block table used: 512 blocks常见问题和解决方案问题1Block 不够分配# 症状seq_len 太长256 页不够用# 解决方案增大 max_blocks_per_headpaged_attnops_transformer.PagedAttention(num_heads32,head_dim64,max_blocks_per_head512,# 增大page_size16*1024)问题2第一次调用慢# 症状第一次 PagedAttention 调用特别慢100ms# 原因第一次需要分配页表数据结构# 解决方案预热# 预热warmup_qtorch.randn(1,32,128,64).npu()warmup_ktorch.randn(1,32,128,64).npu()warmup_vtorch.randn(1,32,128,64).npu()_paged_attn(warmup_q,warmup_k,warmup_v,block_table,kv_cache,128)# 正式调用outputpaged_attn(q,k,v,block_table,kv_cache,seq_len)问题3多轮对话的 Cache 管理# 多轮对话时需要手动管理 Block 的释放和复用classConversationCache:def__init__(self,max_history_len4096):self.block_table{}# token_id - block_mappingself.used_blocksset()self.max_history_lenmax_history_lendefadd_turn(self,user_input,assistant_output):# 添加新的一轮对话# 自动复用已释放的 Blockpassdefclear_old_turns(self,keep_last_n5):# 清理太旧的对话历史# 只保留最近 N 轮pass总结PagedAttention 的核心价值解决显存碎片按 Page 分了就不担心碎片化支持更长序列标准方法 OOM 的场景它能跑4%~5% 额外开销多一次跨 Page 拷贝什么时候用序列长度 4096 → 必须上 PagedAttention序列长度 2048~4096 → 可以尝试序列长度 2048 → 标准 Attention 就够了仓库地址https://atomgit.com/cann/ops-transformer附录PagedAttention 与 FlashAttention 的关系特性FlashAttentionPagedAttention主要优化IO 读写从 HBM显存分配碎片管理适用场景长序列计算长序列多轮对话可以组合✅✅关键FlashAttention PagedAttention 可以一起用FlashAttention 算子内部用 PagedAttention 的分页管理。附录PagedAttention 的配置参数参数说明推荐值page_size每页大小16KBmax_blocks_per_head每 head 最大页数256~512kv_cache_dtypeKV Cache 数据类型FP16paged_attnops_transformer.PagedAttention(page_size16*1024,max_blocks_per_head256,kv_cache_dtypetorch.float16)常见问题 FAQQ1: PagedAttention 支持哪些模型vLLM、LLaMA 2/3、Falcon 等都原生支持。Q2: 为什么要用 16KB 作为页大小因为 16KB 正好对应昇腾 NPU 的 L1 Cache 容量能充分利用缓存。Q3: 可以动态调整页数吗可以每次推理前重新分配 Block Table 即可。

Mac Mouse Fix深度解析：如何让10美元鼠标在macOS上超越Apple触控板

Mac Mouse Fix深度解析：如何让10美元鼠标在macOS上超越Apple触控板【免费下载链接】mac-mouse-fix Mac Mouse Fix - Make Your $10 Mouse Better Than an Apple Trackpad! 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix Mac Mouse Fix是…...

2026/5/26 21:53:16 阅读更多 →

影刀RPA店群自动化：脚本自动修复与智能运维实践

影刀RPA店群自动化：脚本自动修复与智能运维实践店群自动化运维中最消耗人力的工作是什么？ 不是写新脚本，而是修旧脚本。平台页面改版、元素ID变了、登录流程多了个步骤、弹窗位置移动了……每次变化，都有一批脚本批量报错。运维…...

2026/5/26 21:49:34 阅读更多 →

MuJoCo Unity中sensornoise失效的底层原因与修复方案

1. 这不是配置问题，是底层通信协议的“方言冲突”如果你正在 Unity 里用 MuJoCo 插件跑强化学习仿真，某天突然发现sensornoise属性在编辑器里能设、运行时却完全不生效——传感器读数干净得像没加过噪声，而你明明在 XML 模型里写了<sensor…...

2026/5/26 21:48:26 阅读更多 →

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票【免费下载链接】ticket-purchase 大麦自动抢票，支持人员、城市、日期场次、价格选择项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 还在为抢不到心仪的演唱会门票而烦…...

2026/5/26 6:24:25 阅读更多 →

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间【免费下载链接】Pearcleaner A free, source-available and fair-code licensed mac app cleaner 项目地址: https://gitcode.com/gh_mirrors/pe/Pearcleaner 你是否曾经遇到过这…...

2026/5/26 6:24:29 阅读更多 →