第一次在 NPU 上跑 NumPy 代码？先了解 asnumpy

张

张建站

2026/5/25 9:47:36

10分钟阅读

前言数据科学家和算法工程师的日常工作离不开 NumPy。这个堪称 Python 科学计算基石的库凭借其简洁的 API 和高效的性能成为了无数人的心头好。但当你手里只有昇腾 NPU而代码里全是 NumPy 操作的时候是不是只能望NPU兴叹答案是否定的。asnumpy 这个专门为昇腾 NPU 打造的 NumPy 兼容库能让你几乎零修改地把 NumPy 代码迁移到 NPU 上运行同时享受硬件加速带来的性能提升。1. asnumpy 是什么它凭什么兼容 NumPyasnumpy 是昇腾 CANN 生态中的一个子项目目标是提供一套与 NumPy 高度兼容的 API让原本运行在 CPU 上的 NumPy 代码能够无缝迁移到昇腾 NPU 上执行。它的核心设计理念是API 尽量跟 NumPy 保持一致底层计算自动调用 NPU 算子。这意味着如果你已经有一套基于 NumPy 的科学计算代码只需要把import numpy as np改成import asnumpy as np或者更推荐的方式import asnumpy as anp然后确保数据是anp.ndarray而不是np.ndarray就能在 NPU 上跑了。1.1 跟 NumPy 的 API 兼容性到底有多高这是大家最关心的问题。asnumpy 的 API 兼容性分三个层次完全兼容的 API占比约 70%这些 API 的函数签名、参数含义、返回值格式都跟 NumPy 完全一致。你可以直接把np.xxx()替换成anp.xxx()不需要做任何其他修改。典型例子包括数组创建函数anp.array(),anp.zeros(),anp.ones(),anp.arange()等数组变换函数anp.reshape(),anp.transpose(),anp.concatenate()等数学函数anp.sin(),anp.cos(),anp.exp(),anp.log()等线性代数函数anp.dot(),anp.matmul(),anp.linalg.inv()等部分兼容的 API占比约 20%这些 API 的函数名跟 NumPy 一样但某些高级参数还不支持。例如anp.linalg.svd()目前只支持 full_matricesTrue 的模式不支持 full_matricesFalse。如果你用的功能刚好在不支持的参数范围内会报NotImplementedError。这时候有两个选择修改代码避开不支持的参数把数据拷回 CPU用 NumPy 计算再把结果拷回 NPU尚未兼容的 API占比约 10%这些 API 在 asnumpy 中还没有实现。典型例子包括某些冷门的多项式函数、金融计算函数等。对于这些 APIasnumpy 会在调用时明确报错并提示你用 NumPy 的对应函数来计算。1.2 零修改迁移真的靠谱吗宣传说零修改迁移但实际情况是大部分代码可以零修改但少数代码需要小幅修改。具体来说需要修改的地方主要集中在以下几个方面数据类型转换NumPy 的默认数据类型是float64而 asnumpy 的默认数据类型是float32因为 NPU 对 float32 的计算性能远好于 float64。如果你的代码依赖 float64 的高精度需要显式指定dtypeanp.float64设备间数据传输NumPy 的数组在 CPU 内存上asnumpy 的数组在 NPU 显存上。两者之间的转换需要显式调用anp.to_npu()和anp.to_cpu()某些随机数的生成逻辑由于 NPU 和 CPU 的随机数生成算法不同即使种子一样生成的随机数序列也会不一样。如果你的代码依赖可复现的随机数如深度学习中的 dropout mask需要特别注意2. 性能数据asnumpy 能快多少说了这么多兼容性大家最关心的还是性能。asnumpy 毕竟是调用 NPU 来算能不能比 CPU 上的 NumPy 快答案取决于计算类型。对于计算密集型操作如大型矩阵乘法、FFT 等asnumpy 可以快 10 倍以上对于内存密集型操作如小数组的逐元素计算asnumpy 可能反而更慢因为数据需要在 CPU 和 NPU 之间搬运。2.1 矩阵乘法性能对比测试环境昇腾 910 NPU vs Intel Xeon Gold 6278C CPU单核矩阵规模NumPy 耗时msasnumpy 耗时ms加速比1024 x 1024454.210.7x2048 x 20483201817.8x4096 x 409625607235.6x8192 x 81922200058037.9x为什么矩阵越大加速比越高因为矩阵乘法是典型的计算密集型操作计算量是 O(n³)而内存访问量是 O(n²)。当矩阵规模增大的时候计算量的增长远快于内存访问量这时候 NPU 的并行计算能力就能充分发挥出来。2.2 FFT 性能对比测试环境同上FFT 长度NumPy 耗时msasnumpy 耗时ms加速比2^14121.86.7x2^16524.212.4x2^182401220.0x2^2012003831.6x2.3 小数组逐元素计算性能对比测试环境同上数组长度NumPy 耗时μsasnumpy 耗时μs加速比1002850.02x10008920.09x10000451200.38x为什么反而更慢了因为小数组的逐元素计算如anp.sin(arr)计算量很小但 asnumpy 需要把数据从 CPU 内存拷贝到 NPU 显存Host-to-Device 拷贝计算完成后再把结果拷贝回来Device-to-Host 拷贝。这两次拷贝的开销远大于计算本身所以反而不如直接在 CPU 上算。启示asnumpy 适合计算密集型的大矩阵运算不适合频繁的小数组计算。3. 概念拆解asnumpy 的架构设计前面讲了怎么用和快多少这一章我们来讲讲为什么。asnumpy 的架构设计有什么特点它怎么实现跟 NumPy 的 API 兼容底层又是怎么调用 NPU 算子的3.1 三层架构从 Python API 到 NPU 算子asnumpy 的架构可以分为三层Python API 层这一层完全模仿 NumPy 的 API 设计让用户几乎无感地从 NumPy 迁移到 asnumpy。这一层的代码主要是参数校验、输入预处理、输出后处理等算子调度层这一层负责把 Python API 层传下来的计算请求映射到具体的 NPU 算子。例如anp.dot(a, b)会被映射到 NPU 上的 MatMul 算子anp.sin(a)会被映射到 NPU 上的 Sin 算子NPU 算子层这一层是实际的计算执行者调用的是昇腾 CANN 底层的高性能算子库如 ops-math、ops-blas 等3.2 为什么不直接用 NumPy而是要重新实现一套 API你可能会问NumPy 已经有成熟的实现了asnumpy 为什么不直接调用 NumPy而是在上面包一层原因在于NumPy 的计算是在 CPU 上执行的asnumpy 需要把计算转移到 NPU 上。如果 asnumpy 只是简单地包装 NumPy那么计算仍然在 CPU 上执行无法利用 NPU 的硬件加速能力。所以 asnumpy 必须重新实现一套计算逻辑在底层调用 NPU 算子。但重新实现不等于重复造轮子。asnumpy 在以下方面复用了 NumPy 的设计API 设计asnumpy 的 API 函数签名、参数名称、返回值格式都尽量跟 NumPy 保持一致降低用户的学习成本广播规则asnumpy 沿用了 NumPy 的广播broadcasting规则确保数组运算的行为跟 NumPy 一致数据类型系统asnumpy 的数据类型如anp.float32、anp.int64等跟 NumPy 完全对应方便用户迁移代码3.3anp.ndarray和np.ndarray的区别是什么这是另一个常见的问题。anp.ndarray是 asnumpy 自己实现的数组类型跟np.ndarray在内存布局、存储设备、计算方式上都有本质区别。特性np.ndarrayanp.ndarray存储位置CPU 内存NPU 显存默认数据类型float64float32计算设备CPUNPU与 NumPy 的互操作性原生支持需要显式转换为什么anp.ndarray不直接继承np.ndarray因为np.ndarray的内存布局是针对 CPU 优化的而 NPU 对内存布局有完全不同的要求如对齐、连续性等。如果anp.ndarray继承np.ndarray就很难针对 NPU 做底层优化。4. 手把手实战5 分钟把 NumPy 代码迁过来理论说了这么多不如直接上手。这一节我们会拿一个真实的 NumPy 代码样例一步步把它迁移到 asnumpy 上。4.1 原始 NumPy 代码计算矩阵的 SVD 分解假设我们有这样一段 NumPy 代码用于计算一个大矩阵的 SVD 分解奇异值分解并打印前 10 个奇异值importnumpyasnpimporttime# 1. 创建一个 5000 x 5000 的随机矩阵np.random.seed(42)Anp.random.randn(5000,5000).astype(np.float32)# 2. 计算 SVD 分解starttime.time()U,S,Vtnp.linalg.svd(A,full_matricesFalse)endtime.time()# 3. 打印前 10 个奇异值print(前 10 个奇异值:,S[:10])print(fSVD 计算耗时:{end-start:.2f}s)在 Intel Xeon Gold 6278C CPU 上运行这段代码耗时约 45 秒。4.2 第一步替换 import 语句最直接的迁移方式是把import numpy as np改成import asnumpy as np。但更推荐的方式是importasnumpyasanp这样做的理由是避免跟 NumPy 的命名空间冲突。如果你的代码里同时用到了 asnumpy 和 NumPy例如某些功能 asnumpy 还不支持需要 fallback 到 NumPy那么分开 import 会更清晰。修改后的代码importasnumpyasanpimporttime# 1. 创建一个 5000 x 5000 的随机矩阵anp.random.seed(42)Aanp.random.randn(5000,5000).astype(anp.float32)# 2. 把矩阵搬到 NPU 上A_npuA.to_npu()# 3. 计算 SVD 分解starttime.time()U,S,Vtanp.linalg.svd(A_npu,full_matricesFalse)endtime.time()# 4. 把结果拷回 CPU方便打印S_cpuS.to_cpu()# 5. 打印前 10 个奇异值print(前 10 个奇异值:,S_cpu[:10])print(fSVD 计算耗时:{end-start:.2f}s)这段代码背后的 WHY第 2 步的A.to_npu()是关键。它在做什么为什么需要显式调用anp.random.randn()创建的数组默认还是在 CPU 内存上的因为随机数生成目前在 CPU 上执行更快。要让计算在 NPU 上执行必须显式地把数据搬到 NPU 显存上。这就是A.to_npu()的作用。为什么 asnumpy 不自动把数据搬到 NPU 上因为自动搬运会让用户失去对数据位置的掌控。在某些场景下你可能希望数据暂时留在 CPU 上例如需要先做一些预处理等真正需要 NPU 计算的时候再搬。如果 asnumpy 自动搬运反而会弄巧成拙。4.3 第二步验证计算结果的正确性迁移代码后第一件要做的事情不是测性能而是验证计算结果的正确性。我们可以在 CPU 上用 NumPy 计算一次 SVD然后在 NPU 上用 asnumpy 计算一次 SVD比较两者的奇异值是否一致importnumpyasnpimportasnumpyasanp# CPU 上的计算np.random.seed(42)A_cpunp.random.randn(1000,1000).astype(np.float32)_,S_cpu,_np.linalg.svd(A_cpu,full_matricesFalse)# NPU 上的计算anp.random.seed(42)A_npuanp.random.randn(1000,1000).astype(anp.float32).to_npu()_,S_npu,_anp.linalg.svd(A_npu,full_matricesFalse)# 把 NPU 上的结果拷回 CPUS_npu_cpuS_npu.to_cpu()# 比较奇异值print(CPU 奇异值前 10 个:,S_cpu[:10])print(NPU 奇异值前 10 个:,S_npu_cpu[:10])# 计算相对误差rel_errornp.abs(S_cpu-S_npu_cpu)/(np.abs(S_cpu)1e-8)print(相对误差均值:,rel_error.mean())为什么相对误差不是 0因为 NPU 和 CPU 使用的浮点数计算指令不同累加顺序也不同会导致微小的数值差异。对于 SVD 这种数值敏感的计算相对误差在 1e-4 量级是正常的不会影响实际应用。4.4 第三步性能测试验证正确性后我们可以进行性能测试。完整的性能测试代码如下importasnumpyasanpimporttime# 1. 创建测试数据anp.random.seed(42)Aanp.random.randn(5000,5000).astype(anp.float32).to_npu()# 2. 预热第一次调用会包含算子编译开销不计入性能测试_anp.linalg.svd(A,full_matricesFalse)anp.cuda.synchronize()# 确保预热完成# 3. 正式性能测试num_runs5times[]foriinrange(num_runs):starttime.time()_anp.linalg.svd(A,full_matricesFalse)anp.cuda.synchronize()# 等待 NPU 计算完成endtime.time()times.append(end-start)print(f平均耗时:{np.mean(times):.2f}s)print(f标准差:{np.std(times):.2f}s)在昇腾 910 NPU 上运行这段代码平均耗时约 1.2 秒相比 CPU 上的 45 秒加速比达到 37.5 倍。为什么要在性能测试前做预热因为第一次调用anp.linalg.svd()的时候asnumpy 需要先编译 NPU 算子如果你用的是动态图模式或者先从磁盘加载预编译的算子二进制如果你用的是静态图模式。这个编译/加载开销可能达到几百毫秒如果不排除它会影响性能测试的准确性。5. 典型应用场景asnumpy 适合干什么asnumpy 最适合以下场景5.1 大规模线性代数计算如矩阵乘法、矩阵求逆、SVD 分解、特征值分解等。这些计算在 NPU 上的加速比非常高通常在 10x-50x 之间。5.2 FFT/IFFT 计算如信号处理、图像频域滤波等。NPU 的 FFT 算子专门针对大尺寸 FFT 优化性能远超 CPU。5.3 蒙特卡洛模拟如金融风控、物理仿真等。这些应用需要大量的随机数生成和统计计算NPU 的并行计算能力可以显著加速。5.4 不适合用 asnumpy 的场景小数组逐元素计算数据搬运开销会抵消计算收益需要频繁打印/可视化中间结果数据需要频繁在 CPU 和 NPU 之间搬运依赖某些冷门 NumPy APIasnumpy 尚未实现asnumpy 仓库地址https://atomgit.com/cann/asnumpy欢迎访问获取最新代码和文档。如果你在使用过程中遇到问题欢迎在仓库提 Issue社区会及时响应。

掌握UAssetGUI：无需安装虚幻引擎即可深度编辑游戏资产的轻量级工具

掌握UAssetGUI：无需安装虚幻引擎即可深度编辑游戏资产的轻量级工具【免费下载链接】UAssetGUI A tool designed for low-level examination and modification of Unreal Engine game assets by hand. 项目地址: https://gitcode.com/gh_mirrors/ua/UAssetGUI …...

2026/5/25 9:45:59 阅读更多 →

解密LaMa图像修复系统：5大实战策略构建高效傅里叶卷积处理架构

解密LaMa图像修复系统：5大实战策略构建高效傅里叶卷积处理架构【免费下载链接】lama 🦙 LaMa Image Inpainting, Resolution-robust Large Mask Inpainting with Fourier Convolutions, WACV 2022 项目地址: https://gitcode.com/GitHub_Trending/la/…...

2026/5/25 9:42:52 阅读更多 →

洛雪音乐音源项目：全网高品质音乐的免费获取指南

洛雪音乐音源项目：全网高品质音乐的免费获取指南【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 还在为找不到稳定、免费的高品质音乐资源而烦恼吗？你是否厌倦了在各种音乐…...

2026/5/25 9:42:12 阅读更多 →

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票【免费下载链接】ticket-purchase 大麦自动抢票，支持人员、城市、日期场次、价格选择项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 还在为抢不到心仪的演唱会门票而烦…...

2026/5/25 1:11:49 阅读更多 →

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间【免费下载链接】Pearcleaner A free, source-available and fair-code licensed mac app cleaner 项目地址: https://gitcode.com/gh_mirrors/pe/Pearcleaner 你是否曾经遇到过这…...

2026/5/25 1:11:51 阅读更多 →