Pytorch 学习笔记(21) : PyTorch Profiler

张

张建站

2026/6/26 20:41:33

10分钟阅读

资料https://docs.pytorch.org/docs/stable/profiler.htmlhttps://docs.pytorch.org/tutorials/recipes/recipes/profiler_recipe.htmlhttps://github.com/ZhiqianXia/perf-compiler-learning/tree/main/08-pytorch/4-performance/profiler_labs 如果感兴趣可以下载玩玩一、概述PyTorch Profiler 是 PyTorch 提供的性能分析工具用于收集训练和推理过程中的性能指标。通过上下文管理器 API开发者可以识别最耗时的模型算子查看算子的输入形状和堆栈跟踪研究设备内核活动可视化执行跟踪⚠️注意torch.autograd模块中的旧版 API 已被弃用建议使用torch.profiler。二、核心 API 详解2.1 profile 上下文管理器推荐用法withtorch.profiler.profile(activities[torch.profiler.ProfilerActivity.CPU,torch.profiler.ProfilerActivity.CUDA,])asp:code_to_profile()print(p.key_averages().table(sort_byself_cuda_time_total,row_limit-1))主要参数说明参数类型说明activitiesiterable分析活动类型CPU、CUDA、XPUscheduleCallable调度器控制分析启停时机on_trace_readyCallable跟踪就绪时的回调函数record_shapesbool记录算子输入形状profile_memorybool跟踪张量内存分配/释放with_stackbool记录源代码信息文件和行号with_flopsbool估算特定算子的 FLOPSwith_modulesbool记录模块层次结构仅 TorchScriptacc_eventsbool跨多个分析周期累积事件post_processing_timeout_sfloat后处理超时时间2.2 调度器Schedule使用适用于长时间训练任务可在不同迭代获取多个跟踪deftrace_handler(prof):print(prof.key_averages().table(sort_byself_cuda_time_total,row_limit-1))withtorch.profiler.profile(activities[...],scheduletorch.profiler.schedule(wait1,warmup1,active2,repeat1),on_trace_readytrace_handler,)asp:foriterinrange(N):code_iteration_to_profile(iter)p.step()# 通知分析器新迭代开始schedule 参数说明wait等待步数warmup预热步数active活跃记录步数repeat重复周期数0 表示持续到结束skip_first跳过前 N 步skip_first_wait是否跳过首次等待2.3 TensorBoard 集成withtorch.profiler.profile(on_trace_readytorch.profiler.tensorboard_trace_handler(./log),...)asp:# 训练代码# 启动 TensorBoard# tensorboard --logdir ./log三、高级功能3.1 动态切换分析活动withtorch.profiler.profile(...)asp:code_to_profile_0()# 关闭 CUDA 活动收集p.toggle_collection_dynamic(False,[torch.profiler.ProfilerActivity.CUDA])code_to_profile_1()# 重新开启 CUDA 活动收集p.toggle_collection_dynamic(True,[torch.profiler.ProfilerActivity.CUDA])code_to_profile_2()3.2 Execution Trace Observer用于获取 AI/ML 工作负载的图表示支持重放基准测试fromtorch.profiler.execution_traceimportExecutionTraceObserverwithtorch.profiler.profile(execution_trace_observerExecutionTraceObserver().register_callback(./execution_trace.json),)asp:# 训练代码3.3 导出功能方法功能export_chrome_trace(path)导出 Chrome JSON 格式跟踪export_stacks(path, metric)保存堆栈跟踪key_averages()按算子名称分组平均事件events()获取未聚合的分析事件列表四、ProfilerActivity 类型CPU- CPU 活动CUDA- NVIDIA GPU 活动XPU- Intel GPU 活动MTIA- Meta Training and Inference AcceleratorHPU- Habana Gaudi 设备PrivateUse1- 私有自定义设备五、性能注意事项启用 shape 和 stack 追踪会产生额外开销record_shapesTrue时分析器会临时持有张量引用可能阻止某些优化并引入额外拷贝建议在调试时使用完整功能生产环境根据需求选择六、Intel ITT API可选针对 Intel 平台的额外支持torch.profiler.itt.is_available()# 检查 ITT 是否可用torch.profiler.itt.mark(msg)# 标记瞬时事件torch.profiler.itt.range_push(msg)# 压入嵌套范围torch.profiler.itt.range_pop()# 弹出嵌套范围七、完整示例代码importtorchimporttorch.profiler# 定义模型modeltorch.nn.Linear(10,10).cuda()inputtorch.randn(100,10).cuda()# 性能分析withtorch.profiler.profile(activities[torch.profiler.ProfilerActivity.CPU,torch.profiler.ProfilerActivity.CUDA,],scheduletorch.profiler.schedule(wait1,warmup1,active3,repeat2),on_trace_readytorch.profiler.tensorboard_trace_handler(./log),record_shapesTrue,profile_memoryTrue,with_stackTrue,with_flopsTrue,)asprof:forstepinrange(10):withtorch.profiler.record_function(model_forward):outputmodel(input)lossoutput.sum()withtorch.profiler.record_function(model_backward):loss.backward()prof.step()# 打印统计结果print(prof.key_averages().table(sort_bycuda_time_total,row_limit10))八、总结PyTorch Profiler 提供了从基础到高级的全方位性能分析能力场景推荐用法快速调试基础profile上下文管理器长期训练scheduleon_trace_ready可视化分析TensorBoard 集成内存优化profile_memoryTrue分布式训练tensorboard_trace_handler指定worker_name

数据库知识复习07

第七部分练习 01 完成5个不同类型的数据库安装一、MySQL 安装（Windows 10 系统） 1. 下载安装包访问 MySQL 官方下载地址：https://dev.mysql.com/downloads/installer/，选择对应系统的 MySQL Installer 安装包（建…...

2026/6/26 20:07:12 阅读更多 →

Is620伺服驱动电机成熟量产伺服控制器开发设计方案及代码完整原理图

伺服控制器开发设计方案成熟量产伺服控制器方案 Is620伺服驱动电机，提供DSP程序和原理图，代码完整，学习工业代码的范例，采用ES232,RS485及CAN通讯接口处提供刚性表设置，惯性识别及振动抑制功能抄起示波器探头直奔实验…...

2026/6/4 17:42:55 阅读更多 →

用ChatGPT和Stable Diffusion，我造了个百万级机器人抓取数据集：Grasp-Anything实战复盘

从零构建百万级机器人抓取数据集：ChatGPT与Stable Diffusion的工程化实践当我在实验室第一次尝试让机械臂抓取杂乱的日常物品时，那些在标准数据集中表现优异的模型突然变得笨拙不堪——它们无法识别从未见过的马克杯造型，更别说计算合适的抓…...

2026/6/4 17:42:28 阅读更多 →

终极网盘直链下载指南：八大平台高速下载完全解决方案

终极网盘直链下载指南：八大平台高速下载完全解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

2026/6/24 22:21:16 阅读更多 →

抖音无水印下载终极指南：专业级开源工具完全解析

抖音无水印下载终极指南：专业级开源工具完全解析【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…...

2026/6/26 6:36:40 阅读更多 →

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版资料全科都有考研英语黄皮书 PDFhttps://tool.nineya.com/s/1jpq3effr 【英语真题】1. The word "resilient" means（ ） A. able to recover quickly B. very fragile C…...

2026/6/25 0:40:48 阅读更多 →

中兴光猫权限解锁工具：zteOnu完整使用指南与教程

中兴光猫权限解锁工具：zteOnu完整使用指南与教程【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫权限解锁工具zteOnu是一款专门用于开启中兴光猫设备工厂模式的强大…...

2026/6/26 11:04:54 阅读更多 →