PyTorch 中用于主机（CPU）与设备（GPU）同步的函数 torch.cuda.synchronize()

张

张建站

2026/4/17 22:23:15

10分钟阅读

PyTorch 中用于主机CPU与设备GPU同步的函数 torch.cuda.synchronize()flyfish完整代码在文末GPU 是异步执行的CPU 发送指令给 GPU比如矩阵乘法、卷积CPU 不会等 GPU 算完直接跑去执行下一行代码GPU 在后台默默计算计算完了再通知 CPUtorch.cuda.synchronize() 到底做什么强制 CPU 停下来等待 GPU 把之前所有的计算任务全部执行完毕再继续运行后面的代码。无同步CPU 发完指令就溜GPU 后台干活加同步CPU 原地等待直到 GPU 干完活torch.cuda.synchronize(deviceNone)它会阻塞当前 CPU 线程直到指定 CUDA 设备上所有 streams 中的所有 kernels计算任务全部完成为止。device参数可选默认为当前设备torch.cuda.current_device()。调用底层 CUDA 的cudaDeviceSynchronize()或类似机制强制等待 GPU 把之前下发的所有工作做完。PyTorch以及几乎所有现代 CUDA 编程默认采用异步执行模型当在 Python 代码里写tensor model(input)、torch.mm(a, b)等 GPU 操作时CPU 只负责下发指令把 kernel 丢到 CUDA stream 里函数几乎立刻返回。GPU 在后台真正执行计算。CPU 和 GPU 是并行的CPU 可以继续往下跑 Python 代码而 GPU 还在算。避免 CPU 频繁等待 GPU。如果直接用time.time()测量时间会只测到下发指令的时间而不是 GPU 真正计算的时间导致计时严重偏小。什么场景使用torch.cuda.synchronize()准确测量 GPU 执行时间Benchmark / Profilingtorch.cuda.synchronize()# 先清空之前的残留任务可选但推荐starttime.time()# 模型/操作outputmodel(input)torch.cuda.synchronize()# 关键等 GPU 全部算完endtime.time()print(end-start)更推荐的现代写法使用 CUDA Event精度更高避免多余阻塞start_eventtorch.cuda.Event(enable_timingTrue)end_eventtorch.cuda.Event(enable_timingTrue)start_event.record()# ... 执行操作 ...end_event.record()torch.cuda.synchronize()# 必须等 event 被记录print(start_event.elapsed_time(end_event))# 单位毫秒调试时需要 GPU 计算真正完成后再看结果比如想print(tensor)或把结果转到 CPU.cpu()、.item()有时会隐式同步但不总是可靠。确认某个 kernel 是否真的执行完排查异步 bug。使用多个 CUDA Stream 时默认 stream 里操作通常不需要手动 syncPyTorch 会自动处理依赖。但如果用了自定义 streamtorch.cuda.Stream不同 stream 之间可能需要显式同步。某些需要严格顺序的场景比如在训练循环中每一步都想确保前一步完全结束一般不推荐会严重降低性能。什么场景不使用torch.cuda.synchronize()正常训练/推理时时几乎永远不要在循环里每一步都加torch.cuda.synchronize()它会强制 CPU 等待 GPU破坏异步并行大幅降低整体吞吐量。性能测试时也只在测量开始前和结束时各加一次不要每 iteration 都加除非故意想测包含同步开销的时间。使用 synchronize() 测量importtorchimporttime# 检查是否有 GPUifnottorch.cuda.is_available():print(CUDA 不可用请检查环境)exit()devicetorch.device(cuda:0)print(f使用设备:{device})# 创建一些较大的数据用于测试xtorch.randn(4096,4096,devicedevice)ytorch.randn(4096,4096,devicedevice)# 使用 synchronize() 测量 print(\n 使用 torch.cuda.synchronize() 测量 )# 预热非常重要第一次运行会有额外开销for_inrange(10):_torch.mm(x,y)torch.cuda.synchronize()# 开始正式计时torch.cuda.synchronize()# 确保之前所有操作完成start_timetime.time()# 要测量的操作这里用矩阵乘法为例foriinrange(100):ztorch.mm(x,y)# GPU 操作torch.cuda.synchronize()# 关键等待所有 GPU 操作完成end_timetime.time()elapsed(end_time-start_time)*1000# 转换为毫秒print(f使用 synchronize() 测量 100 次矩阵乘法耗时:{elapsed:.2f}ms)print(f平均每次:{elapsed/100:.2f}ms)使用 CUDA Event 测量importtorch# 检查 GPUifnottorch.cuda.is_available():print(CUDA 不可用)exit()devicetorch.device(cuda:0)print(f使用设备:{device})xtorch.randn(4096,4096,devicedevice)ytorch.randn(4096,4096,devicedevice)# 使用 CUDA Event 测量推荐 print(\n 使用 CUDA Event 测量推荐 )# 预热for_inrange(10):_torch.mm(x,y)torch.cuda.synchronize()# 创建 Eventstart_eventtorch.cuda.Event(enable_timingTrue)end_eventtorch.cuda.Event(enable_timingTrue)# 开始计时start_event.record()# 记录开始点# 要测量的操作foriinrange(100):ztorch.mm(x,y)end_event.record()# 记录结束点# 必须调用 synchronize() 才能读取时间torch.cuda.synchronize()# 等待两个 Event 都被记录完成elapsed_msstart_event.elapsed_time(end_event)# 返回毫秒print(f使用 CUDA Event 测量 100 次矩阵乘法耗时:{elapsed_ms:.2f}ms)print(f平均每次:{elapsed_ms/100:.2f}ms)

别再只懂QThread了！Qt线程池(QRunnable+QThreadPool)实战避坑与性能对比

别再只懂QThread了！Qt线程池(QRunnableQThreadPool)实战避坑与性能对比在Qt开发中，处理异步任务时，很多开发者习惯性地直接使用QThread创建新线程。但当面对大量短时任务时，频繁创建销毁线程带来的性能损耗往往被忽视。QRunnable…...

2026/4/17 22:17:26 阅读更多 →

Winhance中文版：你的Windows系统私人管家

Winhance中文版：你的Windows系统私人管家【免费下载链接】Winhance-zh_CN A Chinese version of Winhance. C# application designed to optimize and customize your Windows experience. 项目地址: https://gitcode.com/gh_mirrors/wi/Winhance-zh_CN 你是…...

2026/4/17 22:14:53 阅读更多 →

AI赋能研发革命：从辅助工具到核心引擎，揭秘研发智能大模型如何重塑未来！

从"辅助工具"到"核心引擎"，研发范式的深刻变革近期，科技部在《"十四五"国家科技创新规划》中期评估中明确提出，要加快人工智能与研发创新的深度融合，推动构建研发智能大模型。这一政策导向背后&am…...

2026/4/17 22:13:57 阅读更多 →

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

1. 从地图到导航的关键跨越当你完成地图构建的那一刻，就像拿到了一张藏宝图，但要让小车真正动起来寻宝，还需要一套完整的导航系统。ROS中的amcl和move_base就是实现这一目标的核心组件。amcl负责定位，让小车知道"我在哪&quo…...

2026/4/17 11:10:51 阅读更多 →

如何构建高性能的消息队列系统

如何构建高性能的消息队列系统在当今高并发的互联网应用中，消息队列系统扮演着关键角色，它能够解耦服务、削峰填谷，并提升系统的整体吞吐量。随着业务规模的扩大，如何构建一个高性能、高可用的消息队列系统成为开发者面临的挑战…...

2026/4/17 10:12:00 阅读更多 →

Java Iterator

Java Iterator 在Java编程语言中，Iterator接口是Java集合框架的一部分，主要用于遍历集合中的元素。本文将详细介绍Java的Iterator接口，包括其定义、使用方法以及与ListIterator的区别。定义 Iterator是一个用于遍历集合中元素的接口。它提供了迭代器的基本操作，例如：检…...

2026/4/17 10:12:00 阅读更多 →