对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
各位都在用Docker跑些什么呢?
你见过身边身材最好的女生是什么样子的?
我应该设置多少kb才能让他不能玩游戏?
如何看待武汉大学建筑学大一新生跑路只剩 4 个?什么原因?目前建筑专业就业前景如何?
实体店为什么生意越来越难做了?
目前react的生态系统是什么情况,有没有比较公认的成熟的开发技术栈?
Mac mini M4,有必要升级24G内存吗?
网络小白如何建立一个网站,供别人下载文件(主要是PDF和MP3)?
网恋发现对方太好看了怎么办?
男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
为什么今年的雷霆会惹众怒?
香港有 41 年历史的大班面包西饼因冲击宣布停业,这背后的原因和影响是什么?
如何看待 Rust 的应用前景?
为什么说PostgreSQL前途无量?
现在很多年轻人为什么都怕上班?
如何看待小米yu7 3分钟大定破20w辆?