Stable Diffusion测试:Tensor RT插件带来多大的效能提升?

Stable Diffusion测试:Tensor RT插件带来多大的效能提升?
2024年02月29日 18:20 科技瘾力

以Stable Diffusion为代表的AI绘图工具,正快速席卷设计、绘画、动漫、游戏等行业。创新的“文生图”功能:您只需要输入特定的关键字,就能生成您想要的图像作品。海量的AI绘图模型,充满着无穷的创作力,呈现出无数令人震撼的作品,并且通过不断迭代升级,AI模型训练,不断完善自我,完成蜕变。

我们知道,Stable Diffusion Web UI十分依赖于显卡的算力,越是高端的显卡,越能获得高效的出图速度。为了降低显卡负担,提升出图的速度,Nvidia专为Stable Diffusion Web UI推出了Tensor RT加速插件,让具备Tensor单元的GeForce显卡获得翻倍绘图性能提升。

什么是Tensor RT?

Tensor RT是一种高性能深度学习推理优化器和运行时加速库,可以为深度学习应用提供低延迟、高吞吐率的部署推理。此前TensorRT主要应用于行业,如超大规模数据中心、嵌入式平台、自动驾驶平台等,进行推理加速。现在TensorRT开始面向Windows个人用户开放,比如我们今天要测试的为Stable Diffusion加速的Tensor RT插件。

TensorRT 加速插件可以对Stable Diffusion Web UI训练好的模型进行优化,通过优化网络计算,来提高模型出图效率。对比SDXL加速方法和xFormers加速方法,Tensor RT插件配合NVIDIA GeForce显卡的AI加速效率更加明显。

如何安装Tensor RT?

在Stable Diffusion Web UI首页,点击“扩展”,选择“从网址安装”,输入对应的安装网址,点击“安装”。由于Tensor RT体积比较大,耐心等待下载,安装完成后,点击“应用更改”并重启Web UI。

安装好之后,可以在Web UI首页看到Tensor RT。我们可以为加速的模型,生成一个Tensor RT加速引擎。

在预设这里,可以看到图片尺寸,单批数量,提示词长度等参数。加速引擎会固定一些出图参数,根据你的需求来灵活设定即可。

当出现TensorRT engines has been saved to disk这句话时,代表TensorRT加速引擎已经安装成功。然后前往设置--用户界面--快捷设置界面,添加sd_unet--保存设置--重启Web UI即可。

在Web UI右上角的SD-Unet就能看到刚刚制作好的TensorRT引擎,并选择相应的大模型,点击生成,它就会自动选择最优加速引擎。

测试显卡:技嘉魔鹰GeForce RTX 4080 SUPER

TensorRT是由NVIDIA官方打造,要使用这个加速插件,我们首先需要一张GeForce RTX显卡。今天我们就使用最新发布的技嘉魔鹰GeForce RTX 4080 SUPER Gaming OC 16G(下面简称:技嘉RTX 4080 SUPER魔鹰)显卡,来测试TensorRT加速到底有多快?

相比于RTX 4080,RTX 4080 SUPER 显卡搭载更多的CUDA核心,达到了10240个,并配备高达23 Gbps超快运行速度的GDDR6X显存,非常适合要求严苛的生成式 AI 应用。

技嘉RTX 4080 SUPER 魔鹰显卡具备双BIOS模式,在超频模式下,其Boost频率达到2595MHz,比公版高45MHz,这也意示它的AI性能更强于公版卡。

选择显卡,除了性能外,散热也很重要。尤其是AI绘图,在大批量出图时,显卡处于重负载下,如果散热不好,GPU核心温度过高,就会出现降频。技嘉RTX 4080 SUPER 魔鹰显卡在散热上就下足功夫。

显卡的正面配备三把直径110mm的大风扇,特殊的3D条纹,正逆转、3D启停技术,可以提高风压降低噪音。密集排列的9根热管到大面积的纯铜底座,加上Ada Lovelace GPU的温度表现向来不错。让人对它的散热能力没有丝毫怀疑。

显卡背面加装了全金属背板,保护PCB板,同时尾端做了镂空,可强化散热。

风扇配备炫彩光轮RGB灯光,顶部技嘉LOGO也支持发光,可通过技嘉GCC智能管家软件进行自定义灯效设置,打造个性化主机。

显卡输出接口为标准的3*DP 1.4a + 1*HDMI 2.1a,轻松组多屏,AI画图更便捷。

TensorRT实测:

在Stable Diffusion AI画图测试中,分别测试了512x512、768 x 768和1024 x 1024三种分辨率,使用同一个模型和相同设置参数,使用NVIDIA专有的TensorRT插件进行加速,对比没有使用TensorRT加速,看看出图效率差多少?

可以非常直观地看到,技嘉RTX 4080 SUPER 魔鹰显卡开启TensorRT加速后,出图效率提升十分明显的,远远领先于xformer加速。

到了768x768更高分辨率后,技嘉RTX 4080 SUPER 魔鹰显卡面临一些挑战,但是有了TensorRT加速后,它还是展现出高效的一面。已经相比标准模式,出图效率翻了快3倍。

随着出图分辨率的提高,TensorRT的优势就越发明显。到了1024 x 1024分辨率的时候,TensorRT的性能接近xformer翻倍提升,是没有开启加速的3倍还多,效率超高的存在。

总结:

有了 TensorRT之后,NVIDIA GeForce RTX显卡在AI画图上,可以更加充分发挥出硬件的优势。以我们测试的技嘉RTX 4080 SUPER 魔鹰显卡为例,开与不开TensorRT,性能差距在3倍左右,简直是太香啦,赶紧安装起来使用吧。

可以预见,有了TensorRT加速插件,不仅高端RTX 4080 SUPER显卡的出图速度变得更快,像RTX 4060/RTX 3060这样主流显卡也因此受益,大大拉近了广大普通用户与前沿AI技术的距离。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部