RTX 4090笔记本电脑GPU 27倍碾压核显!NVIDIA RTX十大领域变革AI PC

RTX 4090笔记本电脑GPU 27倍碾压核显!NVIDIA RTX十大领域变革AI PC
2024年04月28日 17:47 快科技官方

AI PC的概念逐渐深入人心,CounterPoint数据显示今年一季度出货的笔记本大约45%都是AI PC,成功带动全球PC市场止住了连续八个季度的颓势,终于反弹增长约3%。

行业对于AI PC的定义也逐渐明晰,CPU、GPU、NPU三大引擎被认为都是必需,而且各有所长。

其中CPU适合通用性负载,最为灵活,新兴的NPU适合持续性低负载以大大节约功耗,只是应用范围还比较有限,算力也不可能太高,GPU则凭借无可比拟的强大算力,一直承担着核心责任。

这方面最有话语权的自然是NVIDIA,一方面是专业级的GPU加速器近乎垄断整个行业,另一方面是消费级的GeForce RTX 40系列GPU正在各行各业变革体验。

2018年,NVIDIA推出了全新的GeForce RTX 20系列GPU、RTX技术,首次通过专用的Tensor Core为AI提供全面加速,DLSS超分辨率技术正是AI在游戏中最领先、最直观的体现。

即使是入门的GeForce RTX 4050笔记本电脑GPU,也可提供高达194 TOPS的算力,GeForce RTX 4090 D则能提供高达1177 TOPS的算力,覆盖各式台式机、笔记本、工作站,而目前没有独立GPU的轻量级AI PC,算力只有大约10-45 TOPS,下一代才能突破100 TOPS。

硬件之上,NVIDIA RTX也提供了极为丰富的AI相关开发套件和应用软件加速,尤其是TensorRT可以大大加速非常热门的AIGC模型,包括最流行的Stable Diffusion 1.5、SDXL 1.0等等,还获得了全新UL Procyon AI图像生成基准测试的支持。

目前,RTX AI PC已拥有超过1亿用户、500多款应用和游戏,形成了丰富的生态。

近日,NVIDIA举办了一场特别的RTX AI媒体品鉴会,宣布了多项AI相关内容更新,展示了多项AIGC艺术创作作品,并演示了最新的技术DEMO。

【NVIDIA RTX AI:无处不在】

在全行业的合力推进之下,AI技术尤其是AIGC正在极大普及,深入各行各业,概括起来可分为绘画、平面设计、3D创作、视频编辑、视频体验、会议/直播、文档助手、编程开发、游戏、游戏开发等十大领域。

在每一个领域甚至每一个场景,NVIDIA RTX GPU都在提供各种创新的加速技术。

Stable Diffusion生图绘画,RTX GPU是PC上最快的加速方法。RTX 4090 D默认可以每秒生成8张图,TensorRT加速后结合进一步性能优化,每秒生成超过120张图片。

RTX GPU还是最具生产力的加速方法,支持市面上所有的SD WebUI(Automatic1111、ComfyUI、SD-Forge、秋葉等),支持最先进的SD工作流(LoRA、ControlNet、微调、AnimateDiff、IPAdapter、InstantID、实时绘画等)。

平面设计,全面支持市面上主流的设计软件,可为各种图片编辑功能提供加速。

诸如智能肖像、对象选择、细节增强、图像超分辨率、图片修复、色彩还原、RAW增强、天空选择、眼部增强,等等。

来到3D设计,RTX 40 系列GPU可以为各种离线渲染器、实时渲染器提供AI加速,最近流行的D5,大名鼎鼎的UE、Unity都可以从中获益匪浅,其中更是可以用到DLSS。

视频编辑方面,同样支持主流软件工具,功能也相当丰富,比如对象遮罩、自动场景检测、自动画面重构、视频超分辨率、锐化遮罩、颜色矫正、语音识别、人体跟踪、风格转换、视频补帧等。

视频体验方面,最值得一提的是RTX VSR超级分辨率、Video HDR,可大大增强在线视频的画质体验,支持在Chrome、Edge浏览器内播放任意视频,支持国内主流视频网站,而且是驱动自带功能,无需额外下载任何软件、插件。

无论是最新的RTX 40系列,还是早期的RTX 30/20系列,都可以享受这一福利。

会议与直播方面,NVIDIA Broadcast提供了非常完美的解决方案,通过目光接触、人脸跟踪、背景模糊、自动聚焦、视频降噪、虚光、回声消除等等,可带来最佳的流媒体质量优化。

它支持市面上几乎所有的视频会议软件、直播软件,包括腾讯会议、钉钉、飞书、Teams、OBS等等,RTX 40/30/20系列都能用。

人机交互方面,AI对话、文档整理是典型的应用,NVIDIA也打造了ChatRTX技术Demo。,用于本地增强检索生成。

它可以使用本地的RTX 40/30 系列 GPU (8GB及以上显存) 算力加速,进行大语言模型推理,智能离线检索本地隐私文档(txt/docx/pdf等等)并生成结果,尤其是支持中文对话模型和文档检索,包括智谱ChatGLM3等等,开发者还可以自行添加其它支持TensorRT-LLM加速的大语言模型。

更关键的是,ChatRTX是免费的,而且开源。

开发方面,TensorRT可以说是当前市面上最快的深度学习推理加速框架,尤其是支持领先的中文开源模型,RTX 40/30/20 GPU都可以跑。

推理性能上,相比于LlaMA.cpp,它的生成速度可以领先多达4倍,Batch Size越大优势越明显。

Stable Diffusion生图上,相比于通用的PyTorch,速度可以轻松翻番,更是可以轻松碾压苹果CoreML框架。

游戏应用中最典型的就是实时光追、DLSS的联手,可以根据需要,选择不同的质量和速度,这个就不多说了。

游戏上的典型例子就是NVIDIA RTX Remix,可以让DX8、DX9老游戏焕发新生,自动捕获游戏场景和材质,通过AI进行增强,并加入实时光追、DLSS 3/3.5,传送门RTX版就是最佳例子。

硬件方面支持RTX 40/30 GPU。

事实上,NVIDIA已经为全领域AI开发提供端到端的开发平台支持,开发、训练、整合、部署都能获得RTX GPU的加速。

Omniverse、Nemo、DLSS、ACE、Optix、VSR、Maxine、TensorRT、CUDNN……如此丰富的开发工具,恐怕仅此一家。

【合作案例1:火星时代教育的TensorRT SD创作加速指南】

Stable Diffusion是文生图、图生图创作最广泛的应用,已经有大量设计师、艺术家甚至普通办公族用它来加速工作,前文也说过NVIDIA TensorRT可为其带来无可比拟的加速。

不过,Stable Diffusion仍然存在相当的学习和使用门槛,TensorRT也需要一定的摸索。

因此,火星时代教育在NVIDIA技术团队的支持下,打造了《NVIDIA TensorRT Stable Diffusion创作加速指南》,为AI设计爱好者和创作者详细介绍基于RTX 40系列GPU提升Stable Diffusion创作效率的详尽实操性教程。

在这个指南里,你可以看到Stable Diffusion/TensorRT的安装与设置、加速引擎的构建、加速效果的对比,以及实际商业创作场景应用,包括海报设计、电商设计、室内效果图设计、插画设计等等。

《NVIDIA TensorRT Stable Diffusion创作加速指南》链接:

https://www.hxsd.com/pdf/viewer/HXSD-NVIDIATensorRT-GuideBook/

设计案例:

【合作案例2:吐司的SD GPU配置推荐】

Stable Diffusion的使用门槛还有硬件层面,GPU算力越强出图速度自然就越快,但不同级别的GPU到底有多大差异呢?

作为行业第一家实现在线生图的AI模型社区,吐司(国际版为Tensor.Art)已经汇聚超过16万的AI模型,如今联合NVIDIA打造了一份《个人用户玩转Stable Diffusion的GPU配置推荐》。

它使用第三方软件UL Procyon AI基准测试和吐司自己的Benchmark,完整测试了RTX 40系列桌面、笔记本显卡不同型号在SD 1.5 和SDXL 1.0中的推理性能表现,可以作为AIGC用户创作的参考。

UL Procycon SD 1.5、SDXL桌面显卡性能对比:RTX 4090D都是一枝独秀,RTX 4060 8GB则已经无法支撑SDXL。

UL Procycon SD 1.5笔记本显卡性能对比:可以看到RTX 4080和RTX 4070笔记本电脑GPU 之间出现了一个较大的空档,RTX 4090笔记本电脑GPU领先的幅度则不是很大。

UL Procycon SDXL笔记本显卡性能对比:只剩下高端的RTX 4090/4080 笔记本电脑GPU可以运行,其他都被淘汰。

吐司Benchmark SD 1.5/SDXL桌面显卡开关TensorRT加速性能对比:可以看到在任何级别的型号上,加速效果都十分显著,实现翻倍的生图性能提升(RTX 4070 Ti, SD1.5 测试)。

RTX 4090笔记本电脑GPU、酷睿Ultra核显分别使用各家优化引擎,测得的性能差异简直是云壤之别,两者性能相差高达惊人的27倍!

LoRA性能也可以测试,性能差异一目了然,RTX 4090D依然遥遥领先。

【AI加速创作:艺术与技术的激情碰撞】

AIGC给艺术创作带来了无限可能,可以将设计师、艺术家的种种创意快速转化为现实,从而大大提升创作效率,节省出来的时间可以追求更多奇思妙想。

当然,AI不会无中生有,更不可能取代人类,它只是一个帮手,它生成的图片、视频也只是创作的基础,就像一个画板,只有在人的画笔之下,才能真正成为作品,成为艺术品。

NVIDIA已经与大量创作人士进行了合作,利用RTX AI加速,帮助他们尽情挥洒创意,奉上更惊艳的艺术作品。

土豆人Tudou_man:数字艺术家、策展人

数字艺术家土豆人Tudou_Man 表示:“每天有大量AIGC内容涌现,宛如微小的青苔连续改写当下。不久,我们的文明也将被数字所覆盖。通过RTX 40系列AI PC平台的运算加持,震惊之余,我使用RTX 40系列 RTX AI PC创作了《复写苔原》系列作品,RTX 平台为像我这样的数字艺术家提供高效的AI算力加速。我将AIGC作品注入人的思考与灵魂,在不可逆的数据洪流中保持本真。”

这里摘录几个土豆人Tudou_Man的AIGC作品:

《咖啡浪潮的1000次演进》:

为2023年的上海咖啡文化周创作的AIGC概念作品。

以上海苏州河游船为创作原型,采用实景采集与MidJourney、Stable Diffusion组合的方式创作,通过上千次的叠加演算,近乎真实地让浪花载着一杯巨大的外卖咖啡出现在苏州河上。

《不落冰川系列-001》:

视频作品通过MJ+SVD+Deforum创作,将之间一组系列作品做了动态化演绎。

冷风吹动的蓝色塑料布像极了黑沙滩上舞动的冰川,而冰川之下是克苏鲁内核的滋长,无尽变化的水母不断循环叩击着梦境。

《戴围巾上海老建筑系列》:

把晚霞做成了毛绒绒的围巾,挂在了武康大楼、外滩钟楼、和平饭店上,圣诞氛围拉满。

《巨大的小熊软糖系列》:

这是一组AIGC+实景合成的巨物化创意作品,超写实的城市场景与可爱的巨大软糖熊形成了反差萌。

《麦麦博物馆》:

麦当劳“传家宝”,将麦当劳的超级单品与中国馆藏文物相结合,得到了麦当劳中国官方支持。

《钻石大都会》:

为全新雅诗兰黛白金唇膏创作的AIGC概念短片。

在宝石般的亿万切面中,一览大都会的璀璨华美,城市的摩登奢华又在琉光中筑成一枚唇间的艺术品,可能这就是白金唇膏令人爱不释手的理由。

Simon阿文:AbleSlide联合创始人、Blender艺术家、AI创作者

包括央视春晚AI动画等作品在内,从文字、图像到影像,他的许多探索是基于本地RTX 4090显卡完成的。他表示:“AIGC的可能性是一片蓝海,AI PC是我的帆船。”

《维度笔触》:

将传统油画与现代3D建模、AIGC相结合,油画纹理均为Disco Diffusion生成,数字精确性与艺术表达相遇。

《搁浅的云》:

通过Blender制作简模,使用ComfyUI搭建工作流进行AI转绘,把AI渲染应用到传统的3D工作流中。灵感来自海辛的短篇《搁浅的云》中的一句话:“我在海边遇到一朵搁浅的云。”

《低俗小说》:

将《低俗小说》中著名的摇摆舞,通过AI的方式转绘为油画、皮影戏、雕塑等多个风格并进行重新剪辑,达到一种多元宇宙的视觉效果。

《花中维纳斯》:

系列作品,花卉和维纳斯的经典形象在一个迷人的舞蹈中融合。通过AI的力量,这些静态图像被转化为一种动态体验,每一片花瓣都在绽放的微妙芭蕾中缓缓展开,见证维纳斯的重生。

【NVIDIA RTX DEMO:游戏NPC变“真人”】

接下来的环节,看看NVIDIA的几项RTX AI加速技术演示Demo,其实大部分都是大家的老朋友了,这次难得在线下一次性都体验到。

重点看看ACE微服务数字人,主要应用就是游戏里的NPC。

它利用基于NVIDIA Audio2Face的面部动画、基于NVIDIA Riva自动语音识别(ASR)/文本转语音(TTS)的语音交流,让虚拟数字人物真正鲜活起来。

通过将认知、感知、行为系统集成在一起,结合多模态展示,不但渲染出来的角色令人惊叹,而且不再每次都是固定、死板的对话和动作,而是完全根据玩家的语音、文字交互,实时给出动态、匹配的反应,游戏节奏和进程可以每次都是截然不同的。

AI NPC可以通过混合式AI,使用预训练定制的大语言模型进行聆听、处理、生成对话,并做出回应,而且每个步骤都是实时的,以确保流畅对话。

第一步,Riva利用RTX PC的GPU加速的多语种语音和翻译微服务,处理玩家输入的语音,生成实时对话式AI工作流。

第二步,ASR处理语音内容,并利用AI实时提供非常准确的转录文本,支持涉及二十多种语言。

第三步,转录文本进入LLM(例如Gemma/Llama 2/Mistral),并借助Riva的神经网络机器翻译,生成以自然语言表述的文本回复。

第四步,使用Riva的文本转语音功能,生成音频回复。

第五步,A2F生成面部表情,并与对话同步。

期间,,就是那段“吃面”,由NVIDIA与ConvAI合作打造。RTX AI PC会自动制作NPC面部、眼睛、嘴巴、舌头和头部动作的动画,并与情绪范围和强度水平匹配,A2F还可以根据音频片段自动推断情绪。

年初的CES上,我们第一次见识到了ACE NPC的表演

3月份的GTC技术大会上,NVIDIA又带来了更震撼的演示DEMO Covert Protocol。

它基于UE5引擎开发,结合了ACE技术和Inworld AI引擎,玩家在其中扮演一名私家侦探,在一家酒店大厅内,与前台、服务生、专家共三名NPC进行互动,完成预定任务。

他们都会根据玩家的交互做出不同的反应,这就考验玩家如何变着花样套出自己所需要的信息,每次都不一样,可玩性非常高,以往那种看都不看就跳过NPC互动的情况再也不会出现了。

另一个重点是ChatRTX,使用检索增强生成(RAG)、NVIDIA TensorRT-LLM加速库、通过NVIDIA RTX加速,可以快速、轻松地将本地文件作为数据集,连接到开放式大语言模型(比如智谱AI ChatGLM3-6B),快速查询与上下文相关的答案。

ChatGLM是基于GLM预训练框架的双语对话模型,采用了独创的多阶段增强预训练方法,包括6B、12B、32B、66B等多种参数规模,并支持NVIDIA TensorRT-LLM框架等多种加速工具,从而在合理的精度损失下提升推理速度。

除了文本之外,ChatRTX还很快将增加支持语音输入和图像功能。

图片已获授权

SD专业工作流:

通过人像生成控制模型InstantID,足不出户就能使用普通摄像头的自拍照,生成影棚级别的高质量肖像照,并且可以用RTX GPU进行加速。

SD一秒生成8张图:

作为市面上最快的Stable Diffusion计算生图工具,RTX 4090 D可以做到高达每秒8张图的生成速度,而且是开箱即用,无需任何复杂设置。

使用当前最快的加速方法TensorRT,再配合进一步的性能优化,RTX 4090 D GPU最高能实现每秒超过120张图的生成速度,生图创作也能像高帧率游戏一样丝滑。

建筑实时渲染:

即致AI基于扩散模型和蒸馏技术,通过RTX 40 系列GPU的加速,实现了秒级的AI实时绘画。

再结合即致AI自研的全网下载量超50万的国内建筑行业大模型,可以帮助建筑设计师快捷、便利地进行AI实时渲染,并保证极高的出图效果。

声音克隆:

基于开源的GPT-SoVITS项目,不需要任何训练,仅需5秒钟的声音样本,就能根据其发音特征,生成个性化的语音,RTX AI的加速下仅仅几秒钟就能完成生成。

如果使用更多样本的微调训练,比如1分钟,还可以实现更高质量,接近1:1复刻的声音克隆。

AI PC时代虽然才刚刚开始,但已经百花齐放、精彩纷呈。作为AI PC的算力基础,CPU、GPU、NPU三大引擎也都在各显其能、争奇斗艳。

当然了,三者没有谁比谁更重要,只有谁更适合做什么。

RTX GPU作为当今的硬件算力天花板,再加上NVIDIA强大的技术实力、丰富的开发与应用生态、无比的行业号召力,无疑最为适合需要强悍性能的AI应用,既能带来最快的速度,也能带来最好的质量、兼容性和稳定性。

本次介绍的种种RTX AI加速应用,遍布于游戏、2D/3D设计、艺术创作、生产力、垂直行业等方方面面,都给人带来了耳目一新的感觉,无论速度还是质量都堪称翘楚。

期待RTX AI、AI PC能带来越来越多的精彩应用,真正让AI普及到每一个人的生活、工作、娱乐之中,释放技术之美,全方位变革普罗大众的日常体验。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部