文 / 徐浩然,李泽健,韦安阳,顾鹏云
摘 要:
本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了一种基于扩散模型的艺术风格三维物体生成方法及其技术路线,列举了其中若干关键技术问题和解决思路,包括艺术风格神经辐射场几何问题、漂浮伪影抑制和主体物几何结构正则关键技术等。
关键词:
三维生成;艺术风格建模;几何正则;神经辐射场;扩散模型
0 引言
在三维模型生成领域,众多研究深入探讨了各种不同的三维表示形式,例如三维体素网格、点云、网格、隐式表现,以及八叉树表示。这些方法大都需要依赖于 3D 资源形式的训练数据,但大规模 3D资源的获取颇为困难。得益于神经辐射场(neural radiance fileds,NeRF)技术的成功应用,近期的研究开始将目光转向 3D 感知图像合成,其优势在于能够直接从图像中学习并生成 3D 模型。并且,依托可微分渲染技术,神经辐射场可被转换为适用于工业的 3D 资产形式。
另一方面,文本- 图像扩散模型已成为图像生成领域中先进的模型。扩散模型通过前向过程和后向过程模拟物理扩散现象,取得了优秀的画面效果。随着文本- 图像生成模型的突破,文本-3D 生成开始受到学术界的广泛关注。众多3D 生成方法借助扩散模型生成的图像分布,来指导神经辐射场的生成。现有的扩散模型指导下的神经辐射场生成方法,主要包括得分蒸馏采样(score distillation sampling,SDS)和变分分数蒸馏(variational score distillation,VSD)两类方法。得分蒸馏采样通过提取预训练的大规模文本 - 图像扩散模型,在文本到 3D 生成中显示出了巨大的前景,但存在过饱和、过平滑和低多样性问题。Wang et al. 提出 ProlificDreamer,将 3D 参数建模为随机变量,而不是 SDS 中的常数,并提出变分分数蒸馏——一个基于粒子的原理变分框架。ProlificDreamer 可以生成高渲染分辨率和高保真度的神经辐射场,具有丰富的结构和复杂的效果。
现有的基于扩散模型的神经辐射场生成方法,大多基于真实感图像。当基于艺术风格图像进行建模时,难以生成正确的几何结构,包括出现大量的漂浮伪影、错误的几何结构等,其中的原因如下所述。
第一,使用扩散模型生成图作为神经辐射场引导图片时,数据一致性难以保证。神经辐射场依赖于从多个视角捕获的真实世界照片来学习场景的 3D结构和颜色。这些照片通常包含复杂的光照和反射特性,这些特性在多个图片之间是一致的。扩散模型生成图可能会在不同的图片之间有不同的光照、颜色和风格表现。
第二,艺术风格图片具有独特的材质和光照。艺术风格图像通常具有独特的材质和光照模型,它们可能不遵循真实世界物理定律。例如,阴影、高光和反射可能是艺术化的,且不一定按照物理正确的方式在图像间保持一致。当神经辐射场试图基于这些不一致的视觉线索来重建 3D 场景时,可能会产生不真实的几何形状,或导致漂浮的伪影。
第三,引导图片的频率内容存在差异。例如,卡通图像通常包含大块的均匀颜色区域和锐利的边界,而不是真实世界图像中的细节纹理和渐变。神经辐射场通常依赖于图像中的细节和纹理来推断场景的深度和几何信息。这种高对比度和低频内容,可能会导致神经辐射场难以正确推断出连续的几何结构。
第四,扩散模型生成图可能缺乏视角多样性,生成图像可能无法提供足够的视角变化来让神经辐射场捕捉到准确的深度信息。例如,卡通图像通常是手绘的,可能没有与现实世界相对应的准确的视角变化。这会进一步加剧重建过程中的不准确性。
为了形成艺术风格的三维模型,需要对神经辐射场捕捉到准确的深度信息进行修改,以更好地适应艺术风格的图像,或者开发专门针对非真实图像的 3D 重建技术。
1 理论基础
2 艺术风格三维物体几何正则
通常,神经辐射场的更新规则包含几何正则损
失函数,这些损失函数利用神经辐射场的几何信息(通常是深度、密度等)对神经辐射场的参数θ 进行正则化,从而达到几何校正的目的。进行几何正则一种常用的损失函数为
图1 深度估计模糊性示意图
3 应用案例
以插画风为案例,基于上述改进几何正则的变分分数蒸馏方法,进行三维物体的生成。具体地,使用runwayml/stable-diffusion-v1-5 作为基准文本- 图像扩散模型,并在此基础上使用10 张左右的目标物体图像进行DreamBooth 方法微调,额外的深度条件由lllyasviel/
图 2 本文艺术风格三维物体生成方法
本文提出的基于文本 - 图像扩散模型的艺术风格三维物体生成方法的定性样本如图 3 所示,其中设置了已有代表性方法作为对照组,所有的生成均设置为 1 万步迭代。其中,前三行图片中,偶数列图片是前一张图片三维模型采样得到的密度图片。定性来说,本文方法生成的艺术风格三维物体具有更好的质量。具体来说,本文方法生成的三维物体在纹理样式和颜色上与扩散模型的引导图片更加接近。此外,在几何结构上,从密度图中可以发现,本文方法生成的三维物体具有与目标意象更一致的几何结构,且几乎完全抑制了漂浮伪影。
4 未来挑战
目前,基于文本 - 图像扩散模型的三维物体生成技术方兴未艾,已有方法在三维生成质量上仍然与工业生产标准有所差距,具体包括高分辨率生成、推理速度、多视角一致性、几何一致性等。本文提出了一种基于文本 - 图像扩散模型的艺术风格三维物体生成方法,在艺术风格三维物体生成任务上,表现出了优于以往方法的几何、纹理生成效果。然而,由于时间和精力的限制,本工作还存在许多不足,主要包括:① 由于引入了额外的推理模型,尽管引入了加速收敛的损失函数,提出的三维物体生成方法存在更高的算力需求和更高的推理时延;② 文本 - 图像扩散模型驱动的三维物体生成方法还是基于扩散模型先验的方法,因此难以从数据一致性方面去保证生成质量,光照和反射特性在多个图片之间仍然存在较多差异;③ 扩散模型生成图仍然缺乏视角多样性,生成图像无法提供足够的视角变化来让 NeRF 捕捉到足够的几何信息。
图3 本文方法与已有代表性方法的实验结果
根据本文的优势和不足,还可以根据现有的工作做出改进,后续的研究可以从下述几个方面考虑。第一,对基于语义分割的漂浮伪影抑制进行优化,以提升算法的效率。在三维物体生成任务上,相比于复杂场景,语义分割的任务更加简单。使用类似SAM 的复杂模型引入的额外推时延,或许可以通过具体任务的微调和蒸馏进行加速。第二,在使用基于扩散模型引导的三维物体生成方法时,对多视角一致性进行解决。基于扩散模型引导的三维物体生成方法在训练时缺乏引导图片视图的信息。此外,在风格化微调任务上,小样本微调在视角上缺乏多样性,导致多视角一致性不如传统神经辐射场。后续工作应针对蒸馏扩散模型的三维生成方法进行多视角一致性的解决。
5 结束语
艺术风格三维物体生成是三维物体生成领域的一大垂直命题,基于艺术风格图像的三维物体生成可应用于草图辅助设计、非真实感模型构建等方面。已有的基于扩散模型分数蒸馏的方法,难以在艺术图像上进行三维模型的生成。本文基于深度条件后验和语义分割的技术思想,立足平面图像生成、可微分渲染等领域的发展,提出了基于扩散模型的艺术风格三维物体生成方法及其技术构想,列举了使用扩散模型指导艺术风格三维生成存在的问题,并提出了基于漂浮伪影抑制和主体物几何结构正则的艺术风格三维物体生成关键技术。最后,本文展望艺术风格三维生成领域仍然面临的关键问题和技术挑战,为未来的研究提供了可行的方向。
(参考文献略)
徐浩然
浙江大学硕士研究生。主要研究方向为数字内容生成。
顾鹏云
麻省理工学院博士,浙江绿色智行科创有限公司首席科学家。主要研究计算机辅助工程和机械动力学。
选自《中国人工智能学会通讯》
2024年第14卷第4期
智能创意与数字艺术专题
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有