特约文章丨多模态视觉结构学习

特约文章丨多模态视觉结构学习
2024年04月18日 10:53 中国人工智能学会CAAI

文 / 李玺

0 引言

本文从一个新视角将之前多模态视觉结构学习的研究内容进行了梳理,重点介绍球面全景图像的特点和应用。

球面图像更多的是做鱼眼或者全景 360°,其结构知识非常多,主要面向自动驾驶、虚拟现实、道路监测、室内装修和虚拟现实等应用。这里,我们希望用非常便宜、简单的表达方式将场景进行有效的建模和结构化。

然而,面向这种球面结构进行图像分析和应用是非常难的问题,所以球面图像的研究里我们把其应用抛开,只看它数学推理或者其他问题,希望能把这些问题解剖出来,形成一个学术问题。因为现在做球面图像计算的手段比较适合矩阵操作,所以做图像分割、检测都是面向这种矩阵图像的。比如,最新图像生成的应用也是利用矩形图像的知识进行生成,变成点和点的局部空间感受,它们之间是服从某些物理规律的,从而可以做反向解码;解码就是传播、降噪过程,即形成了完整的经验。但是,实际上球面图像直接分析比较困难,因为它不是非常规则的矩阵,所以通常的做法是把球面图像展开。而展开时就会出现按什么角度展开,它们之间的前后连接性怎么样,有没有几何属性,甚至它的密度等问题。由于球的中心点密度,如赤道附近的密度比较大,在极限、极点的密度较小一样,这种状态下展开球产生的图像密度极度不均匀,对 AI 算法来说非常难以处理。

因此,面向应用和前景怎么去做深度学习,是非常有意思的 application 技术。

在我们研究过程中会发现,所看到的图像都是自然图像或是人工图像。比如,我们看一遍做食物加工的过程,就会记住;之后,产生知识,最终就会做成“美味佳肴”。人类在这个过程中已在大脑把它形成了一个加工链、一个序列,最后形成了人类认知。而我们对图像感知,实际上就是面向平面图像的感知。现在所谓的图像感知都是基于平面图像感知,有很大的局限性。比如,我们对分辨率的要求 4 K、8 K……分辨率很高,但是它不是真实的感知,因为人类眼球的视网膜是圆形的,所以其感知绝对不是平面感知。

1 面向球面图像的研究工作

1.1 SGAT4PASS:用于全景语义段的球形几何感知 Transformer

用于全景语义段的球形几何感知 Transformer,即在球面上利用几何知识建立球面几何的Transformer 图像分割(Li et al.,2023)。这里最难的问题就是几何结构怎么编码到深度网络里?图 1所示球面图像里是个歪歪扭扭的、不符合规则化的网格,利用 Transformer 可以去做,但它是一个 s 结构,不是简单的 patch 或者自然源 AIP 结构,所以,在做的过程中把它展开之后就会出现图 1 所示的两个平行的小蓝框标识的点,而实际上它们在一个球面上。造成此情况的原因是因为通过这种展开的方法破坏了原来的几何结构,产生了巨大的畸变使图像质量下降。

图 1 展开网格的球面图像

为解决上述问题我们进行建模,提出了如图2所示的框架,从数据级别、补丁级别和损失级别三个程度去做。首先,SGA 图像投影。因为球形有 α、β、γ 三个维度,按照这三个维度进行不同旋转,然后在不同的数据增广。经过球形几何增广后,利用图片再做分割,使它能感知到整个变化,说明学到了这个知识。第二,增加对称性约束。因为球旋转任何角度沿着经线切开后,两边都服从对称结构。对称性就是观察球按照经线切开时左半面和右半面的直接变化,即图像的变化知识 Δ。Δ 是一个对称关系,如果对称就体现了结构变化,因此希望利用对称知识建模。第三,像素密度,即希望在图 2 右下图所示球面沿着红线和蓝线展开时(红线区域的像素点最多,蓝线区域的像素点少),利用像素密度的变化,对它进行像素的weight,最后进行重新加权。因为学的知识少,前面的像素就少,后面的像素就多,产生了不平衡,我们希望把它纠正过来,即按照纬度周长重新加权。

图 2 框架

表1和图3所示的结果显示,通过上述简单操作,所提方法会很快提升 mIoU 的性能和 PAcc,以及其性能的稳定性。

表 1 本方法与 SOTA 性能比较

图 3 性能稳定性

这里我们利用了几何结构知识会产生一些定性结果。比如,从图 4 所示的原始图片会看到一个沙发和一扇门,以地面为标签门被切成了两半。因为图像分割强调感受野,如果利用图像分割算法,门的感受野不会连在一起,所以一定会分割错的。结果虽然相同——不完整、很乱,但是这里可以把沙发完整分割出来,门大部分都推出来,因为我们考虑了几何结构,知道这两个结构是连接的,所以将它拓扑补全,把感受野拉平得到了很好的结果。有了这个结果就可以把图像任意旋转,旋转到一定程度时会发现,旋转的标签与原始标签做类似的对齐,保持一个基础的 assistant,就可以得到几何感知的认知结果。即俯仰角 / 横滚角 / 偏航角的旋转分别为5°/5°/180° 时,SGAT4PASS 获得了语义类“门”和“沙发”(见图 4 所示红色虚线框)的更好结果。

图 4 SGAT4PASS 和 Trans4PASS+ 的可视化比较

1.2 SphereDiffusion:球形几何感知失真弹性扩散模块

面向球形图像分割问题的研究工作取得了一个较好的结果,我们将工作继续深入,做球面图像生成。

球面全景图像有两个特点,一是球面畸变,文本-物体预训练知识无法得到有效利用;特征提取困难,导致语义偏差。二是现有模型缺乏几何感知设计,难以学习和使用球面几何特征。如何让模型能够学习和利用特征,提高可控球面图像生成的质量,我们具体做了下面的研究。

球面图像生成过程和上述工作是相反的过程(见图 5)。因为球面几何的生成任务,其生成问题就是一个扩散模型,在降噪、加噪过程中把噪音去掉,然后再加噪,不断训练、迭代,去推理。实际上,这里希望把几何球形加到球形模型里,然后通过提醒,做最后的边界和知识的重新利用,并进行整合。在这个过程中,我们的关键思想是把这个特殊的球面几何放到框架里做生成。

图 5 球面图像生成过程

图 6 所示的是我们的去噪核心框架,有几个基本的操作,第一个,Spherical SimSiam Contrastive Learning 模 块, 做 球 面 旋 转 的 操 作。这 里 加 了ControlNet 的一个 Shared 条 件 去 做 生 成, 以 保证 结 果 要 一 致。第 二 个 操 作 模 块 是Deformable Distortion-awareBlock (DDaB),保证此区间可变形。第三个可变形模块就是 Spherical Reprojection,在每次生成过程中,我们故意旋转生成一个步骤,把map 旋转到一定程度后再去做二次投影,保证旋转一致性;然后再生成,再保持旋转一致性。在这个过程中就把 diffusion 和几何知识充分地连接在一起,得到了一个非常好的效果。

图 6 球面图像生成去噪过程

从表 2 所示结果看出,在标准模块中使用相同的超参数设置和训练周期数进行公平比较,我们的方法可以实质地下降 FID、FIDs 和 IS 指标,解决了特殊全景图像生成问题,更加适合应用。

表 2 与 Strcu-ture3D 数据集上现有方法进行比较结果

最后得到的结果就是我们希望有一个文本提示,比如 A bedroom with white walls and a pink bed,就是 segmentation 的文本提示。如图 7 所示,我们采用的方法最后生成的结果都非常好,可控性也比较好,可以做到直接生成全景图像,即不需要做二维图像直接在三维球形上生成。

图 7 图像生成结果

2 LayoutDiffusion: 用于布局到图像生成的可控扩散模型

有了上述成果后,继续深入研究,把平面图像生成放进模型中。layout 的知识是一种广告设计里的结构,我们希望把球面做平面的 layout。layout 的知识就是可控边界框,把其大小、位置标签放在这里后,用它作为一个可控 map 反向去生成图片。比如,我们希望对 layout 做编码,如对图像、位置、坐标进行编码,然后加上文本的 prompt,生成想要的装修设计图。问题结果就是,我们做设计,最后生成图,这样的原始诉求;即我们希望把它解码。第一个解码就是 box 的位置、大小语义、目标背景等结构放在一起做。最重要的结果是可以做比较好的可控生成。这里做的生成和mid journey 不同,更多的是希望能做到编辑,因为要做生成需要训练大量图片。比如,在应用中只要简单拖一个框,即可以改变图像具体位置大小。对此我们也做了接口,并已经开源。

3 使用语言自适应推理引用表达理解

前面主要阐述了图像结构知识,如球面的几何结构知识、图像广告设计的结构知识,我们希望将其深入到网络,而这就涉及到跨模态,需要自然语言和网络视觉处理的结构知识共鸣。也就是通过看不同图片,通过语言提示找出不同焦点。比如,看大人或小孩他们的视觉特征不同。为此希望做到生成语言自适应的视觉结构,也就是语言不同,提示不同,其特征视觉特征通路也不同;如同人的脑神经环路,根据不同提示转换的神经环路不一样,但是网络的总体结构是相同的。我们希望达到这样一个类似仿生网络的结构。

如图 8 所示的语言自适应动态子网框架,BERT的方法进行编码后就生成了如Blockbone和 Christmas的 一 个 开 关 向 量。开 关 就 是 一 个sigma 的 filter 滤波器。滤波器就是学怎么生成滤波器,滤波器做完后网络路径是什么?最后放到Transformer 里建模,即形成视觉通路,一个语言特征滤波器的门变量,以及最后生成一个自适应的子网;也就是不同的语言有不同的 sub,这样的一个映射关系。所以,跨模态就是语言特征和神经网络特征推理结构本身的映射,这两个映射能形成自适应控制。

图 8 语言自适应动态子网框架

图9 示出了它的技术原理,希望生成特征以后就生成一个FC,然后binary特征沉到feature map上,再去做 gete 向量,Softmax 做归一化得到特征。

图 9 门控网络技术原理

图10 所示图片显示的特征更加直观,从图中可见,灰色条被跳过不执行,也就是不同的照片会看到网络执行的路径完全不同。因为映射关系计算量对模型和高度语言之间紧密相关,我们希望说不同的话执行不同的通路,这样就可以实现可控性和动态性的适配,这是核心思想。

图 10 REC 的动态性特征

4 用于多任务视觉基础的语言自适应权重生成

上 面 主 要 介 绍 了 通 过 语 言 调 整(languagemodulation)执行模块,进一步我们研究了用语言直接生成特征参数,也就是语言可控(language control),其控制的变量在关键时通过自然语言的里的 W 参数,如图 11 所示的视觉参数F(l:W,A)、F(l:W,A) 和 F(l:W,A),然后去做 Task 或者 Cross,这是其核心思想。

图 11 技术原理

其技术原理就是用语言特征把图像进行结构化,通过外置的方法去做 query、key、value,最后生成所要结果。

(参考文献略)

李玺

浙江大学上海高等研究院副院长、教授,国家杰青获得者,IET Fellow;国家级领军人才,科技部科技创新 2030-“新一代人工智能”重大科技项目负责人,国家自然科学基金委联合基金重点项目、教育部重点规划研究项目负责人。在国际权威期刊和会议发表论文 180余篇,多篇 ESI 高被引。曾获世界人工智能大会 SAIL 奖、国际会议论文奖、中国发明协会创业创新奖一等奖、教育部科技进步奖一等奖、CSIG 自然科学奖二等奖等。

选自《中国人工智能学会通讯》

2024年第14卷第2期

科技前沿专题

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部