GIMM-VFI是一种新的视频插值方法,它使用运动建模来预测帧之间的运动

GIMM-VFI是一种新的视频插值方法,它使用运动建模来预测帧之间的运动
2024年07月23日 07:34 黄建同学
GIMM-VFI是一种新的视频插值方法,它使用运动建模来预测帧之间的运动。#ai##ai探索计划# GIMM-VFI 在任意时间步长上执行可通用的连续运动建模和两个相邻视频帧之间的插值,从而生成更高质量的运动视频↓Generalizable Implicit Motion Modeling for Video Frame Interpolation(可推广的隐式运动建模用于视频帧插值)项目:gseancdat.github.io/projects/GIMMVFI论文:arxiv.org/abs/2407.08680论文摘要:运动建模对于基于流的视频帧插值 (VFI) 至关重要。现有范例要么考虑双向流的线性组合,要么直接预测给定时间戳的双边流,而不探索有利的运动先验,因此缺乏有效建模真实世界视频中时空动态的能力。为了解决这一限制,在本研究中,我们引入了可泛化隐式运动建模 (GIMM),这是一种新颖而有效的 VFI 运动建模方法。具体而言,为了使 GIMM 成为一种有效的运动建模范例,我们设计了一个运动编码管道来建模从预训练的流估计器中提取的双向流的时空运动潜伏值,有效地表示特定于输入的运动先验。然后,我们通过基于自适应坐标的神经网络隐式预测两个相邻输入帧内的任意时间步长光流,以时空坐标和运动潜伏值作为输入。我们的 GIMM 可以顺利地与现有的基于流的 VFI 工作集成,而无需进一步修改。我们表明,GIMM 在 VFI 基准上的表现优于当前最先进的技术。#ChatGPT[超话]#

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部