AI多模态发展不断推进！相关产业链谁能在下一个风口起飞？_

文末附有相关个股

近日，谷歌发布了一款名为Gemini的多模态大模型，其表现超出了预期，尤其在视频理解方面令人惊艳。这一进步与近期AI领域在多模态技术方面的频繁动作相呼应，包括Pika1.0开放测试的超预期效果，以及AI视频领域的持续创新。所有这些都明确指向了一个趋势，那就是多模态AI的快速迭代将进一步加速AI应用端的爆发。这种性能升级主要体现在多模态上，特别是在视频理解和视频生成方面有突破性进步。

目前，AI模型正在从单模态向多模态演进，这是实现认知智能的明确趋势，也是AI未来发展的方向。在这个过程中，多模态模型不断取得突破性进展，例如OpenAI在11月发布了GPT-4 Turbo，并再次以GPTs颠覆了行业。在短短时间内，GPTs的上线数量已超过3万，揭开了AIGC应用生态的序幕。此外，海外初创公司PikaLabs正式推出了火爆全球的AI视频生成工具Pika1.0，它包括一个能生成和编辑各种风格视频的全新AI模型。然后，在12月，谷歌发布了其声称规模最大、功能最强大的人工智能模型Gemini，声称其性能超过了GPT-4和人类专家。

人工智能的研究一直致力于实现计算机对人类认知世界方式的高度效仿。由于单模态交互的局限性和不完整性，"多模态"研究的大势所趋已经十分明朗。多模态学习以多模态大规模数据为基础，同时利用多种感官进行学习，提供更丰富信息。除了传统的语言和图像交互作用外，它还可以结合声音、触觉和动作等多维度信息进行深度学习，从而形成更准确、更具表现力的多模态表示。这种模型可以处理和整合不同类型的数据源，捕获跨模态的复杂关系，使机器能够更全面地理解和分析信息，从而在各种任务中表现得更好。因此，多模态模型在结构上可能更为复杂，需要处理多种数据输入，并可能涉及使用多个子网络，然后将其输出合并。

随着AI大模型进一步朝多模态方向升级，广泛的数据交互方式和丰富的应用场景为提升用户体验提供了巨大的可能性。内容创作领域可能会经历前所未有的变革，因为多模态模型有望在语音、图像和视频等多种输入输出方式中得到应用。这种模型有望显著打开下游应用场景，破除单纯文字交互的局限性，使交互方式变得更为丰富和多元。

在工业、医学、汽车、机器人等领域，下游应用场景的应用落地带来的商业化增量空间有望不断打开。例如，在工业领域，多模态模型可以用于监控和分析复杂的生产线，提高生产效率和质量。在医学领域，它们可以帮助医生更准确地诊断和治疗疾病，提高医疗服务的质量。在汽车领域，多模态模型可以用于开发更智能的驾驶系统，提高道路安全。在机器人领域，它们可以帮助机器人更好地理解和应对各种复杂环境和任务。

2023年8月31日，国内首批8家厂商的AI大模型通过了《生成式人工智能服务管理暂行办法》的备案。然后在11月3日，又有11家AI大模型完成了备案。这表明我国也在积极推进多模态AI技术的发展和应用。