文末附有相关个股
近日,谷歌发布了一款名为Gemini的多模态大模型,其表现超出了预期,尤其在视频理解方面令人惊艳。这一进步与近期AI领域在多模态技术方面的频繁动作相呼应,包括Pika1.0开放测试的超预期效果,以及AI视频领域的持续创新。所有这些都明确指向了一个趋势,那就是多模态AI的快速迭代将进一步加速AI应用端的爆发。这种性能升级主要体现在多模态上,特别是在视频理解和视频生成方面有突破性进步。
目前,AI模型正在从单模态向多模态演进,这是实现认知智能的明确趋势,也是AI未来发展的方向。在这个过程中,多模态模型不断取得突破性进展,例如OpenAI在11月发布了GPT-4 Turbo,并再次以GPTs颠覆了行业。在短短时间内,GPTs的上线数量已超过3万,揭开了AIGC应用生态的序幕。此外,海外初创公司PikaLabs正式推出了火爆全球的AI视频生成工具Pika1.0,它包括一个能生成和编辑各种风格视频的全新AI模型。然后,在12月,谷歌发布了其声称规模最大、功能最强大的人工智能模型Gemini,声称其性能超过了GPT-4和人类专家。
人工智能的研究一直致力于实现计算机对人类认知世界方式的高度效仿。由于单模态交互的局限性和不完整性,"多模态"研究的大势所趋已经十分明朗。多模态学习以多模态大规模数据为基础,同时利用多种感官进行学习,提供更丰富信息。除了传统的语言和图像交互作用外,它还可以结合声音、触觉和动作等多维度信息进行深度学习,从而形成更准确、更具表现力的多模态表示。这种模型可以处理和整合不同类型的数据源,捕获跨模态的复杂关系,使机器能够更全面地理解和分析信息,从而在各种任务中表现得更好。因此,多模态模型在结构上可能更为复杂,需要处理多种数据输入,并可能涉及使用多个子网络,然后将其输出合并。
随着AI大模型进一步朝多模态方向升级,广泛的数据交互方式和丰富的应用场景为提升用户体验提供了巨大的可能性。内容创作领域可能会经历前所未有的变革,因为多模态模型有望在语音、图像和视频等多种输入输出方式中得到应用。这种模型有望显著打开下游应用场景,破除单纯文字交互的局限性,使交互方式变得更为丰富和多元。
在工业、医学、汽车、机器人等领域,下游应用场景的应用落地带来的商业化增量空间有望不断打开。例如,在工业领域,多模态模型可以用于监控和分析复杂的生产线,提高生产效率和质量。在医学领域,它们可以帮助医生更准确地诊断和治疗疾病,提高医疗服务的质量。在汽车领域,多模态模型可以用于开发更智能的驾驶系统,提高道路安全。在机器人领域,它们可以帮助机器人更好地理解和应对各种复杂环境和任务。
2023年8月31日,国内首批8家厂商的AI大模型通过了《生成式人工智能服务管理暂行办法》的备案。然后在11月3日,又有11家AI大模型完成了备案。这表明我国也在积极推进多模态AI技术的发展和应用。
多模态相关概念个股:
1、新国都:公司全资子公司新国都智能基于图像深度学习、计算机视觉等前沿AI技术,积极探索AI人工智能技术在AIGC、智能驾驶等领域的应用。
2、奥飞娱乐:公司有海量动画片库+大量动画IP资源。腾讯12.15上线的新游戏《元梦之星》,其IP周边如身份卡+收藏卡都将由奥飞娱乐与非上市的卡游进行运营。
3、华策影视:2月15日,华策影视宣布成为百度文心一言首批生态合作伙伴,将优先内测体验并接入文心一言的全面能力,双方共同探索将AIGC技术应用于内容创意、内容制作、内容宣发等影视生产全链路。后续,双方也将围绕影视生态展开更深入的合作,助力影视传媒行业的智能化转型升级。
4、网达软件:网达软件全力打造以视频+AI+大数据的“视联网·数智台”,将跨地域、跨行业、跨功能的多维数据汇聚到视联网平台,实现音视频通讯、数据传输、AI赋能以及多要素分析处理及展现。
本文提到的所有观点,均仅代表个人想法,所涉及的标的不做推荐,据此买卖,风险自负。如果想了解文中展示个股具体情况,或想获取更多相关信息,欢迎评论俬信交流。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有