车圈的智驾队伍越来越大。仅看这次广州车展前后,车圈声量最大的,几乎都是智驾和智能。
10月份,宣称将“扔掉方向盘或踏板”特斯拉Robotaxi初一亮相,就掀起了全球的关注热潮。11月15日,雷军在广州车展上发布小米超级智能驾驶HAD,成为目前最新一家端到端大模型“上车”的车企。截至目前,除了最先应用端到端大模型的特斯拉,中国的理想、蔚来、华为、小鹏、智己、小米等多家车企也已宣布实现端到端“上车”。就连老牌车企也不甘寂寞,广汽丰田应用Momenta的智驾,甚至喊出了“有路就开广丰智驾”的口号。
同时伴生的,是在这个全新生态领域中,诞生出来的各种新兴投资机会,上汽产业金融投资也开始敏锐布局,身影出现在一家2023年12月新成立的自动驾驶芯片研发商的股东名单中。
风口来了,围绕端到端和人工智能,总有先行者会先站上去的。
在虚拟世界里“跑”智驾的大模型
以上这段看似实拍的视频,其实是蔚来对世界模型技术的一次尝试:整个视频从第4秒开始,都是由“蔚来世界模型NWM”想象生成的。尽管目前技术尚不成熟,但基于3秒钟视频的Prompt(提示)输入,蔚来世界模型已经可以生成120秒想象的视频。蔚来于2024年7月27日正式发布这一世界模型,可以全量理解信息、生成新的场景,甚至预测未来可能发生的事件。
端到端,显然给智驾行业带来了无穷的想象力。但是,端到端大模型的训练依赖大量优质数据,而世界模型的应用有望以低成本、高效率的手段,为端到端大模型的训练提供海量优质数据。
相较于模块化设计架构,端到端设计架构不再有规划与控制这些人为设计的模块,车辆的运行决策全部交给神经网络大模型处理,因此不再需要工程师写下海量的代码。以特斯拉FSD为例,端到端大模型的“上车”,让智驾系统从V11版本的30万行代码精简到了V12版本的2000行代码,但智能驾驶的表现却有了显著提升,真正实现了“像人类司机一样”驾驶。
这正是摆脱了代码规则约束后产生的效果。传统的模块化设计就像驾校里的新手司机,只会按部就班执行“教练”(即工程师编写的代码)的指令。因此,遇到“教练”教过的场景,智驾系统可以应对。可是,一旦遇到没有规则指导的Corner Case(边角案例),车辆就会不知所措,短期内可以通过增加规则来满足更多的场景需求,但很容易触达瓶颈和上限。而采用端到端设计架构的智驾系统像是离开驾校,自己上路的新手司机,不再有“教练”发出指令,智驾系统依靠端到端大模型自主判断并做出决策,逐步成长为“老司机”,让车辆的智能驾驶获得更高的上限。
当前,端到端自动驾驶技术的发展遵循渐进的路径:在感知模块,多家车企已经通过“BEV(鸟瞰视角)+OCC(占用网络)+Transformer(一种基于自注意力机制的神经网络模型)”的“组合拳”实现了端到端架构;决策模块也在逐步从依赖手写规则向基于深度学习的模式转变。
BEV+OCC示意图
图源自小鹏汽车
不过,目前中国企业对于端到端自动驾驶研发的策略存在分歧,“上车”的进度也不一致:华为、小鹏等企业仍然采用感知和规划控制两段的“模块化端到端”,两个大模型之间依然存在规则连接;理想、蔚来、智己、商汤绝影等企业则采用“一段式端到端”(也被称为“单一模型端到端”),从原始信号输入到最终规划轨迹的输出直接采用单一深度神经网络实现。前者设置规则,将大模型黑盒做了灰盒化,模型可解释性更好;后者数据信息丢失更少,上限更高。
世界模型为自动驾驶
打造云上乾坤
值得注意的是,特斯拉虽然是最早公布采用端到端智驾方案的车企,但并未表明他们采用的是“一段式端到端”还是“模块化端到端”架构。不过,从马斯克在社交媒体上的一些表态推测,特斯拉所采用的端到端模型,可能是一种基于生成式人工智能、更高级的端到端大模型。
马斯克曾表示
特斯拉能应用车辆数据
生成模拟现实世界的视频
生成式人工智能模型要解决的核心问题是数据问题。大模型就像一位天赋极高的学生,但需要大量的“学习资料”,也就是数据进行训练。不过,能够用于训练的数据并不多见。马斯克曾表示,千篇一律的正常行驶数据价值极低,有效性可能不足万分之一。但是,如果用事故数据训练端到端模型,能适应的工况也有限。
以ChatGPT、Sora为代表的生成式人工智能大模型为端到端大模型的训练带来了启发。“数据采集车队跑100万公里都不一定会遇到‘两辆卡车相撞,其中一辆侧翻’的场景。但是,通过大模型,只需要以相应的文本输入,一段对应的驾驶场景视频就能迅速生成。”上汽创投(上汽金控全资子公司)投资经理丁华宇表示,“特斯拉FSD以30秒左右的视频作为训练素材,多模态大模型可以迅速生成这种极端工况的行驶数据,帮助训练模型。”
值得注意的是,这里所用的并不是传统的生成式模型,而是更贴近当前人工智能领域前沿的“世界模型”(World Models)。二者的区别在于:传统的生成式模型或许能够准确预测篮球落地后会弹跳,但模型并不真正理解其中的原因,“弹跳”的结果是基于神经网络的概率推理给出最有可能符合预期的答案。世界模型则具有基本的物理认知,更善于展现“篮球的真实弹跳”。换言之,世界模型能够为人工智能提供理解真实的三维物理世界的能力,能够像人一样感知真实世界。这与马斯克所说的“能够利用精确的物理学知识生成现实世界视频”不谋而合,也间接解释了特斯拉在智能驾驶感知中摈弃激光雷达的原因:并非成本高,而是激光雷达的数据与视频数据维度不同且更复杂,目前难以将激光雷达数据应用到特斯拉的世界模型中。
特斯拉Robotaxi
采用纯视觉感知方案
由此看来,世界模型在端到端大模型训练中的优势十分明显:一是可以低成本生成海量接近真实的、包含Corner Case的多样化训练视频数据;二是模拟物理世界更真实,可以帮助智驾模型在感知端的时空理解能力、环境想象的真实度与丰富度显著提升;三是具备推理和理解的能力基础,模型可以自己推理学习因果,不再需要标注,泛化能力大幅度提升。
“世界模型的最终形态可以理解为一个大模型的仿真器。有价值的Corner Case依靠实车采集比较难且成本高昂,依靠目前的仿真技术又不太准,所以依靠世界模型仿真提供训练素材是一个思路。此外,世界模型还可以用于推理和决策。”丁华宇表示。
投资机会在智驾推理芯片
智能驾驶有数据、算法、算力核心三个要素,上文分别从端到端大模型(即算法)与世界模型(即数据)两个方面探讨了智能驾驶领域的前沿动态。不过,算力也是不容忽视的要素。
“端到端模型更加依赖Scaling Law(尺度定律),即通过增加数据参数量、模型训练时间生成更大规模、更强性能的模型。以GPT为例,训练GPT-3大模型(1750亿参数)需要1000张A100 GPU一个月的算力,而训练GPT-4大模型(1.8万亿参数)等效需要25000张A100 GPU 三个月以上的算力。模型高度依赖算力规模提升迭代速率。”丁华宇告诉记者。
换句话说,这是一个“大力出奇迹”的过程,无论是端到端模型还是世界模型,算力与性能直接挂钩。未来,智驾领域新一轮算力军备竞赛将在车端与云端共同展开,目前中国依然在追赶领先者。
在算力规模方面,特斯拉在自研的超级计算机Dojo量产后,算力规模迅速攀升到全球前五的水平,并有望于今年达到100EFLOPS(1000万亿次浮点运算)的算力规模。目前,中国企业中,即便是算力规模位居前列者,也落后特斯拉1-2个数量级。可作为对比的是,工信部对全国算力的规划是:到2025年,全国算力规模超过300EFLOPS,届时特斯拉的算力规模相当于全国算力的1/3。
特斯拉于2023年7月量产Dojo
目前已实现100 EFLOPS算力
图源自Tesla AI推特
而在算力芯片方面,中国与美国的整体差距巨大。目前,大模型的云端训练芯片依然是英伟达一家独大的局面;但是,在车端的智驾推理芯片方面,国产替代方案正逐步走向成熟,产业链上出现了能满足整车厂智驾方案的车载芯片,也涌现出一批产业投资机会。
10月24日,上汽集团投资的智驾科技企业地平线在香港交易所主板挂牌上市,募资总额达54亿港元,成为港股今年以来最大的科技IPO。作为目前国内最大规模量产智能驾驶解决方案的供应商,地平线征程6系列智能计算方案“首发即爆款”,已获得10家车企及品牌量产合作,将于2025年实现超10款车型量产交付。
地平线征程6系列智能计算方案
“投早、投小、投科技”,除了类似地平线这种在行业内赫赫有名的企业,上汽产业金融投资还在不断发掘更多有前景、有价值的投资标的,以产业金融投资赋能产业发展、陪伴已投企业成长。
成立于2023年12月的自动驾驶芯片研发商新芯航途是一个典型案例。新芯航途背靠Momenta,并且吸引了大批前OPPO旗下哲库人才与前华为昇腾SoC团队,拥有强大的技术实力与未来潜力。随着汽车智能化、网联化的加速发展,自动驾驶芯片市场规模将持续扩大,为企业带来更多机遇。近期,新芯航途完成一轮融资,上汽创投现身股东名单,陪伴企业开启自研智驾芯片的征程。
借助产业金融投资,上汽集团战略直投在新赛道上追踪行业最新动态,积极拓宽版图、发掘机会,全面布局汽车产业链、创新链、价值链,不断加强与产业链上下游的战略合作,打造围绕上汽在新赛道上紧密联盟的核心生态圈。关注前沿技术,把握“早小”机会,上汽集团战略直投正致力于加大协同、加深赋能,以CVC产业资本为纽带,助力上汽与已投企业共同实现双向赋能和价值共创。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有