端到端这本葵花宝典,不练被卷练了更卷

端到端这本葵花宝典,不练被卷练了更卷
2024年06月13日 10:02 林燃

特斯拉FSD迭代至V12.4以后,其优越的表现让所有质疑端到端方案的从业者们都转变了观点。

进入2024年,本土头部智驾车企纷纷加码端到端,技术路线突然转向,肯定不是因为马斯克浓眉大眼,长得真好看,而是看上了端到端实打实的优点。

长江后浪推前浪,一不小心,前浪就被后浪拍在了沙滩上,正当软件开始重新定义汽车的时候,AI悄悄地重新定义了自动驾驶系统的软件。

在AI的魔力还没有大规模彰显的时候,一些分析机构曾经预言,要实现无人驾驶,自动驾驶系统的软件代码量可能会高达上亿行。

事后诸葛亮一下,这些机构都被啪啪打脸了,因为,自动驾驶软件中的代码慢慢地被神经网络形式的模型一步一步取代了。

据马斯克去年8月份时直播端到端FSD的说法,特斯拉FSD转到端到端方案之后,代码行数只有3000多行了。

根据特斯拉FSD V12现在的版本说明,和分模块方案的V11相比,V12消除了30多万行C++代码。

这意味着,在转向端到端方案之前,特斯拉FSD V11中的软件已经基本实现了近乎全面的神经网络形式化,因为当时的代码行数也只有30多万行,和上亿行且差这两个数量级呢!

这些代码去哪儿了?当然是被重构成神经网络了。

以前需要堆人力、靠码农们写代码实现的自动驾驶软件,变成了堆算力、靠投喂数据可以训练出来的自动驾驶模型,这种“生产方式”的转变到底意味着什么?主要有三:

一是算法团队可以得到大规模的精简,按厂长去年在电动汽车百人会上的说法,特斯拉自动驾驶算法团队只有300人,对比一下,国内动辄一两千,甚至大几千。    

第二,码农现在连996都不愿意,但算力可以做到007,每天工作24个小时,每周工作7天,只要保证它处于合适的温度区间,给它足够的电,算力不会发出一句怨言。

第三,花真金白银买下来的算力没长腿儿,买下来就完完全全属于你自己,可年薪大几十万招来的软件工程师有可能会见异思迁。

现在,请你做一下视角转换,把自己想象成车企的老板,就冲着以上三个优点,是不是恨不得马上就转向端到端?

眼下正值大厂、小厂、东厂、西厂纷纷裁员的节点,据说,一些被裁的员工经常迎来杀人诛心的一问:你到底给公司创造了什么价值?

同样的问题抛给端到端,端到端创造了什么价值?

对着这张图上看下看,左看右看,会发现端到端的两个主要特点:

第一,全面转向神经网络。

从此,系统性能进步的源头由人类程序员编写的规则变成了训练数据中隐藏的知识,推动系统性能提升的手段由堆人变成了堆算力和喂数据。   

第二,消除了原有的感知-决策-执行三个模块之间的界限,模块之间没有了界限的好处主要体现在两个方面。

从左向右看,从感知层到决策层之间的信息传递更加细致全面。

孙子曰,知己知彼,百战不殆,信息了解越全面,战场决策就越精准,对自动驾驶系统来说,也是这么一个道理。   

分模块方案下,感知层向执行层传递的信息是车辆、行人、车道线、障碍物、红绿灯、交通标识这些目标,转向端到端之后,就可以直接传递BEV特征和占用空间体素特征,从目标级到特征级,信息颗粒度更细,有利于决策层作出更安全、高效、类人的驾驶决策。

从右向左看,模块之间排排站,把手牵,意味着大家可以全局优化,联合作战。

神经网络的基本训练过程是将最右端的输出和真值进行比较,以两者的差作为损失函数,反向传递回神经网络的最左端,在这个过程中更新网络中的每个参数。

之前,感知层和决策层中间隔着一条河,损失函数无法从决策层传递到感知层,只能望河兴叹。

现在,感知层和决策层之间没有了界限,决策层的损失函数就可以顺利、无缝地传递到感知层,这种联合优化在效果上胜过各个模块的各自为战。   

在最近的重庆汽车论坛上,好久没有在公共场合发声的理想汽车掌门人李想一露面就搞了个大新闻:理想汽车的自动驾驶系统将在今年底达到L3级水平,并将在3年内实现L4!

虽然语惊四座,但各位切莫觉得惊讶,也别觉得厂长太浮夸,早在3月份的英伟达GTC大会上,理想汽车就给出了实现L3和L4的技术路线,基本思路和厂长在重庆论坛上的发言是一脉相承的。   

翻译一下这张图,理想汽车自动驾驶团队认为,数据驱动的端到端可以实现L3,再之后,知识驱动的世界模型WorldModel可以实现L4。

端到端应对95%的简单场景,世界模型应对剩下5%的复杂场景,端到端+世界模型共同实现全场景覆盖。

应该说,厂长的表态除了在时间线上可能有些激进、略显夸张之外,基本思路是没有问题的,从分模块到端到端,从端到端再到世界模型的技术路线演进方向基本已经成了行业共识。   

在2023年6月份的CVPR会议上,特斯拉自动驾驶负责人已经昭告过天下,已经实现了全链路端到端方案工程落地的特斯拉正在发力世界模型。

世界模型这个词大家可能比较陌生,你可以把它理解为加入了视觉模态的大语言模型。

以ChatGPT为代表的文本模态大语言模型证明了生成式AI的魅力,在文本模态的基础上叠加视觉、声音模态之后的GPT4-o更是直接展示了多模态的能力。

GPT表现出来的强大理解能力和生成能力,足以证明可以学习物理世界运行规律和人类驾驶知识的世界模型的确可以提升自动驾驶系统感知和决策的能力。

不过,由于大模型对算力的要求非常高,自动驾驶系统对实时性的要求非常高,这两个硬性指标使得依赖英伟达Orin的车企很难在目前这一代计算平台上实时运行世界模型。

即便是英伟达下一代计算平台Thor,也未必可以满足车端部署的实时性要求,所以厂长的话能不能实现,只能等三年后再看。

立足当前,端到端技术路线在用户体验上注定会领先原来的分模块方案,着眼未来,只有实现了端到端,再加上世界模型,才有可能实现L4级自动驾驶,端到端是自动驾驶系统能力进一步跃升的关键一站。

所以,对每一家致力于走完智能化竞争下半场的车企来说,端到端都是必须跟进的技术路线。   

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部