普通端到端和世界模型端到端有什么区别

普通端到端和世界模型端到端有什么区别
2024年08月07日 12:38 酋知鱼

在2024的NIOIN上蔚来发布了自己“融入世界模型的端到端”。

相信大家一定是一脸懵逼的情况下懵逼了一脸,

所谓世界模型到底是什么啊,融入之后端到端发生了什么变化?

我也很好奇,于是好好地研究了一番,写下了本篇长文,送给同样好奇的你;

我承认文章是有一点长,不过只要耐心看完,你一定会有所收获吧!

少卿,帅!

在NIOIN的发布会上,我们会注意到蔚来着重强调了世界模型的预测能力。

它能在能在100毫秒内推演出216种可能的未来轨迹,而这些未来全部都能够以“生成式视频'的形式展现。

可以类比为,这个模型在“想象并预测”未来。

那么问题来了,别家的端到端又是怎么工作的呢,

它们不需要预测未来也可以开车吗?

听闻某“没有借口”KOC狂言,高端的端到端甚至不需要ISP处理图形,光子进芯片就能输出驾驶的执行指令,事实真的如此吗?

欸~ 其实破除诳语的方法很简单!

只需要大家理解了AI是如何运行的,便不会再相信他的半句鬼话了。

相信绝大多数人都不太理解所谓的AI到底是什么,

即便我们天天听日日听,听得耳朵都快起茧子了。

AI那么厉害,使用聊天机器人的时候仿佛后面就藏了一个真人,

芯片里真的有一个在思考的灵魂吗?

如果你产生了这种错觉,那就中了营销陷阱了;

不过这事儿真不能怪你,毕竟大佬们也喜欢搞点儿“擦边宣传”,

比如“神经网络”啦,“机器学习”啦。

机器学习机器学习,机器真的在“学习”吗?

不不不,完全不是的…

这个过程只是比较像人类的学习而已,其本质是一种调试!

没错,和调试世间的任何一种机器都没有什么本质差别,所谓的人工智能,至少在目前阶段,是调试数学与计算机科学的结晶——

“AI模型”。

令其达到理想的状态,从而完成我们期待它完成的复杂工作。

热炒概念“端到端”正是基于此,传感器感知的环境信息是一端,汽车的驾驶动作是另一端;

中间只放一个模型的,就是“one model”端到端,放好几层的,一般称为分段式端到端。

那么现在我们只要把“模型”是如何工作的给整明白了,自然就能对比出“普通”模型和世界模型的区别了。

首先的第一个要给大家解答的问题是:

这个“普通”AI模型都那么厉害了,我却说它与其他机器没有区别,

二者在直觉上似乎存在一个无法逾越的巨大鸿沟啊?

emmm…… 我懂!

因为过于复杂的现象是无法依靠我们的直觉理解的。

但没关系,世间万物皆是复杂系统,我们甚至可以从生物上找到理解的突破口。

诸君请看,这是名为圆掌舟蛾的一个常见昆虫:

遍布亚欧大陆的常见物种

很显然它是在拟态一截断掉的小树枝,

不仅颜色质感以假乱真,甚至还模拟出了木质部断裂的截面结构和纤维感。

在过去科学不够普及的年代,

很多人将拟态现象作为”智慧设计论“的铁证:

“如果没有高级智慧(神明)的存在,怎么会出现这种现象?蛾子难道能理解树枝的光影结构并对其进行模仿吗?”。

没错,蛾子的确世世代代都不曾理解过树枝的结构,但这并不能推导出反方向的错误答案。

事实上基因突变的效率之高超乎普通人的想象…

贝氏拟态的联合警戒现象

看这张图,上排是平绡蝶属的七个物种,

下排仅仅是狐眼袖蝶一个物种,却能在不同地区拟态以上七种蝴蝶的花纹。

那么它动用了多少基因呢?

答案是区区一组等位基因而已!

这类现象在对于计算机的探索——“元胞自动机” 里也可见一斑

只需要给棋盘地图定下几条简单的回合规则,并给几个初始的黑方块,它就可以自行演化下去,譬如:

“一个黑方块的周围如果少于2个黑方块,则此方块下回合变白”。

“一个黑方块的周围如果多于3个黑方块,则此方块下回合变白”。

“一个白方块的周围如果有3个黑方块,则此方块下回合变黑”。

“其他条件维持原样不变”。

这局生命游戏最终收敛了

元胞自动机最奇妙的地方在于,即使初始黑方块完全一致,只需要稍稍调整一点规则。

若干回合后的演化结果便会大相径庭,

下面这张图里纷繁复杂的纹样,就是这么来的。

初始条件为8X8全黑方块,中间一个白点

其中的一些花纹是不是和动物的体表花纹有相似之处?

没错,所以“元胞自动机”又被称为“生命游戏”。

在生命游戏里,“参数”是回合规则;而在生命里,“参数”是DNA;

顺便一提,某些规则的元胞自动机是可以完全等效为通用计算机的,

这种由冯 · 诺依曼发明的模型,其本质就是另一种计算机。

抽象的计算执行

奇妙吧,生命和计算机在深奥处与数学达成了共通性;

正因如此,蛾子演化出树枝拟态也是一种广义上的“模型训练”。

我来帮大家捋捋,

AI的模型训练大家应该不陌生。

用极简化的语言来描述,就是先采集大量的数据构成数据集,再将数据集喂给事先准备好的模型。

模型中有超多超多参数等待着调节,调节参数会影响模型的输出。

那么通过验证模型的输出是否接近我们的需求,就可以对参数进行调整以期提高性能。

模型训练示意图

经过反复喂数据 - 对结果 - 调参数的迭代训练,最终会逐渐逼近模型的能力上限,这就算是训练好一个模型了。

把这一套放在蛾子的演化中类比呢,生态环境和自然选择所施加的压力便是“数据集”;

“模型”是蛾子调节细胞分裂分化生长发育系统,“参数”是DNA序列;

用以验证输出的标准便是“种群扩张”。

在经历了很多代的“迭代训练”后,

虽然蛾子对树枝还是一无所知,但它成功地长成了树枝的样子!

获得了在生存中十分有优势的“性能”。

又是你,我可爱的小蛾子

发现没,蛾子不懂树枝和惟妙惟肖地拟态树枝并不矛盾。

只要算法足够精妙,系统足够复杂,

再辅以足够长的“迭代训练”,这些被认为是“神迹”的现象也并非不可复现。

而Open AI开启的 GPT时刻,正是由“大模型”和“大参数”铸就的,

GPT-3竟然堆了足足1750亿个参数。

现在大伙儿是不是稍微明白了一点,AI的“智能”其本质究竟是什么了?

和你聊天的GPT不是像人类一样“思考、聊天”,

模型算法其实也是在“拟态”!

非常精妙地拟态出了人类的用词、语法和嵌合在语言中的逻辑。

没错,我想“拟态”这个词是对AI模型所做之事最贴切的描述了。

模型的内部的运行机理与人脑完全不同,

正如圆掌舟蛾的头胸部和树枝的断面一般。

“It just work!you know bro?”

King Crimson!

端到端的常规方案基本上就是这么跑起来的,特别是某些KOC吹爆的one model端到端。

他甚至开始幻想连摄像头的数据都不必处理成图形了,海量环境信息不分重点无论主次一股脑儿统统灌进模型里,等着模型高度完美地“拟态老司机”。

如果“拟态”得不够完美,那一定是模型不够大,参数不够多,喂得数据不够饱,训练时间不够长。

解决思路就一个字——堆!

万物皆可力大砖飞!

砖头不飞一定是因为马力不够!

欸~ 不知道大家有没有听出来这条解决方案的问题在哪里啊…

如果让我来造飞机的话,我是一定不会沾沾自喜地宣布“砖头形的飞行器”是飞机的终极形态;

既不优雅,也不技术。

这样,我来给大家进阶一点地分析分析吧:

如果大家关注AI绘画的话一定知道,

很长一段时间里AI画的手总是千奇百怪,惊悚吓人。

将手背在身后成为了一段时间的最佳pose

为什么会这样呢?

因为手是一个结构复杂的人体器官,它由27块骨骼支撑,通过筋腱和肌肉组织控制运动,

所以它能摆出非常非常多的复杂姿势。

可无论动作有多复杂,手终究是一个现实世界的事物。

它必须遵循其内在的物理规律,不能随意变型,不能胡乱拼接,更不能随意减少或增加指头。

智慧生命的必备——类手器官

但对于AI模型来说,这是一个天大的难题。

因为模型无法单独识别手的独特性,

在算法视角这个结构与衣服的蕾丝或是天上的云彩没有什么本质不同。

所以它很正常地“拟态”出了一双双畸形怪手,

这在模型参数记录的规则中是完全“合情合理合法”的。

更糟糕的是,你几乎没有什么通过调节模型框架和算法的方法来修正这一点;

模型的性能是有极限和边界的,如果无限制地提高各种软硬件参数,或许的确有可能克服这个困难;但是所谓“工程学”,克服的正是那些在“如果世界”中不值一提的“细枝末节”,

类似于把大象放进冰箱需要几步这种嘛。

不仅需要支点,也需要棍子

那么……最后这个画手问题是怎么解决的呢?

没错,是通过“在模型之外添加固定规则”的笨办法解决的……

规定手只能画成若干种模板的形状,限制AI的随机性。

“画手”这个例子完美地印证了一个近期大家正在激烈讨论的智驾“上限”与”下限“的问题;

无论绘画模型的上限有多高,画得有多漂亮,

一瞅手部,嚯!三个指头,全盘垮掉…

被下限给“一击必杀”了。

所以你会发现一件很搞的事情,

某些时候one model端到端听起来似乎键盘值极高,技术极其先进;

可真要工程落地的话,似乎还是得分段式和融合规则来救场呐!

OK,既然AI在现阶段存在这种难以克服的局限性,

那么要如何才能最大限度地扬长避短呢?

这就不得不提到 “world model”,世界模型了!

万物在它“心中”

所谓世界模型,听起来好厉害的样子,难道是要给真实世界建模吗?

当然没有那么夸张,我举个例子你就懂了。

大家开车都有过从新手到熟手的过程,

不知道你们有没有注意过,明明是一样的路段,

新手时期开起来就特别地紧张,风神鹤唳步步为营,

但熟练后却闲庭信步,悠然自得呢?

以一个非常具体的场景为例:

开车时最舒适的时候一般都是在没有路口的长直道上跟车,

只需要控制好车距,注意前车有没有什么动作就好了。

为什么会这样呢?因为我们心里清楚知道:

1、后面的事我不用管,因为有交通法规兜着,追尾是后车的责任。

2、 前面的路已经被前车验证过了,不会凭空刷新出一个人来,只要跟着就好。

3、 侧面突然出现高速障碍物的概率不能说绝对为零,只是也是低到没必要操心的程度,毕竟就算真突然冲出一只野猪来,我又能怎么样呢?

野猪已被移出二级保护动物,望周知

正因如此,老手只需要消耗一小部分注意力就能开好车;

而新手正是因为还不熟悉道路实战,

分不清什么什么该眼观六路耳听八方,什么时候该享受一段惬意的驾驶,

才会战战兢兢如临大敌,开上一会儿便十分地疲劳。

总结一下你会惊讶地发现,老司机不需要对整条路上的一草一木一花一叶了如指掌,却能出色地完成驾驶;人类司机从新手成长为老手的训练时长也远远短过AI模型。

这背后的核心原因是什么呢?

答案当然是因为——

人类理解了物理世界的运行规律,在人类的脑中存在着一个真正的世界模型!

天地在我心中!

正如我前文所述,马路中央不会凭空刷新出一个大活人,

汽车也不会开着开着就沉入了地下;

客观世界存在着永恒不灭的物理法则,植根于绝不动摇的因果规律,

正如手掌中的骨骼,它制约了驾驶任务中所需考虑的“可能性”。

所以驾驶者需要预测的未来并非无限,需要关注的环境信息也从来不是无限的;

用双眼提取物理世界真正该关心的,有价值的重点信息,

结合常识、规则和脑中的物理直觉,我们当然能轻松且高效地完成驾驶。

讲到这里,我们其实已经涉足到了一个令人足以令人激动到颤抖的知识领域——

如果能设计出真正的“泛用型世界模型”,便意味着人工智能可以像人类一样理解世界,

“现代AI之父”Jürgen Schmidhuber 甚至直言,只要在世界模型中加入一个“self符号”,

令其将“我”这个概念纳入模型认知的范畴之内,建立起自我认知,

这台机器便可以被认为是拥有了意识!

仰望星空,会招来外星人

我的天!现在大家明白世界模型的是怎样的存在了吧!

它可是所有计算机科学家心目中如圣杯般的终极理想啊!!

正因如此,关于“世界模型”头衔的争夺异常激烈;

比如前段时间OpenAI宣布,Sora是世界模型,

随即遭到了图灵奖得主“AI教父”杨立昆的强烈反对。

当然,我们通常认为距离 “真 · 世界模型”的诞生可能还有些时间,

但将该方向的技术应用在智驾上,称呼它为世界模型倒是没啥问题;

因为智驾所需处理的“世界”相对于通用机器人来说,还是比较单一的,

理解铺装道路这一角天地的“所有规则、逻辑与常识”难度并没有那么大。

OK,那么这个时候机智的大家心中一定会浮现出一个疑问:

“前文不是说AI模型只会拟态么,怎么现在又说理解世界这样惊天动地的事情啊?”。

啊,没错,AI所能做到的事情的确只是拟态,

但拟态与拟态之间亦有差别。

让我们来抓住2024 NIOIN上,少卿已然告知但还没有被大家注意到的蛛丝马迹吧!

演讲开始没多久,少卿就强调了蔚来世界模型的“空间认知-想象重建”和“时间认知-想象推演”能力。

空间认知包含着牛顿力学管理下的种种规则与常识,

真实的世界不会穿模也不会瞬移,忽闪忽现的“赛博鬼故事”必然不能出现在生成数据中。

门庭若市

时间认知则包含着“万物演化的因果逻辑关系”,

因为只有在单向的时间轴下,所谓“逻辑”才能存在,

大家仔细思考一下,是不是这个道理?

小说中一旦出现时空穿梭的情节,逻辑bug就一定无法避免。(用平行宇宙搞切割另说)

之后,便是那条传播很广的“想象万千平行世界”小视频了,

蔚来世界模型能以生成式视频想象出最多216种轨迹,最长120秒之后的未来,甚至比绝大多数专业视频生成模型更强。

时间宝石,启动!

在这么长的想象视频中要保证动静态物理规律不崩坏,不放飞自我,

可见其空间与时间,物理与逻辑的把控能力之强大。

行文至此,普通模型端到端与蔚来世界模型端到端的区别可以说是呼之欲出了——

前者”拟态“的是驾驶者所做的决策,

而后者”拟态“的则是驾驶者脑中的世界模型与决策思路。

前者注重的是“达到效果”,后者注重的是“像人脑一样运转以达到效果”

如果用蛾子来做比喻的话,前者就是拟态成树枝的圆掌舟蛾,

它的确可以成功地骗过捕食者的眼睛。

而后者则是由内向外地拟态了一根树枝,

它连外皮、韧皮部、木质部,髓芯都模仿到位了

将后者拦腰切断,你会得到两截看起来像树枝,

摸起来像树枝,闻起来也像树枝的……蛾子?

拟态的初衷是什么,我早已忘却

好吧,正如 真·世界模型 是向着人的意识不断靠拢一般

这种蛾子也在拟态树枝的路上走得太深太远,

终有一天,可能真的会变成树枝吧!

这,便是两代端到端之间的区别了,

二者谁更为先进更为前瞻,应该也不需要我尬吹了吧…

这不禁让我回想起曾经和一位朋友探讨过的一些问题,

其中关于通用人工智能将会在哪里降临的问题上,我们产生了一些分歧。

她认为会出现在工厂用的专业机器人上,我认为会出现在自动驾驶的终点处,

蔚来世界模型让我眼中的光点又变亮了一丢丢。

NIO WorldModel!

最后的最后,再来祛个魅吧。

有人说摄像头的数据不经处理直接输入端到端模型,

就能原汤化原食100%无损利用,

所以训练的效果一定是宇宙无敌第一好。

且不管他的这些道听途说靠不靠谱,

但是“不处理图片比处理图片更好”就已经足够贻笑大方了。

在把数据喂给模型之前有一步操作叫“特征工程”,

是从原始数据中提取或构造特征,以便模型能够更好地学习和泛化,

就像喂饲料之前先分割烹饪一下会更好消化;

对于摄像头输出的信息来说,这一部无疑是处理成视频图像。

那为什么视频要比无损信号更好呢?

哼哼,其实答案很简单!

因为铺装道路不是自然景观,而是人造物啊!

马路上的所有标志和涂装,都是围绕人类的视觉而设计的;

比如为什么要用红灯做警示灯呢?

因为红光的波长更长,穿透浓雾和灰尘的能力更好。

那为什么不用穿透能力超强的红外线来做警示呢?

因为人类看不见…

所以纯视觉这条路,注定了与视频处理能力是分不开的;

这是一个由“人择原理”决定的典型案例啊……

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部