对话王小川:中国AGI的第三种可能

对话王小川:中国AGI的第三种可能
2024年03月19日 15:57 长江商学院

今日凌晨,英伟达召开2024年GTC开发者大会,发布的六项革命性技术共同支持高达10万亿参数的AI大模型训练和推理,再度开启AGI(通用人工智能)的狂欢派对。

在中国科技界,大模型已经进入加速落地的实用主义主旋律,这不免让大模型公司处于理想与现实的剧烈拉扯之间。理想信仰派坚守对AGI及Scaling Law(缩放法则)的技术信仰;市场信仰派更注重应用,坚持技术必须立足当前,紧随商业化的脚步。世界观的迥异,让双方对自我的判断都深信不疑。

究竟是坚守理想主义,亦或是拥抱现实主义?百川智能CEO、长江商学院企业家学者项目首二期校友王小川在近期接受腾讯科技的专访时,试图阐释在技术和市场、理想主义和现实主义之外,中国AGI还有第三种可能性:

他形容所有人都在“盲人摸象”,他或许能在技术和场景的交叉点上,“把两个看得全一点”——他既做AGI,又做具体的场景。

分享 | 王小川

作者 | 张小珺

来源 | 腾讯科技

王小川

百川智能CEO

长江商学院企业家学者项目首二期校友

就在2024年春节复工的第一周,百川智能CEO王小川罕见地在内部发了一次火。

彼时,中国科技界沉浸在对Sora的惊叹中。但对于这一点,这位看上去性情温和的CEO,相当固执。“为什么做Sora?不是有个技术我就得跟。”在他眼中,OpenAI推出的视频生成模型Sora和之前的ChatGPT根本不是一支技术脉络,“AGI理想一定要以语言为中轴做模型”,Sora是阶段产物。

在公司技术会上,工程师展现了对文生视频的热情,试着说服他应该尝试。这让王小川有点生气。“大家没有站到更长远的角度考虑终局,我到底在干嘛?”在他看来,要么Sora靠近AGI理想,要么靠近现实场景,但它“两个都不靠”。

一个星期后,王小川明确拍板:百川不走Sora路径——“被我摁死在这了。”他说。

王小川出生于1978年,曾获国际信息学奥林匹克竞赛金牌,他清华大学计算机系毕业后加入搜狐,6年从高级技术经理晋升至CTO,于公司内部孵化创业。2010年随着搜狗独立分拆,他也出任这家公司CEO。直到11年后腾讯全资收购搜狗,王小川才结束这段漫长的事业生涯。他这么形容这段经历:“搜狗没有做成大厂,但是拆开看里面,我们承受和经历了大家不能想象的东西。”这给他个性上带来许多改变。2023年4月,王小川宣布入局大模型创业。

在访谈中,王小川试图阐释在技术和市场、理想主义和现实主义之外,中国AGI还有第三种可能性——他形容所有人都在“盲人摸象”,他或许能在技术和场景的交叉点上,“把两个看得全一点”——他既做AGI(通用人工智能),又做具体的场景。

“治理是把两个不同的东西融合起来,变成更大的真相。”他说。由于百川智能是较晚入局的一家中国大模型企业,他也复盘了自己的创业始末、思考与心态起伏,并对金沙江创投主管合伙人朱啸虎在之前报道中的质疑一一进行了回应。

王小川或许代表更本土的一派AI创业者。你会看到,他和朱啸虎有共识也有分歧,虽和月之暗面创始人杨植麟一样是技术背景,但有一套不同的语汇系统。在王小川的语汇库里,你会常常遇见这样一些表达:“基因”、“哲学”、“生命模型”、“牛顿定律”、“智能纪元”,甚至“太虚幻境”。

“我们缺乏一种自信。”王小川说,“在技术里面,我们认为美国代表的最高级,他们确实有人才储备和资金,但不代表在更高的哲学思考里,他们就一定是对的。”

以下为王小川访谈。(为了方便阅读,作者进行了文本优化)

01

大象的隐喻

“他们各自看到了大象的局部”

Q: 看到朱啸虎在报道中说“王小川也一样”,你怎么想?

王小川:我想他是骂我吗?后来一看好像不是骂我。

Q: 这句话多少人转给你了,看了几遍?

王小川:整个看了一遍,但好几个人转我。就莫名躺枪。我想他们转给我的原因,要是知道骂我就不转给我了,应该是好话。但我听了觉得还是没完全理解我们做的事——但我理解他呀。

Q: 你多大程度认同他,多大程度不认同他?

王小川:他是一个率真、敢表达、一点不伪装的投资人,而且有自己的经验。一个人能做自己,有一套成熟、成功的打法,这值得鼓励。他是很真的现实主义,不掖着藏着,而不是一边挂着理想、一边说着现实的话。

Q: 他不理解你的地方是?

王小川:正好有另一篇杨植麟的报道,把他当成技术理想主义代表,走在朱啸虎反面。他谈技术,怎么长窗口,怎么能统一建模,谈的是很未来、很远的事。

大家做的就像“盲人摸象”。这只象是一只完整的象,它既是现实的,又是理想的。他们各自看到了大象的局部,也都很自洽。就商业运作,朱啸虎更自洽,至少形成赚钱闭环;杨植麟呢,理想主义离现实有距离。但他们都不代表从技术到商业的完整闭环,不代表世界的全部。

Q: 朱啸虎说和你在活动上见过、聊过。他说,不是和你关系不好不投你,确实不知道怎么退出,有这件事吗?

王小川:我印象是在深创投组织的一个会上,中午吃饭坐我旁边,就聊了几句。他第一个讲,他只看能快速赚钱的,不能赚钱的他不投。在今天这种环境,这是挺务实、旗帜鲜明的一种投资方式。是对他自己的自洽,也是对他LP负责。我挺尊重他这句话。

第二个讲,如果你们最后有并购机会,百川也是会考虑的,但现在不鼓励大的并购,退出路径很渺茫,他看不清。

他提的几个东西我都挺理解。只是现实主义、理想主义都不太构成今天完整的世界。我用八个字总结:盲人摸象、小马过河。盲人摸象是每个人都看到世界的一个局部——杨植麟看到象鼻子,朱啸虎看到象腿。小马过河是每个公司都在过程中找不一样的路。小学读盲人摸象挺可笑,但随着年龄增长,发现我们都是盲人,只是看的多多少少不一样。

Q: 他们看到的是象鼻子、象腿,你看到的是什么?

王小川:至少在我心中,我是把两个看得全一点,至少看到大部分的象长啥样子。因此,既有理想主义,又有现实主义。今天,这样一个能力在中国特别需要。

Q: 在之前报道发布后,很多人会自发站队杨植麟或朱啸虎,你站他们其中一方,还是你代表第三种声音?

王小川:我一定是第三种声音。他们本来就不完整。如果两方站队,冲突的东西没和解,一定是不对的了。我特别想画一个图——(开始在白板上作图)——一个圆柱体,如果从三维上看它是圆柱体,二维呢?投影到侧面变成方的,投影到下面变成圆的。当你讨论它到底是圆是方的时候,都是出问题了。

治理是把两个不同的东西融合起来,变成更大的真相。这才是一个更完整思考——怎么能把理想和现实兼顾,看到大家没看到的东西?

Q: 你过去一年多少次遇到过朱啸虎这样的投资人,他们可能拍着你的肩说,不是我跟你的关系不好,但是我就是不能投你?

王小川:如果没有这个文章,我都不记得朱啸虎这件事。这是特别自然的,并不会在心中有波澜。细想的话,应该不少。但也有很多朋友投进来,我挺感激的了。像朱啸虎这种没投的,我也挺尊重。

Q: 你感到过愤怒吗,对于他说的话?

王小川:真的没有一点愤怒,我就是respect。

Q: 你是很难有情绪波动吗?过去一年大模型创业中,为了什么事生气过、愤怒过?

王小川:挺多的。比如,大家对技术理解不足。我更多针对的不是朱啸虎这种,他逻辑足够自洽——他说我就赚快钱,那我这么投,很闭环。

但如果说,我想投大模型,做选择就有不同声音了,他的目标、动作和决策链条是偏差的——一种认为技术不重要,反正技术会扩散,看场景就行了。毕竟这是一个技术为核心的创业,这已经缺乏对技术基本尊重了,是一种悲哀。还有一种只迷信美国人的东西。

所以还是没看全这个事。不被理解,在我20年工作中,是很正常的。你会惋惜,但不会影响你干活。

Q: 你对谁有过情绪?

王小川:没有特别熟的朋友反而不生气。有些人属于特别笃定自己,还跟我沟通过,但没理解,这个我情绪大一些。

02

洁癖和决策

“单独从美国搞了一个手机回来”

Q: 我们从你这次创业的源头聊一聊。你是2023年2月开始关注大模型,4月入局,中间两个月在想什么?

王小川:那会在筹备、组团队。4月官宣的时候,我们大概50人规模了。

核心的源头是我好奇宇宙规律。我们知道曾经是牛顿把物理学变成数学。这句话不是我讲的,是康德讲的。牛顿提出了“观察、假说、实验”一套范式。借用简单几个公式刻画宇宙规律,科学奠基最多以物理学为基础。

我2000年读研究生做生命科学,基因相关。我发现,物理范式对宇宙规律在模拟里面很多是无效的,尤其对生命,对复杂事物。牛顿力学是偏线性系统,到了非线性系统走向混沌了,物理学就失效了。有个经典问题叫“三体”,三个球互相转,轨道通常不确定了。小说《三体》是基于这样的背景。

生命大大的不符合物理公式。20年间我一直在思考怎么把生命变成数学模型。

Q: 这段创业开始之前,你是在做一个睡眠相关项目?

王小川:对。核心是需要收集更多真实场景数据,医疗数据不够。通常,病人只有在医院才是被观察对象,而在治疗期间也缺乏完整数据收集。数据量不够,生命建模不可能完成。做睡眠的目的是在日常生活中收集——从心脏系统、呼吸系统、体重等收集数据。医学界有一个词叫Real World Studies,真实世界研究。这是2021年到2023年初。

当使用ChatGPT,一下trigger(触发)我之前的论断:机器掌握语言,强人工智能就到来。语言一旦被攻克,我们构建生命数学模型就会有新武器。谈医学,大家老觉得我在做vertical(垂直的)——我们谈生命模型,它是不比语言模型小的一件事。

今天Sora没有懂物理规律,没有深入到后面的分子、细胞相变,它只是模拟引擎。因此Sora要把物理学全都学会才会变成world model,世界引擎。这也跟语言相关。语言为中轴,Sora只是模拟器,做不到世界模型。

同样,当你做生命模型,要站在语言模型之上。语言构造整个概念空间,把更多生命数据放进来。当我们做这件事,我就思考一个问题:我们现在有了GPT这个武器,未来可以构建更大的世界模型,包括生命模型。

Q: 也就是说你在健康和大模型这两段创业,是可以关联起来,不是割裂的?外界在描述的时候倾向于认为,你是放弃了前一段,开始了这一段。

王小川:没有,这两个在一起,都是对世界建模。AGI不仅能解决大家今天看到的问题;还能往上走,研究生命的数学模型;也能往下走,变成医疗健康服务。在去年1月,我们开始就惊叹了。

Q: ChatGPT是前年11月30日出现的。

王小川:那时还在疫情,大约在去年1月份(开始试用)。当时我还有洁癖——我要用自己的账号、自己的IP去访问,所以单独从美国搞了一个手机回来。不是在淘宝上买的账号。

Q: 哦,你为什么有这个洁癖?

王小川:我也不知道,这个东西你要真的进去,而不是用淘宝的方式带我进这个账号。可能也说不清楚。所以是用我自己的账号拨上去的。

用完之后发现变天了。第一个月沉浸在震撼中,第二个月才意识到这对生命科学研究、大众健康服务有巨大意义。去年2月我决定做大模型,开始组团队。

Q: 我看你之前说,王慧文(美团联合创始人、光年之外创始人)的做法是招英雄,直接敲门就行了;但你一想到要做,可能会立刻想这和我过往的经历、搜狗团队、国内最精英的人是什么样的关系,这个时候大家的决策路径就不一样了——听起来你的决策链好长。

王小川:王慧文是有一种英雄主义,招了人做啥再说。我是有更多思维链路,未来这个世界长啥样?把vision、mission,甚至技术路径想清楚了,我才能干活。

Q: 你怎么看,你入局的时候大家总是把你和王慧文放在一起比较,特别是投资人。按他们的分类,你们是一类创业者;杨植麟属于另一派,小天才;MiniMax创始人闫俊杰是高管下海创业。

王小川:有他们的道理吧,毕竟你在分的时候,就跟盲人摸象一样。就摸了你的腿,最显著特点是你原来做企业。这是一种分类方法。按我的逻辑,分类和比喻就是智力,这个分法代表了一种智力水平。

Q: 哪种智力水平?

王小川:不太高级的。

慧文在商业上比我成功多很多,但本质上美团的成功不是技术推动。我们当年做输入法,做搜索,对技术依赖度是很近的,甚至在工作外,我们很早就把前沿技术用进来。

搜狗,我们悲催地方在于,做搜索比百度晚4年,而且在搜狐一个媒体公司——这种难度大家并没看见。和微软的朋友聊,他们做Bing,在面对Google的时候,对搜狗就特别称赞。他能设身处地知道,你在那个环境做到今天的不容易之处。那会儿我们是引领过一群最天才的人工作,只是最后没取得大成。

信息不足会带来分类体系偏差。对技术的理解,我们有自己的高度。投资人没有辨别能力,只能听学者或美国学术圈的说法。

我们缺乏一种自信。在技术里面,我们认为美国代表的最高级,他们确实有人才储备和资金,但不代表在更高的哲学思考里,他们就一定是对的。

Q: 也有人说当时王慧文入局,导致你们第一笔钱很难融。

王小川:还好吧,他确实吸引了大家的眼球和注意力。美团在商战有一套打法,包括怎么跟投资人沟通。我们第一笔也是五千万美金。在商业领域,慧文比我老练很多。我用简单的逻辑:你五千万朋友圈的钱,我也五千万朋友圈的钱。每个人有自己的朋友圈。

不高级,至少在商业上——如果对方比你成熟,你跟着学就行了;但在你优势领域,你发挥得更好——这是正常做法。

Q: 他和资本圈关系更好,你会感到落差吗?

王小川:你得接受,这是一个现实。

03

盖模型摩天楼

“活是干出来,只是话语体系对不上”

Q: 我记得你在去年4月公布大模型创业以后去了美国考察,得到什么新认知?

王小川:我是6月发了第一版模型才去美国。大家有不同见解,有的逻辑说到美国招人,招到OpenAI的人回来再干——到目前为止,没有迹象表明,任何一个中国公司挖到OpenAI的人。

有几个公司讲他的团队主要来自美国人,最后也都没兑现。今天大多这样一些公司,还是基于之前的积累或中国人在做。所以我们的策略是,优先自己入行做起来。那时大家还不太相信,百川能做模型吗?是不是套壳的?我们最骄傲的是能把模型做出来。去年9月发了第二版。

去美国——我开始理解大家在谈什么。我有自己的见解和认知,比如我们对强化、多模态的理解。活是干出来,只是话语体系对不上。去了之后我才知道,因为投资人很多思路来自美国技术圈,大家在语言体系上能对齐一些。我并不觉得得到了技术上立刻该怎么办的认知,只是话语体系提升了。

Q: 话语体系提升的体现是?

王小川:数据、算力、scale,他们用这种语言在表达。才知道他们担心什么,认可什么。我在谈不同观点的时候,跟他们想法不一样,能回溯他们想法来源。

我也看到了OpenAI代表了理想主义精神。他们真的想把一千万颗GPU串一块训练模型,英伟达一年才生产一百万颗。去之前我说“理想上慢半步,落地上快一步”,回来改成“理想上慢一步,落地上快三步”。这代表我们在国内做大模型的定位。

Q: 如果你要构建的是模型大楼,你会怎么画这个图,让它有画面感?

王小川:今天的娱乐行业,本质在追求《红楼梦》里的“太虚幻境”。娱乐可以笼统划分为——小说、影视、游戏。语言是概念空间,小说用文字构建一个想象的世界,每个人在读的时候有自己的想象。电影和视频是通过声音、图像和视觉把故事呈现出来。游戏加入了互动元素。

在不同娱乐形式背后,都有一个“故事引擎”,这个引擎负责讲故事,通过人物角色(NPC)与观众互动。因此,并不是说做Sora、Midjourney就娱乐了,无论小说、电影还是游戏,它们都是通过故事驱动。娱乐世界核心逻辑是,由故事引擎推动多模态和互动,这是三个要素之间的关系。

Q: 娱乐是你构建的模型大楼的所有,还是只是一部分?

王小川:一部分,娱乐就是一个大的模型,我称之为“虚拟世界模型”或“太虚幻境”。

Q: 第二个和第三个是什么?

王小川:第二是生命模型,是推动医疗和对生命的这样一个结构。

第三是真实世界的引擎,帮助人做生产力提升或决策。

最后有三个不同模型。你可以底层构建一块,但我们知道它用在不同领域。这是我们对场景的划分,而不是像大家讲的:AGI什么都可以干。

Q: 他们认为底层会有一个通用模型。

王小川:那有几个场景呢?大家称之为,他那个榔头啥都能干。但如果你不带着钉子榔头一块看,就变成了朱啸虎批评的了。你的场景在哪?凭什么你的模型能解决这个场景?

Q: 所以你既做基础模型又做垂直模型,既做开源又做闭源。

王小川:啊,我没把它叫做“垂直模型”。我们还是说“AGI模型中间的一部分”。

这就是我们理解的三个大的世界——虚拟世界、生命世界、真实世界。最终有一天可能合在一起,没关系,但我得做模型的时候知道应用场景最后需要什么样的能力。

Q: 在to B和to C上怎么想?

王小川:to B,在中国天花板远远低于to C。我们相对保守、收敛。在金融领域,有一些结构性机会会去把握。

Q: 部署一个大模型的价格是多少?

王小川:我不了解,我在to B上没花自己的精力。

Q: 朱啸虎质疑,大模型这么早陷入价格战,公司很难独立生存。他说现在部署一个私有化大模型都不到100万人民币。

王小川:他说的是对的,光做to B无法养活百川,核心拼的是超级应用。to C我提了三个词:创造、健康、快乐。

Q: 我可以想象,你要做三栋模型大楼,三栋楼会分别形成三个应用?

王小川:模型即应用,理想状况我们可能三个应用,可能两个应用,剩下的把to B开放,大家调用。

Q: “三栋楼”这个描述对吗?

王小川:我甚至觉得是“三个世界”。

Q: 之前百度、字节这些巨头都做过很长时间医疗,为什么不成功?

王小川:那时技术没突破,机器是人工智障。机器没掌握语言,你怎么可能变成医生?更多只是生产关系的改变,帮你挂号,帮你连接信息,而不是医疗知识、经验和逻辑供给——那时叫“信息时代”,现在叫“智能时代”。

今年初大家给我发消息说:川总,元旦快乐。我回的消息是:智能纪元二年——去年是元年,今年是二年——我们很有幸成为智能纪元元年诞生的公司。

当ChatGPT来之后,我已经看到这个技术能解决的问题、最后的画面感是什么。这两个画面感朱啸虎、杨植麟都没画出来。杨植麟是屠龙刀,我有屠龙刀的刀了,然后去找龙。

Q: 杨植麟的想法是做OpenAI+字节,技术理想主义的模型加商业化成功的应用。

王小川:是什么呢?

Q: 你的应用是什么?

王小川:从AGI的话,事实上我们是在造人。

我们不是在造一个工具。有人跟我说今天GPT太弱,七位数乘法都不会做。我说人也不会做啊,调用工具就行了。GPT核心,第一它会语言,马克思讲人和动物的区别是人会语言。第二,它会制造和使用工具。我们在造一个类人的生命,一种新物种。当你谈ChatGPT,谈字节,谈anyway的时候,没有回到我们到底在构建什么样一种价值。

Q: 你要做的应用是像人一样的应用?

王小川:一部分像人,我们还有更多思考。大家经常提productivity(生产力),我觉得第二就是像人,它是我们的助手、我们的顾问,是专业的人。也许是科学家,像爱因斯坦,但更多会像医生、律师、老师。知识密集需要供给的行业,是这波GPT最大前景。

大模型是“造人”和“造世界”,都是造后面的灵魂。人的灵魂是思想,世界的灵魂是大世界后面的一种推动力量。

Q: 在你看来,有什么是百川能做但OpenAI不能做的?

王小川:没有他们不能做的,但他们选择做不做。OpenAI的追求是尽快实现AGI,优先探索技术边界,这也代表了西方范式。所以它只是没做而已,医疗是典型场景。

Q: 有什么是百川能做,但国内巨头不能做的?

王小川:医疗也是。公司一把手要有这方面的信仰,而且巨头之前做医疗做伤了。

Q: 杨植麟和朱啸虎一个代表“技术信仰派”,一个代表“市场信仰派”,怎么用一个词概括你?

王小川:看得更完整。技术容易看得远,商业容易看得近。现在更多不是远近问题,是完整问题。

04

回应朱啸虎与杨植麟十条

“我们就不在他的审美品类里”

Q: 能不能回应朱啸虎对中国大模型公司的关键质疑?让我们一条一条看一下。

他一共点名你三次。第一次他说:“你说这些创业公司有啥优势,有啥条件去做大模型?百川发布了给游戏的NPC,你有啥数据去训练游戏的NPC。大厂有大把、大把数据。我让一个公司去体验了一下,没看出任何区别。”

王小川:首先他已经定位赚快钱,要做立刻有场景、商业的。你要盖一个小卖铺,还是盖一个摩天大楼?我们盖摩天楼,可能有个地基打在那,是局部一小块。你说拿那个东西就小卖部变摩天大楼?不是的。他举NPC的例子,不代表我们在娱乐完整的思考,只见了零部件。

Q: 第二,他提出了一个扎心的问题:GPT-4你要不要投入做科研?做GPT-4至少四五千万美金,GPT-5至少几亿美金。关键是万一你砸这么多钱,别人开源了,不就全白砸了?

王小川:他这话大部分对。我们的策略叫“理想上慢一步,落地上快三步”,暗合了他这个题目。我不是追求人家有GPT-4,你就有GPT-4;人家有GPT-5,你就有GPT-5的绝对速度。而是,你有GPT-4,我们已经开始有应用了;等我到GPT-4,我们的应用变得更好了。敢砸钱的条件是我们对应用场景想得更清楚。 

Q: 别人开源怎么办?

王小川:我不认为开源会做出最好的模型。而且要分具体场景,医疗开源是不会做好的。

Q: 第三,他说,AIGC PMF(Product/Market Fit,产品/市场匹配)你十个人找不到,投一百个人也同样找不到,和人数、成本没有关系。拿LLaMA训练两三个月就够了,他被投公司最差的只有一张卡。

王小川:幸存者偏见吧。毕竟他投的公司是用小算力找到的M(市场)。今天这个M,有的快是赚快钱的方法,有的慢是赚慢钱的方法,都存在。医疗这个M,哪个公司它在做?拿小模型搞的定吗?

我没有跟朱啸虎谈过医疗场景,你不要去掰他的爱好,我们就不在他的审美品类里。你被一个公司改变了审美,也挺痛苦的。

Q: 第四,他说,今天说个人助理都是技术人员的想象,我就问你几个人需要个人助理?是典型伪需求。

王小川:助理,还是抽象、很空的一个词。如果给你一个律师,一个医生,一个购物顾问,大家是需要的。我们得谈一个大家见过,甚至花钱买过的服务,只是今天供给缺乏。通用助理没构成一个行业。我们在公司叫行政助理、生活助理、业务助理。你得谈具体什么东西才有画面感。

顾问(可能更准确)。助理是我动脑子、你动手脚。但现在大模型不是动手脚,是动脑子的。大模型是决策引擎。

Q: 第五,他批评这批大模型公司连“AI四小龙”都不如,“四小龙”还有黄金时代,进入的时候竞争没有那么激烈,在资本泡沫中长大,后来才杀价格。今天200多个大模型,已经开始杀价格了。

王小川:还是把它当成一个to B、大家做一样的事(去看待)

大场景需要大技术,小场景用小技术,只是大场景现在并没有形成共识。反而这是我们的机会。

Q: 第六,他质疑在融资上,下一步钱不好拿,估值已经抬到这里了,后面估值怎么弄?

王小川:朱啸虎的核心观点就是:有用的东西是啥?还是我讲的TPF(Technology-Problem Fit,技术与行业现存问题相契合)。今天核心问题是,大家不知道product(产品)是啥?——product不能是scaling law(规模法则)。以前是先有M(市场),后有P(产品),用P去fit这个M。现在大家对P,都没提出来,更不用谈fit了。而且P是从T(技术)过来,因此TPF是今天要讨论的问题,而不是PMF。

这个技术适合做什么样的product?你再说product是否有market?

大模型的P是什么东西?娱乐最后走向“开放世界”或者“太虚幻境”,“开放世界”造的顾问需要大T来支持。比如Sora,大家觉得造了个钢琴,你敲什么音乐它都能给你奏出乐章。但我们今天不是造钢琴是瓶颈,造乐章、造乐谱是关键。今天大家看到皮囊,没有看到灵魂。大模型不是做皮囊,大模型是做认知引擎、决策引擎、推理引擎。

假设我们能在中国供给医生,我能用AI做出100万医生,它是什么样的一个价值?在TPF里面,我回答你,至少我们有一支是在做医生的。

Q: 第七,朱啸虎认为中美AI生态差别会非常大,这个你可能是认同他的。你构想的中美生态差异是怎样的?

王小川:美国拿着锤子找钉子适合他们。我们今天需要更快把场景打开,有些场景形成数据飞轮,甚至形成全球化优势。我有这样一个画面感。

Q: 杨植麟的观点有什么是你认可的吗?

王小川:杨植麟有很好的技术理想,相信scaling law,相信long-context,相信多模态。他的大部分技术(判断)都是对的呀。

Q: 你不认同他的是?

王小川:他叫“场景摩尔定律”,我不知道场景在哪儿,我能力好,场景就拓宽了。这是一个局部,肯定会发生。他讲的东西是能够部分兑现,但都不是全部。

Q: 更全面应该怎么阐释?

王小川:我能直接回答TPF,我知道P是啥。我们更有好的场景定义,场景反过来丰富数据生产。而不是说这个可以拿过去看简历了,可以看word文档了。这个逻辑只是片面的——还是那个象尾巴。

Q: 所以你是从场景看技术,他是从技术看场景。

王小川:场景、技术我都看。

Q: 朱啸虎的观点哪些是你认可的?

王小川:商业本质,最后得回到能赚钱,有场景。因为没看到,所以他有这样的结论,他的推理没问题。

Q: 在你看来,为什么朱啸虎在访谈中反复点名你?为什么是你?

王小川:说明他想念我呗(笑)。找机会跟他再深度聊一聊。

05

和巨头对决、和巨头共舞

“我是果粉,苹果造车我一定买;

李斌说呵呵,苹果造不出车来”

Q: 你会坚定地砸GPT-4吗?

王小川:对我来讲一点不虚的原因,我们对场景的思考。我们在通向AGI的路有各种坡,很多坡你不知道商业模式,也不知道场景——但我们会知道在造人。医生是一个顶天立地的场景,立地是它对服务有意义,顶天是它对大模型有需求。我们砸大模型,至少有一根支柱,确保模型的技术能力变成场景的壁垒。

Q: 多长时间追上GPT-4,多长时间追上Sora,有时间预期吗?

王小川:Sora不在我们的主线,Sora的高度、突破性、应用价值低于GPT。

李彦宏之前不是在讲百度更懂中文嘛,他很幻觉主义——你说他现实主义吗?理想主义吗?都不是。去年2月就喊出比OpenAI只差两个月,已经够有幻觉了。

Q: 你怎么看他最近说,在中文上,文心大模型4.0已经超过GPT-4?

王小川:他举的例子你看了吗?写词写得更好。他说GPT写一个《沁园春》,都分不清楚4个字、5个字开头,他们自己也分不清楚,你可以试试。他不仅对GPT有误解,对自己的产品有误解,对国内模型也有误解,那不是活在自己幻觉中?

你得问他的团队怎么汇报工作,他怎么形成这样一个输入。这个人是一个也正直,也聪明的人,更多是信息输入不太对。

Q: 你怎么保证你的团队给你的汇报是信息充分且正确的?

王小川:要跟大家打成一片,有共同利益。创业公司先天有优势。第一,大家都知道模型做不好,公司做不好,大家都挂了。在一条船上,都在驾驶舱。第二,大家能有充分共创,不是老板和员工的关系。大厂这方面难很多。

Q: 怎么看字节做大模型和他们的进展?

王小川:大家对他们的期待值挺高,现在低于预期。他们内部觉得没有挖到顶尖的人,应该还有机会。他们有足够多的资金,足够多的算力,足够多的人才号召力。

Q: 他们存在组织问题吗?

王小川:存在。大概四五年前,我有一次跟李斌在聊。我当时是苹果粉,就跟李斌说,苹果的手机、手表、Pad我都买了,苹果往下造车,它的车我一定会买。

李斌说:“呵呵,苹果造不出车来。”李斌四五年前讲这话,我都惊着了。我想苹果顶尖人才有,供应链有,钱无限多,号召力也有,它具有造车的所有要素。但是苹果造了十年车,消耗了100亿美金,甚至没做出来。李斌预言了这件事。

Q: 你的团队现在怎么设置?

王小川:现在240多人,算法技术占比70%,多位技术联创——有90后,也有在互联网时代创过业打过硬仗的。我搭班子的时候,并不是一开始就找纯小鲜肉,做以年轻人为主导的公司。今天的大模型不是靠技术理想主义推动的一件事,需要更多对现实的考虑,对技术通盘的看法,甚至有人文哲学高度的一个组织。

Q: 团队有多少是以前搜狗的人?

王小川:百分之二三十吧。第一天开始做的时候,已经磨合过。

Q: 有人会说搜狗在浏览器和搜索都不是第一,为什么原班人马可以在大模型上干到第一?

王小川:那我也想问,还什么都没干过,凭什么干第一呢?一定要看背后语境。

能在那个时代把搜索做到18%市场份额,换任何一个其他人都做不到,在全中国。这是一个完全死局的东西活到现在。而且你为什么只看浏览器和搜索,不看输入法?输入法反而是离大模型最近的产品,它是把互联网压缩成一个语言模型,输出next token。

Q: 搜狗的经验对大模型创业的帮助是什么?差异是什么?

王小川:我们完整经历过整个体系,方向感我们特别好,实操中需要更多大模型年轻的researcher或博士操刀。

Q: 你在搜狗提出过有名的“三级火箭”理论,今天大模型的“三级火箭”是什么?

王小川:可能不需要三级火箭了,现在分成三层:能力、场景和应用。很有可能能力和场景就已经决定应用的成败,应用上的外挂会少很多。

Q: 搜索会成为你们的包袱吗?

王小川:还好。今天不是做好搜索,而是用好搜索,这是很大区别。各种调教模型怎么用搜索。

Q: 你刚才提到搜狗的经历是在死局里找出路,最难是什么时候?

王小川:比百度晚这么久,怎么办?我们找出做输入法、浏览器的一套打法。

在战略选择上,到底跟随百度还是绕过百度?决策有不同的意见。搜狐想跟着百度背后走,正面进攻百度的搜索,那会的提法叫“我的天职是搜索”——这是老张(搜狐创始人兼CEO张朝阳)定的slogan。我力图定的叫“搜狗从上网开始”,强调入口。对搜狗定位理解不一样,影响到战略决策,比如浏览器到底该不该做,到后来是推荐引擎该不该做。

2011年我调了一个小50人团队做推荐引擎,那会推荐是未来,流量分发比搜索效率高。但集团内部并没达成一致。

Q: 那时字节快出来了?

王小川:对,战略方向的选择是一个公司成败关键。

Q: 搜狗如果做什么可能会比今天更好?

王小川:在当时,我们想走的路线是做推荐,2011年已经开始做了。我听到说字节是怕得要死了。但(我们)组织上并没有把它变成最重要业务。我当时跟清华沟通,和清华有联合实验室,提法就是搜索不是未来,不要搞搜索了,我们搞推荐去吧。只是学校过去了,我们没跟进。

Q: 后来那50人团队怎么样了?

王小川:到2012年就开始在讨论(搜狗)是不是卖给360,更多是讨论上层稳定性的问题了。

Q: 今天在大模型战局中的你和当年的你有什么不一样?

王小川:以前比百度晚三四年,这次在时态脉搏下做事。同时,自己能完整做主,这次我把自己名字放进去,也投钱进去了。

Q: 为什么当时你没有想到一个选择是我要从搜狐、搜狗出去,为什么一直留在那里(一干快20年)

王小川:这是个人特质。你就是觉得信仰老板,信仰一件事情往前走,有阻力克服。当时资本结构不太顺利。2008年之后老张不相信浏览器,把我拿下,我想的不是离职——我想的是,得回到做CEO的位置才行。(我用了)18个月。

Q:那段被边缘化的经历,对你的影响是什么?

王小川:边缘化是人生重大变化。以前人也挺温和,但其实你不问世事,活在自己的世界里。到后来,你对更多人有更多尊重、更多体谅。我们都讲“千面英雄”、“自然时刻”,人进入自然时刻才能成熟。

Q:后来搜狗发生了一系列的事,包括和360、阿里谈判,和360、腾讯谈判,后来接受腾讯投资及并购,你是怎么走每一步的?

王小川:这都往事了。我经历过那么多挫折,今天遇到困难,成熟度会高一些。跟大厂的关系,你能理解他们要什么。虽然搜狗没有做成大厂,但是拆开看里面,我们承受和经历了大家不能想象的东西。

Q: 有人评价说,你的成功经验有一项是“有丰富的和巨头共舞的经验”,你认为这是你成功的一项秘诀吗?

王小川:不关键,关键是对技术的热爱以及把技术变成价值的一种追求。你带着这种信念跟巨头谈,用价值感染他们。

05

过完年,我不焦虑了

“他们想做Sora,被我摁死在这”

Q: 怎么形容去年一年的状态?

王小川:为了能赶上这个时代的火车,快速rush的一个状态。

我们是成立的比较晚的一个公司,跑得快很重要。但去年更多在follow GPT的路径,不是我心中最有力量感的事情。到今年,我们希望把自己的价值观和对世界的理解放到模型里。

Q: 去年入局相对较晚对战局有什么影响?

王小川:王慧文是2023年2月下场,MiniMax是2021年,智谱AI是2019年,还有百度、字节这种老牌公司。去年你在人才争夺、资金争夺,是偏晚的一个,很仓促。

我习惯一个把事想透了以后,按自己节奏走。但第一阶段必须按市场节奏,到(去年)6月前都挺累的。发了第一个版本好很多了。(那段时间)每天要去招人,跟投资人打交道,但你手上没有产品。

Q: 你信仰scaling law吗?

王小川:这件事没错,更多是怎么把它转化成产品价值,这很少讨论。这使得我们被迫去仰望一个技术。

低估技术和仰望技术都不是好状态。低估技术觉得技术无用,仰望呢,非技术的人更愿意把技术捧在手里,当光环。这不利于平等对话。

Q: 2024年预计大模型公司的瓶颈是什么?

王小川:中国这边,应用跟不上的时候,会变成游说资本的游戏。如果不能把场景尽快打开,越往后走压力越大。模型往前走,技术是你的发动机,市场是你的方向盘。你可以先造发动机,再造车。但当你上路,两个都得有才行。

美国走的道路,反正有钱有算力,他们就冲着AGI去了。你问他们应用,他们也不知道。

Q: 你会觉得你太过于温和吗?

王小川:我觉得我挺温和的,但同事觉得我还挺暴躁。

Q: 你发火吗?平时。

王小川:比较少。今年他们想做Sora,被我摁死在这了。为什么做Sora?不是有个技术我就得跟。从AGI理想说,Sora不是跟GPT一支的。AGI理想一定要以语言为中轴做模型。语言这个概念空间不是Sora这种模型能取代的,Sora是需要把语言加进去,或者需要视频把语言加进去,才能变成往AGI走的引擎。Sora是阶段产物。

在内部会上,他们不是谈Sora,他们知道我不要做Sora。但就开始讲,多模态要搞一搞,视频要搞一搞。我知道他们还是在想Sora——大家没有站到更长远的角度考虑终局,我到底在干嘛?我要么做技术理想,要么做应用场景,我希望大家有明确的判断。

(我们)做多模态,但不复刻Sora,它既不代表AGI,也不代表场景,两个都不靠。过完年回来,大概一星期内形成这样一个决定——我拍板的。

Q: 百川的终局会是什么样的?

王小川:在创造、健康、快乐里给大家提供普惠知识和服务,回到AGI最后的应用是什么。

Q: 所谓的超级应用,多大算超级?

王小川:得千万DAU吧。

Q: 你之前说过,很长时间都处在“有压力的优秀”状态里,今天走出“有压力的优秀”了吗?

王小川:去年是有这种压力的,但过完春节,这种压力没了。我也不知道为什么。过年期间在成都,和家人在一块,很放松。翻过年之后,对于未来的画面感和怎么做,变得不纠结。

去年有两个惯性。一个惯性是把跟随GPT-3.5和GPT-4变成最主要任务。二是在模型之外,希望通过应用思考有些外部的能力可以帮助模型,而不是模型跟应用是一体的。

过完年之后,“模型应用一体化”的思路就更强烈了。把这种差异化放在模型里,而不是说做GPT-3.5、GPT-4外面挂里面的应用。思路和执行,更统一了。

内心的压力小一些,就会更有力量,大家也能感受到决策的质量和坚定度更高。如果去年出来Sora,可能大家会更焦虑一点。今年过完年,至少我不焦虑了。

Q: 现在你把时间花费最多的地方在哪?

王小川:在内部如何能达成技术、产品之间的共识,不断把T和P更好衔接起来。

Q: 这会是你最后一次创业吗?

王小川:应该是吧。第一次是半创业状态,没有再想在百川之外再做一个。完整创业就一次,很多事没必要做两次。

Q: 对这段创业的预期是什么,要做一个多大的公司?

王小川:没这么看。能把我们的认知、能力变成一个公司并创造价值,是特别好的一件事。

Q: 你今天手机里装的东西和之前有什么不一样?

王小川:我手机里面多了ChatGPT、文心一言、Kimi智能助理,还多了叫SynClub的(AI社交)软件。

Q: 过去一年记忆最深的一本书或者一部电影?

王小川:《年会不能停》。昨天我跟大鹏吃了个午饭。朋友叙旧,聊聊电影的未来。他拍的电影很亲切,他之前在搜狐一块工作过,他的《煎饼侠》挺有周星弛的影子。是一个小人物有大梦想的故事,有些无厘头的嬉皮的东西。但是他比周星驰人缘好很多,吴君如什么的都愿意帮他。

我确实有时候流眼泪,有时候觉得好笑。会有一种同感在里面。

Q: 你一直是学霸路径,没有强烈的小人物奋斗史,为什么会有共鸣?

王小川:电影很多是在体验别人的人生,不仅仅是在体验自己的。

Q: 如果百川的命运最终和搜狗类似,会让你感到不服气吗?

王小川:这没什么。如果(说的是收购)该卖卖,是可以接受的。我没有太大纠结,更多是创造它该有的价值。原来搜狗在百度的阴影里,这群优秀的人没有发挥出他们最大价值。

Q: 会觉得今天在OpenAI的阴影里吗?

王小川:不太会,在美国、中国两个市场。关键我能做自己的目标决策了。不会再站在阴影里。

Q: 你说以前性格是温和,经历挫折以后,后来增加了什么?

王小川:对其他人的一种尊重和包容。

Q: 那不是更温和了?

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部