Sam Altman 5月最新2万字谈AI未来:GPT-5与OpenAI的使命

Sam Altman 5月最新2万字谈AI未来:GPT-5与OpenAI的使命
2024年05月13日 22:18 经济学家圈

Sam Altman 5月最新2万字谈AI未来:GPT-5与OpenAI的使命

主持人:

我第一次遇见我们即将介绍的嘉宾Sam Altman是在大约20年前,那时他正在开发一款名为Loop的本地移动应用程序。我们都得到了红杉资本的支持,实际上,我们都是红杉资本的第一批童子军。

他投资了一家名不见经传的金融科技公司Stripe,而我投资了Uber。在那个小实验中...

Sam:

你投资了Uber?我以前从未听说过。

是的,我想是的。

你应该写一本书,Jacob。

我和Sam作为童子军参与的那个小型实验基金是红杉资本回报率最高的基金。我听说,几百万美元变成了超过2亿美元。他还曾在Y Combinator工作过一段时间,并在2014年至2019年担任总裁。2016年,他与他人共同创立了OpenAI,其目标是确保通用人工智能造福全人类。2019年,他离开YC,全职加入OpenAI担任首席执行官。

2022年11月30日,事情变得非常有趣。那天是OpenAI推出ChatGPT的日子。2023年1月,微软投资了100亿美元。2023年11月,在疯狂的五天时间里,Sam被OpenAI解雇。每个人都要去微软工作。一堆心形表情符号在X和Twitter上疯传,人们开始猜测该团队已经达到了通用人工智能。世界末日就要来临了。突然间,几天后,他又回到了OpenAI的首席执行官的位置。

据报道,2023年2月,Sam正在寻求为一个AI芯片项目筹集7万亿美元。此前有报道称,Sam正在寻求从Masayoshi San那里筹集10亿美元,与iPhone的联合创始人Johnny Ive一起打造一款iPhone杀手。

与此同时,ChatGPT变得越来越好,并成为家喻户晓的名字。它对我们的工作方式和工作完成方式产生了巨大影响。据报道,它是历史上在短短两个月内用户数量达到1亿的最快产品。

看看OpenAI的疯狂收入增长。据报道,去年他们的ARR达到了20亿美元。欢迎收听全能播客,

我观察到整个行业都在紧张地期待GPT-5的发布。据我了解,它可能会在今年夏天的某个时候推出,但这个时间窗口相当宽泛。你能否为我们具体化一些?

Sam:

我们会花费一些时间来发布这个主要的新模型。我相信,当我们这样做的时候,一定会非常棒。我们会仔细考虑如何进行。可能会以一种与我们发布以前模型不同的方式来发布它。另外,我甚至不确定我们是否会称之为GPT-5。

我想说的是,自从我们发布了GPT-4以来,尤其是在过去的几个月里,很多人都注意到了它的优秀表现。我认为这更好地揭示了世界的本质,它并不是简单的1、2、3、4、5、6、7,而是一个使用AI系统的过程,整个系统会持续地变得越来越好。我认为这既是一个更好的技术方向,也更容易让社会适应,我相信这就是我们的发展方向。

主持人:

那么,这是否意味着我们不会有漫长的训练周期,而是会不断地重新训练或训练子模型,Sam?也许你可以和我们分享一下未来大型模型在架构上可能会发生哪些变化。

Sam:

你可以想象的一种情况就是我们一直在训练一个模型。这对我来说似乎是一种合理的做法。

我们这次讨论的是不同的发布方式。你是在考虑先向付费用户发布,还是放慢发布速度以让红队紧张,因为现在风险太大了。实际上,你有如此多的付费用户,而且大家都在关注着你的每一步。你现在必须更加深思熟虑,对吗?

是的,目前GPT-4仍然只对付费用户开放,但我们真正想做的一件事情是弄清楚如何让免费用户也能使用更先进的技术。我认为这是我们使命中非常重要的一部分。我们的目标是构建人工智能工具并使其广泛可用,无论是免费的还是不那么昂贵的,无论它是什么,这样人们就可以使用它们去创造未来,而不是让天空中的神奇AGI创造未来并将其倾泻在我们身上。这似乎是一条更好的道路,也是一条更鼓舞人心的道路。我坚信事情确实在朝着这个方向发展。所以我很遗憾,我们还没有想出如何让免费用户使用GPT-4级别的技术。这是我们真正想做的事情。我必须承认,这非常昂贵。

Sam,我认为人们经常讨论的两个大因素可能是潜在成本和延迟,这在某种程度上限制了杀手级应用的速率。然后我认为第二个因素是人们在开源世界与闭源世界中构建的长期能力。我认为,这个领域的狂热之处在于其开源社区的热情。一个令人难以置信的例子是,我们为Devon做了一个非常疯狂的演示,这是在五六周前,效果非常出色。然后,一些年轻人根据MIT的开放许可证(如OpenDevon)发布了这个项目。它的表现非常好,几乎可以与其他闭源的项目相媲美。因此,也许我们可以从这个问题开始讨论,即,保持这些模型闭源的商业决策是什么?你认为未来几年会有怎样的发展?

对于你的问题的第一部分,速度和成本,这些对我们来说非常重要。我不想给出一个时间表,说明我们何时可以大幅降低延迟,因为研究很难,但我相信我们能够做到。我们希望大幅降低延迟,大幅降低成本。我相信这会发生。我们仍处于科学发展的早期阶段,无法理解其工作原理。此外,我们拥有所有工程方面的顺风。所以我不知道什么时候我们才能获得便宜到无法计量的智能,而且速度如此之快,以至于我们和其他所有人都觉得它是即时的。但我相信我们可以达到相当高的智能水平。这对我们很重要,对用户来说也很重要,它将解锁很多东西。

关于开源和闭源,我认为两者都有其优点。我认为,我们已经开源了一些项目,将来我们会开源更多的项目。但实际上,我们的使命是朝着人工智能的方向发展,并想办法广泛地分配它的好处。我们有一个策略,似乎引起了很多人的共鸣。显然,它并不适合所有人。而且这是一个庞大的生态系统。还会有开源模型和以这种方式构建的人。

我个人对开源特别感兴趣的一个领域是,我想要一个尽可能好的开源模型,可以在我的手机上运行。我认为,世界还没有足够好的技术来开发出一个好的版本。但这似乎是一件非常重要的事情,在某个时候要做。

你会这样做吗?你会发布吗?

我不知道我们会不会,或者有人会。

Llama 3怎么样?

Llama 3在手机上运行?

我想也许有70亿参数(手机)版本。

是的。我不知道那是否适合手机,但是……

那应该适合手机。

但是我不知道,我不确定那是否适合,我还没有玩过。我不知道它是否足以完成我在这里考虑的事情。

因此,当Llama 3发布时,我认为很多人最大的收获是,哇,他们已经赶上了GPT-4。我认为它并不是在所有方面都平等,但总的来说,它非常非常接近。我想问题是,你们不久前发布了4,你们正在开发5,或者对4进行更多升级。我想听听你的观点,即如何在开源环境中保持领先,你有何看法?这通常是一项极具挑战性的任务,你怎么看?

我们的目标并不是制造出我们能制造的最智能的权重集,而是制造出一个有用的智能层供人们使用。模型只是其中的一部分。我相信我们将在这方面保持领先,我希望我们在这方面能够远远领先于世界其他国家。但整个系统还有很多其他工作,不仅仅是模型权重。我们必须像其他任何企业一样,以传统方式建立持久价值。我们必须想出一个伟大的产品和坚持下去的理由,并以优惠的价格交付它。

当你创立这个组织时,你所说的目标或讨论的部分内容是,这对任何一家公司来说都太重要了,因此,它需要开放。然后转变为,任何人都看不到它太危险了,我们需要把它锁定,因为你对此有些担心。我想知道,这是真的吗?因为愤世嫉俗的一方会说,这是一种资本主义的举动。然后,我很好奇从开放开始的决定是什么。世界需要看到这一点。关闭真的很重要。只有我们才能看到。那么,你是怎么得出这个结论的呢?

我们发布ChatGPT的部分原因是我们希望全世界都能看到这一点。我们一直在试图告诉人们人工智能真的很重要。如果你回到2022年10月,那时并没有那么多人认为人工智能会那么重要,或者它真的发生了。我们试图做的很大一部分就是把技术交到人们手中。现在,再次重申,有不同的方法可以做到这一点。我认为确实有一个重要的角色,就是说,比如,这是实现它的方法。

但事实上,我们有这么多人使用ChatGPT的免费版本,我们不投放广告,我们也不会试图从中赚钱。我们只是因为我们希望人们拥有这些工具而推出它。我认为它做了很多工作,提供了很大的价值,教人们如何钓鱼,也让世界真正思考这里发生的事情。现在,我们仍然没有找到所有答案。我们和其他人一样,正在摸索着前行。我认为,随着我们学习新事物,我们会多次改变策略。

当我们创办OpenAI时,我们真的不知道事情会如何发展,不知道我们会制作语言模型,不知道我们会制作产品。我清楚地记得第一天,我们当时想,好吧,现在我们都在这里。要把这一切准备好很困难。但现在会发生什么?也许我们应该写一些论文。也许我们应该围着白板站着。我们一直在努力,一步一步地弄清楚下一步是什么,下一步是什么,下一步是什么。我想我们会继续这样做。

我可以再次确认一下,以确保我没有听错吗?我理解您的观点是,无论是开源还是闭源,所有这些模型,无论您做出何种业务决策,都将逐步提高其准确度。并非所有的公司都有足够的资本,但假设有四到五家,比如META、谷歌、微软等,或者可能还有一家初创公司。这些公司都在开放网络上运作。然后很快,这些模型的准确性或价值可能会转移到这些专有的训练数据源,这些数据源你可能可以获取,也可能无法获取,或者别人可以获取而你无法获取。

您认为事情的发展趋势是这样的吗?开放网络使每个人都达到一定的门槛,然后就变成了一场争夺数据的军备竞赛?

我并不这么认为。我坚决认为这不会变成一场争夺数据的军备竞赛,因为当模型变得足够智能时,它不应该只是关于获取更多的数据,至少不是用于训练的数据。数据可能很重要,因为它有其价值。我从这一切中学到的最重要的一件事是,很难对未来几年的走向做出自信的预测,所以我现在不想尝试。我想说的是,我期待世界上出现许多非常有能力的模型。我觉得我们刚刚偶然发现了一个新的自然或科学事实,或者你可以称之为我们可以创造的事实。我不认为这是字面意思,但它就像一个精神点。智能只是物质的这种突现属性,这就像物理规则之类的东西。所以人们会弄清楚的。但是会有所有这些不同的系统设计方法。人们会做出不同的选择,想出新的想法。我敢肯定,就像任何其他行业一样,我预计会有多种方法,不同的人喜欢不同的方法。有些人喜欢 iPhone,有些人喜欢 Android 手机。我认为会有这样的效果。

让我们回到第一部分,只讨论成本和速度。你们所有人的Nvidia吞吐量都受到了一点比特率限制,我认为您和大多数人都已经宣布了可以获得多少产能,因为这是他们能够生产的最大产能。基板上需要发生什么才能真正降低计算成本、加快计算速度、获得更多能源?您如何帮助行业解决这些问题?

我们肯定会在算法上取得巨大进步。我不想低估这一点。我对芯片和能源非常感兴趣。但是,如果我们能够使相同质量的模型效率提高一倍,那就相当于我们的计算能力提高了一倍。我认为那里有大量的工作要做。我希望我们能真正看到这些结果。除此之外,整个供应链非常复杂。有逻辑工厂的产能。世界可以生产多少HBM。你可以快速获得许可证、浇筑混凝土、建立数据中心,然后安排人员将所有线路全部连接起来。最后是能源,这是一个巨大的瓶颈。但我认为,当它对人类有如此大的价值时,世界就会有所作为。我们将致力于让这一目标更快地实现。可能性的确存在,我无法给出具体的概率,但我相信,正如你所说,这是一个巨大的基础性突破。我们已经拥有了更高效的计算方式,然而,我并不喜欢过度依赖它,也不愿意花费过多的时间去思考它。

在设备方面,你提到了可以安装在手机上的模型。显然,无论是LLM还是SLM等,我相信你都在考虑这个问题。但是,设备本身会发生变化吗?它是否需要像iPhone一样昂贵?

我对此非常感兴趣。我喜欢新的计算形式,每一次重大的技术进步似乎都会带来新的事物。手机的优秀程度令人难以置信,因此我认为这里的门槛非常高。我个人认为,iPhone是人类历史上最伟大的技术产品,它真的是一个非常棒的产品。

那么,接下来会是什么呢?

我不知道。如果能超越它,那将是非常棒的事情,但我认为门槛非常高。

我一直在与约翰尼·艾维合作,我们一直在讨论各种想法,但我不确定,是不是新的设备必须更复杂,或者实际上只需要更便宜、更简单?几乎每个人都愿意为手机付费,所以如果你能制造出一种更便宜的设备,我认为携带第二件设备或使用第二件设备的障碍就相当高了。因此,我认为,考虑到我们都愿意为手机付费,或者我们大多数人都愿意,我认为更便宜并不是解决问题的答案。

那么,答案有什么不同呢?

是否会有一种专门的芯片可以在手机上运行,并且能够很好地驱动手机大小的AI模型?

可能会有,但手机制造商肯定会这样做,这并不需要新的设备。我认为你必须找到一些技术所能实现的真正不同的交互范式。如果我知道它是什么,我会很高兴现在就开始研究它。

现在,你可以在应用程序中使用语音。事实上,我将手机上的操作按钮设置为直接进入ChatGPT的语音应用程序,我和我的孩子一起使用它,他们喜欢和它交谈。它有延迟问题,但它真的很棒。

我们会做得更好。我认为语音是下一个事物的暗示。比如,如果你能让语音交互变得非常好,那感觉就像是一种使用电脑的不同方式。

然而,就像我们已经遇到的问题,比如,为什么它没有响应?而且,感觉就像CB,就像一遍又一遍。用起来真的很烦人,但是当它给你正确的答案时,它也很出色。

我们正在努力解决这个问题。现在它很笨重,很慢,感觉不太流畅、不真实或不自然。我们会让这一切变得更好。

关于计算机视觉呢?  你可以选择佩戴相关设备。你可以将视觉或视频数据与语音数据结合起来。

如今,人工智能已经能够了解你周围发生的一切。你可以像使用多模态设备那样询问ChatGPT,例如:“我正在看什么?”或者“这是什么植物?”我必须承认,这种能力非常强大。这显然是另一个暗示。

然而,无论人们是选择佩戴眼镜,还是在需要时使用某种设备,都会引发许多社会人际问题,佩戴电脑设备会变得非常复杂。

我们在谷歌眼镜的使用中已经看到了这一点。在执行任务时,人们可能会遭遇困扰。我忘记了一些具体的情况。

如果人工智能无处不在,例如在人们的手机上,那么它可以解锁哪些应用程序呢?你有没有这种感觉?你希望看到什么?

我想我需要的就是一种始终在线、超低摩擦的设备,我可以通过语音或文本,或者理想情况下通过其他方式与它交互。它只需要知道我想要什么,有一种持续的存在帮助我度过一天。它拥有尽可能多的背景信息,就像世界上最伟大的助手。正是这种存在让我变得越来越好。

当你听到人们谈论人工智能的未来时,他们可能会想象出两种不同的方式,虽然听起来没有什么不同。但我认为,在实践中,我们在设计系统时会有很大的不同。我想要一个能延伸自我,像一个幽灵或另一个自我,或者这个真正属于我的东西,代表我行事,回复电子邮件,甚至不需要告诉我这件事。它有点像我,变得越来越像我。另一方面,我想要一个优秀的高级员工。它可能会非常了解我,我可能会委托它。你可以访问我的电子邮件,我会告诉你限制。但我认为它是一个独立的实体。我个人更喜欢独立实体的方式,并认为这就是我们要去的地方。

所以从这个意义上说,它不是你,而是一个随时可用、总是很棒、超级能干的助理主管。

在某种程度上,它就像一个代理人,它代表你工作,了解你想要什么,预测你想要什么,这就是我对你所说的话的理解。

我认为会有代理人的行为,但高级员工和代理人之间是有区别的。

我想要它,我认为我喜欢高级员工的一点是他们会反驳我。他们有时不会做我要求的事情,或者有时会说,如果你想的话,我可以做那件事。但如果我这么做了,我认为会发生以下情况。然后这样,然后那样,

你真的确定吗?

我绝对想要那种氛围,而不仅仅是我给它一个任务,它盲目地去做。它可以推理,并且反驳。它能够推理,它与我的关系就像我期望与一个真正有能力的人共事时所建立的关系,这与谄媚者不同。

确实,如果我们拥有像贾维斯 (Jarvis) 这样具有推理能力的工具,它可能会对我们今天使用的许多极具价值的产品界面产生影响。以Instacart、Uber和DoorDash为例,这些服务并非旨在成为管道,而是提供一组API给一群无处不在的智能代理,这些代理代表着全球80亿人工作。那么,我们需要思考的是,我们应该如何改变对应用程序工作方式、整个体验基础设施的理解,以适应这个你以代理方式与世界交互的新世界?

我个人对设计一个人类和人工智能都能使用的世界非常感兴趣。我喜欢它的可解释性,喜欢交接的流畅性,喜欢我们能够提供反馈的能力。例如,DoorDash可以向我未来的人工智能助手公开一些API,使其能够下订单等。我可以拿着手机说:“好的,AI助手,请在DoorDash上下这个订单。”我可以看到应用程序打开,看到东西在点击,我可以说:“嘿,不,不是这个。”设计一个人类和AI都可以同样使用的世界,我认为这是一个有趣的概念。

出于同样的原因,我对人形机器人比对其他形状的机器人更感兴趣。这个世界是为人类设计的,我认为我们应该保持这种状态。共享界面是一个好主意。

因此,你会看到语音、聊天等模式正在取代应用程序。你只需告诉它你想要寿司,它知道你喜欢什么寿司,知道你不喜欢什么,并会尽最大努力去满足你。

我很难想象,我们进入了一个完全不同的世界,你会说:“嘿,ChatGPT,给我点寿司。”它会回答:“好的,你想从这家餐厅点吗?什么种类,什么时间,随便什么。”我认为用户,我认为可视化用户界面对很多事情都非常好。我很难想象一个你从不看屏幕,只使用语音模式的世界。但我可以想象很多事情都是这样的。

苹果尝试过Siri。据说你可以用Siri自动订购Uber。我认为没有人这样做过,因为……你为什么要冒险不把它放在手机里?正如你所说,质量不好。但是当质量足够好时,你实际上会更喜欢它,因为它更轻。你不必拿出手机。你不必搜索你的应用程序并按下它。哦,它会自动将你注销。哦,等等,重新登录。这真是太痛苦了。

这就像用Siri设置计时器一样。我每次都会这样做,因为它真的很好用,很棒。而且我不需要更多信息。但是订购Uber时,我想查看几个不同选项的价格。我想探究一下,这个技术的应用范围有多广。我甚至想要了解他们在地图上的具体位置,因为我可能会选择步行去某个地方。我认为,通过查看Uber订单屏幕,我可以在更短的时间内获取更多信息,而如果我必须通过音频通道来获取这些信息,那么所需的时间将会更长。我喜欢你提出的这种观察事物发生的想法,这真的很酷。我认为这将会带来一些变化,我们会为不同的任务使用不同的界面。我相信这种趋势会持续下去。

在所有在OpenAI上构建应用程序和体验的开发人员中,有没有一些让你印象深刻的?你是否觉得这是一个非常有趣的方向,即使它只是一个玩具应用程序。但是,你们是否有指出并说这真的很重要的?

今天早上,我遇到了一家新公司,实际上,它甚至还不能算作一家公司。这就像两个人将在一个暑期项目中工作,试图最终真正成为人工智能导师。我一直对这个领域很感兴趣。在我们的平台上,有很多人做出了很棒的事情。但如果有人能以你真正喜欢的方式交付,他们用了一句我喜欢的话,那就是这将像蒙特梭利级别的再造,让人们学习事物的方式。但如果你能找到这种新方法让人们自己探索和学习新的方式,我个人对此感到非常兴奋。

德文,你之前提到的很多与编码相关的东西,我认为那就像一个非常酷的未来愿景。我认为,医疗保健应该因此而发生相当大的变化。但我个人最兴奋的是更快、更好地进行科学发现。尽管GPT-4显然没有在很大程度上发挥作用,但它可能会通过提高科学家的生产力来加速事情的发展。

Sam……那将是一个胜利。这些模型的训练和构建方式与语言模型不同。对一些人来说,显然,有很多相似之处。但是有许多模型都具有一种从头开始的架构,它们被应用于这些特定的问题集、这些特定的应用,例如化学相互作用建模。你肯定会需要其中的一些。

我认为,对于我们讨论的许多事情,我们普遍缺少的是能够进行推理的模型。一旦你有了推理能力,你就可以将其连接到化学刺激器或其他任何东西上。

是的,这是我今天想讨论的重要问题,即模型网络的概念。人们经常谈论代理,就好像有一组线性的调用函数在发生。但在生物学中出现的一件事是具有交叉相互作用的系统网络,系统的聚合……网络的聚合产生输出,而不是一个东西调用另一个东西,那个东西调用另一个东西。我们是否看到这种架构中出现了专门的模型或网络模型,它们共同解决更大的问题集,使用推理?有计算模型可以做化学或算术之类的事情,还有其他模型可以做,而不是一个纯粹泛化的模型来统治它们。

我并不确定有多少推理能够转化为一种广泛推广的形式。我对此持怀疑态度,这更多的是一种直觉和期望,如果真能如此,那将是极好的。我并不确定……

让我们以蛋白质建模为例。我们有大量的训练数据、蛋白质图像以及序列数据,基于这些数据,我们建立了一个预测模型,并且我们有一套流程和步骤来实现这一目标。

你是否曾设想过存在一种通用的人工智能或伟大的推理模型,它能够找出如何构建子模型,并通过获取必要的数据来解决问题,然后解决问题……

实现这一目标的方法有很多。也许它会训练一个文字模型,或者可能只是知道一个大模型。它可以选择所需的其他训练数据,提出问题,然后进行更新。

我想真正的问题是,所有这些初创公司是否都会倒闭?因为许多初创公司都在以这种模式工作,即获取特殊数据,然后从头开始用这些特殊数据训练新模型。然后它只做那一件事。而且它在那件事上工作得很好。它比其他任何东西都好。

我想你已经可以看到一个版本了。

当你谈论生物学和这些复杂的系统网络时,我之所以能理解,是因为我最近病得很重。现在我好多了。但就像身体一次一个系统地被打败一样。就像你确实能看出,好吧,这是级联的事情。这让我想起了你谈论的生物学,就像你不知道这些系统之间的相互作用有多大,直到事情开始出错。这有点有趣。

但我当时正在使用ChatGPT试图弄清楚发生了什么,不管怎样,我会说,我对此并不确定。然后我就发表了一篇论文,甚至没有阅读论文,就像在上下文中一样。它说,哦,那是我不确定的事情,现在我改为这么想。所以这就像你所说的一个小版本,你可以说,我不知道这个东西,你可以添加更多信息,你不需要重新训练建模者来添加到这里的上下文中。

所以这些预测蛋白质结构的模型,比如说,对,这是整个基础。现在,AlphaFold3上还有其他分子。他们能做到吗?是的,这基本上是一个最好的广义模型进入并获取训练数据然后自行解决问题的世界吗?

也许你可以举个例子,你能告诉我们关于Sora的情况吗?你的视频模型可以生成令人惊叹的动态图像、动态视频,以及那里的架构有什么不同,无论你愿意分享什么,如何让它与众不同。

是的,所以我首先说一般性的问题,你显然需要专门的模拟器、连接器、数据片段等等,但我的直觉。再说一次,我没有科学依据,我的直觉是,如果我们能够找出广义推理的核心,将其与新的问题领域联系起来,就像人类是广义推理者一样,我认为是否可以更快地解锁,我想是的。但是,是的,你看它不是从语言模型开始的。这是一个专为视频定制的模型。然而,我们显然还没有进入那个世界。

举个例子,为了建立一个优秀的视频模型,你们从零开始构建,我猜测你们使用了一些不同的架构和不同的数据。但在未来的广义推理系统,也就是AGI,无论什么系统,理论上都可以通过理解如何实现这一点来达到目标。

是的,一个例子是,据我所知,世界上所有最好的文本模型仍然是自回归模型。最好的图像和视频模型是扩散模型。这在某种程度上有些奇怪。

因此,关于训练数据存在很大的争议。我认为你们是所有公司中最体贴的,你们现在已经与FT等签订了许可协议。我们在这里必须谨慎一些,因为你们卷入了《纽约时报》的诉讼,我想你们无法与他们达成关于训练数据的协议。

你如何看待合理使用的公平性?我们在播客上进行了激烈的辩论。显然,你的行动充分表明,你正试图通过许可协议来实现公平。那么,你个人对创作优美音乐、歌词、书籍的艺术家的权利持什么立场?你利用这些权利制作衍生产品,然后将其货币化?什么是公平?我们如何才能让艺术家创造内容,然后决定他们希望其他人如何处理这些内容?

我只是好奇你的个人信念,因为我知道你在这方面是一个深思熟虑的人。我知道我们行业中的许多其他人对内容创作者的看法并不十分深思熟虑。所以我认为不同类型的人会有很大不同。

在公平使用方面,我认为我们在现行法律下有一个非常合理的立场,但我认为人工智能是如此不同。但对于艺术之类的东西,我们需要以不同的方式去思考。

但是,假设你在网上读了一堆数学知识,并学会了如何做数学,我认为这对大多数人来说似乎无可非议。然后,还有另一群人可能会有不同的看法。实际上,为了让这个答案不要太长,我不再深入讨论这个问题。

所以我认为有一类人会说,好吧,有广义的人类知识,你可以说,如果你学会了,那就是,那就是开放领域之类的,如果你去学习毕达哥拉斯定理。这是光谱的一端。我认为光谱的另一个极端是艺术,甚至可能更具体一点,我会说它就像在做,它是一个以另一位艺术家的风格或相似性产生艺术的系统,这可能是最极端的。然后在光谱中间还有许多许多情况。

我认为,从历史上看,讨论的焦点一直是训练数据,但随着训练数据的价值降低,讨论将越来越多地转向推理时发生的事情。而系统做什么,实时访问上下文中的信息,或者采取类似措施,推理时发生的事情,以及新的经济模式如何,将受到更多争论。

因此,如果您说,例如,如果您说,例如,用泰勒·斯威夫特的风格为我创作一首歌曲,即使模型从未接受过任何泰勒·斯威夫特歌曲的训练,您仍然会遇到问题,即模型可能读过关于泰勒·斯威夫特的文章,可能知道她的主题,泰勒·斯威夫特意味着什么。接下来的问题是,即使这个模型从未接受过泰勒·斯威夫特歌曲的训练,我们是否应该允许它这样做?如果是的话,泰勒·斯威夫特应该如何得到相应的报酬?

我认为首先,这种情况下应该有一个选择权,即可以选择加入或退出,然后应该有一个经济模型。以音乐为例,从历史角度来看,这里有一些有趣的东西值得一看,那就是采样以及围绕采样的经济学如何运作。这是完全一样的事情,但它是一个有趣的起点。

Sam,让我挑战一下这一点。

你举的这个例子有什么不同?模型学习歌曲的结构、节奏、旋律、和声、关系,发现使音乐成功的所有底层结构,然后使用训练数据构建新音乐。而人类听了很多音乐,他们的大脑正在处理和建立所有相同的预测模型,这些都是相同的发现或理解。这里有什么区别?为什么你要说也许艺术家应该得到独特的报酬,这不是一个采样的情况,你不是人工智能没有输出,它也没有在模型中存储实际的原创歌曲。

是的,学习结构。

所以我并不是想强调这一点,因为我同意,就像人类受到其他人类的启发一样。我是说,如果你说为我创作一首泰勒斯威夫特风格的歌曲。

我明白了。我认为这就是提示利用一些艺术家的地方。

我个人认为,这是一个不同的情况。

你愿意让模型自己训练,使用人类创作的整个音乐语料库来训练音乐模型,而不向输入音乐的艺术家支付版税?

然后,你不能问艺术家的具体提示,你可以说,嘿,给我一首很酷的流行歌曲,这首歌相当现代,讲述了心碎的故事,用女性的声音

我们目前决定不做音乐了。部分原因是,你在哪里划清界限。

我最近和几位我非常钦佩的音乐家见面,我只是想谈谈这些极端情况,但即使在这个世界里,如果我们去,假设我们付钱给10,000名音乐家创作一堆音乐,只是为了制作一个很棒的训练集,音乐模型可以学习关于强大歌曲结构的一切。什么造就了好的、朗朗上口的节拍和其他一切。并且只对此进行训练,假设我们仍然可以制作出很棒的音乐模型,也许我们可以。我有点像是把它当作一个思想实验摆在音乐家面前。而他们好吧,在那个时候我无法从任何原则上反对这一点。然而,我仍然不喜欢它。现在,这不一定是不这样做的理由。但这是。

你看到苹果发布的广告了吗,也许是昨天,或者类似的东西,将人类的所有创造力压缩到一个非常薄的iPad中?

你对此有何看法?

人们对此非常激动。

是的。反应比你想象的要强烈。

我显然非常看好人工智能,但我认为人类创造力和人类艺术表达有一些美妙之处。对于一个能够在科学研究上做得更好的人工智能来说,这太棒了,来吧。然而,如果人工智能能够达到人类深刻而美丽的创造性表达的程度,我认为我们需要明确这将会如何发生。它将成为一种工具,引领我们达到更高的创意高度。但我认为我们需要找到方法来实现这一点,以保留我们所有人所关心的精神。

我认为你的行动具有很强的说服力。我们试图在DALL-E中塑造《星球大战》中的角色。如果你要求达斯·维达,它会说,嘿,我们不能那样做。因此,我想,你已经在内部组建了红队或者你可以随意称呼它。我们已经尝试过了。是的,你不允许人们使用其他人的知识产权。所以你已经做出了这个决定。

现在,如果你要求它制作一只绝地斗牛犬或一只西斯领主斗牛犬(我就是这么做的),它会把我的斗牛犬变成西斯斗牛犬。

关于你所说的有一个有趣的问题,是的。我们昨天发布了一个叫做规范的东西,我们试图说明我们的模型应该如何表现。这是一项艰巨的任务。这是一份很长的文件。在每种情况下准确指定限制应该在哪里是非常困难的。我认为这是一个需要更多投入的讨论。

然而,关于可能不应该产生达斯·维达,但西斯尊主、西斯风格的东西或绝地武士的想法在这一点上就像是文化的一部分,这些都是艰难的决定。

是的,我认为你是对的。音乐行业将考虑这个机会,让泰勒·斯威夫特的歌曲成为他们的机会。这是四部分合理使用测试的一部分,这些测试可以利用现有艺术的新创新。迪士尼有一个论点,嘿,如果你要制作索拉版本的阿育王,或者欧比旺·克诺比,那就是迪士尼的机会。这对你来说是一个很好的合作伙伴关系。

因此,我认为我将这一部分标记为人工智能和法律。

那么,让我问一个更高层次的问题。当人们说监管人工智能时,这是什么意思?如果你愿意的话,你也可以对加州新提出的法规发表评论。

我对此感到非常担忧。有很多拟议的法规,但我看到的大多数关于加利福尼亚州的法规让我感到担忧。我还担心各州会自己这样做。

当人们说要监管人工智能时,我认为他们的意思并不是一个具体的事物。我认为有些人会禁止整个事情。有些人会说,不允许它开源,要求它开源。我个人最感兴趣的是,我认为会有人说,看,我可能错了。我承认这是一个前瞻性的声明。而做出这些声明总是很危险的。但我认为在不远的将来,会有那么一天,我们说的不是几十年后,人工智能说前沿人工智能系统能够对全球造成重大伤害。对于这些系统,同样,我们对核武器或合成生物等可能产生非常负面的影响的东西进行全球监督,而这些影响可能远远超出一个国家的范畴。我期待看到某个国际机构正在研究最强大的系统,并确保进行合理的安全测试。这些系统不会自动逃避,也不会自我改进等。

然而,对此的批评在于,你拥有资源去讨好、游说、参与,你与政治家们关系密切,而对于初创公司来说,尽管他们对此充满热情并进行投资,但他们却没有足够的资源来处理这个问题。这种监管俘获的现象,正如我们的朋友比尔·格利(Bill Gurley)去年在他的演讲中所指出的。

因此,也许你可以正面解决这个问题。如果我们只关注那些价值超过100亿美元或超过1000亿美元或其他任何美元的计算机上训练的模型,我会对此感到满意。这是我可以接受的一条线。我认为这不会给初创公司带来任何监管负担。

因此,如果你拥有制造核弹的核原料,就像有一小部分人拥有它一样,你可以使用类似核检查员的情况的类比。我认为这是一个有趣的观点。

我可以再说一件事吗?当然。我对这里的监管过度感到非常紧张。我认为我们做得太多,甚至有点过头,都可能出错。我认为我们做得不够,也可能会出错。但我确实认为部分原因在于……现在,我们已经看到监管越权或控制在其他领域变得非常糟糕。

而且,也许什么也不会发生。但我认为,谈论我们认为可能发生的事情以及实现这一目标需要做些什么,这是我们职责和使命的一部分。

Sam,挑战在于,我们有保护人民、保护整个社会的法规。

然而,我们正在制定的法规赋予政府进入和审计商业机密的权利。我们以前从未见过这种程度的法规。基本上,加州提出的立法和一些联邦提出的立法基本上要求政府审计一个模型、审计软件、审计和审查模型的参数和权重。然后你需要他们的勾选才能将其部署用于商业或公共用途。

对我来说,这感觉就像我们试图控制政府机构以制造恐惧。因为人们很难理解这一点,害怕它的影响,他们想控制它。而控制它的唯一方法就是说,在我发布它之前给我审计权。

是的,他们一无所知。这些人一无所知。这些东西的写作方式,你读了它,你会抓狂。因为如你所知,在12个月内,这些东西无论如何都不会有意义。我之所以推动采用基于代理的方法来解决大局问题,而不是像法律那样写出来,

我不认为即使这些人是真正的世界专家,我也不认为他们能够在12或24个月内正确处理。我不认为。我们将对这些政策进行审查,对您的所有源代码进行全面检查,并逐一查看您的所有权重。我确实认为存在许多疯狂的提议,特别是当模型不断接受重新训练,变得更加动态时。这也是我认为它是有意义的原因。

在飞机获得认证之前,我们会进行一系列安全测试,让飞机通过这些测试。这与阅读所有代码的过程完全不同。我们是在审查模型的输出,而不是查看模型的内部。

因此,我认为进行安全测试是有意义的。

那么,Sam,我们应该如何实现这一点呢?

我在此不仅代表OpenAI,也代表整个行业,甚至代表人类。我担心,如果我们限制这些有巨大发展潜力和对人类有巨大益处的技术,我们可能会陷入黑暗时代。那么,我们应该如何改变这种情况并实现这一目标呢?

因为政府层面的发展速度太快,人们似乎都弄错了方向,我对此感到担忧。在此基础上,Sam,例如,Lama的架构决策非常有趣,因为我们将让Llama在尽可能少的约束下成长。我们还有另一种东西,我们称之为Llama Guard,它旨在成为这些保护性护栏。

你认为问题得到正确解决的方式是什么?

以目前模型的强度来看,肯定会出现一些问题。我不想轻视这些或不认真对待这些。但我并不担心GPT-4级模型会带来任何灾难性风险。我认为有很多安全的方法可以选择部署它。

如果我们这样说,也许我们会找到更多的共同点。我喜欢这个具体的例子,即模型具有能力,技术上也具有能力,即使它们不以这种方式使用,也可以进行递归式自我改进,或者自主设计和部署生物武器,或诸如此类的东西。或者是一种新模型。那是递归式自我改进的要点。

我们应该在国际层面对模型的输出进行安全测试,因为这些模型有合理的机会在那里构成威胁。我不认为像GPT-4这样的东西,当然不会构成任何威胁,好吧,我不是说任何威胁,因为我们不认为,是的,我不认为GPT-4对这些事情构成实质性威胁。我认为有很多安全的方法来发布这样的模型。

但是,当重大人员伤亡是一个严重的可能性时,比如飞机或任何其他例子,我认为我们很高兴有某种测试框架,比如当我上飞机时,我不会考虑飞机,我只是假设它会是安全的。

Sam,现在有很多关于就业的担忧。你在YC时做过很多关于UBI的测试。你的结果很快就会出来。我只是说,这是一项五年前结束或开始的研究。首先是测试版研究,然后是长期研究。然而,你从这一切中学到了什么?

确实,你为何要开始这一切?你能否解释一下你为何要开始研究通用基本收入(UBI)?

我们在2016年开始考虑这个问题,大约在同一时间,我们开始认真对待人工智能。理论上,社会和经济中的就业变化,以及某种更深层次的意义(例如,社会契约将如何改变)可能带来的变化幅度,意味着我们应该进行大量研究,探索关于如何安排这些新变化的各种想法。

我必须承认,我并不是政府处理大多数旨在帮助穷人的政策的狂热支持者。我倾向于相信,如果你能给人们钱,他们会做出正确的决定,市场会发挥作用。我非常支持提高最低生活标准,减少贫困,甚至消除贫困。但我感兴趣的是,是否有比我们为现有社会安全网所做的尝试更好的方法,以及处理事情的方式。

我认为给人们钱并不能解决所有问题,当然也不能让人们都感到快乐。但它可能会解决一些问题,让人们有更好的视野来帮助自己。我对此很感兴趣。

我认为,现在我们看到了一些方法,所以2016年已经是很久以前的事了。现在我们看到了人工智能正在发展的一些方式,我想知道是否有比传统的UBI概念更好的事情要做。比如,我想知道,未来是否更像是通用基本计算,而不是通用基本收入。每个人都会得到一部分GPT-7计算,他们可以使用它,可以转售它,可以捐赠给某人用于癌症研究。但是,你得到的不是美元,而是生产力的一部分。是的,你拥有部分生产力。

好的,让我们谈谈八卦。那么,让我们回到去年十一月。到底发生了什么?

如果你有具体的问题,我很乐意回答,也许我说过我们会在某个时候谈论它。

所以这就是重点。发生了什么?你被解雇了,然后你回来了,这是一场宫廷阴谋。有人在背后捅你刀子吗?你找到了人工智能的终极目标(AGI)了吗?发生了什么事?这是一个安全的空间。

我被解雇了。我说过要回来,我当时有点不确定我想做什么,因为我非常沮丧。我意识到我真的很喜欢OpenAI和那里的人,我会回来的,我知道这会很难。这比我想象的还要难。但我当时就想,好吧,没问题。我同意回来。董事会花了一段时间才弄清楚。然后,我们有点像是在试图让团队团结起来,继续为我们的客户做事。然后,开始制定其他计划,然后董事会决定聘请另一位临时首席执行官。天哪,那家伙叫什么名字?他的存在就像是在吓唬人,这是非常棒的。我只有好东西要说。

那么,你是在哪里得知你被解雇的消息的呢?

我是在拉斯维加斯的一家酒店房间里度过周末的时候得知的。我收到了一条短信,他们说,开火接机。我想在我试图思考我是否被解雇之前,你也遇到过这种情况。我并不认为我已经厌倦了这种情况。是的,我收到了一条短信。不,这只是一件奇怪的事情。

那么,这条短信是谁发的呢?

实际上,我在前一天晚上就收到了这条短信。然后我和董事会通了电话。然后就是这样。然后我有点,然后一切都变得疯狂。我当时我的手机无法使用。它只是不停地震动,比如短信、电话。

基本上,你是被推文解雇的。这在特朗普政府期间发生过几次。

他们在发推文之前确实先给我打电话,这对他们来说很好。然后,我在酒店房间里度过了几个小时的完全神游状态。我当时非常困惑,不知道该怎么做。太奇怪了。

然后,我飞回家,可能是上了飞机,大约在下午 3 点左右。仍然像,你知道的,疯狂的电话不停地响个不停。我亲自见了一些人。到了那天晚上,我想,好吧,我会去做 AGI 研究,我对未来感到非常高兴。是的,我有选择。

然后第二天早上,我和几位董事会成员通了电话,讨论回来的问题,这又导致了几天的混乱。然后,我觉得事情解决了。好吧,中间有很多疯狂的事情。

其中有多少是因为这些非营利董事会成员?

好吧,我们只有一个非营利董事会。所以都是非营利董事会成员。董事会人数减少到六个人。然后他们把格雷格从董事会中除名,然后解雇了我。

所以,董事会中只有非营利经验的人和有创业经验的人之间是否存在文化冲突?如果你愿意的话,也许你可以分享一下行动背后的动机,任何你能分享的东西。

我认为文化冲突一直存在。显然,并不是所有董事会成员都是我最喜欢的人,但我非常尊重他们对待 AGI 的严肃态度以及正确处理 AI 安全的重要性。即使我完全不同意他们的决策和行动,我也从未怀疑过他们的正直或对安全和有益的 AGI 的共同使命的承诺。

我认为他们在这个过程中做出了正确的决定,或者知道如何平衡 OpenAI 必须做对的所有事情吗?不。但我认为他们有意图,有 AGI 规模的意图,并把它做好。

实际上,让我问你这个问题。所以 OpenAI 的使命明确是创造 AGI,我认为这真的很有趣。许多人认为,如果我们创造出人工智能(AGI),那将是某种事情出错的意外结果。他们对此感到极度恐惧。然而,OpenAI却将其视为实际的使命。这是否会让你对你所做的事情感到更多的恐惧?我理解这也能产生动力,但你如何调和这一点?我想知道,为什么这是使命?

我认为,首先我要回答的是,这确实引发了很大的恐惧。我认为世界上很多人都对AGI,甚至当前的AI感到非常害怕,同时也对其发展方向感到非常兴奋,甚至更加害怕和兴奋。我们为此而苦苦挣扎。但我认为这是不可避免的。我还认为它会带来巨大的好处。但我们必须找到如何以合理的方式到达那里的方法。很多事情都会发生改变,而改变会让人们感到不舒服。所以我们有很多事情需要做对。

我可以问一个不同的问题吗?你已经创造了一个最热门的公司。而你确实处于中心的位置。但是从经济角度来看,你回避了所有这些价值,这非常独特。你能给我们讲讲吗?

是的,我希望我当时拿到了股权,这样我就不必回答这个问题了。如果我能回到过去……

为什么他们现在不给你一笔补助金?为什么董事会不给你一笔你应得的大额期权补助金?当时的决定是什么?为什么那如此重要?

当时的决定,最初的原因只是我们非营利组织的结构。从动机的角度来看,这很好。但主要是我们的董事会需要大多数无私的董事。我想,那很好。我现在不需要股权。我有点……但是,我希望……

但是以这种奇怪的方式,现在你经营着一家公司,是的,它会产生这些奇怪的问题,比如,你的真正动机是什么……

完全正确。

这太深刻了……我注意到的一件事是,人们很难想象他们会说“我不需要更多的钱”。我也知道音调是多么的不敏感...我认为人们认为这有点别有用心。是的。所以假设...他还在做什么来赚钱?如果我只是说,我要用OpenAI赚一万亿美元,我想每个人都会过得更轻松,而这救不了我。这会省去很多阴谋论。

Sam,你是一个伟大的交易撮合者。我关注了你的整个职业生涯。你在这方面很厉害。你拥有所有这些关系。你真的很擅长筹集资金。你在这方面很棒。你还有约翰尼·艾维,,你投资公司,你得到了球,你筹集了7万亿美元来建造晶圆厂,所有这些东西。所有这些因素综合在一起,

这里我只是开个玩笑。显然,你并没有筹集到7万亿美元,这可能只是市值之类的东西。然而,抛开这些不谈,关键在于你已经进行了所有这些交易。他们对你的不信任,是因为你的动机是什么?你最后离开了,OpenAI内部的机会是什么?哪些机会应该属于Sam,而这些非营利组织的人却不信任你?是这样吗?

如果我们是设备公司,或者我们正在做一些芯片制造公司,那些就不是Sam的项目。就像OpenAI会得到那笔股权一样。他们会得到的。

然而,这并不是公众的看法。这并不是像你那样,那些整天都在评论这些事情的人的看法。这是公平的,因为我们还没有宣布这些事情,因为它还没有完成。我不认为世界上大多数人都在考虑这个问题。但我同意,这在技术评论员中引发了很多阴谋论。

如果我可以回到过去,我会说,让我公平地把这一点说清楚。然后,我仍然会这样做,因为我真的很关心AGI,我认为这是世界上最有趣的工作。但至少,它会向所有人发出警告。

那么,什么是芯片项目?那是7万亿美元。那个7万亿美元的数字是从哪里来的?

我不知道那是从哪里来的。实际上,我真的不知道。我认为世界需要更多的人工智能基础设施,远远超过目前计划建设的数量,而且成本结构也不同。我们在那里玩的具体方式是,我们仍在试图弄清楚。

你喜欢OpenAI的组织模式是什么?它是像快速行动、打破常规、高度分散的小团队吗?还是更多的是这种有组织的努力,你需要计划,因为你想防止一些极端情况?

这并不是因为我们需要更有组织来防止极端情况。而是因为这些系统非常复杂,集中赌注非常重要。比如,在这样做之前,你有像DeepMind这样的公司,所有这些不同的团队都在做这些不同的事情。他们分散了赌注。你让OpenAI说,我们基本上要让整个公司一起努力制作GPT-4。这对于如何运营一个人工智能研究实验室来说是难以想象的。但我认为,至少它是有效的,它对我们是有效的。所以不是因为我们想避免极端情况,而是因为我们想集中资源,做这些大而难、复杂的事情。在我们的工作中,确实存在大量的协调工作。

好的,Sam,我明白你需要离开了。你在过去的一小时里表现得非常出色。欢迎你随时回来,我很高兴能与你们交谈。是的,这是一次非常有趣的对话。感谢你的到来,

Sam,也感谢你的坦诚。我们已经讨论了这个问题超过一年了。这真是太棒了,我对此感到非常感激。

我很期待在下一次重大发布会后能再次回来,这样我就可以更直接地谈论其中的一些事情。

是的,你已经收到了 Zoom 链接。每周都会使用相同的 Zoom 链接,同一时间,你可以随时加入(笑)。

欢迎参加新经济学家智库财务分析培训班,详情如下:

授课时间:

5月25日星期六

上午9:00-12:00 

下午14:00-17:00

本课程将以上市公司最新披露的财报信息为基础,以张新民教授基于中国上市公司信息披露特征独创的战略视角财报分析框架和杜邦分析体系为主要分析工具,对中国上市公司财报信息从治理、战略、竞争力风险等方面进行解读,对企业实质进行深刻剖析。

课程大纲:

1.利润表:从三支柱两搅局的结构对企业盈利质量进行由表及里的透视(企业是在干还是在玩?盈利可持续吗?);

2.现金流量表:从现金流量结构分析企业盈利质量和高质量发展前景;

3.资产负债表:盈利的资源基础与运行方向;

张新民介绍:

国务院学位委员会工商管理学科评议组成员,中国商业会计学会副会长,中国金融会计学会副会长,国际管理会计教育联盟理事长,教育部财务报表分析系列课程虚拟教研室负责人。

长期专注于企业会计与财务报表分析等课程的研究与教学。主编的教材《财务报表分析》获首届国家教材建设一等奖。

创立“战略视角财报分析框架”,基本解决中国非金融企业财务报表分析的理论与方法问题。

承担国家自然科学研究基金重大课题“互联网时代的公司财务行为研究”。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部