【关注】张宏江：ChatGPT和AIGC爆火背后，Al 大模型的发展和机遇_

ChatGPT和AIGC（生成式人工智能）技术爆火背后，代表着人工智能（AI）大模型进入一个新的技术范式，同时也是第三波 AI 浪潮经过十几年发展之后一个非常重要的拐点。

本文系盘古智库学术委员、美国国家工程院外籍院士、北京智源人工智能研究院理事长张宏江发言内容，文章来源于“钛媒体”。

本文大约7000字，读完约18分钟。

12月22日，盘古智库学术委员、美国国家工程院外籍院士、北京智源人工智能研究院理事长张宏江在钛媒体2022T-EDGE大会上发表了《ChatGPT和AIGC爆火背后，Al 大模型的发展和机遇》的主题演讲。

张宏江在演讲中表示，ChatGPT和AIGC（生成式人工智能）技术爆火背后，代表着人工智能（AI）大模型进入一个新的技术范式，同时也是第三波 AI 浪潮经过十几年发展之后一个非常重要的拐点。

据悉，早在1956年夏天，计算机科学家约翰·麦卡锡（John McCarthy）等人在具有传奇色彩的“达特茅斯会议”上创造“人工智能”这个术语，被认为标志着 AI 的正式诞生。在之后半个世纪当中，计算机技术飞速进步，AI 也影响着全世界的技术变革与发展。

全球共经历了三次 AI 浪潮。相对于前两次浪潮由于数据量不够、算法不强、商业化不如预期等因素，让所有人期盼的十年“AI 效应”看法泡沫破灭。如今第三次 AI 浪潮，AI 算法、算力、数据“三驾马车”同步突破，尤其是如今的 AI 大模型带来的发展机会和机遇。

此次演讲中，张宏江围绕基于GPT-3技术的ChatGPT、AIGC的前沿趋势、技术应用，从而详细阐述 AI 大模型的产业发展机会与机遇。

首先，OpenAI 开发的GPT-3技术，基于Transformer预训练语言模型架构、深度学习网络架构发展进步，向我们展示了从算法到工程上的一系列突破，是工程化能力的典型代表。

从对话式文本问答平台ChatGPT模型来看，基于WebGPT和InstructGPT的技术研究突破，ChatGPT让我们对于人机对话有了一个完全性理解，既能作文，又能考试，还能写程序，而且能够拥有持续对话的能力。

从 AIGC 技术来看，从OpenAI 2021年1月发布的DALL·E 1.0开始，按照一段文字、个人风格，通过 AI 大模型生成图像的方法风靡全球，代表了当前文图生成的最新算法，实现了 AI 技术的新突破。最近几个月出现的Stable Diffusion是目前最好的技术。

在国内，北京智源人工智能研究院于今年11月开发了AltDiffusion，以及开源文生图系统FlagStudio等，将生成式模型进行了本地化，以及用文字+图片形式产生新图片的创新方案，从而实现技术进步。

“它其实代表着从以前‘大炼模型’（各自研发专用小模型），到‘炼大模型’（研发超大规模通用智能模型）的一个范式转变。这个转变有很重要的意义：通过这种比较先进的算法架构，尽量整个可能多的数据，汇集大量算力，集约化的训练达模式，从而供大量用户使用。”张宏江表示，大模型的发展很可能会改变信息产业的格局，改变以前作坊式 AI 开发模式，把 AI 应用带入基于互联网、云计算的大规模智能云阶段。

张宏江在总结中称，尽管过去几年 AI 技术行业碰到了一些技术瓶颈和商业化难题，但这种状况会随着大模型的发展和普及，尤其是通过大模型+微调的新技术开发范式，将能够使人工智能的能力，更好、更有效的应用到各个场景里面，从而大大降低开发成本。

张宏江强调，由于ChatGPT、AIGC等AI大模型技术不断成熟，未来会带来新的创业机会，包括更好的对话机器人、更好的机器翻译，更好的创作平台。

“大模型是一个快速发展、快速引爆市场的机会型技术，将会带来新一波创业热潮，无论是我们今天已经看到的应用，还是未来会看到的应用，都将会有非常大的潜力。”张宏江在演讲的最后这样表示。

以下为张宏江演讲实录：

最近，大模型开始从学术界“烧”到了产业界，现在又“烧”到了大众媒体，尤其是人工智能生成模型（AIGC）的热度还没有褪去，然后ChatGPT的热又一波接着一波。

那么，最近人工智能到底发生了什么大的变化？这背后的原因是什么？这些技术能够用来做什么？又将为我们的生活和工作带来什么？为中国的产业带来什么？我在这里结合智源人工智能研究院的一些工作，和大家分享一下我的理解和看法，尤其是针对ChatGPT和AIGC带来 AI 大模型的发展机会和机遇。

过去这两年，技术大模型已经成为人工智能快速发展的关键技术，各大企业和高校、各个研究机构在这个领域上都进行了布局和发力，各个领域的模型层出不穷。所以，大模型的研究和应用也将会逐步成为人工智能发展的一个关键方向，从而形成了新一波人工智能浪潮。尤其在应用领域，我相信会形成一个非常持久的浪潮。

自GPT-3于2020年5月份发布开始，智源“悟道”在不到一年后的2021年6月发布，是当时世界上最大的1.7万亿模型。随后的一年多来，我们看到有更多的大模型研究出来。尤其是DALL·E模型和ChatGPT模型，来宣告“大模型”进入了一个新的高地。

从各个研究机构发布的技术模型数量来看，“大模型”数量在持续增加，而且模型规模也越来越大，这背后其实有它非常深远的技术和学术背景。

首先，从基础技术角度看预训练大模型的发展，回顾一下它的技术积累。

其实在15年前，深度学习逐步快速发展的时候，当时我们实际上处于一个探索的阶段，因为构建深度学习的主要方式就是监督学习，这中间需要大量的人工标注的数据。而数据的生产周期长，而且也非常昂贵。那么，如何能够通过有限的人工标注，在特定的任务上构建更有效的神经网络，或是自动产生大量的数据，这其实是我们一直在研究的问题。

随着深度学习技术发展，在大概七八年前，就出现了迁移学习技术，就是从过去学习的知识上不用再开始训练，如果用新的数据加上去之后，再将已经捕获的知识迁移到一个新的目标或新的应用上去。这两块是我们今天大模型非常重要的技术基础——传统的“监督学习”逐步变成“强化学习”。

另外，我们往往会忽略掉，人们认为，“大模型”的快速发展主要原因是学术发展比较快。但实际上，不止是学术发展，更重要的是“大模型”通过标注好的数据进行学习。这其实是过去几年非常大的变化。另两个很大的变化是：算法、算力的要求上。

所以我们说，深度学习主要有三个因素：数据、算法和算力。

算法的进展我就不多讲。但数据的进展在过去十几年里是非常快速的——从一个最开始的人工标注，到开放的数据集分享，再到数据自动标注和生成式研究。而技术进展到了最近五年，我们开始把数据变成了“云服务”，从而建立起了数据标注、处理、存储管理一体的云数据中心。这对于人工智能的发展具有非常重要的推动作用。

另外一方面，我们从一开始推动 AI 专用芯片，比如英伟达的GPU（图形处理器），到后来推动大规模分布式计算环境，再到我们今天已经有的大规模、高性能 AI 算力中心。这两块一个是数据，一个是专利，这中间是不可缺少的。而且，今天在整个过程中间，我们意识到另外一点，就是以前认为的基于深度学习的人工智能技术的基础研究，取得了一些算法的突破。

更重要的是，“大模型”到了现在这个阶段，工程化能力是非常重要的，尤其是GPT-3，向我们展示了从算法到工程上的一系列突破。

GPT-3大模型是（工程化能力）典型代表。从算法架构来看，它是建立在神经网络架构Transformer基础之上的。它克服了传统的神经网络技术用浅层的预训练网络来捕捉单词，并无法解决一词多义等问题缺陷，而是优化了类人脑的一个学习过程。它在学习过程中间关注于重点而非全部，从而使得它的学习效率非常高。

随着模型规模的变化，基于Transformer预训练语言模型架构——这种隐含的丰富语言知识，从而使得它能够在众多下游NLP任务中间有惊人的表现。在此之前，谷歌的BERT就是建立在Transformer基础上的，而OpenAI 的 GPT这一类模型也都是建立在这基础之上的。所以，Transformer是这里面（GPT-3）的核心所在，而且是近三年我们看到大模型发展最核心的深度学习架构。

那么，GPT-3的出现有几个里程碑式的意义：一是凸显了Transformer生成式模型的学习能力；二是1750亿模型规模非常大，其模型在小样本和0样本中的学习中间表现出了突出性能；三是GPT设计理念像语言学习（Language Learning）这种概念，也就是学习过程关注重点而非全部，有效利用数据进行核心学习，而非此前那种利用标注数据进行的深度学习过程。

事实上，今天GPT-3的学习过程的数据要求非常大，1750亿参数量，约有700G大小，一次训练成本大致花1200万美金。所以，大模型的发展不光是算法上的进步，在数据、算力上的要求也非常巨大。而大模型中有GPT-3这一类模型的话，核心优势是利用这种模型进行微调就可以用了，用来做一些新的任务，这是以前模型所不具备的。

接下来，我们看一下 GPT-3在语言能力上的突破。

无论是最早的英文GLUE Benchmark，还是后来的写作，它都有了非常好的突破。因为这种大模型里面隐含大量支持，对这些知识支持模型进行一些推理层面的任务，并得到了非常好的效果。比如，中文写一篇关于个性化搜索未来发展趋势的论文，或1801年的美国总统是谁等，它从中间学会后记忆，并用在未来场景里面。

另外，GPT-3在中文的文言文理解能力也让人惊叹。这段来自于孟子的文言文是北京市小升初的题目，而GPT-3能够非常好的理解它。

GPT-3发布之后，OpenAI 发布ChatGPT，简直就是让我们对于人机对话有了一个完全性理解。实际上，ChatGPT就是为对话而优化、在GPT-3基础上优化的一个大语言模型，它在写故事、写代码，甚至参加SAT考试，都比GPT-3有非常大的进步。值得注意的是，它在SAT试题的回答是练习10次之后的水平，最终在数学满分800分中达到600分，写作满分800分中拿到520分，相当了不起。

所以，马斯克惊呼ChatGPT好的吓人，他甚至预测危险的强 AI 离我们不远了。实际上，ChatGPT确实在对话方面达到了一个新的高端，完全可以以假乱真，至少是记忆和学习能力超强的“超级鹦鹉”。

那么，ChatGPT为什么能够有这样的能力？

我们知道，GPT-3已经是针对于语言的大模型。而OpenAI又在其基础上做了两个方向的研究：一是WebGPT，搭建基于文字的页面浏览环境，教GPT-3上网查询，再生成结果的同时生成引用来源，相对GPT-3大幅提升生成内容信息量和事实性；二是InstructGPT，基于用户反馈的强化学习RLHF，将语言模型的输出与用户的意图非常好的align（对齐/相关）起来。这是InstructGPT的核心所在。

ChatGPT恰恰是建立在InstructGPT基础之上的。之前深度学习，包括最早出现CNN/RNN到Transformer的框架，然后才出现GPT。回过来看，其实还是Transformer的出现，使我们今天在深度学习网络架构上有了新的突破。

ChatGPT既能作文，又能考试，还能写程序。它的核心特点在于其持续对话能力，能够记住历史信息和人的反馈，保持对话的一致性，容许用户提供后续更正。他会意识到而且会挑战你，做到了“知之为知之，不知为不知，是知也”，它也承认错误后进一步改进。而且其核心能力在于持续的迭代，大幅度提高用户意图理解和结果准确性，这就是InstructGPT特点与能力。

当然，ChatGPT也有一些局限性，可能产生不正确的信息，也可能产生一些有害指令或是偏见内容，而且它的训练数据大部分是2021年以前的，所以过去6个月发生的事情它了解很有限，我觉得这些其实很正常。

接着，我们来聊聊AIGC（生成式人工智能）模型——按照一段文字、个人风格来生成图像。

这一技术早在2021年1月（一年多），OpenAI 发布 DALL·E 1.0开始的，它核心就是不断学习文字和图像之间的匹配关系。自从DALL·E出现之后，又有一系列模型出现，最近几个月出现的Stable Diffusion是目前最好的技术。

智源研究院在这个基础上做了一些改善，于2022年11月公布中文模型AltDiffusion，效果比Stable的标准要更好。

无论是Stable，还是其他一些文字生成图像模型，原理都是通过图片离散编码，然后将图像的Token和文字的Token作为Transformer decoder进行输入，然后将大量图片与文字对上。而一开始，DALL·E产生的图像还是相对来说比较简单，那么在此基础上，Stable就把它的能力提高一大截。

需要提及的是，DALL·E是以皮克斯的WALL-E 和西班牙超现实主义画家萨尔瓦多·达利（Salvador Dalí）的名字命名。

下面，我用智源的多语言生成模型AltDiffusion，来说一下Stable Diffusion以及我们AltDiffusion最近的一些工作。

开源的Stable Diffusion近几个月出现之后，风靡了整个圈子，实际上代表了当前智能文图生成的最新算法。它用AItCLIP替换了Stable Diffusion中的文本塔，使得模型可以支持多种语言，并在多语言图文对数据集上进一步训练。

实际上，这个不是靠人来做，而是靠机器来做，本身说话是一个很重要的技术。原理上，我们AltDiffusion对它进行了一些改善，所以它对于中文的理解就会更好，比如把中文的画风也引进来。同时，它还支持除了中文以外的其他九种语言，包括法语、韩语、西班牙语、俄语、意大利语、阿拉伯语等。而且，不只有这些语料，很重要的是它在模型里面做了一些改善。

当然，它也有一些很有意思的现象，就是对于不同语言、同样内容的模型输入，会有很大差异，其实中间也反映出了文化差异。那么，我们的模型能够适应于这一点，本身也是一个很好的技术问题。

好，这里我给大家看一下智源研究院的开源文生图系统FlagStudio。你注意看界面的话，可以选择绘画风格，以及艺术家风格，根据某个艺术家来定义画风，比如这块选择的是虚拟引擎，画出来虚幻图片，用文字来描述你想要什么解答。另外就是用一个文字离开描述，比如一篮子苹果它给你生成一个苹果，如果描述改成梨就是能生成对应风格，产生新的图像。而且，不光是用文字来产生图片，而且用文字+图片形式可以产生新的图片，这是该模型能够做的、也是现在生成式模型的一个很大进步。

团队用我的照片来做实验，然后做了一个开源的系统，通过我不同时期的6幅照片，根据不同风格要求，产生新的图像，风格也多变，有的就比较年轻帅气，有的就形象老态等。

我在前面很快介绍了大模型的发展，尤其是ChatGPT和AIGC技术的发展和其具备的能力。那么，下面我花几分钟时间来谈一下这些大模型，对于产业的影响在哪里？

实际上，大模型代表了一个新的技术范式。我们可以做个比喻，它其实代表着从以前“大炼模型”（各自研发专用小模型），到“炼大模型”（研发超大规模通用智能模型）的一个转变。这个转变有很重要的意义：通过这种比较先进的算法架构，尽量整个可能多的数据，汇集大量算力，集约化的训练达模式，从而供大量用户使用。

所以，大家可以注意到，着从某种意义上来说，它是从小农经济到大规模生产的一个很重要的变化，就像当初电网的变革一样，此前自己发电，而今天要用 AI，就不需要再做模型了，而是用已有的大模型，以一种服务方式提供给用户。这很可能会改变信息产业的格局，改变以前作坊式 AI 开发模式，把 AI 应用带入基于互联网、云计算的大规模智能云阶段。

那么，它的重要性、优势在哪儿？我认为是有技术和产业的双重优势。很重要的一点在于，通过微调方式把大模型能力，能够有效转移到各种不同的应用场景中间，不再需要自己重新从0开始做模型，从而大大降低开发成本，使得它的应用会变得更加迅速、更加有效。

最近，IDC的一篇报告曾指出，超大模型将是快速引爆市场机会型的技术，这点我完全同意。

实际上，大模型是人工智能这一波浪潮，经过十几年发展之后的一个非常重要的拐点。下面我结合自己的体会，分享一下我对这个产业影响的一些看法。

从应用场景上来看，文本生成或是图文生成的模型，会很快应用到各种各样的场景（应用）中间。今天我们已经看到了刚才演示的文生图几个场景。其实大家可以想象，那么它可以用来做一系列应用，更不用说写GPT-3、ChatGPT的写作能力、问答能力等。

我相信，由于这些（DALL·E、ChatGPT等）大模型技术本身不断成熟，会带来新的创业机会，包括更好的对话机器人、更好的机器翻译，更好的创作平台。

另外一方面，这些大模型会带来一些 AI 基础设施创业的可能性，包括垂直性训练、大模型运营管理训练等。在美国有一家公司发展比较快，叫做Hugging Face，专门做大模型的训练和推广，尤其是一些开源的推广。

在应用方面的话，其实中国发展速度也很快。虽然目前发展状况是国外的头部企业引领技术和商业应用，国内可能会落后两年，但是，中国的落地能力非常强。

不过比较悲催的是，实际上，从学术技术研究方面看，OpenAI 公司在过去三年独领风骚，无论是从GPT-1、GPT-2、GPT-3，尤其是GPT-3和ChatGPT出来之后，从研究角度来说它搭好了框架，占据了第一位置。虽然其他人这两年做了很多模型，但从学术角度来看，其实我们都是在给它“补漏”。也就是说，在给它打工。

那么从学术角度来说，这其实要呼唤中国的学术原创性、学术创新能力。

但是从应用角度来看，文本生成、图像生成、音频生成、视频生成、虚拟人、元宇宙等场景，只要国外有的公司，中国都有比它更多的公司。而且我相信，中国的落地能力、应用场景一定会比他们走的更快。

此外，我们除了讲的ChatGPT和 AIGC生成模型之外，其实大模型还有更多质变潜力，尤其是我们今天看到，包括大模型在内的人工智能技术，在生命科学、材料科学、能源科学和环境健康等方面，都可以利用大模型来生成、驱动新的研究发现。尤其在 AI 制药、材料设计等领域，AI都有非常好的前景，而且已经开始落地。

最后，总结一下，我们认为，大模型实际上是 AI 第三波浪潮的一个拐点。

相比之前第一波和第二波浪潮，如今第三波浪潮，就是以深度学习、神经网络为代表的大概15年前开始的浪潮。

那么其实，过去几年，这一波浪潮已经碰到了一些技术瓶颈和商业化难题，使得我们 AI 企业的商业化非常不顺，高估值泡沫逐渐破裂，而且一些上市公司的技术找不到核心应用，或者说在核心应用上无法进行突破，那么从而使得它的 AI 技术赋能和增值情况都很有限。

但如今，这种状况会随着大模型的发展和普及，尤其是通过大模型+微调的新技术开发范式，将能够使人工智能的能力，更好、更有效的应用到各个场景里面去，而不需要每家企业/机构都要开发自己的模型，从而大大降低了开发成本。

所以，大模型是一个快速发展、快速引爆市场的机会型技术，将会带来新一波创业热潮，无论是我们今天已经看到的应用，还是未来会看到的应用，都将会有非常大的潜力。■