训练数据基本不含版权数据,Adobe凭何造出图像生成模型“萤火虫Firefly”?

训练数据基本不含版权数据,Adobe凭何造出图像生成模型“萤火虫Firefly”?
2024年03月28日 17:06 麻省理工科技评论

自从生成式人工智能热潮开始以来,人们一直在争论如何训练大型人工智能模型。

在一个主要由 OpenAI 等科技公司组成的阵营中,它们声称,如果不利用互联网上的、受版权保护的数据,那么就“不可能”训练出好的人工智能模型。

与其对立的另一个阵营是艺术家,他们认为,人工智能公司在未经其同意并提出补偿的情况下夺走了他们的知识产权(成果)。

作为一家科技公司,Adobe 极不寻常地站在了艺术家阵营。它所使用的方法是一个典型范例,向我们展示了在不从互联网上抓取版权数据的情况下,如何构建生成式人工智能产品。

一年前,Adobe 发布了其图像生成模型萤火虫(Firefly),该模型被整合到其流行的照片编辑工具 Photoshop 中。

在《麻省理工科技评论》的独家采访中,Adobe 的人工智能领导者坚信,这是唯一的前进之路。

他们说,这不仅关系到创作者的生计,也关系到我们的整个信息生态系统。他们所学到的东西表明,建立负责任的技术不一定要以追求商业目标为代价。

Adobe 数字媒体业务总裁大卫·瓦德瓦尼(David Wadhwani)表示:“我们担心这个行业,尤其是硅谷,不会停下来问‘如何’或‘为什么’。

仅仅因为你可以创造一些东西,并不意味着你在创造它的时候不应该考虑你可能造成的影响。”

这些问题指导了萤火虫的开发。当图像生成热潮在 2022 年拉开帷幕时,创意社区对人工智能产生了强烈的反对。

许多人把生成式人工智能模型当作“衍生内容机器”,以另一位艺术家的风格创作图像,引发了一场关于版权和合理使用的法律斗争。

最新的生成式人工智能技术也使创建深度伪造内容和错误信息变得更加容易。

瓦德瓦尼说,我们清楚地知道,为了给创作者提供适当的认可和商业法律确定性,我们不能通过抓取网上数据来构建模型。

Adobe 数字媒体首席技术官伊利·格林菲尔德(Ely Greenfield)表示,Adobe 希望“认识到这些人工智能建立在人类劳动的基础上”,同时也能从生成式人工智能中获益。

“我们必须弄清楚如何在当下和未来公平地奖励人们的劳动。”他说。

是否从网上收集数据

人工智能中常见的网络数据抓取行为,最近变得极具争议。人工智能公司,如 OpenAI、Stability.AI、META 和谷歌正因人工智能训练数据而面临众多诉讼。科技公司认为,抓取网上公开的数据是没问题的。

作家和艺术家不同意这一观点。他们正在推动一种基于许可的模式,在这种模式下,创作者将因其作品包含在训练数据集中而获得补偿。

格林菲尔德说,Adobe 训练萤火虫的内容获得了明确的许可,允许被用于训练人工智能。这意味着大部分训练数据来自 Adobe 照片库。

他补充道,当创作内容被用于训练人工智能模型时,该公司会为创作者提供额外的补偿(奖励)。

这与当今人工智能领域的主流做法形成了鲜明对比:许多科技公司不分青红皂白地爬取网上的数据,却对训练数据集所包含的具体内容了解有限。

由于这些做法的存在,人工智能数据集不可避免地包括受版权保护的内容和个人数据。一些研究还发现了有毒内容,如儿童性虐待内容。

“搜刮”互联网上的数据为科技公司提供了一种廉价的方式来获取大量训练数据,而一般来说,拥有更多的数据可以让开发者构建更强大的模型。

格林菲尔德说,将萤火虫限制在许可数据范围内进行训练是一个冒险的决定。

(来源:MITTR VIA FIREFLY)

格林菲尔德说:“老实说,当我们开始构建萤火虫和图像生成模型时,我们不知道自己能否在不收集网络数据的情况下满足客户的需求。”

“之后我们发现自己做到了,这太棒了。”

人工内容管理员还会审查训练数据,以清除令人反感或有害的内容、受版权保护的资料和知名人士的图像。其产品训练过程中所用的数据,该公司都拥有对应的许可。

格林菲尔德表示,Adobe 的战略一直是将生成式人工智能工具集成到其现有产品中。

例如,在 Photoshop 中,用户可以向萤火虫工具输入文本指令,使其按要求填充图像的特定区域。这使用户能够更好地控制创作过程,并有助于激发他们的创造力。

尽管如此,Adobe 还有更多的工作要做。该公司想让萤火虫变得更快。例如,格林菲尔德说,目前的内容审核算法大约需要 10 秒才能完成对输出内容的检查。

Adobe 还在试图弄清楚一些商业客户如何生成受版权保护的内容,比如漫威角色或米老鼠。

Adobe 已与 IBM、Mattel、英伟达和 NASCAR 等公司合作,允许这些公司使用具有其知识产权的工具。它还在音频、对口型和 3D 生成工具等领域深入挖掘。

数据有问题,模型就有问题

不收集互联网数据的决定也让 Adobe 在内容审核方面占据了优势。众所周知,生成式人工智能很难控制,开发者自己也不知道为什么这些模型会生成它们所生成的图像和文本。

这导致在许多情况下,生成式人工智能模型都会输出有问题的和有毒的内容。

格林菲尔德说,这一切都归结于它所接受的训练数据。他说,例如,Adobe 的模型从未见过乔·拜登(Joe Biden)或唐纳德·特朗普(Donald Trump)的照片,所以用户不能诱使它产生错误的政治信息。

Adobe 人工智能模型的训练数据中不包括新闻内容,也没有名人。它没有接受过任何(特殊)版权材料的训练,比如米老鼠的图像。

“它就是不明白那个概念是什么。”格林菲尔德说。

Adobe 还在创作时启动了自动内容审核机制,以检查萤火虫的创作成果是否适合专业用途。该模型被禁止创作新闻故事或暴力图片,一些艺术家的名字也被屏蔽了。

萤火虫生成的内容还带有标签,表明它是使用人工智能创建的,以及该图像的编辑历史。

在关键的美国选举年,人们需要知道是谁用人工智能制作了一段内容,以及如何制作出来的,这一点尤为重要。

Adobe 一直在大力倡导给人工智能内容上贴上标签,标明其来源和作者(创作工具)。

该公司与《纽约时报》和 X(原推特)一起发起了“内容真实性倡议(Content Authenticity Initiative)”,这是一个推动给人工智能生成内容打上标签的协会。

这种标签可以告诉人们内容是否是人工智能生成的。目前该倡议获得了 2500 多名成员的支持。

它也是开发 C2PA 的一部分,C2PA 是一个行业标准标签,显示内容的来源和创建方式。

格林菲尔德说:“我们早就应该在媒体素养和工具方面进行更好的教育,对于任何所谓的‘眼见为实’的内容,我们都要赋予人们验证其真实性的能力。”

非营利组织人工智能伙伴关系(Partnership on AI)的人工智能和媒体诚信负责人克莱尔·莱博维奇(Claire Leibowicz)表示,Adobe 的方法突显了人工智能公司深入思考内容审核的必要性。

莱博维奇补充道,Adobe 对待生成式人工智能的方法,兼顾了打击错误信息和促进商业目标(如保持创作者的自主权和归属),很好地服务于许多社会目标。

她说:“Adobe 的商业使命并不是杜绝错误信息,而是为了赋能创作者。这难道不是使命和(商业)战略的完美融合,最终实现一举两得吗?”

瓦德瓦尼对此表示赞同。该公司表示,萤火虫驱动的功能是其最受欢迎的功能之一,萤火虫 90% 的网络应用程序用户都是 Adobe 产品的新用户。

瓦德瓦尼说:“从商业的角度来看,我认为我们的方法肯定是有益的。”

支持:Ren

运营/排版:何晨龙

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部