ElevenLabs:为内容创作者赋予声音

ElevenLabs:为内容创作者赋予声音
2024年06月20日 16:26 易简财经

ElevenLabs的成立背景

ElevenLabs 成立于 2022 年,创始人是一对好友:前谷歌机器学习工程师Piotr Dabkowski和前Palantir部署策略师 Mati Staniszewski,这是一个基于浏览器的语音生成应用,能够创建逼真的语音,并可调整语调、情感、节奏等关键声音特征。

Staniszewski和Dabkowski从小在波兰长大,受到好莱坞电影中配音质量不佳的启发,决心设计一个能够消除语言障碍的平台。他们将这一愿景转化为现实,创立了ElevenLabs。

ElevenLabs 成立的初衷是让所有内容都能以任何语言和任何声音为大众所用。

作为首家专注于提供专用语音到语音翻译工具的公司,ElevenLabs在2022年推出市场时就集成了配音、语音转换和文本转语音(TTS)三大功能。

随着时间的推移,语音生成(包含语言克隆和TTS)逐渐成为公司的核心业务。

2024年1月,ElevenLabs在最新一轮融资中成功筹集了8000万美元,使其估值急速飙升至11亿美元,正式跻身独角兽行列,并入选福布斯AI 50强,跻身全球最具创新力的科技公司行列。

团队构成与专业背景

ElevenLabs 的核心团队主要包括来自谷歌、微软、亚马逊等知名科技公司的前员工,他们在人工智能领域具有深厚的专业知识和实践经验。公司目前拥有约40名远程办公员工,分布在全球各地,并计划到2025年底将团队扩大至100人。

(1)Mati Staniszewski——联合创始人兼首席执行官

Mati Staniszewski是ElevenLabs的联合创始人兼首席执行官。他的职业生涯包括Palantir Technologies、BlackRock和Opera Software等公司。

在 Palantir,他担任部署策略师,在为政府机构和企业构建和部署复杂软件解决方案方面获得了宝贵的经验。

Mati (左) 和 Piotr (右)

作为 ElevenLabs 的首席执行官,Staniszewski 专注于公司的战略方向和业务发展。他热衷于利用人工智能来增强语音技术,使音频内容更易于访问和引人入胜。

在他的领导下,ElevenLabs 开发了尖端的语音克隆和多语言配音技术,引起了投资者和行业专家的极大关注。

(2)Piotr Dabkowski——联合创始人

Piotr Dabkowski 是 ElevenLabs 的联合创始人。他拥有计算机科学背景,获得了剑桥大学硕士学位 (MPhil) 和牛津大学学士学位。

在共同创办 ElevenLabs 之前,Dabkowski 于 2018 年 3 月至 2022 年 1 月期间在谷歌担任软件工程师。他在学习期间还曾在 Opera Software 和 Google 等公司实习过。

Dabkowski 同样是一位活跃的开源开发者,创建了多个受欢迎的项目,包括 Js2Py(一个 JavaScript 到 Python 的转译器和 VM,总安装量超过 500 万次)和 pyjsparser(一个 JavaScript 到 Python 的解析器,安装量达到 400 万次)。

他还是一位热衷于机器学习的研究员,并在 NeurIPS 会议上发表过一篇具有影响力的论文,该论文获得了约 400 次引用。

ElevenLabs的主要服务

ElevenLabs 创造了最逼真、功能最丰富且具有情境感知能力的 AI 音频,能够以 29 种语言生成数百种新声音和现有声音。

作为一家技术研究公司,ElevenLabs 处于开发新型尖端语音 AI 的前沿。

(1)语音合成(Speech Synthesis)

ElevenLabs 的核心产品是基于浏览器的 AI 辅助语音合成工具,包含文本转语音及语音转语音两种模式,可以通过合成声音情感和语调来产生逼真的语音。

ElevenLabs基础提供了多种语言的 1300 多种声音作为选择,此外也提供语音克隆功能,让用户可以使用自己提供的语音。

ElevenLabs 的语音合成服务主要基于自主研发的基础 AI 语音模型Eleven Multilingual v2。

Eleven Multilingual v2能够准确地用28种语言生成“情感丰富”的 AI 音频模型可以理解文本的上下文,调整语调和节奏以反映愤怒、悲伤、快乐或惊慌等情绪,从而产生高度逼真和类似人类的语调。

无论是文本转语音还是语音转语言,说话者独特的语音特征在所有语言中都得以保留,包括其原有的口音。

文本转语音

语音转文本

(2)语音设计及语音克隆

为了满足用户在ElevenLabs提供的基础语音外的需求,ElevenLabs推出了语音设计及语音克隆两个不同功能。

语音设计(Voice Design)

22023年2月,由于原始语音库范围依然较小,ElevenLabs为用户提供语音设计功能。ElevenLabs通过条件扩展了他们的模型,以根据其特征生成声音。

该模型现在允许用户设置某些基本参数,这些参数确定新声音的核心身份:性别、年龄、口音、音调和说话风格。

通过这种方式,即使用户选择相同的基本参数,也会得到一个之前不存在的全新声音。

语音克隆(Voice Cloning)

2023年8月,ElevenLabs向公众用户开发了他们之前的企业级功能——语音克隆,用户可以创建对应音频的语音,几乎与原声完全相同。

用户仅需要提供单个说话者的干净音频文件作为训练数据即可完美复制对应的声音,并让它也能说所有其他语言。

克隆完成后,用户可选择自己使用或者开放到语音库里。

为了保证安全,ElevenLabs仅允许用户克隆自己的声音,在训练时需要用户进行语言验证。

(3)AI配音和视频翻译(AI dubbing)

AI 配音工具诞生于 ElevenLabs 成立之初的使命,即消除内容的语言障碍,也是该公司迄今为止研究的成果,它使用户能够自动将任何语音翻译成另一种语言,同时保留原始说话者的声音,创造了一种全新、高质量且有效的音频和视频内容配音方式。

ElevenLabs 的 AI 配音工具能够自动将音频和视频翻译成 29 种语言,同时保留原说话者的声音和情绪。该工具对于视频本地化特别有用,可以让全球观众访问内容,而不会丢失原始语音特征。

(4)Projects(长篇音频创作)

Projects 是ElevenLabs对长篇语音合成、音频调节和并行音频生成研究的结晶,它使创作者、出版商和独立作者能够在几分钟内为整个对话片段、新闻文章甚至有声读物配音,所有这一切都在一个工作流程内完成。

Projects 允许用户单击按钮生成整本有声读物。

用户可以通过将特定文本片段分配给特定语音来为叙述注入活力,同时保持上下文连贯性。用户还可以调整文本段之间的停顿长度,以更好地控制节奏。

此外,Projects 还引入了选择性音频再生功能。用户现在可以再生较大文本片段的部分,而无需完全重做这些序列。这些片段将自动匹配周围音频的节奏和语调。还添加了保存和恢复功能。

(5)其他功能

除上述主要服务外,ElevenLabs最近还推出了三个新的服务:音频特效、音频原生和ElevenStudios。

音频特效(Sound Effects):根据文本提示生成任何可以想象到的声音,直接实现从文本描述创建独特的音效,简化音频制作流程。

音频原生(Audio Native):可以为任何文章、博客或新闻通讯创建自动、可嵌入的画外音。它可自定义、易于设置,有助于提高读者参与度,同时让世界各地的读者(和听众)都能访问内容。

配音工作室(ElevenStudios):提供AI和双语配音专家全面管理用户视频和播客配音,为用户的外国观众翻译视频和播客内容。AI 语音模型可以生成听起来像用户直接说外语的音频。同时专业配音员会验证翻译是否符合要求,并且以能引起外国观众共鸣的方式传达。

(6)客户

ElevenLabs于2023年1月推出后,发展势头迅猛,并因其语音输出质量、快速生成时间和“慷慨的免费套餐”而受到称赞。

它还因其能够准确发音独特或不常见的名字而受到称赞,解决了类似工具中通常主要针对西方名字的常见缺陷。目前有38%的财富 500 强公司在使用其产品,每月超过100万次音频生成。

主要客户包括全球最大出版社之一HarperCollins Publishers、有声读物出版公司Storytel、AI伴侣公司Kindroid、知名游戏开发商Paradox Interactive等。

这些企业通过ElevenLabs平台制作有声读物、电影配音、游戏NPC的声音等。

(7)价格

ElevenLabs的商业模式是基于订阅制度,根据用户使用的功能、时长和质量来收费。

ElevenLabs大部分服务在Creator级可以使用,22美元/月(首月11美元),提供专业语音克隆、Projects、音频原生等付费功能。

此外,它也提供免费试用和优惠方案,以吸引更多的客户。

公司争议

ElevenLabs 因用户可以滥用其软件,以名人、政府官员和其他知名人士的声音风格生成有争议的言论而受到批评,尤其是在 4chan 上的用户使用该工具分享仇恨信息后引起了关注。

该软件能够紧密复制真实声音,引发了道德担忧,批评者将其比作深度伪造。

作为回应,ElevenLabs 表示将努力通过保护措施和身份验证来减轻潜在的滥用行为。ElevenLabs 铲除屡次违反其服务条款(禁止滥用)的用户,并推出了对应工具来检测其平台生成的语音。

此外,ElevenLabs 训练数据来源的道德问题也引发了人们的担忧,多名配音演员声称 ElevenLabs 在未经他们同意的情况下使用了他们的声音样本。因此,ElevenLabs 以及同类公司也被视为配音行业的潜在挑战。

估值及融资情况

ElevenLabs最新融资估值达11亿美元,历史融资合计超1亿美元。

种子轮融资:2023年1月,ElevenLabs完成种子轮融资,金额为200万美元,由 Credo Ventures 领投,Concept Ventures 参投。

A轮融资:2023年6月,ElevenLabs完成A轮融资,金额为1900万美元,估值约为 1 亿美元,由风险投资公司Andreessen Horowitz、前 GitHub 首席执行官Nat Friedman和企业家Daniel Gross共同领投。

B轮融资:2024年1 月,ElevenLabs完成B轮融资,金额为8000万美元,估值达11 亿美元,此轮融资由 Andreessen Horowitz、Friedman、Gross 和Sequoia Capital领投。

小结

ElevenLabs在机器配音领域以其创新的AI语音合成技术迅速脱颖而出,提供逼真且情感丰富的多语言语音生成服务,处于开发新型尖端语音 AI 的前沿。

与其他提供文本到语音(TTS)服务的企业如百度、谷歌、微软和科大讯飞等相比,ElevenLabs的独特优势在于其语音克隆技术。

这项技术允许用户创造与自己声音高度相似的语音,并提供了将这些语音上传至语音库的选项,这不仅极大地丰富了ElevenLabs的语音资源,也为其构建了独特的市场壁垒。

然而,伴随着创新而来的是法律和道德方面的挑战,这对于在激烈竞争中寻求突破的AI企业来说,可能是一条不可避免的探索之路。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部