腾讯音乐娱乐申请语音转换模型训练等专利，提升了语音转换的生成效率_

本文源自:金融界

金融界2024年11月11日消息，国家知识产权局信息显示，腾讯音乐娱乐科技（深圳）有限公司申请一项名为“语音转换模型训练方法、语音转换方法、电子设备及存储介质”的专利，公开号CN 118918909 A，申请日期为2024年7月。

专利摘要显示，本申请公开一种包括人声编码器、内容编码器和波形生成器的语音转换模型的训练方法，包括预训练内容编码器；预训练人声编码器；以及对抗训练语音转换模型的波形生成器和对应的判别器，对抗训练包括迭代执行下述步骤，直至达到预设的迭代终止条件：将训练音频分别输入内容编码器和人声编码器以输出内容特征和人声特征；将内容特征和人声特征输入波形生成器，生成训练生成音频，由判别器在训练音频和训练生成音频中判别真实音频和/或生成音频；由第一损失值更新波形生成器的参数；由第二损失值更新判别器的参数。本申请方案将通常应用于声码器的对抗训练用于训练声学模型，而省掉了声码器，提升了语音转换的生成效率，减低了训练成本。