语音合成论文优选!

语音合成论文优选!
2021年09月15日 14:50 语音之家SpeechHome

Perceptually Guided End-to-End Text-to-Speech With MOS Prediction

本文为韩国科学技术高等研究院电气工程学院在2021.08.19更新的文章,主要使用MOSNet增加perceptual loss来优化TTS,从而提高自然度。

1、研究背景

这篇文章还挺有趣,主要在想法上边。首先,对于TTS的合成音频质量的标准主要靠主观的MOS来评分,但这需要组织大量人力来评分,因此自动MOS打分系统被研究,诸如MOSNet等等。本文把MOSNet系统作为loss在训练时期来优化TTS系统,从而提高主观MOS值。

2、详细设计

本篇文章主要是想法好玩,具体如图一所示。先使用具有MOS打分的数据训练MOSnet,然后把MOSnet作为主观loss来训练TTS,不管TTS是哪种类型的声学模型。

3、实验

本文的实验可懂度指标如table 1所示,其中table 2,table 3,fig 2和fig3展示了使用本文方案的效果,从结果可以看出,本文的方案提高了MOS值,其中音素错误PER下降,同时可懂度提高。

4、总结

本文使用MOSNET作为perceptual loss来优化TTS,从而提高自然度。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部