Perceptually Guided End-to-End Text-to-Speech With MOS Prediction
本文为韩国科学技术高等研究院电气工程学院在2021.08.19更新的文章,主要使用MOSNet增加perceptual loss来优化TTS,从而提高自然度。
1、研究背景
这篇文章还挺有趣,主要在想法上边。首先,对于TTS的合成音频质量的标准主要靠主观的MOS来评分,但这需要组织大量人力来评分,因此自动MOS打分系统被研究,诸如MOSNet等等。本文把MOSNet系统作为loss在训练时期来优化TTS系统,从而提高主观MOS值。
2、详细设计
本篇文章主要是想法好玩,具体如图一所示。先使用具有MOS打分的数据训练MOSnet,然后把MOSnet作为主观loss来训练TTS,不管TTS是哪种类型的声学模型。
3、实验
本文的实验可懂度指标如table 1所示,其中table 2,table 3,fig 2和fig3展示了使用本文方案的效果,从结果可以看出,本文的方案提高了MOS值,其中音素错误PER下降,同时可懂度提高。
4、总结
本文使用MOSNET作为perceptual loss来优化TTS,从而提高自然度。
0条评论|0人参与网友评论
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
表情
登录|注册
|退出
分享到微博
发布最热评论
最新评论
更多精彩评论>>
![](http://n.sinaimg.cn/finance/pc/cj/kandian/img/article_pic05.png)
4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有