提供一种基于在计算资源有限的环境中低延迟并且适当地建模的DNN的语音合成技术。声学模型学习装置具备:语料库存储部,其以话语为单位存储从多个话语语音中提取出的自然语言特征量序列和自然语音参数序列;预测模型存储部,其存储用于从某个自然语言特征量序列预测某个合成语音参数序列的前馈神经网络型预测模型;语音参数序列预测部,其以所述自然语言特征量序列为输入,使用所述预测模型预测合成语音参数序列;误差累计装置,其累计与所述合成语音参数序列和所述自然语音参数序列有关的误差;以及学习部,其对误差进行预定优化,学习预测模型,误差累计装置使用用于使相邻的帧彼此与预测模型的输出层相关联的损失函数。
声明:
“声学模型学习装置、语音合成装置、方法以及程序” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)