当前位置:首页>> 让机器说话更自然 语音合成还能干什么?

让机器说话更自然 语音合成还能干什么?

发布时间:2017-09-11作者:林静

让机器说话更自然 语音合成还能干什么?

本文由中科院-极限元“智能交互联合实验室”投稿

语音合成又称文语转换(Text-To-Speech),简称TTS,指通过机械的、电子的方法生成语音的技术。

随着科技的发展,合成语音的自然度和音质均得到了明显的改善。目前,语音合成技术在我们生活中具有广泛的应用,如电子阅读、车载语音导航、银行医院排号系统、交通播报等等,这些应用场景都离不开语音合成。

让机器说话更自然 语音合成还能干什么?

简单来说语音合成分为文本分析、韵律分析和声学分析三个部分。通过文本分析提取出文本特征,在此基础上预测基频、时长、节奏等多种韵律特征,然后通过声学模型实现从前端参数到语音参数的映射,最后通过声码器合成语音。整个过程类似于“编码、信息匹配,解码的过程”。

让机器说话更自然 语音合成还能干什么?

语音合成常用的两种方法:

一种是参数语音合成,另一种则是拼接合成。波形拼接语音合成的过程更容易理解,即在语料库中抽取合适的拼接单元,拼接成为句子。参数语音合成则需要对音库进行参数化建模,根据训练得到的模型预测出韵律参数和声学参数。

波形拼接语音合成需要对录音人进行长达几十个小时以上的录音采集,而参数语音合成则只需要十个小时的录音采集,即可完成一套定制化语音包的制作 。在体验效果上,拼接拼接合成的语音更加贴近真实发音,但是通过参数合成的语音更稳定。

下图为基于波形拼接:

让机器说话更自然 语音合成还能干什么?

下图为基于统计参数:

让机器说话更自然 语音合成还能干什么?

如何让机器说话更自然,有情感

从合成的发展历史来看,表现力、音质、复杂度和自然度一直是合成技术所追求的四点。但是目前水平下的合成语音很难体现出情感特征,例如在韵律表现上不够灵活,声调变化上相对死板。

让机器拥有自然、有情感、高表现力的声音,依旧是语音合成技术的一大难点。

摆脱平铺直叙,使合成语言更具有表现力高立足于以下条件:

1、情感丰富的大数据,如:更自然的发音、更丰富的情感、更高更强的表现力

2、新技术的应用

(1)深度神经网络技术已经成功应用到韵律模型、声学模型预测,并集成端到端的语音合成模型;

(2)弹性单元挑选技术,让合成语音更逼近真人发音;

(3)立足于大量数据的文本分析技术让合成系统更理解人类的语言;

3、强需求应用场景,如:语音导航、小说播报、个性化需求等

让机器说话更自然 语音合成还能干什么?

语音合成技术已全面支持多方言、多语种、多音色的选择,专业MOS评分可达4.0以上,为用户提供浑厚男声、甜美女声,并可根据用户需求实现音库定制,满足用户的个性化应用,例如:明星声音定制、童声定制、方言定制等。 从两个角度来说,一. 音色的定制化,需要跟踪录大量的音库,重新训练一个模型;二. 个性化表示方法的定制化,可以录一些数据,通过深度学习训练模型,自适应的方法来实现。

公司简介

宜科(天津)电子有限公司是中国工业自动化的领军企业,于2003年在天津投资成立,销售和服务网络覆盖全国。作为中国本土工业自动化产品的提供商和智能制造解决方案的供应商,宜科在汽车、汽车零部件、工程机械、机器人、食品制药、印刷包装、纺织机械、物流设备、电子制造等诸多领域占据领先地位。宜科为智慧工厂的整体规划实施提供自系统层、控制层、网络层到执行层自上而下的全系列服务,产品及解决方案涵盖但不局限于云平台、MES制造执行系统、工业现场总线、工业以太网、工业无线通讯、机器人及智能设备组成的自动化生产线、自动化电气控制系统集成、智能物流仓储系统等,以实现真正智能化的生产制造,从而带来生产力和生产效率的大幅提升,以及对生产灵活性和生产复杂性的管理能力的大幅提升。多年来,宜科以创新的技术、卓越的解决方案和产品坚持不懈地为中国制造业的发展提供全面支持,并以出众的品质和令人信赖的可靠性、领先的技术成就、不懈的创新追求,在业界独树一帜。帮助中国制造业转型升级,加速智能制造进程,成为中国工业4.0智慧工厂解决方案当之无愧的践行者。

更多详情>>

联系我们

  • 联系人:章清涛
  • 热线:18611695135
  • 电话:
  • 传真:
  • 邮箱:18210150532@139.com

Copyright © 2015 ilinki.net Inc. All rights reserved. 智汇工业版权所有

电话:010-62314658 邮箱:service@ilinki.net

主办单位:智汇万联(北京)信息技术有限公司

京ICP备15030148号-1