【行业研究报告】信息技术-2023年中国语音合成声学(TTS)行业词条报告

类型: 行业动态分析

机构: 头豹研究院

发表时间: 2023-05-30 00:00:00

更新时间: 2023-05-30 20:11:49

作者:唐文卿作者:唐文卿行业:头豹分类/综合及概念/元宇宙/元宇宙底层技术/人工智能技术头豹分类/信息传输、软件和信息技术服务业/软件和信息技术服务业/信息系统集成和物联网技术服务港股分类法/信息科技/软件服务关键词:TTS、语音合成技术、人工智能摘要:近年来,智能语音行业多家企业在上市程序上折戟沉沙。2月19日,上交所发布公告称,云知声和其保荐人中金公司于2021年2月18日向上交所提交了撤回IPO申请文件。根据规定,上交所决定终止云知声的发行上市审核。智能语音在上市程序上的表现不禁让市场疑惑,作为AI领域的重要组成部分,智能语音为何屡屡受挫,长期亏损?是技术原因还是市场导致?本文主要关注于智能语音中合成语音(TTS)部分的市场现状,了解TTS技术的现状,产业链情况,分析了TTS的技术应用场景以及未来的发展难点和趋势。2023年中国语音合成声学(TTS)行业词条报告语音合成(TTS)行业定义1.语音合成又称文语转换(TexttoSpeech,TTS)技术,是语音处理领域的一个重要研究方向,旨在让机器生成自然动听的人类语音。语音合成技术既可以单独适用于不同的场景之内,也可以作为尾部环节嵌入到语音交互的整体方案之中。语音合成的应用可以划分为单向语音输出类和交互类,单一使用单向语音输出类或交互类的场景并不多见,导航技术、阅读、配音、语音播报等场景下,单向语音输出应用比例较大,智能客服、智能机器人、泛娱乐产业、教育等场景下,交互类语音合成使用较多。语音合成(TTS)行业分类2.语音合成技术内部分为前端和后端。前端主要负责文本的语言解析和处理,其处理内容主要包括语种、分词、词性预测、多音字处理、韵律预测、情感等。把文本上的发音的这些信息都预测出来之后,将信息送给TTS的后端系统,后台声学系统融合这些信息之后,将内容转化为语音。后端声学系统发展历程较长,从第一代的语音拼接合成,到第二代的语音参数合成,到第三代端到端合成,后端声学系统的智能化程度逐步增加,训练素材需要标记的详细程度和难度也在逐步减弱。语音合成(TTS)行业特征3.语音合成的产业链上中游融合呈一体化趋势,其中中游有较多新企业出现去填补个性化TTS的空缺,但个性化TTS的制作成本昂贵,因此导致较多企业尚未实现盈利。一旦产品研发成功便能实现高达60%的毛利率,所以TTS行业发展较为成熟,进入难度较大。语音合成(TTS)发展历程4.语音识别技术最早可以追溯到上个世纪50年代的第一个口头数字机器Audrey,大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。进入80年代以后,在研究思路上发生了重大变化,提出了将神经网络技术引入语音识别问题的技术思路。进入90年代以后,在语音识别技术的应用及产品化方面出现了很大的进展。2010年后,机器学习的算法提升和计算机性能进步,基于RNNs神经网络模型,使得语音识别达到更好的精度与准确度,从而在应用领域提供了更多的可能性,带动了相关产品的面世。开始时间:1950结束时间:1980阶段:萌芽期行业动态:贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统,能够理解口头数字的机器Audrey。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。开始时间:1980结束时间:2010阶段:启动期行业动态:研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。同时,在语音识别技术的应用及产品化方面出现了很大的进展。开始时间:2011结束时间:2016阶段:变革发展期行业动态:2010年,机器学习算法和计算机性能的进步带来了更有效的训练深层神经网络(DNN)的方法。因此,语音识别系统开始使用DNNs,更具体地说,是使用一种DNNs的特殊变体,即循环神经网络(RNNs)。此后,基于RNNs的模型表现出比传统模型更好的精度和性能。2016年的语音识别准确度达到了90%。开始时间:2016结束时间:2022阶段:落地应用期行业动态:端到端的语音识别开始广泛运用,针对远场的语音识别和唤醒得到进一步发展,全双工语音交互开始出现,此阶段的语音识别准确率可达98%以上,且能根据实际应用痛点针对性优化。语音合成(TTS)产业链分析5.语音合成的产业链上中下游呈现一定的一体化趋势,尤其是上中游融合趋势较为明显,中游竞争格局已初步显现,下游应用场景多样,商用化落地实现盈利成为重点。为了满足企业自我的语音合成训练的要求,部分大型互联网企业建立自有语音标准公司。同时,语音合成产业链上游由于产业自身存在一定局限,因此,产业链上中游一体化或将成为重要发展趋势。随着5G时代的来临,通讯业逐渐发展,社会整体需要快捷高效的信息传播方式,而语音相比于文字的信息传播速度更高。城市的扩大,人口密度的增加也为用户带来大量碎片化时间,语音内容受到社会欢迎,因此,语音合成也找到了用武之地。语音合成(TTS)长音频行业规模6.中国用户在网络音频上的MAU已经从2019年的342分钟快速增长至2020年的600分钟,长音频市场未来发展潜力巨大,长音频作品大量都基于文字脚本而来,TTS技术能够大大减少将文字转为语音的时间和财务成本,也为长音频作品带来创新体验。根据腾讯音乐2020年Q2到Q3两个季度的财报,公司的长音频授权作品数量同比均迅猛增加三至四倍,内容涉及文学作品、广播剧和脱口秀等各种类型。来自Q3财报的数据显示,长音频用户数进一步提升,其MAU渗透率从去年同期的4.7%提高至11.7%,其中长音频IP授权数量增至去年同期的四倍,持续提升在长音频方面的平均用户时长。中国长音频用户规模头豹研究院测算头豹研究院语音合成(TTS)政策梳理7.政策名称:《国务院关于积极推进“互联网+”行动的指导意见》颁布主体:国务院生效日期:2015-07影响:7政策性质:鼓励性政策政策内容:进一步推进计算机视觉、智能语音处理、生物特征识别、自然语言理解、智能决策控制以及新型人机交互等关键技术的研发和产业化,推动人工智能在智能产品、工业制造。政策解读:此政策推动依托互联网平台提供人工智能公共创新服务,加快人工智能核心技术突破,促进人工智能在智能家居、智能终端、智能汽车、机器人等领域的推广应用,培育若干引领全球人工智能发展的骨干企业和创新团队,形成创新活跃、开放合作、协同发展的产业生态。政策名称:《关于促进“互联网+医疗健康”发展的意见》颁布主体:国务院生效日期:2018-04影响:6政策性质:鼓励性政策政策内容:研发基于人工智能的临床诊疗决策支持系统,开展智能医学影像识别、病理分型和多学科会诊以及多种医疗健康场景下的智能语音技术应用,提高医疗服务效率。政策解读:政策鼓励通过多种医疗健康场景下的智能语音技术应用以提高医疗服务效率,此政策推动了智能语音在医疗行业的运用。政策名称:《最高人民法院关于深化人民法院司法体制综合配套改革的意见》颁布主体:最高人民法院生效日期:2019-02影响:8政策性质:鼓励性政策政策内容:全面提升语音识别技术在庭审语音同步转录中的应用效能,建成全国法院智能语音云平台,实现全国法院语音识别的模型共享和统一管理。政策解读:此政策为智能语音的运用场景提出了建成全国法院智能语音云平台,这对智能语音行业提供了应用场景以及行业的发展方向,也对智能语音对政务上的业务效率提升表示了肯定。政策名称:《鼓励外商投资产业目录(2020年版)》颁布主体:发改委生效日期:2020-12影响:6政策性质:鼓励性政策政策内容:鼓励智能语音、量子通信等设备研发、制造政策解读:此政策鼓励外商进入中国进行智能语音行业的投资,对智能语音行业看好,并在政策上给予相应支持,促进该行业的未来发展以及带动相关的产业。政策名称:《关于进一步优化地方政务服务便民热线的指导意见》颁布主体:国务院办公厅生效日期:2021-01影响:8政策性质:鼓励性政策政策内容:各地区要做好热线接通能力保障建设,提供与需求相适应的人工服务,同时拓展互联网渠道,丰富受理方式,满足企业和群众个性化、多样化需求。加强自助下单、智能文本客服、智能语音等智能化应用,方便企业和群众反映诉求建议。政策解读:该政策为优化政务服务便民热线,对于有效利用政务资源、提高服务效率、加强监督考核、提升企业和群众满意度,鼓励政府加强自助下单、智能文本客服、智能语音等智能化应用,推动了语音合成的场景应用。语音合成(TTS)竞争格局8.当前,中国语音合成产品已经从初步发展走向成熟,语音合成产品的拟人化程度、自然度已实现飞跃,涌现出一批优质企业如科大讯飞等。价格方面:科大讯飞和深声科技的价格最高,价格最低的为百度,其中科大讯飞和百度主要为通用型TTS,深声科技主要为个性化TTS。自然度:科大讯飞保持较大优势,多次在国际语音合成大赛BlizzardChallenge中取得第一名,其MOS值在2019年已经达到了4.5,与真人的4.7区别细微错误率:中国厂商语音合成错误率保持在9.2%~9.8%之间,差距较为微弱语音种类:语音种类的丰富程度也在一定程度上展示了语音合成厂家的能力。科大讯飞凭借19个语种,11种方言,2种民族语言独占鳌头,灵伴科技拥有50种合成音色,为客户提供多种选择可离线程度:从离线程度来看,部分厂商已实现了离线语音合成,但离线语音合成质量各不相同,部分厂商只能实现半离线语音合成或实现在弱网环境下语音合成X轴名称:领域覆盖Y轴名称:价格α轴名称:语音种类β轴名称:自然度x轴为企业的领域覆盖度,y轴为企业产品的价格指数,气泡的大小为企业产品支持的语音种类,气泡颜色的深度为企业产品的自然度。上市公司速览语音合成声学(TTS)代表企业分析9.杭州倒映有声科技有限公司杭州倒映有声科技有限公司融资信息杭州倒映有声科技有限公司竞争优势倒映有声官网