知识分享|语音识别技术,聆听人工智能世界的声音

Hi

)))  欢迎关注弘和人工智能


随着科技的飞奔
让机器听懂人类语言
已从梦想跨入现实
实现如此科幻的一幕
需要人机交互中重要技术——
语音识别技术



通过利用深度学习技术进行自然语言的深度理解,一直是人们关注的焦点。听音乐不需要自己查找,开灯不需要动手,空调能听懂你的心声……这些场景在很多影视作品中有所表现,也代表了很多人脑海中“智慧生活”的概念。基于此,在人工智能发展的热潮中,自然语言处理成为了各大企业和科研机构角逐的战场。


弘和集团深耕人工智能领域,在人工智能技术产品创新和产业领域应用场景扩展中不断更迭,通过产业智能化改造,语音识别技术融入,可助力产业实现远程信息处理、多模块交互、实时播报、AI识别、交互式语音相应等应用场景功能。


什么是语音识别技术


语音识别,通常称为自动语音识别,英文是Automatic Speech Recognition,缩写为ASR,主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。但是,我们一般理解的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别(Speech To Text, STT)更合适,这样就能与语音合成(Text To Speech, TTS)对应起来。



语音识别系统模型由声学模型和语言模型两个部分组成,声学模型对应于语音到音素的概率计算,语言模型对应于音素到文字的概率计算。

语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是实现人工智能的关键环节。

语音识别发展探索




语音识别技术的发展


1993年到2009年,语音识别一直处于GMM-HMM时代,语音识别率提升缓慢,2000年到2009年语音识别率基本处于停滞状态;2009年随着深度学习技术,特别是DNN的兴起,语音识别框架变为DNN-HMM,语音识别进入了DNN时代,识别精准率得到了显著提升;2015年以后,由于“端到端”技术兴起,语音识别进入了百花齐放时代,语音界都在训练更深、更复杂的网络,同时利用端到端技术进一步大幅提升了语音识别的性能。


发展简介

1

GMM-HMM时代


70年代,语音识别主要集中在小词汇量、孤立词识别方面,使用的方法也主要是简单的模板匹配方法,即首先提取语音信号的特征构建参数模板,然后将测试语音与参考模板参数进行。进入80年代后,研究思路发生了重大变化,从传统的基于模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。基于 GMM-HMM 框架,研究者提出各种改进方法,如动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN 混合模型方法等。这些方法都对语音识别研究产生了深远影响,并为下一代语音识别技术的产生做好了准备。

2

DNN-HMM时代


2006年,Hinton提出深度置信网络(DBN),促使了深度神经网络(DNN)研究的复苏。2011 年底,微软研究院的俞栋、邓力又把 DNN 技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。DNN-HMM主要是用DNN模型代替原来的GMM模型,对每一个状态进行建模,DNN带来的好处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序结构信息,使得对于状态的分类概率有了明显提升,同时DNN还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。

3

端到端时代


语音识别的端到端方法主要是代价函数发生了变化,但神经网络的模型结构并没有太大变化。总体来说,端到端技术解决了输入序列的长度远大于输出序列长度的问题。端到端技术主要分成两类:一类是CTC方法,另一类是Sequence-to-Sequence方法。传统语音识别DNN-HMM架构里的声学模型,每一帧输入都对应一个标签类别,标签需要反复的迭代来确保对齐更准确。端到端技术的突破,不再需要HMM来描述音素内部状态的变化,而是将语音识别的所有模块统一成神经网络模型,使语音识别朝着更简单、更高效、更准确的方向发展。



未来趋势


工业和信息化部批复组建国家智能语音创新中心等4家国家制造业创新中心


2021年,工业和信息化部批复组建国家智能语音创新中心等4家国家制造业创新中心,将围绕多语种语音识别、语音合成、语义理解和专用人工智能语音芯片等研发方向,构建集共性技术研发、测试验证、中试孵化和成果转移转化于一体的创新..,提升我国智能语音行业技术水平和产品竞争力。


随着各种深度神经网络以及端到端技术的兴起,声学模型是近几年非常热门的方向,业界都纷纷发布自己新的声学模型结构,刷新各个数据库的识别记录。由于中文语音识别的复杂性,国内在声学模型的研究进展相对更快一些,主流方向是更深更复杂的神经网络技术融合端到端技术。



随着科技发展趋势和我国政策推动,
人工智能、5G、云计算等技术
将得到进一步加速发展
随着语音识别技术的不断迭代和利用
科技革新引导的创新型发展
人工智能助力产业智能化加速
未来将无限可期!



*参考资料来源: 
《语音识别技术简史》中国科学院研究生院工学博士-陈孝良


标签:
cwddd_com
弘和人工智能 微信号:cwddd_com 扫描二维码关注公众号
优质自媒体

小编推荐

  1. 1 繁星点点伴你入眠什么意思(繁星点点什么歌的歌词)

    大家好,小娟今天来为大家解答繁星点点伴你入眠什么意思以下问题,繁星点点什么歌的歌词很多人还不知道,现在让我们一起来看看吧!1、意思是

  2. 2 等边三角形面积(等边三角形面积公式已知边长)

    大家好,小娟今天来为大家解答等边三角形面积以下问题,等边三角形面积公式已知边长很多人还不知道,现在让我们一起来看看吧!1、等边三角形

  3. 3 湖南最好的大学(湖北最好的大学)

    大家好,小乐今天来为大家解答湖南最好的大学以下问题,湖北最好的大学很多人还不知道,现在让我们一起来看看吧!1、湖南最好10所大学,相关

  4. 4 荔枝英文(荔枝英文名)

    大家好,小乐今天来为大家解答荔枝英文以下问题,荔枝英文名很多人还不知道,现在让我们一起来看看吧!1、litchi 英 [ˈli:ˌtʃi:] 美 [ˈlitʃi]n. 荔枝

  5. 5 百合cp本(百合cp本)

    大家好,小豪今天来为大家解答百合cp本以下问题,百合cp本很多人还不知道,现在让我们一起来看看吧!1、某科学的超电磁炮(搞笑) 恋姬无双系

  6. 6 张胜兵坐诊上海(5月12号)、广州(5月13号)限号20人,请联系助理速约!谢绝空降!

    为轻易恢弘患者就诊,现将武汉知名中医张胜兵2024年5月出诊放置公示如下,请人人凭据需要自行选择就诊时间。如因特别情形或者更改出诊时间,请

  7. 7 这次,被肥西“硬控”了!

    提到肥西特色农产物你最先想到?米线、米饺、照样肥西老母鸡?若是你只知道这些那这个蒲月你必然要来一趟肥西这里的“肥西月月农”运动邀你

  8. 8 绿瘦减肥药三亚药店有售吗(绿瘦减肥产品市场评论)

    大家好,小伟今天来为大家解答绿瘦减肥药三亚药店有售吗以下问题,绿瘦减肥产品市场评论很多人还不知道,现在让我们一起来看看吧!1、三亚机

Copyright 2024 优质自媒体,让大家了解更多图文资讯!