当前位置:首页 » 软件系统 » 语音系统大致可以分为
扩展阅读
苹果怎样清除电池数据 2025-05-22 19:26:53
感冒头晕还可以做运动吗 2025-05-22 19:16:03

语音系统大致可以分为

发布时间: 2022-11-27 00:00:22

A. 四填空题二语音的发生发展大致可以分为什麽阶段阶段什么阶段什么阶段什么几个

语音的发生发展大致可以分为【非自控音阶段、咕咕出声阶段、牙牙学语阶段、学说话阶段、积极言语发展阶段。】

B. 语音识别技术的分类

语音识别系统可以根据对输入语音的限制加以分类。
从说话者与识别系统的相关性考虑
可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。
从说话的方式考虑
也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。
从识别系统的词汇量大小考虑
也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

C. 求教:现代汉语中所谓的语音系统指什么又包括什么呢

语音是人类发音器官发出来的具有一定意义的声音,是语言的外壳。
具有三方面的性质:
一语音的物理性质(音高,音长,音强,音色)
二语音的生理性质(肺部和气管是发音的动力器官;声带是发音的振动器官;口腔和鼻腔是发音的气流共鸣器官。)
三语音的社会性质(地方特征,民族特征)
语音的单位:音节(最自然的语音单位),音素 (元音,辅音,音位)
声调(阴平,阳平,上声,去声)

D. 语音识别的分类应用

根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。
根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。
另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。
语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

E. 语音识别系统包括哪五个部分

随着AI快速发展的今天,语音识别也成为众多设备的标配,语音识别开始被越来越多人的关注,国外微软、苹果、谷歌,国内的科大讯飞、思必弛、云知声等厂商都在研发语音识别新策略新算法,似乎人类与语音的自然交互渐行渐近。
语音识别是以语音的研究为对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。
语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元。
一套完整的语音识别系统,工作过程分为7步:
1.对语音信号进行分析和处理,除去冗余信息。
2.提取影响语音识别的关键信息和表达语言含义的特征信息。
3.紧扣特征信息,用最小单元识别字词。
4.按照不同语言的各自语法,依照先后次序识别字词。
5.把前后意思当作辅助识别条件,有利于分析和识别。
6.按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。
7.结合语义,仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正

F. 读准普通话的什么什么什么和什么是学好普通话语音最基本的要求

读准普通话的声母、韵母、声调和音节,是学好普通话语音最基本的要求。普通话语音系统主要包括声母、韵母、声调和音节。

一、声母。普通话22个声母中有21个由辅音充当,按发音部位这些辅音可以分为唇音、舌尖音、舌面音;按发音方法可以分为塞音、鼻音、擦音、边音和塞擦音。

二、韵母。它是指音节中声母后面的部分。
韵母分为韵头、韵腹和韵尾三部分。一个韵母,可以没有韵头,韵尾,但不能没有韵腹。普通话韵母共有39个,按发音特点可分为开口、齐齿、合口、撮口呼。按结构特点分为单韵母、复韵母和鼻韵母。

三、声调。它是指声音的高低升降的变化。在普通话中,声调是指汉语音节中所固有的,可以区别意义的声音的高低和升降。普通话有四个声调:阴平,阳平,上声,去声。

四、音节。普通话的音节通常是声母和韵母组合的拼读音节,也有两个韵母组合的拼读音节,还有单个韵母的音节。普通话中,构成一个完整的读音,音节和声调二者缺一不可;音节没有声调,不是读音。普通话约有400多个音节,有1300多个读音。

普通话语音系统

G. 现代标准汉语的语音系统

以下将以普通话为例,介绍汉语标准语的语音系统。
对汉语而言,单音节(单字)发音可分为声母、介音、韵母、韵尾、声调五个要素;超音节(词句)发音还存在连续变调等要素。对普通话而言,介音、韵母、韵尾则被合成称为“韵母”。
普通话的声韵母系统基本沿袭了北京话系统,两者主要的不同在于zh,ch,sh在北京话多发卷舌音而普通话多发翘舌音;台湾国语则避免发出卷舌音。普通话的声调亦大体继承北京话的系统,即阴平55,阳平35,上214,去51,以及轻声;台湾国语的上则为21。单字声调 普通话四声音值在普通话里,只有平声有阴阳分立,没有入声,因此除轻声外共有四个声调:
阴平(标为“-”,声调值55)
阳平(标为“ˊ”,声调值35)
上声(“上”读作shǎng,标为“ˇ”,声调值214)
去声(标为“ˋ”,,声调值51)
此外还有轻声(标为“·”或不标),在超音节词句中使用。轻声是否该称为声调,学术界有一定的争议。
(ma)单音的四个声调 国语等的音调与普通话相同,单字音调值则有些许区别(上声为21)。
中古汉语的入声,在普通话里被划入各种声调里。这点与绝大多数汉语方言不同。

H. 汉语语音的历史发展

古人讲话的声音不可能保留到今天,研究语音的历史发展,只能依靠古代的文字材料。汉字本身保留了大量的古代语音信息,古代诗歌的用韵和中古以后出现的各种韵书提供了极其丰富的语音资料,从现代方言的比较研究中更可以看出汉语语音演变的种种线索。此外,古代的音译词以及汉语和其他汉藏语系语言的比较也都能帮助人们了解汉语语音的历史发展情况,但是这方面的研究工作还没有真正展开。
对汉语语音历史的研究传统称为“音韵学”,有悠久的历史。一般把汉语语音的发展分为 4个时期:①上古音时期──先秦至魏晋(约公元前10~公元 5世纪);②中古音时期──南北朝至唐宋(5~13世纪);③近古音时期──元代和明代(13~17世纪);④现代音时期──清代至现代(17~20世纪)。对各时期的起讫时代目前还有一些不同看法,但前后相差并不很大。每个时期都长达数百年甚至上千年,在一个时期内自然还有不同阶段的变化,各时期的方言分歧情况目前也了解很少,因此,研究古代各时期的语音,一般只能选择具有代表性的语音资料作为各时期语音系统的代表,然后旁及其他材料。
从上古音到现代音的2000多年时间内,汉语语音的基本结构并没有改变,即音节分为声母、韵母和声调3部分,韵母又分为韵头、韵腹和韵尾。2000多年来汉语语音的演变主要是声母、韵母和声调内部的变化,这些变化在现代方言中有时还能反映出来,例如上古音和中古音都有鼻音韵尾【-m】,到现代还保留在广州话和其他一些方言里。 一般以《诗经》韵脚和谐声字所反映的语音系统作为代表。《诗经》并非一时一地的作品,谐声字是用声旁表音的字(如“途、除、徐、叙、斜”都用声旁“余”表音),来源更要复杂一些,但这两种材料反映的语音系统是相当一致的。上古音距今已逾千年,语音资料也较零散,目前只能推测出上古音系的基本轮廓,对其中的细节还有待进一步研究。
上古声母共有30个左右。其中【p】、 【p‘】、 【m】、 【t】、【t嶉】、【n】、【l】、【k】、【k‘】、【嬜】、【x】、【堭】、【堭‘】、【s】是从上古直到现代绝大多数方言都存在的声母,表现了汉语声母的历史继承性。上古浊塞音声母 【b】、【d】、【ɡ】和浊塞擦音【扷】也还保留在现代一些方言里,其余十几个声母的性质则各家说法很不一致。上古很可能还存在 【kl】、【pl】之类的复辅音声母,例如在谐声字中,舌根音声母【k】、【k‘】往往和边音声母【l】互谐,“各”既可以作“格、阁、客”的声符,也可以作“洛、路、略”的声符,这些字很可能原来都是由【kl】之类的复辅音演变来的。对上古音是否有复辅音以及有多少复辅音,目前还有种种不同看法。
根据《诗经》用韵和谐声字的情况,传统把上古韵母分为若干韵部,用一个汉字来代表,如“之部、幽部”等等,上古韵部共有30个左右。同韵部的字只是韵腹和韵尾相同,韵头可以不同,因此每个韵部实际不只包含一个韵母。根据韵尾的不同可以把上古韵部分为阴、阳、入3大类:有鼻音韵尾【-m】、【-n】、【-嬜】的是阳声韵,有清塞音韵尾【-p】、【-t】、【-k】的是入声韵,其余的都属于阴声韵。如果韵腹相同,阴阳入 3类往往可以相互押韵或谐声,如《诗经·郑风·女曰鸡鸣三章》“知子之来之,杂佩以赠之”中,“来”和“赠”押韵,就是因为这两个字在上古韵腹相同,都是 【?amp;#91;】,只是“来”属于阴声韵,“赠”则属于有鼻音韵尾【-嬜】的阳声韵,这种押韵现象传统称为“阴阳对转”。
大多数上古韵母的读音和现代相去甚远,和中古也有很大区别。例如“姑”现代韵母是 【u】,中古相同或近似,上古时韵母则可能是【a】;“台”现代韵母是【ai】,中古也是类似的复元音,上古时韵母则可能是【?amp;#91;】 。也有一些韵母如【an】、【?amp;#91;n】、【a嬜】、【?amp;#91;嬜】等从上古经中古到现代变化不大,象“班” 【pan】和“登”【t?amp;#91;嬜】 等字的读音2000多年来并没有显着的改变,但这类字究竟是少数。目前对上古音韵头的多少、韵部的分合以及阴声韵是否也有辅音韵尾等问题有种种不同看法,还远没有取得一致的意见。
现存的上古音语音资料不能系统地反映出上古声调情况,历来对上古声调的看法分歧也最大。目前较有影响的有3种意见:①上古和中古一样,分为“平、上、去、入”四声;②上古没有去声;③上古只有平声和入声,但各分长短两种。近年来从汉藏系语言的比较研究中又产生一种新意见,认为汉语在远古时期可能并没有声调的分别,声调是远古时期不同的韵尾辅音脱落或保存才逐渐产生的。 一般以隋唐时期盛行的韵书《切韵》的语音系统作为代表。魏晋南北朝是从上古音向中古音转变的时期,南北朝时已经出现了许多供作诗押韵用的韵书,对当时的语音系统做了一定的分析和归纳,隋代陆法言集各家之大成,于 601年编成《切韵》一书。《切韵》的原本和它以前的韵书今已佚,现存的《切韵》都是后人的增订本,而且大多是残卷。目前流传最广的完整增订本是宋代陈彭年等编的《大宋重修广韵》,《广韵》对《切韵》的增订主要在字数和释义,对《切韵》的语音系统并没有重大的改动,现在研究《切韵》音系一般就都以《广韵》为主要依据。《广韵》把当时的语音系统分析归纳为四声、206 韵,每韵内又根据声母的不同分为若干小韵,这个语音系统是否代表当时一时一地之音,目前尚无定论,但它能分门别类详细列举出隋唐时期声母、韵母和声调的情况,是研究中古音最重要的语音资料。
《切韵》并没有系统地列出它的声母系统,根据后人分析归纳,大体上是和传统的三十六字母相当的。三十六字母可能起源于唐末,到宋代经过不断补充修订,基本上能代表当时的声母系统。每个字母用一个汉字来代表,至于它们的实际读音,经过多年研究,目前已大致取得一致的意见。但为了便于说明中古的声母系统,目前一般仍沿用三十六字母的名称,例如,用“帮、滂、并、明”代表中古声母【p】、【p‘】、【b】、【m】,用“端、透、定、泥”代表中古声母【t】、【t嶉】、【d】、【n】等。上古声母有相当一部分仍保存在中古音中,但大都经过了较为复杂的分化或合并的过程,并不完全是一对一的关系。
《切韵》把不同声调的韵母算作不同的韵,每个韵用一个汉字来代表,例如“东韵”、“江韵”、“鱼韵”、“真韵”等。在计算中古韵母时,如果只是声调不同,就只能算是一个韵母,例如“之韵”、“止韵”和“志韵”的分别只在声调,实际上只是一个韵母。《切韵》共列出193个韵,《广韵》增订为206韵,除去声调的分别不计,只有90多个韵。当时的分类不大重视韵头的作用,有时把不同韵头的韵母合并成一个韵,例如,“删韵”就包括开口呼和合口呼两类韵母,可是“寒韵”和桓韵又根据开口呼和合口呼的不同分成两韵。如果把该分开的韵母都分列出来,实际上共有150多个不同的韵母,这说明《切韵》所记录的韵母系统是相当复杂的。
中古音的韵头只有 【i-】和 【u-】,但隋唐时期韵头【i-】可能还分为长短两类,这样就有了三种不同的韵头。中古音的韵腹元音非常丰富,这是中古韵母多达150多个的主要原因。近几十年对中古韵腹元音的实际读音做了相当细致的研究和推测,其中大部分已经取得了比较一致的意见。中古音的韵尾继承了上古阴声韵、阳声韵和入声韵的分别。阴声韵的韵母除没有韵尾的(如“歌韵”)以外,还包括元音韵尾【-i】(如“灰韵”)和【-u】(如“豪韵”)。中古阳声韵的鼻音韵尾和入声韵的清塞音韵尾与上古相同。在《切韵》的韵母系统中,入声韵和阳声韵相配,即【-m】和【-p】相配,【-n】和【-t】相配,【-嬜】和【-k】相配,例如东韵”【-u嬜】和屋韵【-uk】相配,删韵”【-an】和“辖韵”【-at】相配,“衔韵”【-am】和“狎韵”【-ap】相配等等,形成相当整齐的局面。
中古音的声调分为“平声、上声、去声、入声”4类。《切韵》以声调为纲,在四声之下分列各韵,后代韵书一般都遵循这种编排方法。平声、上声和去声的分别主要在音节的高低升降不同;入声则是韵尾收【-p】、【-t】、【-k】的发音短促的入声韵,和另外三声的阳声韵相配,例如“东、董、送、屋四韵的分别就在于“平、上、去、入”四声不同,至于阴声韵如之、止、志、“鱼、语、御”等则只有“平、上、去”三声。从中古到现代四声的发展和声母的清浊关系很密切,为了便于说明这种关系,习惯上把中古的四声分为阴阳两类:中古是清音声母的称为“阴平、阴上、阴去、阴入”,如“官、管、灌、括”;中古是浊音声母的称为“阳平、阳上、阳去、阳入”,如“郎、朗、浪、乐”。
在唐初,已有人批评《切韵》分韵过细,不利使用,说明《切韵》的语音系统已与当时的口语不尽相合。从《广韵》开始,已在《切韵》的一些韵目下注明与某韵“同用”,实际就是承认这两个韵并没有明显的区别。到宋末元初时,为了便于作诗,一些韵书根据《广韵》“同用”的办法,索性把206韵合并为106韵,这106韵从此成为做旧体诗押韵的规范。最早合并的是平水人刘渊主持刊行的《壬子新刊礼部韵略》(1252),因此世称这106韵为“平水韵”。平水韵主要只是把《广韵》韵目中同用各韵加以合并,并不能真正代表宋元时期口语的语音。 一般以元代周德清所编《中原音韵》的语音系统作为代表。《中原音韵》成书于1324年,正是元代戏曲盛行的时期,周德清根据当时北曲作家用韵的情况归纳整理成书,成为写作北曲用韵的准绳,对中国古代戏曲创作有很大影响。《中原音韵》是专为戏曲而作的,因此能跳出《切韵》系统韵书的窠臼,记录下活跃于元代舞台上的北方语音系统。至于这个语音系统是否能代表当时的元大都(今北京)的方言,目前尚有不同看法,但它无疑是现代北方官话的源头,代表了汉语语音发展的一个重要阶段。
《中原音韵》所代表的近古音语音系统比《切韵》所代表的中古音语音系统简单得多,已经相当接近于现代北京话。《中原音韵》改变了《切韵》以声调为纲的编排方法,改为以韵为纲,各韵之下分列声调,然后再分为若干小韵,同音字都列在同一小韵内,并没有单列声母。根据小韵的分布情况来分析,《中原音韵》可能共有20个声母(不包括零声母),和现代北京话已很近似。汉语的声母系统从中古到近古大大简化,主要是因为中古大部分浊音声母到近古变成了清音,除了【m-】、【n-】、【l-】等少数浊音声母外,其余都变成清音,和原来的清音声母合并,例如“步”【b-】并入“布”【p-】,“在”【扷-】并入“再”【堭-】,“似”【z-】并入“四”【s-】等。
《中原音韵》把韵母分为19个韵部,以两个汉字命名,如“东钟、江阳、支思”等,这只是韵母的大类,各韵部内还包括韵头不同的韵母。19个韵部实际共包括40多个韵母,只有中古韵母的 1/3左右,这主要是因为中古入声韵到近古已经全部消失,和阴声韵完全合并。此外,中古有不少韵母的韵腹元音非常接近,到近古也合并在一起了,例如“东、冬、钟”在中古本是3个韵,到近古就合为一韵。近古音的韵头可能只有【i】和【u】,韵头【y】 当时是否已经出现,目前还有不同看法,但至迟到明代就已经形成了现代四呼的局面。中古的鼻音韵尾【-m】、【-n】、【-嬜】和元音韵尾【-i】、【-u】在《中原音韵》中仍完整地保存,但不久【-m】就和【-n】合并,只留下了【-n】、【-嬜】两套鼻音韵尾。中古的塞音韵尾【-p】、【-t】、【-k】由于入声韵消失,也不复存在,其中有不少并入元音韵尾【-i】、【-u】,如“麦”并入“卖”,“脚”并入“搅”;另一些韵尾则完全失落,和原来的无韵尾韵母合并,如“舌”并入“蛇”,“滑”并入“华”。
《中原音韵》 把声调分为“阴平、阳平、上声、去声”4类,和现代北京话完全相同。中古的平声根据声母的清浊到近古分为阴平和阳平两类:中古清音声母读阴平,如“通、诗、坡、春”;中古浊音声母读阳平,如“同、时、婆、纯”。由于中古浊音声母到近古大部分都已变成清音,因此阴平和阳平就纯粹是声调的区别了。中古和近古虽然都有上声和去声,但内容不尽相同。中古浊音声母中除【m-】、【n-】、【l-】等少数以外,读上声的到近古都变成了去声,如“上”和“赏”、“杜”和“赌”在中古都读上声,但是“上”、“杜”是浊音声母,到近古就读成去声,“赏”、“赌”是清音声母,仍旧读上声。从中古到近古声调最大的变化是入声不再独立成为一类,中古的入声字到近古分别归入阳平、上声和去声,如“达”归入阳平,“笔”归入上声,“麦”归入去声。近古以后,一部分归入上声的入声字又改归阴平,如“说、瞎、督”,《中原音韵》归入上声,现代北京话都读成阴平。至于《中原音韵》时期入声是否已经完全消失,目前仍有不同看法,但入声在当时已丧失独立作为声调的地位,则是可以肯定的。
语音的发展是不平衡的,汉语有一些方言到目前还保留着中古音甚至上古音的一些特点。例如,广州话完整地保存3套塞音韵尾【-p】、【-t】、【-k】和鼻音韵尾【-m】,苏州话系统地保存浊音声母【b-】、【d-】、【g-】、【扷-】、【z-】等。至于入声独立作为声调,不但长江以南大部分方言仍然如此,从黄河下游中原地区直至西北地区也有不少方言仍旧有入声,保存了近古以前汉语声调的一个重要特点。

I. 语音识别技术的系统结构

一个完整的基于统计的语音识别系统可大致分为三部分:
(1)语音信号预处理与特征提取;
(2)声学模型与模式匹配;
(3)语言模型与语言处理、
语音信号预处理与特征提取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。从目前使用的情况来看,梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性(Robustness)。
也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。 声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。
声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。
以汉语为例:
汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再由词构成句子。
汉语声母共有22个,其中包括零声母,韵母共有38个。按音素分类,汉语辅音共有22个,单元音13个,复元音13个,复鼻尾音16个。
目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。
基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。 语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。
语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。