當前位置:首頁 » 軟體系統 » 語音系統大致可以分為
擴展閱讀
什麼軟體可以識別真假銀 2025-05-22 19:00:24
可以曬自己寫的字的app 2025-05-22 18:54:10

語音系統大致可以分為

發布時間: 2022-11-27 00:00:22

A. 四填空題二語音的發生發展大致可以分為什麽階段階段什麼階段什麼階段什麼幾個

語音的發生發展大致可以分為【非自控音階段、咕咕出聲階段、牙牙學語階段、學說話階段、積極言語發展階段。】

B. 語音識別技術的分類

語音識別系統可以根據對輸入語音的限制加以分類。
從說話者與識別系統的相關性考慮
可以將識別系統分為3類:(1)特定人語音識別系統:僅考慮對於專人的話音進行識別;(2)非特定人語音系統:識別的語音與人無關,通常要用大量不同人的語音資料庫對識別系統進行學習;(3)多人的識別系統:通常能識別一組人的語音,或者成為特定組語音識別系統,該系統僅要求對要識別的那組人的語音進行訓練。
從說話的方式考慮
也可以將識別系統分為3類:(1)孤立詞語音識別系統:孤立詞識別系統要求輸入每個詞後要停頓;(2)連接詞語音識別系統:連接詞輸入系統要求對每個詞都清楚發音,一些連音現象開始出現;(3)連續語音識別系統:連續語音輸入是自然流利的連續語音輸入,大量連音和變音會出現。
從識別系統的詞彙量大小考慮
也可以將識別系統分為3類:(1)小詞彙量語音識別系統。通常包括幾十個詞的語音識別系統。(2)中等詞彙量的語音識別系統。通常包括幾百個詞到上千個詞的識別系統。(3)大詞彙量語音識別系統。通常包括幾千到幾萬個詞的語音識別系統。隨著計算機與數字信號處理器運算能力以及識別系統精度的提高,識別系統根據詞彙量大小進行分類也不斷進行變化。目前是中等詞彙量的識別系統到將來可能就是小詞彙量的語音識別系統。這些不同的限制也確定了語音識別系統的困難度。

C. 求教:現代漢語中所謂的語音系統指什麼又包括什麼呢

語音是人類發音器官發出來的具有一定意義的聲音,是語言的外殼。
具有三方面的性質:
一語音的物理性質(音高,音長,音強,音色)
二語音的生理性質(肺部和氣管是發音的動力器官;聲帶是發音的振動器官;口腔和鼻腔是發音的氣流共鳴器官。)
三語音的社會性質(地方特徵,民族特徵)
語音的單位:音節(最自然的語音單位),音素 (母音,輔音,音位)
聲調(陰平,陽平,上聲,去聲)

D. 語音識別的分類應用

根據識別的對象不同,語音識別任務大體可分為3類,即孤立詞識別(isolated word recognition),關鍵詞識別(或稱關鍵詞檢出,keyword spotting)和連續語音識別。其中,孤立詞識別 的任務是識別事先已知的孤立的詞,如「開機」、「關機」等;連續語音識別的任務則是識別任意的連續語音,如一個句子或一段話;連續語音流中的關鍵詞檢測針對的是連續語音,但它並不識別全部文字,而只是檢測已知的若干關鍵詞在何處出現,如在一段話中檢測「計算機」、「世界」這兩個詞。
根據針對的發音人,可以把語音識別技術分為特定人語音識別和非特定人語音識別,前者只能識別一個或幾個人的語音,而後者則可以被任何人使用。顯然,非特定人語音識別系統更符合實際需要,但它要比針對特定人的識別困難得多。
另外,根據語音設備和通道,可以分為桌面(PC)語音識別、電話語音識別和嵌入式設備(手機、PDA等)語音識別。不同的採集通道會使人的發音的聲學特性發生變形,因此需要構造各自的識別系統。
語音識別的應用領域非常廣泛,常見的應用系統有:語音輸入系統,相對於鍵盤輸入方法,它更符合人的日常習慣,也更自然、更高效;語音控制系統,即用語音來控制設備的運行,相對於手動控制來說更加快捷、方便,可以用在諸如工業控制、語音撥號系統、智能家電、聲控智能玩具等許多領域;智能對話查詢系統,根據客戶的語音進行操作,為用戶提供自然、友好的資料庫檢索服務,例如家庭服務、賓館服務、旅行社服務系統、訂票系統、醫療服務、銀行服務、股票查詢服務等等。

E. 語音識別系統包括哪五個部分

隨著AI快速發展的今天,語音識別也成為眾多設備的標配,語音識別開始被越來越多人的關注,國外微軟、蘋果、谷歌,國內的科大訊飛、思必弛、雲知聲等廠商都在研發語音識別新策略新演算法,似乎人類與語音的自然交互漸行漸近。
語音識別是以語音的研究為對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。
語音識別系統本質上是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元。
一套完整的語音識別系統,工作過程分為7步:
1.對語音信號進行分析和處理,除去冗餘信息。
2.提取影響語音識別的關鍵信息和表達語言含義的特徵信息。
3.緊扣特徵信息,用最小單元識別字詞。
4.按照不同語言的各自語法,依照先後次序識別字詞。
5.把前後意思當作輔助識別條件,有利於分析和識別。
6.按照語義分析,給關鍵信息劃分段落,取出所識別出的字詞並連接起來,同時根據語句意思調整句子構成。
7.結合語義,仔細分析上下文的相互聯系,對當前正在處理的語句進行適當修正

F. 讀准普通話的什麼什麼什麼和什麼是學好普通話語音最基本的要求

讀准普通話的聲母、韻母、聲調和音節,是學好普通話語音最基本的要求。普通話語音系統主要包括聲母、韻母、聲調和音節。

一、聲母。普通話22個聲母中有21個由輔音充當,按發音部位這些輔音可以分為唇音、舌尖音、舌面音;按發音方法可以分為塞音、鼻音、擦音、邊音和塞擦音。

二、韻母。它是指音節中聲母後面的部分。
韻母分為韻頭、韻腹和韻尾三部分。一個韻母,可以沒有韻頭,韻尾,但不能沒有韻腹。普通話韻母共有39個,按發音特點可分為開口、齊齒、合口、撮口呼。按結構特點分為單韻母、復韻母和鼻韻母。

三、聲調。它是指聲音的高低升降的變化。在普通話中,聲調是指漢語音節中所固有的,可以區別意義的聲音的高低和升降。普通話有四個聲調:陰平,陽平,上聲,去聲。

四、音節。普通話的音節通常是聲母和韻母組合的拼讀音節,也有兩個韻母組合的拼讀音節,還有單個韻母的音節。普通話中,構成一個完整的讀音,音節和聲調二者缺一不可;音節沒有聲調,不是讀音。普通話約有400多個音節,有1300多個讀音。

普通話語音系統

G. 現代標准漢語的語音系統

以下將以普通話為例,介紹漢語標准語的語音系統。
對漢語而言,單音節(單字)發音可分為聲母、介音、韻母、韻尾、聲調五個要素;超音節(詞句)發音還存在連續變調等要素。對普通話而言,介音、韻母、韻尾則被合成稱為「韻母」。
普通話的聲韻母系統基本沿襲了北京話系統,兩者主要的不同在於zh,ch,sh在北京話多發捲舌音而普通話多發翹舌音;台灣國語則避免發出捲舌音。普通話的聲調亦大體繼承北京話的系統,即陰平55,陽平35,上214,去51,以及輕聲;台灣國語的上則為21。單字聲調 普通話四聲音值在普通話里,只有平聲有陰陽分立,沒有入聲,因此除輕聲外共有四個聲調:
陰平(標為「-」,聲調值55)
陽平(標為「ˊ」,聲調值35)
上聲(「上」讀作shǎng,標為「ˇ」,聲調值214)
去聲(標為「ˋ」,,聲調值51)
此外還有輕聲(標為「·」或不標),在超音節詞句中使用。輕聲是否該稱為聲調,學術界有一定的爭議。
(ma)單音的四個聲調 國語等的音調與普通話相同,單字音調值則有些許區別(上聲為21)。
中古漢語的入聲,在普通話里被劃入各種聲調里。這點與絕大多數漢語方言不同。

H. 漢語語音的歷史發展

古人講話的聲音不可能保留到今天,研究語音的歷史發展,只能依靠古代的文字材料。漢字本身保留了大量的古代語音信息,古代詩歌的用韻和中古以後出現的各種韻書提供了極其豐富的語音資料,從現代方言的比較研究中更可以看出漢語語音演變的種種線索。此外,古代的音譯詞以及漢語和其他漢藏語系語言的比較也都能幫助人們了解漢語語音的歷史發展情況,但是這方面的研究工作還沒有真正展開。
對漢語語音歷史的研究傳統稱為「音韻學」,有悠久的歷史。一般把漢語語音的發展分為 4個時期:①上古音時期──先秦至魏晉(約公元前10~公元 5世紀);②中古音時期──南北朝至唐宋(5~13世紀);③近古音時期──元代和明代(13~17世紀);④現代音時期──清代至現代(17~20世紀)。對各時期的起訖時代目前還有一些不同看法,但前後相差並不很大。每個時期都長達數百年甚至上千年,在一個時期內自然還有不同階段的變化,各時期的方言分歧情況目前也了解很少,因此,研究古代各時期的語音,一般只能選擇具有代表性的語音資料作為各時期語音系統的代表,然後旁及其他材料。
從上古音到現代音的2000多年時間內,漢語語音的基本結構並沒有改變,即音節分為聲母、韻母和聲調3部分,韻母又分為韻頭、韻腹和韻尾。2000多年來漢語語音的演變主要是聲母、韻母和聲調內部的變化,這些變化在現代方言中有時還能反映出來,例如上古音和中古音都有鼻音韻尾【-m】,到現代還保留在廣州話和其他一些方言里。 一般以《詩經》韻腳和諧聲字所反映的語音系統作為代表。《詩經》並非一時一地的作品,諧聲字是用聲旁表音的字(如「途、除、徐、敘、斜」都用聲旁「余」表音),來源更要復雜一些,但這兩種材料反映的語音系統是相當一致的。上古音距今已逾千年,語音資料也較零散,目前只能推測出上古音系的基本輪廓,對其中的細節還有待進一步研究。
上古聲母共有30個左右。其中【p】、 【p『】、 【m】、 【t】、【t嶉】、【n】、【l】、【k】、【k『】、【嬜】、【x】、【堭】、【堭『】、【s】是從上古直到現代絕大多數方言都存在的聲母,表現了漢語聲母的歷史繼承性。上古濁塞音聲母 【b】、【d】、【ɡ】和濁塞擦音【扷】也還保留在現代一些方言里,其餘十幾個聲母的性質則各家說法很不一致。上古很可能還存在 【kl】、【pl】之類的復輔音聲母,例如在諧聲字中,舌根音聲母【k】、【k『】往往和邊音聲母【l】互諧,「各」既可以作「格、閣、客」的聲符,也可以作「洛、路、略」的聲符,這些字很可能原來都是由【kl】之類的復輔音演變來的。對上古音是否有復輔音以及有多少復輔音,目前還有種種不同看法。
根據《詩經》用韻和諧聲字的情況,傳統把上古韻母分為若干韻部,用一個漢字來代表,如「之部、幽部」等等,上古韻部共有30個左右。同韻部的字只是韻腹和韻尾相同,韻頭可以不同,因此每個韻部實際不只包含一個韻母。根據韻尾的不同可以把上古韻部分為陰、陽、入3大類:有鼻音韻尾【-m】、【-n】、【-嬜】的是陽聲韻,有清塞音韻尾【-p】、【-t】、【-k】的是入聲韻,其餘的都屬於陰聲韻。如果韻腹相同,陰陽入 3類往往可以相互押韻或諧聲,如《詩經·鄭風·女曰雞鳴三章》「知子之來之,雜佩以贈之」中,「來」和「贈」押韻,就是因為這兩個字在上古韻腹相同,都是 【?amp;#91;】,只是「來」屬於陰聲韻,「贈」則屬於有鼻音韻尾【-嬜】的陽聲韻,這種押韻現象傳統稱為「陰陽對轉」。
大多數上古韻母的讀音和現代相去甚遠,和中古也有很大區別。例如「姑」現代韻母是 【u】,中古相同或近似,上古時韻母則可能是【a】;「台」現代韻母是【ai】,中古也是類似的復母音,上古時韻母則可能是【?amp;#91;】 。也有一些韻母如【an】、【?amp;#91;n】、【a嬜】、【?amp;#91;嬜】等從上古經中古到現代變化不大,象「班」 【pan】和「登」【t?amp;#91;嬜】 等字的讀音2000多年來並沒有顯著的改變,但這類字究竟是少數。目前對上古音韻頭的多少、韻部的分合以及陰聲韻是否也有輔音韻尾等問題有種種不同看法,還遠沒有取得一致的意見。
現存的上古音語音資料不能系統地反映出上古聲調情況,歷來對上古聲調的看法分歧也最大。目前較有影響的有3種意見:①上古和中古一樣,分為「平、上、去、入」四聲;②上古沒有去聲;③上古只有平聲和入聲,但各分長短兩種。近年來從漢藏系語言的比較研究中又產生一種新意見,認為漢語在遠古時期可能並沒有聲調的分別,聲調是遠古時期不同的韻尾輔音脫落或保存才逐漸產生的。 一般以隋唐時期盛行的韻書《切韻》的語音系統作為代表。魏晉南北朝是從上古音向中古音轉變的時期,南北朝時已經出現了許多供作詩押韻用的韻書,對當時的語音系統做了一定的分析和歸納,隋代陸法言集各家之大成,於 601年編成《切韻》一書。《切韻》的原本和它以前的韻書今已佚,現存的《切韻》都是後人的增訂本,而且大多是殘卷。目前流傳最廣的完整增訂本是宋代陳彭年等編的《大宋重修廣韻》,《廣韻》對《切韻》的增訂主要在字數和釋義,對《切韻》的語音系統並沒有重大的改動,現在研究《切韻》音系一般就都以《廣韻》為主要依據。《廣韻》把當時的語音系統分析歸納為四聲、206 韻,每韻內又根據聲母的不同分為若干小韻,這個語音系統是否代表當時一時一地之音,目前尚無定論,但它能分門別類詳細列舉出隋唐時期聲母、韻母和聲調的情況,是研究中古音最重要的語音資料。
《切韻》並沒有系統地列出它的聲母系統,根據後人分析歸納,大體上是和傳統的三十六字母相當的。三十六字母可能起源於唐末,到宋代經過不斷補充修訂,基本上能代表當時的聲母系統。每個字母用一個漢字來代表,至於它們的實際讀音,經過多年研究,目前已大致取得一致的意見。但為了便於說明中古的聲母系統,目前一般仍沿用三十六字母的名稱,例如,用「幫、滂、並、明」代表中古聲母【p】、【p『】、【b】、【m】,用「端、透、定、泥」代表中古聲母【t】、【t嶉】、【d】、【n】等。上古聲母有相當一部分仍保存在中古音中,但大都經過了較為復雜的分化或合並的過程,並不完全是一對一的關系。
《切韻》把不同聲調的韻母算作不同的韻,每個韻用一個漢字來代表,例如「東韻」、「江韻」、「魚韻」、「真韻」等。在計算中古韻母時,如果只是聲調不同,就只能算是一個韻母,例如「之韻」、「止韻」和「志韻」的分別只在聲調,實際上只是一個韻母。《切韻》共列出193個韻,《廣韻》增訂為206韻,除去聲調的分別不計,只有90多個韻。當時的分類不大重視韻頭的作用,有時把不同韻頭的韻母合並成一個韻,例如,「刪韻」就包括開口呼和合口呼兩類韻母,可是「寒韻」和桓韻又根據開口呼和合口呼的不同分成兩韻。如果把該分開的韻母都分列出來,實際上共有150多個不同的韻母,這說明《切韻》所記錄的韻母系統是相當復雜的。
中古音的韻頭只有 【i-】和 【u-】,但隋唐時期韻頭【i-】可能還分為長短兩類,這樣就有了三種不同的韻頭。中古音的韻腹母音非常豐富,這是中古韻母多達150多個的主要原因。近幾十年對中古韻腹母音的實際讀音做了相當細致的研究和推測,其中大部分已經取得了比較一致的意見。中古音的韻尾繼承了上古陰聲韻、陽聲韻和入聲韻的分別。陰聲韻的韻母除沒有韻尾的(如「歌韻」)以外,還包括母音韻尾【-i】(如「灰韻」)和【-u】(如「豪韻」)。中古陽聲韻的鼻音韻尾和入聲韻的清塞音韻尾與上古相同。在《切韻》的韻母系統中,入聲韻和陽聲韻相配,即【-m】和【-p】相配,【-n】和【-t】相配,【-嬜】和【-k】相配,例如東韻」【-u嬜】和屋韻【-uk】相配,刪韻」【-an】和「轄韻」【-at】相配,「銜韻」【-am】和「狎韻」【-ap】相配等等,形成相當整齊的局面。
中古音的聲調分為「平聲、上聲、去聲、入聲」4類。《切韻》以聲調為綱,在四聲之下分列各韻,後代韻書一般都遵循這種編排方法。平聲、上聲和去聲的分別主要在音節的高低升降不同;入聲則是韻尾收【-p】、【-t】、【-k】的發音短促的入聲韻,和另外三聲的陽聲韻相配,例如「東、董、送、屋四韻的分別就在於「平、上、去、入」四聲不同,至於陰聲韻如之、止、志、「魚、語、御」等則只有「平、上、去」三聲。從中古到現代四聲的發展和聲母的清濁關系很密切,為了便於說明這種關系,習慣上把中古的四聲分為陰陽兩類:中古是清音聲母的稱為「陰平、陰上、陰去、陰入」,如「官、管、灌、括」;中古是濁音聲母的稱為「陽平、陽上、陽去、陽入」,如「郎、朗、浪、樂」。
在唐初,已有人批評《切韻》分韻過細,不利使用,說明《切韻》的語音系統已與當時的口語不盡相合。從《廣韻》開始,已在《切韻》的一些韻目下註明與某韻「同用」,實際就是承認這兩個韻並沒有明顯的區別。到宋末元初時,為了便於作詩,一些韻書根據《廣韻》「同用」的辦法,索性把206韻合並為106韻,這106韻從此成為做舊體詩押韻的規范。最早合並的是平水人劉淵主持刊行的《壬子新刊禮部韻略》(1252),因此世稱這106韻為「平水韻」。平水韻主要只是把《廣韻》韻目中同用各韻加以合並,並不能真正代表宋元時期口語的語音。 一般以元代周德清所編《中原音韻》的語音系統作為代表。《中原音韻》成書於1324年,正是元代戲曲盛行的時期,周德清根據當時北曲作家用韻的情況歸納整理成書,成為寫作北曲用韻的准繩,對中國古代戲曲創作有很大影響。《中原音韻》是專為戲曲而作的,因此能跳出《切韻》系統韻書的窠臼,記錄下活躍於元代舞台上的北方語音系統。至於這個語音系統是否能代表當時的元大都(今北京)的方言,目前尚有不同看法,但它無疑是現代北方官話的源頭,代表了漢語語音發展的一個重要階段。
《中原音韻》所代表的近古音語音系統比《切韻》所代表的中古音語音系統簡單得多,已經相當接近於現代北京話。《中原音韻》改變了《切韻》以聲調為綱的編排方法,改為以韻為綱,各韻之下分列聲調,然後再分為若干小韻,同音字都列在同一小韻內,並沒有單列聲母。根據小韻的分布情況來分析,《中原音韻》可能共有20個聲母(不包括零聲母),和現代北京話已很近似。漢語的聲母系統從中古到近古大大簡化,主要是因為中古大部分濁音聲母到近古變成了清音,除了【m-】、【n-】、【l-】等少數濁音聲母外,其餘都變成清音,和原來的清音聲母合並,例如「步」【b-】並入「布」【p-】,「在」【扷-】並入「再」【堭-】,「似」【z-】並入「四」【s-】等。
《中原音韻》把韻母分為19個韻部,以兩個漢字命名,如「東鍾、江陽、支思」等,這只是韻母的大類,各韻部內還包括韻頭不同的韻母。19個韻部實際共包括40多個韻母,只有中古韻母的 1/3左右,這主要是因為中古入聲韻到近古已經全部消失,和陰聲韻完全合並。此外,中古有不少韻母的韻腹母音非常接近,到近古也合並在一起了,例如「東、冬、鍾」在中古本是3個韻,到近古就合為一韻。近古音的韻頭可能只有【i】和【u】,韻頭【y】 當時是否已經出現,目前還有不同看法,但至遲到明代就已經形成了現代四呼的局面。中古的鼻音韻尾【-m】、【-n】、【-嬜】和母音韻尾【-i】、【-u】在《中原音韻》中仍完整地保存,但不久【-m】就和【-n】合並,只留下了【-n】、【-嬜】兩套鼻音韻尾。中古的塞音韻尾【-p】、【-t】、【-k】由於入聲韻消失,也不復存在,其中有不少並入母音韻尾【-i】、【-u】,如「麥」並入「賣」,「腳」並入「攪」;另一些韻尾則完全失落,和原來的無韻尾韻母合並,如「舌」並入「蛇」,「滑」並入「華」。
《中原音韻》 把聲調分為「陰平、陽平、上聲、去聲」4類,和現代北京話完全相同。中古的平聲根據聲母的清濁到近古分為陰平和陽平兩類:中古清音聲母讀陰平,如「通、詩、坡、春」;中古濁音聲母讀陽平,如「同、時、婆、純」。由於中古濁音聲母到近古大部分都已變成清音,因此陰平和陽平就純粹是聲調的區別了。中古和近古雖然都有上聲和去聲,但內容不盡相同。中古濁音聲母中除【m-】、【n-】、【l-】等少數以外,讀上聲的到近古都變成了去聲,如「上」和「賞」、「杜」和「賭」在中古都讀上聲,但是「上」、「杜」是濁音聲母,到近古就讀成去聲,「賞」、「賭」是清音聲母,仍舊讀上聲。從中古到近古聲調最大的變化是入聲不再獨立成為一類,中古的入聲字到近古分別歸入陽平、上聲和去聲,如「達」歸入陽平,「筆」歸入上聲,「麥」歸入去聲。近古以後,一部分歸入上聲的入聲字又改歸陰平,如「說、瞎、督」,《中原音韻》歸入上聲,現代北京話都讀成陰平。至於《中原音韻》時期入聲是否已經完全消失,目前仍有不同看法,但入聲在當時已喪失獨立作為聲調的地位,則是可以肯定的。
語音的發展是不平衡的,漢語有一些方言到目前還保留著中古音甚至上古音的一些特點。例如,廣州話完整地保存3套塞音韻尾【-p】、【-t】、【-k】和鼻音韻尾【-m】,蘇州話系統地保存濁音聲母【b-】、【d-】、【g-】、【扷-】、【z-】等。至於入聲獨立作為聲調,不但長江以南大部分方言仍然如此,從黃河下游中原地區直至西北地區也有不少方言仍舊有入聲,保存了近古以前漢語聲調的一個重要特點。

I. 語音識別技術的系統結構

一個完整的基於統計的語音識別系統可大致分為三部分:
(1)語音信號預處理與特徵提取;
(2)聲學模型與模式匹配;
(3)語言模型與語言處理、
語音信號預處理與特徵提取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
單詞(句)單元廣泛應用於中小詞彙語音識別系統,但不適合大詞彙系統,原因在於模型庫太龐大,訓練模型任務繁重,模型匹配演算法復雜,難以滿足實時性要求。
音節單元多見於漢語語音識別,主要因為漢語是單音節結構的語言,而英語是多音節,並且漢語雖然有大約1300個音節,但若不考慮聲調,約有408個無調音節,數量相對較少。因此,對於中、大詞彙量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見於英語語音識別的研究中,但目前中、大詞彙量漢語語音識別系統也在越來越多地採用。原因在於漢語音節僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際應用中常把聲母依後續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。由於協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。
語音識別一個根本的問題是合理的選用特徵。特徵參數提取的目的是對語音信號進行分析處理,去掉與語音識別無關的冗餘信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。在實際應用中,語音信號的壓縮率介於10-100之間。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應時間,計算量等。非特定人語音識別系統一般側重提取反映語義的特徵參數,盡量去除說話人的個人信息;而特定人語音識別系統則希望在提取反映語義的特徵參數的同時,盡量也包含說話人的個人信息。
線性預測(LP)分析技術是目前應用廣泛的特徵參數提取技術,許多成功的應用系統都採用基於LP技術提取的倒譜參數。但線性預測模型是純數學模型,沒有考慮人類聽覺系統對語音的處理特點。
Mel參數和基於感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的一些研究成果。實驗證明,採用這種技術,語音識別系統的性能有一定提高。從目前使用的情況來看,梅爾刻度式倒頻譜參數已逐漸取代原本常用的線性預測編碼導出的倒頻譜參數,原因是它考慮了人類發聲與接收聲音的特性,具有更好的魯棒性(Robustness)。
也有研究者嘗試把小波分析技術應用於特徵提取,但目前性能難以與上述技術相比,有待進一步研究。 聲學模型通常是將獲取的語音特徵使用訓練演算法進行訓練後產生。在識別時將輸入的語音特徵同聲學模型(模式)進行匹配與比較,得到最佳的識別結果。
聲學模型是識別系統的底層模型,並且是語音識別系統中最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特徵矢量序列和每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。聲學模型單元大小(字發音模型、半音節模型或音素模型)對語音訓練數據量大小、系統識別率,以及靈活性有較大的影響。必須根據不同語言的特點、識別系統詞彙量的大小決定識別單元的大小。
以漢語為例:
漢語按音素的發音特徵分類分為輔音、單母音、復母音、復鼻尾音四種,按音節結構分類為聲母和韻母。並且由音素構成聲母或韻母。有時,將含有聲調的韻母稱為調母。由單個調母或由聲母與調母拼音成為音節。漢語的一個音節就是漢語一個字的音,即音節字。由音節字構成詞,最後再由詞構成句子。
漢語聲母共有22個,其中包括零聲母,韻母共有38個。按音素分類,漢語輔音共有22個,單母音13個,復母音13個,復鼻尾音16個。
目前常用的聲學模型基元為聲韻母、音節或詞,根據實現目的不同來選取不同的基元。漢語加上語氣詞共有412個音節,包括輕音字,共有1282個有調音節字,所以當在小詞彙表孤立詞語音識別時常選用詞作為基元,在大詞彙表語音識別時常採用音節或聲韻母建模,而在連續語音識別時,由於協同發音的影響,常採用聲韻母建模。
基於統計的語音識別模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相關理論包括模型的結構選取、模型的初始化、模型參數的重估以及相應的識別演算法等。 語言模型包括由識別語音命令構成的語法網路或由統計方法構成的語言模型,語言處理可以進行語法、語義分析。
語言模型對中、大詞彙量的語音識別系統特別重要。當分類發生錯誤時可以根據語言學模型、語法結構、語義學進行判斷糾正,特別是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規則、語言的數學描述模型等有關方面。目前比較成功的語言模型通常是採用統計語法的語言模型與基於規則語法結構命令語言模型。語法結構可以限定不同詞之間的相互連接關系,減少了識別系統的搜索空間,這有利於提高系統的識別。