91小视频版在线观看www-91小视频app-91香蕉在线看私人影院-91香蕉在线-91香蕉影院-91香蕉影视

公務員期刊網 精選范文 語音識別范文

語音識別精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的語音識別主題范文,僅供參考,歡迎閱讀并收藏。

第1篇:語音識別范文

【關鍵詞】語言識別;隱含馬爾可夫模型

一、語言的實質

人們平時在說話時,腦子是一個信息源;人們的喉嚨(聲帶),空氣,就是如電線和光纜般的信道;聽眾耳朵的就是接收端(信宿),而聽到的聲音就是傳送過來的信號;語言在這一過程中充當信息載體的角色,即消息。這就是人類通過語言交流的實質。

二、語音識別

語音識別是指從語音到文本的轉換,即讓計算機能夠把人發出的有意義的話音變成書面子語言。通俗地說就是讓機器能夠聽懂人說的話。所謂聽懂,有兩層意思,一是指把用戶所說的話逐詞逐句轉換成文本;二是指正確理解語音中所包含的要求,作出正確的應答。

三、HMM原理

隱馬爾可夫模型(HMM)可以用五個元素來描述,包括2個狀態集合和3個概率矩陣:

1.隱含狀態S

是馬爾可夫模型中實際所隱含的狀態,這些狀態之間滿足馬爾可夫性質。這些狀態通常無法通過直接觀測而得到。

2.可觀測狀態O

在模型中與隱含狀態相關聯,可通過直接觀測而得到,可觀測狀態的數目不一定要和隱含狀態的數目一致。

3.初始狀態概率矩陣π

表示隱含狀態在初始時刻t=1的概率矩陣,(例如t=1時,P(S1)=p1、P(S2)=P2、P(S3)=p3,則初始狀態概率矩陣 π=[p1 p2 p3].

4.隱含狀態轉移概率矩陣A。

描述了HMM模型中各個狀態之間的轉移概率。其中Aij = P( Sj | Si ),1≤i,,j≤N.

表示在 t 時刻、狀態為 Si 的條件下,在 t+1 時刻狀態是 Sj 的概率。

5.觀測狀態轉移概率矩陣 B

令N代表隱含狀態數目,M代表可觀測狀態數目,則:

Bij=P(Oi | Sj), 1≤i≤M,1≤j≤N.

表示在 t 時刻、隱含狀態是 Sj 條件下,觀察狀態為Oi的概率。

總結:一般的,可以用λ=(A,B,π)三元組來簡潔的表示一個隱馬爾可夫模型。隱馬爾可夫模型實際上是標準馬爾可夫模型的擴展,添加了可觀測狀態集合和這些狀態與隱含狀態之間的概率關系。

當人們觀測到語音信號o1,o2,o3時,要根據這組信號推測出發送的句子s1,s2,s3。顯然,人們應該在所有可能的句子中找最有可能性的一個。用數學語言來描述,就是在已知o1,o2,o3,...的情況下,求使得條件概率:

P(s1,s2,s3,...|o1,o2,o3....)達到最大值的那個句子s1,s2,s3,...。例如,當人們聽見(ni shi shui a),按經驗、語言環境就能判斷出對方所說的是“你是誰啊”的概率最大,而不是其他的句子。

四、HMM基本步驟

對HMM來說,有如下三個重要假設,盡管這些假設是不現實的。

假設1:馬爾可夫假設(狀態構成一階馬爾可夫鏈)

P(Xi | Xi-1…X1)=P(Xi | Xi-1)

假設2:不動性假設(狀態與具體時間無關)

P(Xi+1 | Xi)=P(Xj+1 | Xj),?坌i,j

假設3:輸出獨立性假設(輸出僅與當前狀態有關)

P(O1,…,OT | X1,…,XT)=?裝P(Ot | Xt)

隱藏的狀態和可觀察到的狀態之間有一種概率上的關系,也就是說某種隱藏狀態H被認為是某個可以觀察的狀態O1是有概率的,假設為 P(O1 | H)。如果可以觀察的狀態有3種,那么很顯然 P(O1 | H)+P(O2 | H)+ P(O3 | H)=1。

這樣,我們也可以得到一個另一個矩陣,稱為混淆矩陣 (confusion matrix)。這個矩陣的內容是某個隱藏的狀態被分別觀察成幾種不同的可以觀察的狀態的概率。

下圖明確的表示出模型的演化,其中綠色的圓圈表示隱藏狀態,紫色圓圈表示可觀察到狀態,箭頭表示狀態之間的依存概率,一個HMM可用一個5元組{N,M,π,A,B}表示,其中N表示隱藏狀態的數量,我們要么知道確切的值,要么猜測該值,M表示可觀測狀態的數量,可以通過訓練集獲得,π={πi}為初始狀態概率,A={aij}為隱藏狀態的轉移矩陣Pr(xt(i) | xt-1(j)),B={bik}表示某個時刻因隱藏狀態而可觀察的狀態的概率,即混淆矩陣,Pr(ot(i) | xt(j))。在釤轉移矩陣和混淆矩陣中的每個概率都是時間無關的,即當系統演化時,這些矩陣并不隨時間改變。對于一個N和M固定的HMM來說,用λ={π,A,B}表示HMM參數。

在正常的馬爾可夫模型中,狀態對于觀察者來說是直接可見的。這樣狀態的轉換概率便是全部的參數。而在隱馬爾可夫模型中,狀態并不是直接可見的,但受狀態影響的某些變量則是可見的。每一個狀態在可能輸出的符號上都有一概率分布。因此輸出符號的序列能夠透露出狀態序列的一些信息。

五、向前向后算法

下面介紹前向后向算法的參數學習過程,在學習的過程中,不斷更新HMM的參數,從而使得P(O | λ)最大。我們假設初始的 HMM 參數為λ={π,A,B},首先計算前向變量?琢和后向變量 ?茁,再根據剛剛介紹的公式計算期望?孜和ζ,最后,根據下面的3個重估計公式更新HMM參數。

參考文獻:

第2篇:語音識別范文

關鍵詞:語音識別;語音截止頻率;最大似然線性回歸;模型自適應

1 引言

在實際應用場合,語音識別系統往往會受到說話人的改變、信道失真、環境噪聲等各種語音變異性的干擾,從而導致預先訓練的聲學模型與實際環境下提取的聲學特征之間存在較大的差異。因而需要對聲學模型或聲學特征進行補償,減小環境失配的影響,提高語音識別系統在實際環境下的識別性能。

模型自適應是一種減小環境失配的有效方法,它通過測試環境下的自適應數據調整預先訓練的聲學模型的參數,使之與當前環境相匹配。一般來說,聲學模型包含較多的參數,如果每個參數都獨立更新,則需要大量的自適應數據,這在實際應用中很難做到。因此,通常假設聲學模型的若干個高斯單元共享同一個環境變換關系,將這些高斯單元的自適應數據合并,估計同一組變換參數。最大似然線性變換[1](MLLR: Maximum Likelihood Linear Regression)是一種常用的模型自適應算法,它假設測試環境聲學模型與訓練環境聲學模型之間符合仿射變換關系,只需要通過仿射變換將訓練環境聲學模型每個高斯單元的均值和方差變換到測試環境,即可得到測試環境聲學模型。

在諧波噪聲模型中,語音可以分解為一系列正弦諧波與噪聲的疊加。在大部分語音幀中,諧波僅僅分布在頻譜的低頻段,因此可以將語音的頻譜劃分為兩個不同的部分:低頻諧波部分和高頻非周期部分,這兩個部分的分界頻率就稱為語音截止頻率。確定語音截止頻率的主要方法有分析綜合法、譜域方法和時域方法[2]。在大多數應用場合下,背景噪聲是寬帶的,它會同時影響語音的低頻段和高頻段。但在低頻諧波部分,語音的能量一般遠大于該頻段的噪聲能量,噪聲的影響較小;而在高頻非周期部分,語音的能量很小,更易受噪聲影響,通常會被噪聲覆蓋。因而可以認為含噪語音的低頻段是有用的語音諧波,而高頻段主要是噪聲信息。這樣,在語音識別中,根據環境噪聲的類型和信噪比,估計當前環境下的語音截止頻率,僅用語音的低頻諧波部分構建聲學特征,可以得到更好的識別效果。

文章提出了一種基于語音截止頻率的最大似然線性回歸算法。在該算法中,首先從測試環境下的少量自適應數據中提取當前測試環境的語音截止頻率,并用其作為頻率上限,提取語音的特征參數;然后,將聲學模型每個高斯單元的均值向量和協方差矩陣從倒譜域變換到對數譜域,根據語音截止頻率,忽略高頻分量,再變換回倒譜域;最后,根據測試環境下的少量自適應數據,利用MLLR算法對聲學模型的參數進行調整,使其與當前環境相匹配。

2 基于語音截止頻率的最大似然線性回歸算法

2.1 訓練過程

在訓練階段,首先用Mel濾波器組將語音的有效頻譜劃分為N個Mel頻帶,設第i個Mel頻帶的上限頻率為fi,這N個上限頻率即為語音截止頻率的取值范圍。然后,為每個語音單元的發音樣本提取倒譜特征參數,訓練生成該語音單元的聲學模型。在語音識別中,聲學模型一般為隱馬爾可夫模型(HMM: Hidden Markov Model),其每個狀態的概率密度函數用一個高斯混和模型(GMM: Gaussian Mixture Model)來描述。這些預先訓練得到的聲學模型可能與實際應用環境并不匹配,因此在測試階段需要對其參數進行調整后,才能用于語音識別。

2.2 測試過程

2.2.1 確定語音截止頻率

用譜域方法從測試環境下的少量自適應數據中提取測試語音頻譜的截止頻率,并將其映射到Mel頻帶的上限頻率fi上,用與其最接近的Mel頻帶上限頻率作為當前測試環境的語音截止頻率。

2.2.2 特征提取

用當前測試環境的語音截止頻率作為頻率上限,提取測試語音的倒譜特征參數,即只保留截止頻率以下的Mel頻帶,忽略其以上的Mel頻帶。特征提取的步驟包括:聲學預處理、快速傅里葉變換、Mel濾波、取對數、離散余弦變換和時域差分。

2.2.3 高斯降維

因為在特征提取中根據語音截止頻率對語音的特征參數進行了降維,為了與特征參數一致,聲學模型每個高斯單元的均值向量與協方差矩陣也必須降維。將每個語音單元聲學模型的均值向量和協方差矩陣從倒譜域變換到對數譜域,根據語音截止頻率,忽略均值和方差的高頻Mel分量,再變換回倒譜域,即可得到與測試環境特征參數的頻率范圍一致的聲學模型。

2.2.4 模型變換

由于背景噪聲、信道失真、說話人的改變等各種因素的影響,高斯降維后的聲學模型可能與實際測試環境并不匹配,甚至相差很遠。為了減小環境失配的影響,需要對聲學模型的參數進一步調整。首先通過聚類算法將聲學模型的高斯單元劃分為若干類,假設每一類的全部高斯單元符合同一個仿射變換關系。然后,將每一類全部高斯單元的自適應數據合并,根據最大似然準則估計該類仿射變換的參數。得到變換參數后,對聲學模型各類高斯單元的均值向量和協方差矩陣進行變換,即可得到測試環境聲學模型。測試環境聲學模型的狀態初始概率分布、狀態轉移概率矩陣和高斯混和系數與訓練環境聲學模型一致。

2.2.5 語音識別

得到測試環境聲學模型后,即可對當前測試環境下提取的特征參數進行聲學解碼,得到識別結果。

3 結束語

語音識別系統在實際應用中不可避免地要受到背景噪聲的干擾,而噪聲主要影響語音的高頻非周期部分,因此在噪聲環境下僅用語音頻譜的低頻諧波部分進行語音識別可以取得更好的識別效果。文章將語音截止頻率用于聲學模型的參數自適應,提出了一種基于語音截止頻率的最大似然線性回歸算法,從測試環境下的少量自適應數據中提取當前測試環境的語音截止頻率,提取測試語音的特征參數,并將聲學模型每個高斯單元的均值和方差從倒譜域變換到對數譜域,根據語音截止頻率忽略其高頻分量,再變換回倒譜域,然后利用MLLR算法對聲學模型的參數進一步調整,得到測試環境聲學模型。基于語音截止頻率的最大似然線性回歸算法優于傳統的MLLR算法,在噪聲補償中具有更好的魯棒性。

參考文獻

第3篇:語音識別范文

關鍵詞: 語音識別;DHMM;Viterbi;嵌入式系統;ARM

中圖分類號:TP399 文獻標識碼:A文章編號:1006-4311(2012)04-0126-020引言

隨著計算機技術的飛速發展,各種各樣的應用層出不窮,其中使用語音與計算機程序進行交互成為了最近熱門的研究方向。語音作為人類與計算機之間無形的連接方式,可以使人們方便、快捷地控制和使用計算機。語音識別技術是能夠讓原來非智能的計算設備理解人類思想的高科技技術,融合了信號處理、人工智能以及自動化等多學科、多領域的研究成果,是目前實現人工智慧的主要途徑之一。

根據不同的分類標準,語音識別可分為不同的種類,例如依據識別對象的不同,可分為特定人語音識別及非特定人語音識別;又根據人類的講話方式可分為孤立詞識別、連接詞識別以及連續語音識別。不同的識別系統雖然在語音識別過程中步驟相似,但根據不同系統的需求及特點其實現方式及具體細節是不同的[1]。

嵌入式技術的迅猛進步,使得語音識別技術的應用更加廣泛,不再局限于實驗室以及大型場合;其已經被嵌入各種移動設備,為人們對移動設備的操作方式提供了一種嶄新途徑和使用體驗。本文就針對移動設備的特點,設計了一種面向非特定人的孤立詞語音識別系統。

1語音識別的工作原理

原始的自然語音信號中不僅含有人體自身的聲音信號,同樣也包含了大量的雜音、噪聲等混雜在一起的隨機干擾信號,尤其作為移動、嵌入式設備被使用者隨身攜帶使用,會有更多的環境噪聲信號。針對大量噪聲的數據計算以及嵌入式設備有限的計算資源,為保證系統的對自然語言的正確識別率,并且有效減少處理原始語音信號的大量數據密集計算,有必要研究語音信號的預處理技術,以期高效提取語音特征參數,并選取合適的壓縮算法進行語音數據壓縮,之后再進行語音的模式匹配[2]。

如圖1所示,人本身的語音信號從語音錄入設備進入后,將進行預處理、端點檢測、特征提取,轉換為可以對比的信號參數,然后將特征參數通過選取的特征匹配方法與參考樣例庫中的模板樣例進行語言匹配,選擇符合度最大的語言樣例進行相應處理,得出識別結果。

2系統硬件設計

系統的硬件結構示意圖如圖2所示。

系統的處理核心采用了韓國三星公司的一款基于ARM 920T內核的S3C2440微處理器;此款處理器中的CMOS宏單元和存儲單元采用了0.18um電子工藝,內部總線采用Advanced Microcontroller Bus Architecture(AMBA)新型總線結構,具備出色的全靜態設計,利用了多項低功耗技術,系統架構精簡,特別為價格和功耗敏感的應用而精心打造。除此之外,它特別為各種外設準備了豐富的中斷處理資源,包括總計共有60個中斷源(其中包括5個定時器硬中斷,9個串口中斷,24個外部中斷,1個看門狗定時器,4個DMA,2個ADC,1個LCD,1個電池故障,1個IIC,2個SPI,1個SDI,2個USB,1個NAND FLASH口,2個視頻口和1個AC97音頻口),這些中斷既可以使用電平/邊沿觸發模式進行外部中斷的觸發,也可以使用軟件編程的方式改變邊沿/電平觸發極性,能夠為緊急中斷請求提供快速中斷(FIQ)服務[3]。

系統工作時,人的語音信號經過MIC輸入,并通過濾波、去噪等操作后,在S3C2440上執行語音特征提取、語音模式匹配算法,最終輸出結果;系統中的USB接口可以方便系統外擴各種標準USB外設,以便使用語音識別結果進行各種設備控制。

3系統軟件設計

3.1 Linux內核移植移植Linux內核一般分為幾個固定的步驟,目前較為流行快速開發方法通常先在內核的處理器架構目錄下,選擇與目標開發板硬件結構最接近的并且各種配置較為完善的開發板目錄作為移植模板。接著針對本開發板與目標開發板的硬件具體差別,進行對應的修改或使用前人的移植補丁進行升級。針對本開發板,我們使用了穩定的Linux-2.6.15內核進行移植,考慮到本系統的具體硬件配置,最后選擇了SMDK2440開發板模板作為移植的目標開發板模板。在編譯和配置內核前,建議使用menuconfig或其它配置工具對內核進行適當的裁剪,還可以進一步編寫配置腳本。嵌入式Linux內核的裁減類似于PC上Linux內核的裁減,主要的工作是根據硬件和系統需求增添需要支持的模塊,并除去無用的功能模塊,以使Linux內核與目標硬件系統緊密相依,但要注意嵌入式Linux內核的特征是小、精、有效。內核的編譯則通常是通過修改根目錄以及其它子目錄下的Makefile,以及在預編譯前設置編譯參數值時進行選定,或是使用編譯工具[4]。

最后,使用make工具生成U-boot可以識別的uImage引導程序鏡像文件。uImage鏡像文件通過U-Boot引導程序從FLASH中取出并解壓縮,裝入內存后,Linux內核便取得系統控制權。

Linux內核移植的整個過程如圖3所示。

3.2 系統軟件設計整個系統軟件結構如圖4所示。面向終端用戶的軟件形勢分為兩種:web插件和普通的軟件界面;web插件可以使用在瀏覽器中,方面用戶控制網頁瀏覽。下面是命令解析層Command layer,負責解釋兩種界面發送的命令,調用相應的程序接口并返回執行后的結果。功能模塊Function modules主要封裝軟件API,負責提供各種常用的功能服務。控制模塊Control modules負責管理和控制語音識別引擎,建立語音樣例庫以及調整語音設備引擎的內部參數,將來還可以加入新的語音模式匹配算法。再下面一層是統一APIs層,主要對核心語音識別引擎進行簡單的API封裝,同時預留了將來要擴展的功能接口,以便后續的功能升級和代碼維護;最下面的就是核心語音識別引擎,主要提供模式匹配算法以及對底層系統級的控制功能。

3.3 語音識別算法本語音識別系統的識別任務主要為針對設備持有者的小詞匯量孤立詞的語音識別,功能較為簡單,需要使用者進行一定量的訓練后,系統對應建立語音樣例庫,然后針對每次的聲音進行模式匹配即可,所以算法的重點在于模式匹配算法。綜合計算性能需要、存儲資源消耗以及價格成本考慮,目前流行的DHMM語言識別模型對本系統較為合適。DHMM模型是一種隨機統計過程,通過大量的模板訓練過程提取語音特征,可滿足語音實時變化且識別實時性要求較高的應用場合。

本系統采用了當前性價比較高的Viterbi算法實現DHMM模型。Viterbi算法可以由如下公式描述[5]:

?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)

其中,?啄t(i)為被識別語音序列t時刻的最大概率密度;其中t時刻前經過的語音狀態序列為s1,s2,...st,且t時刻狀態為si,對應輸出觀察符序列為O1,O2,...Ot。

4結束語

人類與計算機之間的交流的方式經過了按鍵輸入、鍵盤輸入、手寫輸入以及觸摸輸入的階段,但這已經不能滿足人們對于便捷、快速輸入的更高需求,而語音識別技術的發展和應用,使得人們看到了計算機輸入的未來趨勢。相信隨著電子技術和信號處理技術的進一步提高,語音輸入將會廣泛應用于各種計算機以及嵌入式設備中。

參考文獻:

[1]馬莉,黨幼云.特定人孤立詞語音識別系統的仿真與分析[J].西安工程科技學院學報,2007,(03).

[2]邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協論壇(下半月),2010,(03).

[3]涂剛,陽富民等.嵌入式操作系統綜述[J].計算機應用研究,2000,17(11):4-6.

第4篇:語音識別范文

關鍵詞:嵌入式系統;語音識別;隱馬爾可夫;智能家居

中圖分類號:TP316.9

文獻標識碼:A

DOI:10.3969/j.issn.1003-6970.2015.07.021

0 引言

隨著計算機的發展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網絡技術實現家居設備集成,為用戶提供了更加舒適高效的環境。近幾年人們對智能家居的便利程度提出了更高的要求,同時語音識別技術也進一步的發展,但是語音在智能家居中的應用還是相對較少,一般還要依靠遙控、手機等中控設備。語言是信息交流的重要手段,語音識別可以用聲音來控制設備完成一些特定的命令,減少用戶如手機,遙控等中控設備的依賴,使生活更加方便。

本文通過對語音識別技術與嵌入式控制技術的研究,用語音命令實現直接管控從而可以取代以往利用手機或者遙控方式來控制的方法,方便操作而又能提高效率。本系統基于NL6621板與語音芯片VS1003實現語音采集,并采用當今語音識別領域的主流技術一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實現對人語音命令的識別主要是進行模型訓練和匹配。實驗證明在多個語音樣本對系統的訓練識別下,系統在非特定人、孤立詞語識別上具有良好的效果。

1 語音識別與智能家居

1.1 語音識別技術

語音識別技術本質上是一種模式匹配識別的過程,是機器通過識別和理解過程把語音信號轉變成相應的文本文件或命令的技術。根據模式匹配過程語音識別系統可以如下圖表示。語音識別系統可以分為:特定人和非特定人的識別、獨立詞和連續詞的識別等,無論哪種識別系統識別過程都主要包括了語音信號預處理、特征提取、訓練等。分別通過對信號的預處理分析和計算建立模板,當對語音進行識別時,需要將輸入的語音與系統中存放的語音進行比較從而得到識別結果。

1.2 語音識別算法

人的言語過程是一個雙重隨機過程。因為語音信號本身是一個可觀察的序列,而它又是由大腦里的不可觀察的、根據言語需要和語法知識狀態選擇所發出的音素(詞、句)的參數流,大量實驗表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號的產生過程。隱馬爾可夫模型是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程,采用HMM進行語音識別,實質上是一種概率運算,根據訓練集數據計算得出模型參數后,測試集數據只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。一階離散馬爾可夫模型可表示為:有N個狀態,Sl,S2... SN,存在一個離散的時間序列t=0,t=1…在每個時刻t,系統只能處于唯一一個狀態qt,下一個時刻所處的狀態是隨機出現的,當前狀態qt只與前面相鄰的一個狀態qt-l有關, 與其他狀態無關,用表達式

HMM語音識別的一般過程:

1.前向后向算法計算

已知觀測序列 和模型 ,如何有效的計算在給定模型條件下產生觀測序列O的概率

2.Baum-Welch算法求出最優解 :

(1)初始化

(2)迭代計算

(3)最后計算

3.Viterbi算法解出最佳狀態轉移序列:

已知觀測序列 和模型 ,如何選擇在某種意義上最佳的狀態序列。

(1)初始化

(2)迭代計算:

4.根據最佳狀態序列對應的九給出候選音節或聲韻母

5.通過語言模型形成詞和句子

2 基于NL6621嵌入式硬件設計

語音識別的硬件平臺主要包括中央處理器NL6621,可讀寫存儲器,聲卡芯片vs1003以及一些設備,硬件體系結構如圖2所示。

主系統使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護設置以及WMM-PS和WPA/WPA2安全協議。codec芯片是vs1003,它與核心控制器NL6621的數據通信是通過SPI總線方式進行的。它集成了麥克風輸入接口,音頻輸出接口,對話筒輸入或者線路輸入進行IMA ADPCM編碼,能有效的接受和播放音頻信息。

硬件電路實現:VS1003通過xCS、xDCS引腳的置高或低來確認是哪一個接口處于傳送狀態。通過串行命令接口(SCI)和串行數據接口(SDI)來接收NL6621的控制命令和數據,通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復位、暫停、音量控制、播放時間的讀取等,均是通過SCI口寫入特定寄存器實現的。兩條SCI指令之間要通過DREQ引腳信號判斷上一次處理是否完成。

3 基于NL6621嵌入式軟件設計

軟件設計主要包括兩部分實現軟件控制嵌入式系統和基于HMM技術的語音識別算法編寫,基本的軟件架構如圖3所示。

針對嵌入式系統控制部分,包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發包,利用SDK編寫應用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉化、程序編寫完成后需要用燒寫工具進行燒寫。系統啟動后,先初始化硬件模塊。然后系統開始工作,通過語音輸入設備MIC采集語音,并通過聲卡VS1003輸入語音。當系統監聽到語音輸入,開始語音識別,判斷識別是否正確,若正確,將命令發送給執行設備,入耳不正確,給出相應

的錯誤提示,不執行語音命令。判斷識別是否結束,如果結束則退出,否則繼續下一輪的識別。基于HMM技術的語音識別算法編寫,還包括了語音預處理,特征值提取和匹配識別的部分。主要的原理如圖4所示,輸入語音經過預處理后,語音信號的特征被提取出來,首先在此基礎上建立所需的模板,這個建立模板的過程稱為訓練過程。根據語音識別整體模型,將輸入的語音信號特征與存在的語音模板(參考模式)進行比較,找出一系列最優的與輸入的語音相匹配的模板。然后,根據此模板號的定義,通過查表就可以給出計算機的識別結果。采用HMM進行語音識別,實質上是一種概率運算。根據訓練集數據計算得出模型參數后,測試集數據只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。除訓練時需運算量較大外,識別時的運算量僅有模式匹配法的幾分之一。

第5篇:語音識別范文

【關鍵詞】語音識別;簡單模板匹配;預處理;特征提取

1 語音識別技術原理

語音識別是為了讓機器“懂”我們的語言,準確無誤地識別出我們發出語音內容,并且做出符合語音內容的一系列動作,執行我們的意圖。分析人類語言交流通信的過程,可以啟發我們的研究思路。對人類語音通信流程[1-2]分析如圖1。

由人類語音通信流程框圖可以看出,人類發出語音過程如圖左半部分,語音理解過程如圖右半部分。語音識別包括兩種含義,一是:將人類說的話轉換成文字,二是:在充分理解口述語音的基礎上,不僅僅是將語音轉換為文字信息,而且對語音內容也要作出正確響應[3]。在此,本文認為語音識別和語音理解意義等同,所以可用圖1右側部分流程可將語音識別過程。

目前語音識別技術應用中大部分都是小詞匯量,詞語間相互獨立基于簡單模板匹配工作原理的識別模式。針對這種典型的語音識別模式,原理流程路線圖[4]如圖2所示:

1.1 基于發音模型的語音信號產生模型

語音信號的產生是語音識別技術的基石,在語音信號處理的大部分過程中對語音信號產生模型有很強的依賴性。本文研究過程中,首先對人類發音過程進行了解:人類發音流程是首先肺部收縮,迫使氣流通過聲門和聲道引起音頻震蕩產生[3]。根據人的聲道三種不同激勵方式,分別對應產生了三種被大家熟知的發音類型,分別是濁音,摩擦音或清音,爆破音。

語音信號可看做由線性系統受到激勵信號的激勵輸出產生。如圖3是基于發音模型的語音信號產生模型流程圖:

如圖3建立的語音信號產生模型中認為濁音是周期為N0的沖激信號,且N0=fs/F0(其中F0是基音頻率,fs是采樣頻率)。清音認為是一個均值為0,幅值是正態分布的波形信號。參數Av,Au分別用來調節濁音和清音的幅值。

從已有語音識別技術研究結果可知,窗函數類型眾多,使用不同形式的窗函數對短時分析處理語音信號結果有很大的影響。已知目前應用最廣泛的窗函數是漢明窗,結合仿真實驗分析可以看出:高斯窗函數的橫向主瓣寬度最小,但其縱向旁瓣高度最高;漢明窗函數的橫向主瓣寬度最寬,縱向旁瓣高度是三種窗函數中最低的。

2.3 端點檢測

語音信號的起始點是語音信號處理的關鍵分界點,端點檢測的目的就是找到連續語音信號中的信號起始點。常用的端點檢測方法有兩種,分別是短時平均能量和短時過零率[6]。當下流行的端點檢測方法是短時平均能量和短時過零率兩者的結合,稱這種方法為雙門限端點檢測算法[7]。

在實際問題中通常采用兩者結合解決問題。本文同樣是采用兩者結合的方法,利用短時過零率方法檢測語音信號波形穿越零電平的次數,既代表的是清音;用短時平均能量方法計算第y幀語音信號的短時平均能量E(y),既代表的是濁音,進而實現可靠的端點檢測。

3 特征提取

目前特征是語音信號預處理中的重要步驟。在實際特征提取中,較常采用的參數是線性預測倒譜系數(LPCC)和Mel倒譜系數(MFCC)。二者采用的均是時域轉換到倒譜域上,但是出發思路兩者不同。線性預測倒譜系數(LPCC)以人類發聲模型為基礎,采用線性預測編碼(LPC)技術求倒譜系數;Mel倒譜系數(MFCC)以人類聽覺模型為基礎,通過離散傅利葉變換(DFT)進行變換分析。

其中k表示第k個濾波器,Hm(k)表示第k個mel濾波器組,f(m)為中心頻率,m=1,2,…K,K表示濾波器個數。

經過仿真實驗分析比較,可以分析得出Mel倒譜系數(MFCC)參數較線性預測倒譜系數(LPCC)參數的優點,優點如下:

(1)語音低頻信號是語音信息的聚集區,高頻信號相對低頻語音信號更容易受到周圍環境等的干擾。Mel倒譜系數(MFCC)將線性頻標轉化為Mel頻標,強調語音的低頻信息,從而突出了有利于識別的信息,屏蔽了噪聲的干擾[8]。LPCC參數是基于線性頻標的,所以沒有這一特點;

(2)MFCC參數無任何假設前提,在各種語音信號預處理情況下均可使用,但是LPCC參數首先假定所處理的語音信號是AR信號,對于動態特性較強的輔音,這個假設并不嚴格成立[8];

(3)MFCC參數提取過程中需要經過FFT變換,我們可以順便獲得語音信號頻域上的全部信息,不需要多花費時間處理,有利于端點檢測、語音分段等算法實現[8]。

4 訓練與識別

訓練和識別是語音識別的中心內容,有很多專家學者研究了一系列成果。語音識別實質是模式匹配的過程,而對分類器和分類決策的設計[9]又是模式匹配的核心。在現有的分類器設計[10-11]中,經常使用的有:動態時間規整(Dynamic Time Warping,DTW)分類器、基于人工神經網絡(Artificial Neural Networks,ANN)分類器、基于高斯混合模型(GMM)分類器、基于Bayes規則的分類器、基于HMM分類器[12]等。

本文重點討論語音信號預處理中技術及實現,對訓練和識別技術不再做研究描述。

【參考文獻】

[1]尹巖巖.基于語音識別與合成的低速率語音編碼研究[D].上海師范大學,2013.

[2]偉偉.通信系統中語音質量評價的研究[D].北京郵電大學,2014.

[3]朱淑琴.語音識別系統關鍵技術研究[D].西安電子科技大學,2004.

[4]王偉臻.基于神經網絡的語音識別研究[D].浙江大學,2008.

[5]鐘林鵬.說話人識別系統中的語音信號處理技術研究[D].電子科技大學,2013.

[6]周剛,周萍,楊青.一種簡單的噪聲魯棒性語音端點檢測方法[J].測控技術,2015,(02):31-34.

[7]薛勝堯.基于改進型雙門限語音端點檢測算法的研究[J].電子設計工程,2015,(04):78-81.

[8]惠博.語音識別特征提取算法的研究及實現[D].西北大學,2008.

[9]張寧.基于決策樹分類器的遷移學習研究[D].西安電子科技大學,2014.

[10]汪云云.結合先驗知識的分類器設計研究[D].南京航空航天大學,2012.

第6篇:語音識別范文

關鍵詞:SAPI;C#;.NET;語音識別

1 引言

語音識別是信息處理領域的一個重要方向,語音識別通常又可以分為兩種工作方式:一種是連續語音聽寫,這種方式需要語音識別引擎對語音聽寫過程中上下文以及相同相似發音的詞語進行分析、做出判斷,實現難度較大。另一種是命令與控制方式(command and control),在此種方式下,語音識別引擎可以通過對簡短的命令語音進行識別,以便執行相應操作。

語音識別技術基礎是非常復雜的。正是如此,它獲得了世界上著名的公司與研究機構的青睞,語音識別技術正經歷著日新月異的改變,其中一些產品已經取得較好的效果,用戶可以在上述產品基礎之上進行二次開發。

2開發圖片語音識別系統的條件

語音識別技術的發展涉及人機交互,自然語言處理,人工智能。這使開發人員難以從底層進行應用開發,欣慰的是一些公司與研究機構已經推出他們的研究成果,并且提供了供開發人員使用的開發平臺與接口。其中影響比較大的有微軟的SAPI、劍橋大學的HTK,IBM的via voice開發平臺。本文采用微軟的Speech SDK5.1開發包,它不僅是一個免費的開發包,同時提供對中文的支持。

2.1微軟SAPI簡介

微軟的 Speech SDK是基于 C O M 的視窗操作系統開發工具包。這個 SDK中含有語音應用程序接口( SAPI )、微軟連續語音識別引擎(MCSR)以及串聯語音合成(又稱文本到語音)引擎(TTS)等等。SAPI 中還包括對于低層控制和高度適應性的直接語音管理、訓練向導、事件、 語法、 編譯、資源、語音識別管理以及文本到語音管理,其結構如圖 l 所示。

圖1 SAPI結構

SAPI API在應用程序和語音引擎之間提供一個高級別的接口。SAPI實現了所有必需的對各種語音引擎的實時的控制和管理等低級別的細節。

SAPI引擎的兩個基本類型是文本語音轉換系統(TTS)和語音識別系統。TTS系統使用合成語音合成文本字符串和文件到聲音音頻流。語音識別技術轉換人類的聲音語音流到可讀的文本字符串或者文件。

2.2 在.net應用程序中使用SAPI的準備

安裝SAPI 5.1語音開發包。

由于SAPI基于Windows平臺,通過COM接口供.net平臺調用,所以具體調用方法為:新建工程,在此工程的解決方案中單擊右鍵,在添加/引用中選擇 Microsoft Speech Object Library,并在程序中添加對SAPI命名空間的引用:using SpeechLib。

3 系統模型設計及實現

3.1 創立系統界面

 

圖2 系統界面一覽

3.2  使用SAPI語音識別核心類

ISpRecognizer類是支持語音識別的核心類,主要用于訪問MCSR實現語音識別。在進行語音識別時,微軟Speech SDK 5.1 支持兩種模式的語音識別引擎:共享(Share)和獨享(InProc)。在本系統中,我們使用共享型語音識別引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext類是語音識別上下文接口,它可以發送與接收消息通知,通過CreateGrammar方法創建語法規則。通過對它的兩個事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重寫,我們可以很輕松的得到當前語音識別結果。第一個事件對應的就是識別結果顯示:1、第二個事件對應的就是識別結果顯示;2、ISpeechRecoGrammar類是語法規則接口,定義語音識別引擎需要是別的語音類容。起語法規則可以分為聽寫型與命令控制型。聽寫型可以識別大詞匯量語音,但是別效率與識別準確率較低。命令控制型有針對性的對特定語音進行識別,在效率與準確率上都非常高。

當然一個ISpRecognizer不管是共享還是獨享,都可以有多個RecoContext與其關聯,而一個RecoContext也可以與多個ISpeechReco  Grammar關聯,每個ISpeechRecoGramma  r識別各自規定的內容。

 

圖3 語音識別類對應關系

3.3  編寫系統核心代碼

通過讀入外部Grammar配置語音識別引擎,外部Grammar文件以xml文件格式存儲。具體形式如下:

ManegePic.xml

玫瑰

大象

獅子

老虎

仙人掌

珠穆朗瑪峰

布達拉宮

貂蟬

十字軍

世界杯

阿里巴巴

乒乓球

五星紅旗

……

采用命令控制型Grammar是為了使語音識別結果準確有效,定義外部Grammar是為了保持以后系統的可擴展性。對于新輸入的圖片,只要將圖片名字加入到 圖片名字

中即可。

開始語音輸入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//讀入規則

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加識別最終事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加識別懷疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活規則 

}

其中識別最終事件是系統在完整處理輸入音頻之后得到的最后識別結果,懷疑事件則是因為系統在處理過程中的最相似識別結果。這兩個事件在一些環境之下得到的識別結果不同。

識別懷疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

將系統在處理過程中的最相似結果顯示在textBox控件之中。

識別最終事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 將系統最終結果顯示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//顯示識別結果的圖片

}

Catch (Exception e)

{}

}

由于篇幅有限,這里僅僅給出了構建語音識別引擎與圖片顯示部分的代碼。完 整的系統可以在Windows XP + vs2008環境中調試通過,實現基于.net和SAPI的圖片語音識別系統。

4 結語

通過制作圖片語音識別系統,對利用SAPI進行語音識別有了初步的研究和實踐,該系統具有一定的擴展性,也可以作為子系統嵌入到其他系統之中。該系統的功能可以擴展到語音控制文件操作,比如打開/關閉文件,添加文件,可以制作一個不需要鍵盤鼠標只利用語音就可進行操作的軟件系統。

參考文獻:

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

第7篇:語音識別范文

關鍵詞:語音識別;LD3320;STM32F407;W25Q128

隨著科技的發展,人們的操作模式從最初的按鍵操作到觸屏操作,再到現在的語音操作,其越來越便捷,越來越人性化。語音操作的基礎就是語音識別技術(Automatic Speech Recognition),簡稱ASR,其目標就將人類語言轉換為計算機可讀的輸入。語音識別作為一門交叉學科,從產生到現在已取得了顯著的進步,現在已逐步走向市場,并且人們預計,語音識別技術在未來10年將會應用于人們生活的各個領域。

根據發音人的不同,語音識別技術可分為特定人語音識別和非特定人語音識別兩類,前者只能識別一個或幾個人的語音,而后者則能被任何人使用。本文設計的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心,采用ICRoute公司的LD3320語音識別芯片,并配以存儲空間為16M字節的W25Q128芯片,能夠實現2000個場景共計識別句100000條的語音識別操作。

1 系統整體結構

如圖1所示,整個系統主要是由STM32F407處理器、LD3320語音識別芯片以及W25Q128Flash芯片構成。其中STM32F407處理器用于切換場景和場景關鍵詞更改;LD3320語音識別芯片用于語音識別,W25Q128Flash芯片用于存識別句,兩種都是通過SPI總線與處理器相連。整套系統與外部其他系統則是通過串口進行通信。

2 系統硬件介紹及存儲空間設計

2.1 系統硬件介紹

2.1.1 STM32F407ZGT6處理器

STM32F407ZGT6采用Cortex_M4內核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3個SPI、6個串口等。基于其強大的配置,所以本系統的處理器選用該芯片。

2.1.2 LD3320語音識別模塊

LD3320語音識別模塊是ICRoute公司的一款產品,其特有的快速而穩定的優化算法,能夠完成非特定人語音識別,識別準確率高達95%。該模塊每次最多可以設置50條候選識別詞或識別句,只要單個詞或句長度不超過10個漢字和79字節的拼音串,同時我們可以對識別內容動態編輯。模塊的通訊方式有并行和串行兩種,根據需求的不同可以選擇不同的通訊方式。除了語音識別這一功能之外,模塊還支持MP3播放功能,只要MCU將MP3數據依次送入芯片,就能夠從芯片的PIN引腳輸出聲音。

2.1.3 W25Q128Flash芯片

W25Q128是華邦公司推出的大容量SPIFLASH產品,容量為128Mbit,即16M。該芯片將16M空間分為256塊,每塊64KB,每塊又分為16個扇區,每個扇區4KB。由于W25Q128的最小擦除單位為一扇區,也就是說每次擦除4KB。

2.2 存儲空間設計

由于W25Q128芯片每次擦除的單位為4KB,而每句識別語句至少有80字節,一個場景有50句識別語句,所以一個扇區用于一個場景是不夠的,因此我們將兩個扇區劃為一個場景;圖2是單個場景數據存儲關系圖,圖中每個場景占8192字節,每條識別語句占100個字節,其中第一個字節為識別語句編號,范圍為1-50;單個場景的第一個扇區可以存儲40條識別語句,第二個扇區可以存儲10條識別語句,其中第4000B-4096B和5096B-8190B保留,不存儲數據,整個場景的最后兩個字節用于存儲場景編號,范圍為1-2000。W25Q128共有4096個扇區,理論上可以劃分2048個場景,但是我們只劃分2000個場景,也就是4000個扇區;還剩下96個扇區,剩下的第1-50扇區用于存放每個場景的相關信息,計算可以得到每個場景有1KB的存儲空間,然后我們將最后一個扇區的最后兩個字節存儲現在所在場景編號,剩下的空間保留。

3 系統軟件設計

3.1 通訊協議格式設置

整個系統主要具有場景切換和場景識別語句存取功能,表1是部分對應協議格式。

3.2 初始化函數及操作函數介紹

STM32處理器與其他各個模塊建立通信連接,除了連接好對應IO口后,還需要對各個IO進行初始化,這樣才能進行數據的收發,以下是主函數中相關初始化函數:

NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先設置系統中斷優先級分組

delay_init(168); //初始化延時函數

LED_Init();//指示燈初始化

KEY_Init();//按鍵初始化

IWDOG_Init();//看門狗初始化

USART1_Init(9600);//初始化串口1

W25QXX_Init();//W25Q128初始化

LD3320_Init();//LD3320初始化

while(W25QXX_ReadID()!=W25Q128) //檢測是否存在W25Q128

{

LED0=!LED0; //如果檢測不到W25Q128指示燈1會不停閃爍

}

第8篇:語音識別范文

【關鍵詞】語音識別;TMS320VC5402DSP;Mel頻率倒譜參數MFCC:DTW算法

1.引言

近年來,家居空調的語音智能控制已經成為一個非常活躍的研究領域,語音識別技術作為一種重要的人機交互手段,輔助甚至取代傳統的遙控器,在智能控制領域有著廣闊的發展前景。

語音識別是機器通過識別和理解過程把語音信號轉變為相應的文件或命令的技術。隨著DSP技術的快速發展及性能不斷完善,基于DSP的語音識別算法得到了實現,并且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。

2.語音識別的基本原理

語音識別的過程是一個模式匹配的過程。首先根據語音特點建立語音模型,模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到半音節概率的計算和半音節到字概率的計算。對輸入的語音信號進行預處理后提取所需的語音特征,在此基礎上建立語音識別所需的模板。在識別過程中,根據語音識別的整體模型,將輸入的語音特征與已有的語音模板進行比較,找出最佳匹配對象作為識別結果。一般的語音處理流程如圖1所示。

圖1 語音識別系統的處理流程圖

3.系統的硬件設計

通過對系統功能分析,最終確定系統由語音采集與輸出模塊、語音處理模塊、程序數據存儲器FLASH模塊、數據存儲器SRAM模塊、系統時序邏輯控制CPLD模塊、JTAG接口模塊等組成,設計的框圖如圖2所示。

圖2 語音識別系統的硬件結構框圖

(1)語音采集與輸出模塊。該模塊由高性能的立體聲音頻Codec芯片TLV320AIC23B來完成。模數、數模轉換集成在一塊芯片內,內置耳機輸出放大器,支持MIC和LINE IN兩種輸入方式,輸入和輸出增益可編程設置。編程設置內部的11個16位寄存器可得所需的采樣頻率、輸入輸出增益和傳輸數據格式等。

(2)語音處理模塊。采用TMS320VC5402 16位微處理器,處理速度快,最快運行速度可達100MIPS,功耗低,是一款理想的DSP處理器。作為系統的整個核心,其主要功能是接收來自A/D的數據,完成語音訓練和語音識別。具有豐富的片內外設,主要包括通用I/O引腳、硬件定時器、軟件可編程等待狀態產生器、可編程塊開關模塊、增強型并行主機接口、兩個多通道緩沖串口、時鐘發生器、DMA控制器、JTAG接口,具有管理中斷、循環運算和功能調用的控制結構。

(3)FLASH模塊。由于TMS320VC5402片上沒有FLASH且片內RAM只有16K,因此需要外擴外部存儲器使其成為獨立系統,這里選用了存儲容量為256K的低功耗FLASH芯片SST39VF400B,RAM選用了64K SRAM CY7C1021。

(4)CPLD模塊。用來對存儲器的擴展實現邏輯譯碼,CPLD的供電電壓和DSP相同為3.3V,并且可在線編程,方便修改譯碼邏輯。DSP的一些控制信號經過CPLD后輸出了RAM和FLASH的片選及讀寫信號,從而實現DSP對FLASH與SRAM的讀寫操作。

(5)電源模塊。電源設計的好壞直接影響到系統的穩定。這里選用了TI公司的TPS767D318電源方案,該芯片輸入電壓為+5V,輸出3.3V和1.8V兩路電壓,能夠很好的滿足DSP系統的要求。

(6)空調控制器模塊。該模塊同傳統的空調控制器,接收TMS320VC5402模塊發來的功能控制命令,實現空調功能調整。

(7)電路模塊。復位電路、時鐘電路、串口電路和音頻電路等。

4.系統的軟件設計

信號采集為避免信號失真選用優質電容MIC作為輸入音源。聲音通過麥克風輸入到語音信號處理板,通過TLV320AIC23B的A/D轉換變成數字信號,經過DSP處理后通過D/A轉換輸出聲音,然后對聲音進行監測,并對采集的波形進行反復對比分析,以提取最佳的波形樣本。程序設計流程圖如圖3所示。

圖3 系統軟件流程圖

4.1 端點檢測

語音的前端處理主要包括對語音采樣、A/D變換、預加重、分幀、加窗和端點檢測。端點檢測是指從噪聲中檢測出說話人的語音命令,獲得語音開始和結束的時間點。本系統采用短時平均幅度和短時過零率相結合的辦法。在判斷語音的起始點時,只要短時過零率或短時平均幅度有一個超出判決門限時,便開始保存信號,然后確定隨后的幾幀數據是否仍滿足判決門限,這時才可以確定剛采集進來的數據是有效的,否則認為是噪聲引起的,將重新進行起點的判定。語音信號的結束點采取過零率和幅度相結合的辦法,如果語音信號的連續幾幀的平均能量低于能量門限,那么就認為語音信號結束。

用于空調的常用命令控制詞匯有:“開啟”、“制冷”、“溫度”、“睡眠”、數字“0~9”等,待識別的詞匯范圍相對較窄,較易識別,采用上述方法對空調命令的起止點判定達到了很好的效果,經多次反復試驗,其準確率達98%。

4.2 特征參數提取

語音信號中含有非常豐富的信息,特征提取則可以去除冗余信息,以便用于后端模型的建立和匹配。語音識別中對特征參數的要求是:

(1)具有很好的區分性,能夠有效地代表語音特征;

(2)各階參數之間有良好的獨立性;

(3)特征參數要計算方便,保證識別的實時實現。

現在較常用的特征參數有線性預測參數(LPCC)、Mel頻率倒譜參數(MFCC)、線譜對(LSP)參數等。本文選擇MFCC作為特征參數。它的核心思想是利用人耳的感知特性,在語音的頻譜范圍內設置若干個帶通濾波器,每個濾波器具備三角或正弦濾波特性,計算相應濾波器組的信號能量,再通過DCT計算對應的倒譜系數,符合語音識別中對特征參數的要求。

MFCC求取主要步驟是:

(1)給每一幀語音加窗做FFT,取出幅度;

(2)將幅度和濾波器組中每一個三角濾波器進行Binning運算;

(3)求log,換算成對數率;

(4)從對數率的濾波器組幅度,使用DCT變換求出MFCC系數。

4.3 模板訓練和語音識別

在識別系統后端,從已知模式中獲取用以表征該模式本質特征的模型參數即形成模式庫,再將輸入的語音提取特征矢量參數后與已建立的聲學模型進行相似度比較,同時根據一定的語法規則和判別規則決策出最終的識別結果。

目前語音識別中使用模板匹配技術比較常見的有隱馬爾可夫模型(HMM)、人工神經元網絡(ANN)和動態時間規整算法(DTW)。綜合考慮到算法的復雜性和計算量的大小、算法在DSP系統實現的難易程度以及所需要的DSP資源,系統采用算法相對簡單和計算量相對較小的DTW算法,并針對其存在的運算量大、識別性能嚴重依賴端點檢測的精度、語音信號的時序動態信息沒有被充分利用等問題加以改進。

DTW算法是把時間規整和距離測度計算結合起來的一種非線性規整技術,該算法基于動態規劃的思想,解決了發音長短不一的模板匹配問題。算法原理是假設待測語音共有N幀矢量,參考模板共有M幀矢量,且N≠M,則動態時間規整就是尋找一個時間規整函數j=w(i),它將測試矢量的時間軸i非線性地映射到模板的時間軸j上,并使該函數w滿足第N幀測試矢量和第M幀模板矢量之間的距離測度最小。通常規整函數w(i)被限制在一個平行四邊形內,它的一條邊的斜率為2,另一條邊的斜率為1/2,規整函數的起始點為(1,1),終止點為(N,M)。

為了提高識別效率,本文對DTW算法的搜索寬度限制條件進行了改進。以局部約束路徑為例,待測模板每前進一幀,對于點(I,j)只需用到其前一列(i-1,j),(i-1,j-1),(i-1,j-2)三點的累積距離,也就是j-1和j-2兩行的累積距離。以此類推,整個過程中每一行的格點可以利用前兩行格點的累積距離計算出該點的累積距離。在本系統應用中,DTW算法加入了一些搜索限制條件,實際的搜索范圍基本上局限于對角線附近的帶狀區域。在識別的過程中,系統分配的存儲空間是搜索寬度的3倍。

5.系統測試結果及誤差分析

空調的語音識別系統在不同的環境中使用具有差異性,為了測試系統在復雜環境下的穩定性及識別率,進行兩種測試:一是安靜環境下的測試;二是復雜環境下的測試。

在實驗室安靜的環境下對男女聲識別進行了測試。發音內容為常用的空調控制命令,錄音時間大約長為1~1.5s,詞語發音的時間大約為500~800ms,采樣率為24KHz,幀長20ms,幀移10ms,其端點檢測基本上能排除前面錄音的無聲段的噪音,識別率達到了96%以上,原DTW算法的識別時間是6~7s,而采用本文改進算法的識別時間減少到2~5s。因此,本文方法可以實現快速準確的簡單語音識別。

當周圍環境噪聲較大,信噪比SNR<5dB時,識別率會有所下降。但是隨著信噪比的不斷增加,詞匯錯誤率逐漸降低,并趨于穩定狀態,系統的識別率保持在94%以上。實驗證明,采用本系統,語音識別率高,且抗噪性能好,對復雜環境的適應性強。

錄音過程中,本身含有較大的噪聲,DSP程序中沒有對語音信號作降噪處理,這是影響識別率的原因;另外,不同的人發同一個音的長度和強弱方面均有差異,這也是影響識別率的原因。

6.結論

該空調語音識別系統以TMS320VC5402DSP為核心處理器,采用Mel頻率倒譜參數為語音特征,基于改進的DTW算法進行模式匹配,算法本身計算量小、速度快、識別率高,能夠進行實時語音識別。此系統平臺具有良好的實用性和穩定性,經實驗測試表明,系統的特征數據傳送穩定,壓縮編碼無明顯失真,識別率達到94%以上,對特定人其識別率可達97%,達到了識別的要求。為取得更好的識別效果,今后應進一步優化系統算法。由于比傳統鍵盤輸入操作具有更多的優勢,語音識別技術在未來的家居生活和商業應用會有更廣闊的應用前景。

參考文獻

[1]于志華.基于FPGA的實時固定語音識別系統研究與實現[D].信息工程大學,2013.

[2]斯蕓蕓.嵌入式語音識別系統的設計與實現[D].重慶大學,2012.

第9篇:語音識別范文

1、點擊桌面實用工具文件夾選擇語音助手,可以啟動語音助手 。

2、設置語音助手的快捷方式,打開語音助手,點擊右上角三個點的按鈕設置勾選從主屏幕鍵上滑啟動,設置成功之后,向上滑動菜單鍵可以快速啟動語音助手。

(來源:文章屋網 )

主站蜘蛛池模板: 高清色本在线www | 九一在线 | 成人黄色片在线观看 | 久久久久久91香蕉国产 | 亚洲国产亚洲综合在线尤物 | 精品国产三级v | 欧美激情综合亚洲五月蜜桃 | 四虎成人影院网址 | 国产欧美日韩图片一区二区 | 亚洲另类天天更新影院在线观看 | 五月激情五月婷婷 | 久草热线视频 | 成视频年人黄网站免费视频 | 亚洲国产香蕉视频欧美 | 久久久久国产成人精品亚洲午夜 | 九九精品在线播放 | 99在线热视频只有精品免费 | 日本大片aa特黄 | 亚洲专区在线视频 | 免费一级a毛片在线播 | 免费观看a毛片一区二区不卡 | 久久久久久岛国免费网站 | xxx黑人又大粗又长 xxx大片免费视频 | 国产h视频在线观看 | 免费国产一区二区在免费观看 | 二级片在线观看 | 国产门事件在线 | 日韩在线视频免费观看 | www日本在线观看 | 亚洲人成网站看在线播放 | 九九九九九九精品免费 | 四虎永久免费地址 | 国产成人在线免费 | 在线播放国产不卡免费视频 | 欧美成人 一区二区三区 | 国产精品久久久久久永久牛牛 | 日本成年片高清在线观看 | 免费一级a毛片在线播放 | 国产成人欧美一区二区三区vr | 毛片免费视频 | 日本特黄在线观看免费 |