- 相關推薦
語音識別技術在智能家居中的應用
摘要:研究實用的智能家居語音識別系統(tǒng),對于智能家居的發(fā)展具有重要意義。通過分析嵌入式語音識別技術以及智能家居控制技術,以NL6621板為平臺,VS1003為音頻解碼芯片錄制語音。并利用隱馬爾可夫(HMM)算法進行語音模型訓練和語音匹配,實現(xiàn)智能家居語音控制系統(tǒng)。實驗證明此語音控制系統(tǒng)具有較高的識別率和實時性。
關鍵詞:嵌入式系統(tǒng);隱馬爾可夫;智能家居;語音識別
引言
隨著計算機的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網(wǎng)絡技術實現(xiàn)家居設備集成,為用戶提供了更加舒適高效的環(huán)境。近幾年人們對智能家居的便利程度提出了更高的要求,同時語音識別技術也進一步的發(fā)展,但是語音在智能家居中的應用還是相對較少,一般還要依靠遙控、手機等中控設備。語言是信息交流的重要手段,語音識別可以用聲音來控制設備完成一些特定的命令,減少用戶如手機,遙控等中控設備的依賴,使生活更加方便。
本文通過對語音識別技術與嵌入式控制技術的研究,用語音命令實現(xiàn)直接管控從而可以取代以往利用手機或者遙控方式來控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語音芯片VS1003實現(xiàn)語音采集,并采用當今語音識別領域的主流技術一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實現(xiàn)對人語音命令的識別主要是進行模型訓練和匹配。實驗證明在多個語音樣本對系統(tǒng)的訓練識別下,系統(tǒng)在非特定人、孤立詞語識別上具有良好的效果。
一、語音識別與智能家居
1.1 語音識別技術
語音識別技術本質(zhì)上是一種模式匹配識別的過程,是機器通過識別和理解過程把語音信號轉(zhuǎn)變成相應的文本文件或命令的技術。根據(jù)模式匹配過程語音識別系統(tǒng)可以如下圖表示。語音識別系統(tǒng)可以分為:特定人和非特定人的識別、獨立詞和連續(xù)詞的識別等,無論哪種識別系統(tǒng)識別過程都主要包括了語音信號預處理、特征提取、訓練等。分別通過對信號的預處理分析和計算建立模板,當對語音進行識別時,需要將輸入的語音與系統(tǒng)中存放的語音進行比較從而得到識別結(jié)果。
1.2 語音識別算法
人的言語過程是一個雙重隨機過程。因為語音信號本身是一個可觀察的序列,而它又是由大腦里的不可觀察的、根據(jù)言語需要和語法知識狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實驗表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號的產(chǎn)生過程。隱馬爾可夫模型是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型,將之看作一個數(shù)學上的雙重隨機過程,采用HMM進行語音識別,實質(zhì)上是一種概率運算,根據(jù)訓練集數(shù)據(jù)計算得出模型參數(shù)后,測試集數(shù)據(jù)只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結(jié)果。一階離散馬爾可夫模型可表示為:有N個狀態(tài),Sl,S2... SN,存在一個離散的時間序列t=0,t=1…在每個時刻t,系統(tǒng)只能處于唯一一個狀態(tài)qt,下一個時刻所處的狀態(tài)是隨機出現(xiàn)的,當前狀態(tài)qt只與前面相鄰的一個狀態(tài)qt-l有關, 與其他狀態(tài)無關,用表達式
HMM語音識別的一般過程:
1.前向后向算法計算
已知觀測序列 和模型 ,如何有效的計算在給定模型條件下產(chǎn)生觀測序列O的概率
2.Baum-Welch算法求出最優(yōu)解 :
(1)初始化
(2)迭代計算
(3)最后計算
3.Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列:
已知觀測序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。
(1)初始化
(2)迭代計算:
4.根據(jù)最佳狀態(tài)序列對應的九給出候選音節(jié)或聲韻母
5.通過語言模型形成詞和句子
二、基于NL6621嵌入式硬件設計
語音識別的硬件平臺主要包括中央處理器NL6621,可讀寫存儲器,聲卡芯片vs1003以及一些外圍設備,硬件體系結(jié)構(gòu)如圖2所示。
主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護設置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過SPI總線方式進行的。它集成了麥克風輸入接口,音頻輸出接口,對話筒輸入或者線路輸入進行IMA ADPCM編碼,能有效的接受和播放音頻信息。
硬件電路實現(xiàn):VS1003通過xCS、xDCS引腳的置高或低來確認是哪一個接口處于傳送狀態(tài)。通過串行命令接口(SCI)和串行數(shù)據(jù)接口(SDI)來接收NL6621的控制命令和數(shù)據(jù),通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復位、暫停、音量控制、播放時間的讀取等,均是通過SCI口寫入特定寄存器實現(xiàn)的。兩條SCI指令之間要通過DREQ引腳信號判斷上一次處理是否完成。
三、基于NL6621嵌入式軟件設計
軟件設計主要包括兩部分實現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術的語音識別算法編寫,基本的軟件架構(gòu)如圖3所示。
針對嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發(fā)包,利用SDK編寫應用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉(zhuǎn)化、程序編寫完成后需要用燒寫工具進行燒寫。系統(tǒng)啟動后,先初始化硬件模塊。然后系統(tǒng)開始工作,通過語音輸入設備MIC采集語音,并通過聲卡VS1003輸入語音。當系統(tǒng)監(jiān)聽到語音輸入,開始語音識別,判斷識別是否正確,若正確,將命令發(fā)送給執(zhí)行設備,入耳不正確,給出相應
的錯誤提示,不執(zhí)行語音命令。判斷識別是否結(jié)束,如果結(jié)束則退出,否則繼續(xù)下一輪的識別;贖MM技術的語音識別算法編寫,還包括了語音預處理,特征值提取和匹配識別的部分。主要的原理如圖4所示,輸入語音經(jīng)過預處理后,語音信號的特征被提取出來,首先在此基礎上建立所需的模板,這個建立模板的過程稱為訓練過程。根據(jù)語音識別整體模型,將輸入的語音信號特征與存在的語音模板(參考模式)進行比較,找出一系列最優(yōu)的與輸入的語音相匹配的模板。然后,根據(jù)此模板號的定義,通過查表就可以給出計算機的識別結(jié)果。采用HMM進行語音識別,實質(zhì)上是一種概率運算。根據(jù)訓練集數(shù)據(jù)計算得出模型參數(shù)后,測試集數(shù)據(jù)只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結(jié)果。除訓練時需運算量較大外,識別時的運算量僅有模式匹配法的幾分之一。
四、實驗與總結(jié)
將程序下載到NL6621平臺上運行,實時傳人語音,麥克風傳人16k采樣的ADPCM語音流,通過解碼算法轉(zhuǎn)換為PCM語音數(shù)據(jù),然后再通過語音識別系統(tǒng)識別語音結(jié)果。實驗結(jié)果表明在普通的工作環(huán)境中進行錄音解析系統(tǒng)的識別率可達到90%以上,具有較好的識別精度和效率。本文設計了一個簡單嵌入式語音識別的平臺,并通過實驗驗證了其語音識別有效性及可行性。對智能家居中嵌入式語音控制開發(fā)具有一定的意義。我們?nèi)砸ㄟ^不斷研究,設計更加可靠方便的系統(tǒng),從而使智能家居語音識別走向跟成熟的市場。
【語音識別技術在智能家居中的應用】相關文章:
基于HMM的語音識別技術在嵌入式系統(tǒng)中的應用03-18
基于LD3320的語音識別系統(tǒng)在家庭電路中的模擬應用03-11
語音識別中LPC特征矢量提取的研究與實現(xiàn)03-07
AMBE-1000在語音壓縮中的應用03-19
語音處理芯片AC48105在低速語音編碼設備中的應用03-18
語音參數(shù)提取在聾兒學習中的應用03-07
語音識別中雙門限端點檢測算法的研究03-07
字符結(jié)構(gòu)知識在車牌識別中的應用03-19
淺析漢字識別技術在檔案管理工作中的應用03-23