(一)結合Google語音辨識系統
1.語音辨識原理
語音辨識原理方塊圖:
(1)特徵參數擷取
將輸入的語音訊號做短時距的分割處理,用音框(frame)為單位把訊號作一連串切割,並對每一個音框求出此時刻的特徵參數。
特徵參數擷取方塊圖
(2)建立語音模型
在語音模型的建立上接廣泛採用「由左至右的隱藏式馬可夫模型」
(3) 建立聲學模型
(a)在語音辨識方面的聲學模型,一般是用「聲母」、 「韻母」 、 「次音節」
三種成員組合而成
(b)由於次音節模型對於其他類型的聲學模型較能減少語音資料不足的影響,因此較為廣泛採用
(二)語音辨識在本專題的應用
考量使用者在做菜的過程中,雙手不方便碰觸平板,因此想要在此App中加入語音辨識的功能,讓使用者能利用口說的方式來切換頁面,讓此App在使用上更加便利、更加的人性化。
1. 舉例說明:
使用者完成蒸蛋糕step2,欲前往下一個頁面時,可以利用口說「下一步」的方式將頁面轉換到step3,使用者完全不用碰觸到平板,繼續的完成下一個步驟
2. 目前成果
下左圖為語音辨識的介面,按下中間的灰色按鈕後,就會出現下右圖的介面,此時就可以開始說話,當系統接收到語音訊號時,就會開始進行辨識處理。
3. 目前遇到的瓶頸
a. 使用語音辨識時,可能會受到做菜時周圍噪音影響,而造成語音辨識精準度下降,影響使用品質。
b. 本系統和App主架構部分還尚未成功整合。
c. 假設未來成功整合後,預計會產生效能上的問題,主要原因有兩者,其一為語音辨識需要用到網路,其二為因為不知道使用者何時要說話,因此語音辨識的系統需要一直開啟,以上兩種因素,會造成效能上的問題。