人工智慧-語音識別技術在教學上的協助

手機版選單

下方連結

人工智慧-語音識別技術在教學上的協助

卷期：v0043
出版日期：2017-12-20

作者：曾保彰 / 臺灣大學計算機及資訊網路中心資訊網路組技正

臺灣大學是一個綜合型的大學，並非特殊教育學校，對於聽覺障礙的學生，很難針對所有活動服務提供手語或語音轉文字的服務，迄今只有針對畢業典禮、校慶等大型活動委外提供「同步聽打」服務。目前坊間也有很多語音識別的產品，如國語聽寫機、行動聽寫王等，都是用來解決聽覺障礙學生的語音識別服務。
本文並非探討語音識別技術的文章，而是利用既有的雲端服務，來提供聽覺障礙學生語音識別服務，而這些雲端服務基本上已收集好大量的語音或語言資料庫，當這些資料庫的數量夠大或完備，再加雲端上強大的即時運算能力，可大幅提升語音識別的準確率，並提供快速即時的語音識別服務。

語音識別的過程

本文所採用的例子是使用微軟的Azure Bing Speech API [1]，其系統架構圖如圖一，其流程如下：
一、首先由Audio input device如麥克風將語音送到Client application。
二、 Client application(目前是採用WINDOW的主機)將即時音訊串流傳送到Bing Speech API。
三、 Bing Speech API（目前在微軟的Azure雲端）再將語音轉換文字，傳送到Client application。
四、 Client application再即時作成動態網頁送到WEB。
五、 WEB即時呈現”語音轉換文字”結果給有需要的學生閱讀。

圖一：系統架構圖

語音識別在教學的應用

從上一節我們可以得知人工智慧在語音識別的服務流程，此時聽障學生只要有麥克風接到Client application及連上網路即可改善學習環境，而人工智慧在語音識別服務上的最大特色就是學習能力，透過前後語意的辨別，可以大幅改善識別的正確性。

測試結果

目前課堂上實際測試總共1142個字，結果有1030個字正確，正確率約百分之九十；若透過不斷「學習」從語音中辨識學校相關的特定字或詞，有機會提高到百分之九十五；另外輸入音質的清晰度及咬字音訊的正確度也會影響辨識的正確率。避免被環境聲音的干擾及分辨出主講人的聲音，也是人工智慧在語音識別技術中研究重點，將來正確率達到百分百是指日可待。