語音識別芯片的前世今生

日期： 2025-06-17

瀏覽次數: 55

語音識別芯片現在已經成為了市場上的主流方案了，幾乎高級一點的產品都要帶上語音識別芯片，主要原因就是語音識別芯片可以做到識別人說話并轉化成指定去控制對應的功能。下面小編就帶大家一起去了解語音識別芯片的前世今生。

1952 年，埃德瓦爾德（Everett）和科爾特（Kleitman）發表了《計算機識別人類語音》的論文，開啟了語音識別技術的研究大門。當時的語音識別主要集中在小詞匯量、孤立詞、特定人語音識別方法上，采用簡單的模板匹配方法，如動態時間規整（DTW）、支持向量機（SVM）、矢量量化（VQ）等主流算法。這個時期的技術局限性較大，例如對同一個人，在其感冒等情況下聲音發生變化就可能無法識別，而且命令詞較多時識別效率很低。

概率統計型方法興起（1993 年 - 2009 年）：主流技術是高斯混合模型 - 隱馬爾可夫模型（GMM - HMM）。HMM 模型在將語音轉換為文本的過程中，增加了音素和狀態兩個轉換單位，GMM 則將狀態的特征分布用概率模型來表述，提升了語音幀到狀態的準確率。基于 GMM - HMM 框架，后續又提出了許多改進方法，如動態貝葉斯方法、區分性訓練方法、自適應訓練方法、HMM/NN 混合模型方法等。然而，GMM + HMM 模型在大詞匯量的語音識別情況下，識別準確率和效率均比較差。

語音識別芯片開始出現：早期的語音識別芯片配置等同于通用的低端 MCU，以臺灣新塘為代表的廠商推出了相關產品。例如，新塘 Nuvoton 在 2011 年推出了 ARM 架構的 MCU 芯片 - ISD9160，之后結合臺灣賽維的語音算法，在 2016 年前后受到家電圈廣泛關注，但受限于技術不成熟，出現語音識別率較低、降噪效果差、誤識別率高等問題。

深度神經網絡技術主導：2009 年至今，深度神經網絡識別成為最主流的語音識別技術類型，包括深度神經網絡 / 深信度網絡 - 隱馬爾可夫（DNN/DBN - HMM）、遞歸神經網絡 RNN 及其改進版 LSTM&BLSTM、卷積神經網絡 CNN 等。這些技術不再需要 HMM 來描述音素內部狀態的變化，而是將語音識別的所有模塊統一成神經網絡模型。國內大廠也紛紛推出自己的技術，如科大訊飛的深度全序列卷積神經網絡（DFCNN）、阿里的 LFR - DFSMN、百度的 SMLTA、Kaldi 。

以為唯創知音旗下的語音識別芯片系列WTK6900系列為例，這類型的語義識別芯片有多個擴展方案，同時還能實現本地指令+云端指令，幾乎可以覆蓋消費級和工業級的場景，廣泛應用于智能家居和智能工業設備。

閱讀上一篇防霸凌報警器語音識別芯片應用方案和場景閱讀下一篇語音識別芯片能實現智能對話嗎?

回到頂部

您的姓名：
*

公司名稱：
*

地址：
*

電話：
*

傳真：
*

E-mail：
*

郵政編碼：
*

留言主題：
*

詳細說明：
*

深圳市寶安區福永街道大洋路90號中糧福
安機器人智造產業園6棟2/3層

WT1999@waytronic.com

4008-122-919

手機云網站

微信公眾號

?

粵ICP備15026214號

犀牛云提供企業云服務

粵公網安備 44030602001141號