語智科技將發布 FFASR 開發者平臺,助力 IoT 設備商實現無需麥克風陣列的遠場語音識別

即刻體驗無需麥克風陣列的遠場語音識別,語智科技 FFASR 開發者平臺上線
遠場交互不再局限于麥克風陣列,使任意麥克風采集的音頻亦可接入云端識別引擎,獲得語音識別結果。
兩周前,北京語智科技公司在公布了完成 2000 萬元 Pre-A 輪融資的消息時候,同時向業界透露了其遠場語音識別引擎 FFASR 開發者平臺(FFASR, Far-Field Automatic Speech Recognition)。消息在深圳灣(微信公眾號 ID:shenzhenware)發布后,收到了不少業界資深人士的反饋,希望真實體驗這一平臺如何助力 IoT 設備商實現無需麥克風陣列的遠場語音識別。
2017 年 12 月 28 日,恰逢「計算機之父」馮·諾依曼生日,或許是為了致敬這位前輩,語智科技的遠場語音識別開發者平臺上線。登陸語智科技官網,即可調用 API 免費接入:www.yuzhix.com。
語智科技 FFASR 是專門針對于遠場語音交互開發的識別引擎,使遠場交互不再局限于麥克風陣列,使任意麥克風采集的音頻亦可接入云端識別引擎,獲得語音識別結果。

語智 FFASR 和傳統的 ASR 有什么區別呢?
在聲學降噪方法方面,傳統 ASR 采用傳統近場語音模型,必須通過 4/6/8 麥克風陣列,才能將遠場聲源多路合一為近場聲源,接入傳統識別引擎。而直接接入語智 FFASR 專為遠場聲源開發的識別引擎后,在云端通過深度學習模型,就可以完成降噪、識別。
在硬件成本方面,傳統 ASR 需要本地機載端較強處理能力,每個麥克風需要一個處理芯片,BOM 成本高,電路板體積大。而使用了語智 FFASR 的設備,則無需本地處理能力,所有運算都通過云端完成,BOM 成本和電路板體積均可以大幅度壓縮。
在工業設計方面,傳統 ASR 設備的工業設計局限性大,需要以水平、圓形陣列排布,因此現有產品多以「智能音箱」的形態出現。而使用了語智 FFASR 的設備,只需要一個麥克風就可以完成識別,無需裝載多個芯片,不受設備硬件體積、ID 設計的限制。
最后,在實用效果上,傳統 ASR 只能通過「智能音箱」實現語音交互,可升級擴展空間小,應用領域較少。而有了語智 FFASR,就可以接入任一搭載單/雙/多麥克風的硬件設備,進行遠場語音交互。
為什么 FFASR 擁有領先 15% 的卓越性能?
在 FFASR 遠場語音識別引擎上實現這一優異的性能表現,是基于語智科技對遠場語音識別的技術鏈條上每個環節有著學術積累和深刻理解,以及在遠場降噪、Deep Learning、聲學模型、語言模型等多個領域擁有的技術積累和整合能力。
具體來說,由于 FFASR 遠場識別引擎是通過算法進行聲學降噪處理,因此對聲學降噪需要解決的三個干擾問題——噪聲、混響、干涉進行了精確的數學建模,這同時對處理聲學降噪的神經網絡提出了更高的設計要求。為了能夠同時處理前端聲學降噪和語音識別,語智科技 FFASR 算法將 CNN(卷積神經網絡)、RNN(循環神經網絡)、DNN(深度神經網絡)進行了深度整合,搭建了更復雜的深度學習網絡,并將網絡分成很多部分,用以處理不同的任務。而這樣的神經網絡還需要更適配和先進的訓練平臺,語智科技獨立設計了的訓練平臺,替代通常使用的 Kaldi ASR 進行網絡結構訓練。

語智 FFASR 開發者平臺適合手機廠商、IoT 設備廠商、想擁有遠場語音交互能力又不想/能使用麥克風陣列的人、以及 Geeks 們。詳情及對接,請訪問語智官網,或留言給我們。