何止 Meta x Oakley,小米等十家 AI 拍攝眼鏡上新!下半年好看!

百度大腦秀語音新進展:識別率提升 30%、推 3 款模組、多項語音能力全面升級
全棧語音賽道秀肌肉!
11 月 28 日,百度大腦發布了一項新的智能語音交互新技術——基于復數 CNN 網絡的語音增強和語音識別一體化端到端建模技術,該方法拋棄了數字信號處理學科和語音識別學科的各種先驗假設,消除學科間壁壘,直接端到端進行一體化建模。
目前,該技術已經被集成到百度最新發布的百度鴻鵠芯片中,且相較于傳統基于數字信號處理的麥克陣列算法,錯誤率降低超過 30%。

該模型底部以復數 CNN 為核心,利用復數 CNN 網絡挖掘生理信號本質特征的特點,采用復數 CNN, 復數全連接層以及 CNN 等多層網絡,直接對原始的多通道語音信號進行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關聯耦合信息。在保留原始特征相位信息的前提下,同時實現了前端聲源定位、波束形成和增強特征提取。該模型底部 CNN 抽象出來的特征,直接送入百度獨有的端到端的流式多級的截斷注意力模型中,從而實現了從原始多路麥克信號到識別目標文字的端到端一體化建模。整個網絡的優化準則完全依賴于語音識別網絡的優化準則來做,完全以識別率提升為目標來做模型參數調優。

針對智能硬件設備,百度大腦還發布了基于百度鴻鵠語音芯片硬件產品:芯片模組 DSP 芯片+Flash、Android 開發板 DSP芯片+ RK3399、RTOS 開發板 DSP芯片+ESP32,預計將在明年初推出。
另外,針對細分場景,還推出了智能家居、智能車載、智能 IoT 設備 3 大端到端軟硬一體遠場語音交互場景解決方案,具備交互效果優異、軟硬一體快速應用、廣泛兼容集成門檻低等優點。

同時,在語音識別領域,全面升級短語音識別、實時語音識別能力,發布音頻文件轉寫能力,升級可零代碼提升業務術語識別率的語音自訓練平臺,以及呼叫中心語音解決方案;在語音合成方面,全新發布 6 個在線語音合成精品音庫和 5 個離線語音合成精品音庫。豐富的語音能力,助力智能硬件、互聯網、呼叫中心等領域智能化升級。
目前,百度大腦通過 AI 開放平臺已開放 228 項技術能力,接入開發者超過 150萬。此次會上,還公布了語音技術日均調用量超 100 億次數據,國內第一。?