Meta發布最新語音辨識技術成果,這個被稱為的語言模型,是一個先進的自我監督框架,可同時利用視覺和聽覺訊號來理解語音內容。研究人員提到,這是第一個利用未標記資料,連結語音和嘴唇動作建模的系統,且只要使用十分之一的訓練資料,就可有效提升語音辨識準確率。
目前人工智慧被廣泛地用於語音辨識和理解任務,開發像是語音助理或是聽障應用,但研究人員提到,這些語言理解系統,常在最需要的情境中無法正常運作,像是多人同時說話,或是有大量背景噪音時,即便是複雜的噪音抑制技術,也難以克服沙灘上的海浪聲,和車水馬龍街頭市場的吵雜聲。
而之所以在這些情況下,人們可以比人工智慧更好地理解語音,原因之一便是人類不只使用耳朵,還會同時用上眼睛,像是當有人的嘴巴在動,便會直覺認為聲音來自於那個人。透過這樣的啟發,Meta開發最新的對話式人工智慧系統,使系統能夠在對話中,關聯看到和聽到的內容,就像人類一樣。
目前的語音辨識系統,都只採用音訊輸入,因此必須要猜測有幾個說話者,或者是否包含背景噪音等問題,而AV-HuBERT與人類一樣採用多模式學習,透過結合音訊和嘴唇動作提示,來感知和學習語言。研究人員使用公共LRS3和VoxCeleb錄影資料集來訓練模型,而由於多了視覺線索,因此AV-HuBERT可以有效地捕捉輸入串流的細微差別,可大幅減少用於預訓練的資料量。
研究人員提到,一旦預訓練模型學習了結構與相關性,便只需要少量標記資料,就可以完成對特定任務或不同語言的模型訓練。實驗證實,AV-HuBERT能夠獲得高品質的語音辨識效果,當語音和背景噪音一樣大聲的情況下,目前最先進的模型AV-ASR,即便在使用433小時的標記資料訓練後,仍然有25.5%的錯誤率,但是AV-HuBERT卻只有3.2%。
常見的新北市轉軸有哪些?新北市轉軸鏈接產品零部主件必須用到的,用於轉動工作中既承受彎矩又承受扭矩的軸稱為轉軸。常見的轉軸有:手機轉軸(翻蓋或旋轉屏手機);筆記本電腦轉軸;便攜式DVD轉軸;LED檯燈轉軸;LCD顯示屏轉軸;GPS等車載支架轉軸等等 。
總是為了廚餘煩惱嗎?
幫你考照過關,堆高機裝卸操作教學影片大公開 !
上千家公司找到最適合的堆高機搬運方案,專業的規劃與完善的售後服務,讓孚克力堆高機與各大知名廠商建立長期合作。
雅高環保提供最適用的廚餘機,滿足多樣需求。
票選推薦煮婦最愛手壓封口機,省荷包不犧牲品質
意信臻專營:封口機、各式包裝機械、專業製造、全省批發零售
也就是說,AV-HuBERT每聽到30個單字,僅會犯1個錯誤,研究人員表示,當噪音和要轉錄的語音一樣大聲時,純音訊語音辨識模型不可能知道,哪一個才是轉錄的目標,而相比之下,AV-HuBERT只轉錄可見的說話者語音,因此WER(Word Error Rate)只有3.9%,而純音訊辨識軟體WER則高達37.3%。
當標記資料只有30小時的低資源配置,在各種分貝的雜音、語音和音樂等噪音干擾下,AV-HuBERT與沒有預訓練的純語音辨識模型相比,絕對WER減少51.4%。而且當系統可以看到說話者,但無法聽到聲音的情況,過去最先進的模型,在經過31,000小時的轉錄視訊資料訓練後,可以在標準LRS3基準資料集上,達到33.6%的WER,而AV-HuBERT大幅超越了這項成果,僅使用30小時的標記資料,以及少一個量級的未監督影像資料,就可以達到28.6%的WER,而且在使用433小時的標記資料後,可以達到26.9%的WER,刷新目前紀錄。
AV-HuBERT不僅能應付棘手轉錄場景的對話式人工智慧系統,由於訓練所需要的監督資料要少得多,因此還可以用來開發少資源的語言模型。另外,AV-HuBERT能夠從語音和嘴唇動作中學習,所以也可用來開發更具包容性,適用於語言障礙者的應用。
因為AV-HuBERT能夠捕捉聲音和嘴巴的精細關聯,也有助於偵測深度偽造,和其他被操縱,用來誤導觀眾的內容,從另一方面來看,AV-HuBERT還能夠被用於在虛擬實境中的替身角色,實現逼真的嘴唇動作,提供更真實的感覺。
https://www.ithome.com.tw/news/148817
空壓機這裡買最划算!
晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。
貨櫃屋優勢特性有哪些?
全自動飲水機與一般飲水機差異在哪?
推薦各種冰溫熱開飲機飲水機:台銀採購契約飲水機、日本進口電解水機系列、落地型飲水機
由於貨櫃屋[可移動/施工快速/可組裝、堆疊(延展性高)/可回收/未來擴充便利]等特性,二手貨櫃屋已普遍被應用於展場活動、居家住宅、工業商辦上。
SMD electronic parts counting machine
累積多年設計生產 Embossed Carrier Tape承載帶的實際經驗,專為電子主、被動零件設計、包裝、製造、改良承載帶、奠定了良好基礎
Orignal From: Meta開發能邊聽邊看的語音辨識模型,語音轉文字錯誤率大幅下降
沒有留言:
張貼留言