2022年7月26日 星期二

AI趨勢周報第183期:斷詞等好久?Google開源新工具加速8倍工作時間


Google發表斷詞新工具,自行設計新演算法LinMaxMatch來加速subword斷詞分析時間,比熱門的HuggingFace斷詞工具快上8.2倍。


圖片來源: 

螢幕截圖


重點新聞(1231~0106)


Google     斷詞     NLP  


斷詞等好久?Google開源新工具加速8倍斷詞時間


Google日前發表一套新英文斷詞工具Fast WordPiece Tokenization,能提高斷詞工作速度達8倍。一般來說,要打造自然語言處理(NLP)應用,得先將文章斷詞(Tokenization),也就是把文章切分為字或更小的單位,將非結構化的資訊轉化為ML模型可消化的序列型資料。在深度學習模型中(如BERT),每個切分過的字(Token)會映射為嵌入式向量,作為模型輸入值。


但,傳統斷詞方法,會將不存在於詞彙表中的生字歸類為未知。為改善問題,現代NLP專家開發出WordPiece系統,可將字切分為更小的子字(Subword)單位,來讓模型有足夠的資訊,推敲出字的意思。


而Google開發一套改良的WordPiece系統,不僅能縮短斷詞時間、降低模型延遲,還能節省算力成本。這個工具有兩大特色,一是單字WordPiece斷詞,Google利用自行設計的LinMaxMatch演算法來加速,讓運算時間隨輸入字串長度而線性成長,有別於傳統方法的次方成長。另一是全流程WordPiece斷詞,不像傳統方法先預斷詞再呼叫WordPiece來進一步斷詞,Google將這兩個流程合而為一,且所需時間也是線性成長。經測試,Google的工具比熱門的HuggingFace工具快上8.2倍,比TensorFlow Text快上5倍多。Google也將這個工具用於自家業務,後來也在TensorFlow Text正式釋出。



  英特爾      跨架構    oneAPI 2022  


英特爾免費釋出跨架構工具包,主打AI效能最佳化


英特爾日前推出跨架構工具包oneAPI 2022,一口氣涵蓋900多項技術更新,主打跨架構程式設計、AI效能最佳化和生產力優化工具,內含自編譯器、函式庫、預先最佳化框架、分析器、除錯器等工具。就跨架構程式設計來說,oneAPI 2022有個統一的編譯器,可實作C++、Python在CPU和GPU的資料平行處理、SYCL和Fortran,以及建模與微調的進階加速器,還有AI工作流程加速器。此外,該工具包搭配新一代Optimization for TensorFlow與Optimozation for PyTorch,執行深度學習框架的速度快了10倍。


  IBM     對抗攻擊     機器學習  


ML模型如何抵抗惡意的干擾攻擊?IBM揭露心法


在機器學習模型預測越來越精準的同時,也有一種技術誕生,專門誘導模型給出錯誤的預測,這就是對抗攻擊(Adversarial attacks)。為提高模型抵抗力,IBM團隊展開研究,要找出模型脆弱之處和新風險。


IBM發現,業界抵抗這種攻擊的方法,是用一套垂直聯合學習(VFL)框架,以多種來源的資料訓練模型,並只分享參數和梯度,來保護資料隱私。但這麼做的風險是,可從梯度中被推導出原始訓練資料。IBM也發展出一套攻擊手法CAFE3來驗證,不只能從梯度中還原資料,資料品質還比之前的攻擊手法好。於是,他們建議更好的做法是,利用合成梯度來訓練模型,而且,合成梯度的學習表現不會比真實梯度差。


若是遇到資料污染問題,他們也提出2種解法,首先是依序淘汰不合格的機率,再來是降低獨特數據中,信賴區間的重疊。針對常見的對比學習方法,IBM也提出2個強化韌性的作法,一是讓模型專注於高頻率的訓練資料部分,二是利用特徵分群產生偽標籤。


 


 


  Meta    模型不確定性       Bean Machine  


如何測量模型不確定性?Meta開源Bean Machine函式庫可解題


Meta發布一款基於PyTorch的機率程式開發系統Bean Machine,可用來表達和了解日常ML模型中的不確定性。Bean Machine供使用者開發特定領域的機率模型,並用自動、不確定性學習演算法,來學習模型未觀察到的屬性。


(全省)堆高機租賃保養一覽表

由簡易堆高機修改而成,無需現場施工,交機即可使用!



買不起高檔茶葉,精緻包裝茶葉罐,也能撐場面!

鴻和興精密工業股份有限公司集合了製茶罐業各相關技術的專業人士,不論是在印刷上或在茶葉罐加工製造上都能夠給客戶一個專業上的技術服務與諮詢。


總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。


空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。



Bean Machine有三大好處,首先是不確定性估計,分析師能更全面掌握預測系統的行為,再來是表現性,Bean Machine能更好地表達結果意義,直接在原始程式碼中編碼模型,讓用戶能將模型的結構對應到問題的結果。最後是可解釋性,因為模型與領域相對應,所以可查詢模型中的中間學習屬性,這代表用戶不僅可使用模型「黑盒子」,還可以對特定預測的結果做出解釋,對於模型開發過程有很大的幫助。



  OpenAI     GPT-3     客製化  


OpenAI API服務開放客製,GPT-3可自行微調來優化


開發人員可用自己的資料來微調語言模型GPT-3了!OpenAI指出,使用者可用來開發適合其應用程式的自定義版本,讓模型能用於更多使用案例中,執行成本更低、速度也更快


OpenAI進一步表示,透過微調,模型輸出的正確率可從83%提升到95%。而要自定義模型也非常簡單,用戶只需要提供資料集檔案,並在OpenAI命令列工具執行單個指令,系統便會自動開始自定義版本訓練,並且在OpenAI API中提供服務。



  ONNX Runtime     Xamarin     行動App  


ONNX Runtime 1.10支援Xamarin,開發者可用來打造AI行動App了


機器學習推理引擎ONNX Runtime 1.10版開始支援.NET框架專屬的行動App開發平臺Xamarin,讓開發者用C#程式語言來開發AI行動應用程式。ONNX Runtime 1.10版本的NuGet套件中,包含了對Android和iOS的支援,賦予開發者打造跨行動裝置AI應用程式的能力。


除了對Android和iOS的支援,ONNX Runtime 1.10的新功能還包括加入X64和ARM64上的新量化核心,提升運算效能。在硬體的靈活度方面,新版本更新了TensorRT、DirectML、OpenVINO和DNNL Execution Providers,在Nvidia GPU上,Python GPU套件同時支援CUDA和TensorRT Provider,讓用戶更容易測試和使用。


  商湯科技     獨角獸     上市  


7年12輪融資,AI獨角獸商湯科技終於上市了


掛牌上市是不少AI新創的成長目標,2021年進入尾聲的倒數第二天,歷經7年多12輪融資和被美國列入黑名單的幾番波折,中國AI新創商湯科技終於在港交所掛牌上市,市值破256億美元。


商湯科技專門打造智慧商務、智慧城市、智慧生活和智慧汽車等4大領域的AI軟體,專攻深度學習和電腦視覺等技術。7年多來累計開發了22,000個商用AI模型,就算力來說,他們擁有23個超級電腦叢集、2萬多張GPU,總算力達1.17百萬兆次浮點運算。研發人力約3,500多名,其中三分之二正攻讀碩博士,由40位教授帶帶領專案研究。


商湯科技2020年總營收達5億多美元,歷年累積的融資金額高達52億美元。他們將資金大舉投入研究,光2021上半年的研發資金就高達27.8億美元。雖然,2018年至2021上半年營收將近15.7億美元,但同期間累計虧損約38億美元。盈利是商湯科技上市後,面對傳統網路公司和一般企業跨入AI領域競爭外的另一課題。


圖片來源/Google、IBM、Meta、OpenAI


 AI趨勢近期新聞 


1. Meta AI公布照片修改偵測大賽結果


2. Amazon用深度強化學習打造NLU排名新工具


資料來源:iThome整理,2022年1月

https://www.ithome.com.tw/news/148745


臭氧機的滅菌效果如何?

臭氧的性質活潑,是強力的氧化劑。臭氧的標準還原電位2.07比次氯酸1.49更高,而且臭氧不會產生致癌的三鹵甲烷類消毒副產物。臭氧不會殘留,會自動回復成氧氣是優良的消毒劑,因此臭氧像是優良的工匠,工作時很有效率,離開時也不拖泥帶水,收拾的乾乾淨淨,沒有殘留副產物。





哪裡買的到省力省空間,方便攜帶的購物推車

多功能爬梯購物推車/手推車/爬梯車/推車/購物車!

?

重新改造貨櫃屋基礎設計有哪些呢

金誠貨櫃實業社能把原有貨櫃屋改裝成任何尺寸大小及多咖貨櫃合併,加裝流梯、櫃頂加蓋鐵皮屋頂、加裝鐵架等、除鏽噴漆,顏色皆依客戶指定。


示波器探測執行效能最佳化的8大秘訣

示波器是一種能夠顯示電壓訊號動態波形的電子測量儀器。它能夠將時變的電壓訊號,轉換為時間域上的曲線,原來不可見的電氣訊號,就此轉換為在二維平面上直觀可見光訊號,因此能夠分析電氣訊號的時域性質。




Orignal From: AI趨勢周報第183期:斷詞等好久?Google開源新工具加速8倍工作時間

沒有留言:

張貼留言