2023年1月25日 星期三

AI趨勢周報第204期:更可靠生成EHR資料!Google AI研究院發表新方法


圖片來源: 

螢幕截圖


重點新聞(1223~1229)


EHR     Google AI     生成  


更可靠生成EHR資料!Google AI研究院發表新方法


Google AI研究院日前發表一種新方法,能以更安全的方式,生成更可靠的EHR(電子健康記錄)資料,來推進醫療AI的發展。進一步來說,用EHR訓練的模型,可用來預測民眾發生特定疾病的風險,如糖尿病,或是對藥物的反應。不過,EHR屬於高機敏資料,要用來訓練模型,得先去識別化,這一步可能扭曲原本資料中的關鍵資訊,不僅降低效果,也有資料隱私的風險。


因此,Google AI研究院想出一種新的資料生成方法,打造一套EHR資料生成模型EHR-Safe,可兼顧高真度和隱私。EHR-Safe由序列性編碼器-解碼器和GAN組成,因為團隊認為,GAN很難根據原始EHR資料直接合成新資料,因為EHR多為異質性資料。因此,他們認為,以序列性編碼器-解碼器架構來學習原始EHR資料到潛在表徵的映射,能解決數字分布和分類分布嚴重不對稱的問題。


後來,團隊也以2個EHR資料集MIMIC-III和eICU來驗證模型,並發現,在大多數情況下,合成數據和原始數據的最高分布函數(CDF)差距小於0.03,表示合成數據和原始數據在統計上非常接近。此外,在保真度指標上,團隊選定死亡率預測,來比對原始數據訓練的模型,以及以合成數據訓練的模型。結果,兩類中表現最好的模型相比,MIMIC-GBDT III的差異只有2.6%,eICU差異則是0.9%。在隱私測試方面,Google則發現,要從合成數據中推導出原始資料的機率,等於隨機猜測,表示資料隱私可被保護。



  醫療QA     Benchmark     大型語言模型  


Google打造醫療QA Benchmark,要來驗證大型語言模型生成能力


科技巨頭和各路好手打造各種大型語言模型,最近爆紅的ChatGPT也是其一,這些模型可生成各種看似縝密的回答,但在醫療問答等專精領域,卻未有一套基準測試(Benchmark)來衡量。


於是,Google與DeepMind聯手,開發一款專門用於醫療QA的基準測試MultiMediaQA。該基準測試包含7大醫療QA資料集,也就是MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA、MMLU和HealthSearchQA。這些資料集涵蓋專業醫學檢查、研究和顧客詢問等領域,其中,HealthSearchQA包含顧客詢問資料集,有3千多個常見的醫療查詢問題。


該基準測試可用來衡量模型的真實性、準確性、潛在危害和偏見。團隊也用MultiMediaQA來測試Google開發的大型語言模型(5,400億參數)和其變形Flan-PaLM,發現後者在每項MultiMediaQA多選題資料集中都達SOTA水準,甚至在美國醫學執照考試資料集MedQA得到67.6%準確率,比現有最佳模型高出17%。不過,在人工評估階段,卻發現該模型的回答有些關鍵鴻溝。於是,團隊用指令提示微調方法,來改善模型,讓大型語言模型能更對齊新領域知識。新模型Med-PaLM雖進步很多,但與臨床醫師仍有一段差距。


  大型模型     人工標註     指令  


大型模型人工標註成本好高?華盛頓大學新方法省時省力


要打造ChatGPT這類大型模型,需要大量人工標註訓練資料才行,但並非所有人都能負擔。為此,華盛頓大學聯手艾倫AI研究院、約翰霍普金斯大學等機構,設計一套SELF-INSTRUCT框架,能用模型自行生成的指令,來引導模型,強化大型語言模型遵循指令的能力。


具體的工作流程是根據一個語言模型生成指令、輸入值和輸出值樣本,接著修剪這些生成值,再用來微調模型。經測試,該方法可提高GPT-3的效能達33%,與人工標註資料訓練的InstructGPT_001一樣。



  生成式AI     簡報     史丹佛大學  


史丹佛博士生打造ChatBCG,輸入文字就能生成英文簡報


受ChatGPT啟發,史丹佛大學兩位博士生Silas Alberti和Joseph Semrai打造一款生成模型,來實作BCG-3雙向條件生成模型,使用者只要輸入一個主題或提示,就能得到一分簡報。該簡報自有一套配色,也能圖文並茂,還會穿插粗體關鍵字和條列式的Bullet point。生成後,使用者也能調整配色和編輯內容,其他功能如資料圖表生成、對話式編輯和部落格文章匯入,則是接下來將新增的功能。


使用者可將簡報以PPTX或PDF格式輸出。不過,官網貼出公告,由於受到大量使用,其用量已快超過OpenAI API限額,使用者只能使用範例,團隊正想辦法克服問題中。


總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。


各種精緻鐵盒包裝茶葉罐、禮品罐,增加商品收藏及實用性。

鴻和興精密工業股份有限公司,是由在台灣專業生產茶葉罐、奶粉罐具有領先地位的光華金屬所投資組織成立的一家專業製造包裝材料之馬口鐵罐製造廠,延續光華金屬工業股份有限公司,30多年來一貫秉持的專業、品質、服務、效率為各大客戶服務。


金誠貨櫃實業社

以客為尊,客製化的設計與服務搭配專業的工班,能夠提供全方位的貨櫃屋組合方案、貨櫃屋改裝及裝潢設計配合您的需求打造出一個完善的居住空間

找尋貨櫃屋可客製化廠商,想改造成渡假村風格出租

金誠貨櫃屋出租,客製化的設計與服務搭配專業的工班,能夠提供全方位的貨櫃組合方案、配合您的需求,打造出一個完善的居住空間。


  Adobe    降噪       錄音  


Adobe提供免費降噪AI服務


Adobe近日開放一款免費工具,能替錄音去除背景噪音,讓一般環境下錄製的Podcast也能有專業錄音室品質。這項工具名為Enhanced Speech,源自Project Shasta的AI研究專案,Adobe不久前才將Project Shasta改名為Adobe Podcast。


用戶註冊或登入Adobe帳號,就能使用Enhanced Speech。這項服務以桌機瀏覽器登入,體驗最好。使用者可以上傳最多1GB的MP3或WAV檔案,幾分鐘就能完成降噪。用戶可在瀏覽器器聽取,或將聲音檔下載到電腦。


  OpenAI     嵌入模型     Davinci  


OpenAI新嵌入模型比Davinci更優更便宜


OpenAI發表新嵌入模型text-embedding-ada-002,功能更強大、成本更低,且用起來也更容易,可取代文字搜尋、文字相似性和程式碼搜尋等5個獨立模型,價格還比之前最強大的模型Davinci,便宜了99.8%。


OpenAI表示,嵌入是指將概念的數字表示轉換為數字序列,讓電腦能簡單理解概念之間的關係,Text-embedding-ada-002就是一種嵌入模型。text-embedding-ada-002也能夠處理更長的上下文,是舊模型長度的4倍,從2048增加到8192,用戶能更簡單處理長文件。text-embedding-ada-002還有較小的嵌入,新嵌入只有1536維,是davinci-001的八分之一,較小的嵌入使向量資料庫更具成本效益。與相同大小的舊模型相比,text-embedding-ada-002價格降低了90%,只要0.2%的舊模型價格,就能獲得比Davinci更好或類似的效能。



  3D模型     生成式AI     文生圖  


輸入文字就能快速產出3D模型!OpenAI釋出新AI


OpenAI發表一套AI模型Point-E,可根據文字輸入產生3D模型,還比其他方法快上一到兩個量級。目前,文字生成圖像模型發展成熟,先進的模型在數秒內,就能生成高品質圖像,但3D模型生成仍不如文生圖成熟。


而OpenAI採用整合方法,利用文字轉圖像和圖像轉3D模型技術,來打造Point-E。因此,Point-E首先用文字生成圖像模型進行採樣,然後將採樣圖像作為條件生成3D物件樣本,這兩個步驟可在數秒鐘內完成模型點雲,不需要昂貴的最佳化程序。最後,團隊採迴歸方法,從點雲生成網格,整個過程只要1、2分鐘,就能在單個GPU上生成3D模型。雖然目前Point-E所產出模型品質較差,但在需快速回應的案例上,是一個權衡方法。



  Document AI     OCR     PDF  


Google OCR引擎預覽新功能


專門提供OCR辨識服務的Google Document AI更新OCR引擎,加入3個預覽功能,讓Document AI可評估文件光學品質、支援數位PDF,以及OCR版本控制。


Document AI採用Google雲端和自家研究院團隊開發的ML模型,能處理非結構化文件、從中擷取文字和段落,能處理200多種語言。Document AI OCR引擎的第一個更新,是針對頁面層級的智慧文件品質(IDQ)評估,含模糊、小字體、眩光等八個維度頁面品質指標。第二個新功能可完全支援數位PDF檔案,能擷取和來源文件完全相同的文字和符號。而OCR版本控制功能,能讓用戶凍結OCR模型行為,確保OCR行為一致,不受模型更新影響。


圖片來源/Google AI、華盛頓大學、ChatBCG、OpenAI


  AI近期新聞 


1. ML.NET 3.0加入英特爾oneDAL函式庫加速模型訓練


2. Amazon釋出ML不確定性量化函示庫Fortuna


資料來源:iThome整理,2022年12月

https://www.ithome.com.tw/news/154940


快速搞懂塑膠射出成型原理

注塑成型為藉由將熔融塑料注射到模具中來生產零件的製造過程。可以使用多重材料進行射出成型,最常見為熱塑性聚合物。塑料被送入加熱料管中,利用螺桿混鍊,然後注入模,在模腔中冷卻並固化成型。



5噸電動堆高機 & 2噸立式堆高機

不想忍受柴油堆高機帶來的廢氣汙染,電動堆高機將會是很好的選擇



隨時健康喝好水,高品質飲水機,優質安全有把關

瀚洋飲水機永續經營於雲嘉南高地區,我們堅持一貫的理念,強調服務品質及維護時效,採e化保養管理


空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。



Orignal From: AI趨勢周報第204期:更可靠生成EHR資料!Google AI研究院發表新方法

沒有留言:

張貼留言