> # HL7-Fhir To Support AI Machine Learning > 以Fhir資料標準支援機械學習預前資料處理 > 研究人員 陳志傑 ## 構想的緣起 「世界經濟論壇」(World Economic Forum)於 2020 年 10 月的最新報告指出,未來就業市場需求最高、最具發展性的職業,++第一名就是數據分析師及科學家++(Data Analysts and Scientists),++第二至第五名依序為人工智慧及機器學習專家++(AI and Machine Learning Specialists)、++大數據專家++(Big Data Specialists)、++數位行銷專家++(Digital Marketing and Strategy Specialists)、++流程自動化專家++(Process Automation Specialists),而這前五名都與資訊科技密不可分。([摘錄-開放個人經驗平台作者 Bella Huang專訪](https://ioh.tw/articles/ioharticles-%E5%A4%A7%E9%9B%BB%E8%B3%87%E6%99%82%E4%BB%A3-%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7%E5%AD%B8%E7%B3%BB-%E8%B3%87%E5%B7%A5%E7%B3%BB)) 1. **AI幫助處理瑣碎小事還是處理重要大事**? 主要目的是在會計、支付系統、技術性操作、行銷、客服等方面,精簡化其流程、自動化部分基礎任務([摘錄科技報橘-10 年前讓 IBM 引以為傲的 AI 電腦系統「華生」現在去哪了?](https://buzzorange.com/techorange/2021/08/12/ai-doctor-watson-what-happen/)) 2. **決策者選擇BI還是事情交給AI**? * ++BI使用者++ * 專業知識領域人員(藥師、醫師、財務、醫管) * 已具備BI工具(PowerBI/Tableau)和EXCEL操作熟練 * 手邊已有大量資料尚待整理或視覺化分析 * 知悉要解決的問題但需要大數據協助驗證 * 可快速視覺化讓決策者透過圖表立即明瞭 * 無法自行設計開發系統透過程式自動判斷 * 未來需要持續負擔軟體工具費用 * 如有專家有效指導數據整理,可提供AI使用者作為模型訓練資料源(Input) * ++AI使用者++ * 資訊技術人員或專業領域人員(醫師、放射科、檢驗科、生物醫學、跨領域科學家) * 具備有程式開發技能(Pyton為主)和AI學習經驗 * 可獲得大量資料尚待分析或視覺化處理 * 具有結構化資料(數據分析師、專業領域人員)或非結構化資料(AI程式設計師、專業領域人員) * 資料來源離散或有參考範例揣摩,但都需要進行模型訓練 * 資料來源多為周邊設備產生圖片或數據(例如PACS、CT、ECG等) * 較少為自行整理的數據或醫療數據多為自行蒐集或建立 * 多數礙於工作單位資訊安全規範需要去識別化或相關程序 * AI訓練所需要硬體設備昂貴且非平時性使用需求多數為研究居多 * 目前AI技術對於影像處理的成效和發展仍優於語意分析 * ++決策者++ * 專業領域人員或已是主官管(醫療產業長官、各科部主任/主管、醫師) * 具備BI和AI相關使用經驗或主導規劃專案經驗 * 由單位透過BI工具或AI程式自行開發或購買/委商產品運用 * 需要大量醫療案例、成功數據及時間驗證,例如可節省經費/發現工作流程問題/發現系統流程問題/有效節省工作時效等相關成果。 * BI適用於多數人決策時使用(例如長期照護、藥品安全監控、檢驗檢查追蹤紀錄、財務分析等),AI適用於少數人於重要決策時使用(例如藥品警示、藥物分析與病理影像分析) 3.**曾經的華生(Watson)AI** ++開發團隊的科學家之一,大衛法盧奇(David Ferrucci)就提醒++公司,++華生最初只是以「休閒遊戲」為等級設計,研發目的在於辨識文字規則,並盡可能預測出正確答案,而非成為某種全能性的答案箱,亦不足以應付商業世界的需求++;認真計較起來,華生電腦當時甚至可能無法通過二年級程度的閱讀理解測驗。該校癌症中心前負責人、現任美國國家癌症研究所所長 Norman Sharpless 博士說:「我們以為會很容易,還互相討論了大約一年,但事實證明真的很難」。經過幾番合作後,==腫瘤學家最後認為華生 AI 電腦的強項只能運用在消化和閱讀上千篇醫學研究論文==。IBM 高層相信 AI 於商業情境的應用尚屬早期,華生電腦未來還有龐大的成長空間。不過醫學專家卻認為,使用華生電腦還不夠靈活有用,且醫療中心用 AI 電腦不僅成本高昂,對 IBM 技術人員來說,要判讀用華生處理的癌症數據相當複雜困難。==目前在全世界 IBM 有 40,000 名採用華生電腦的客戶、橫跨 20 種產業類別;相較於四年前已成長了兩倍==。但是相異於 10 年前企圖成為全方位的解決方案,如今華生電腦的目標沒有當初 IBM 預想的那麼高,反而==轉為產品定位,成為一套整合式的軟體工具,協助企業打造 AI 技術驅動的各種應用,主要目的是在會計、支付系統、技術性操作、行銷、客服等方面,精簡化其流程、自動化部分基礎任務==。華生電腦今日的產品定位,已經==演變成「幫助企業自動化各種瑣碎小事」==,和十年前外界期許的「The Next Big Thing」有所落差。==但不可否認的是,全球企業客戶採用 AI 的腳步正不斷加速==。([摘錄科技報橘AniceH](https://buzzorange.com/techorange/2021/08/12/ai-doctor-watson-what-happen/)) ## 觀察ISSUES 1. 10年期間資訊產業投入AI技術資源(人們開始理解) * 資通電學院尚未納入必修課程,國內學院以基本程式開發為主。 * 跨入AI產業需有跨領域產業知識外,也包含高階微積分數理知識運用。 2. 給予AI分析訓練產出結果寄予過多期待事與願違與使用者的迷思 3. 來源資料具格式複雜性、內容不一致易混亂且檢測數據判定各有差距 4. 缺乏結構一致性與可靠性的大量數據資料來源 5. AI運算所需的軟/硬體設備並非普遍且昂貴 6. ==資料交換必須標準化也必須隱密安全,其中FHIR Questionnaire去識別化僅以0/1或浮點數字方式交換及儲存數據,在蒐集大數據做模型訓練時更能提升和確保資訊安全。== ## 推測資料骯髒原因 1. **數據為核心關鍵** 資料的基礎建設,「有些公司說有資料,但其實並沒有『**有效資料**』。」企業主必須對何謂有效資料具備概念,了解不同數據背後的價值,並**有意識地搜集與管理資料**;更重要的是,**資料需要被數位化**,**否則後續將沒辦法往下推進**。客戶如果沒有數據,「考驗的是他們自己,」不可能在沒有數據的前提下做數據分析,而沒有數據就給出的答案,通常也比較難以信任,更不必說能夠成為營運決策或策略的重要依據。[(摘錄知勢 楊育青, 陳梓元)](https://edge.aif.tw/tendency-no-code-low-code/?utm_source=E-mail&utm_medium=epaper_index&utm_campaign=20221127_tendency-no-code-low-code)  2. **原始數據加工** 非結構化數據需轉換成二/三維結構化數據,例如圖像數據以像素張量重塑成 一維數組,文本數據獨用熱編碼(One-Hot)轉換成二維數組。[(摘錄51CTO 博客)](https://blog.51cto.com/u_15671528/5356595) * 非結構化數據  * 結構化數據  * 圖像性數據  * 文本型數據  3. **不透過Trasformer以建立專業領域精準AI模型** * 資料來源(個資保護/商業機密) * 資料輸出 * 專家介入(為公民產學合作)(跨領域/AI工程師) * 限定使用 * 語意分析/藥品交互警示/醫學影像分析/語音客服 4. **可透過Trasformer以便隨時更新AI模型** * 資料來源(即時資料/Dev即時提供) * 資料輸出 * 一般人員(數據科學家) * 公開使用 * 路況導航/股市分析/姿態分析/物流分析 5. **領域及範疇** > ==BI的範疇==,仰賴事前進行許多手動數據分析,接著將數據轉化為可視化的資訊圖表,依然++需要人力投入計算以及前端人員的專業知識++。==AI的領域==,++要投入大量的數據,並且進行標記++,++透過各種演算法組合得到結果++,然而++這個結果相對不容易轉換成可視化圖表++。([摘錄知勢 陳梓元](https://edge.aif.tw/topics-jarvix/)) 舉例:「我昨天買了一隻很會 _______ 的小狗。」這句話中,劃底線處可以放什麼字?可填入的答案可能五花八門。但如果我們問的是,畫底線處可填入什麼詞性?你的答案就被詞性的架構所收斂了。由Avram Noam Chomsky提出的X-bar Theory句法樹正好能說明這件事。++在已經知道 X-bar 結構的情況下,加上固定數量的功能詞及其所帶的運算順序,不用內建字典,或是把所有可能的詞彙都先建個字典來載入,就可以解析自然語言了++。==「Hybrid才是關鍵。==」王文傑指出,要做出一個能聽懂人話的AI,並不一定得在符號邏輯和機器學習二選一才行。++若能以符號邏輯的可解釋性做底,加上機器學習的百科知識補充人工智慧的經驗,再賦與其語音和文字的輸入和輸出,就能做出一個具有人類程度的AI++。 去年OpenAI推出的GPT3,以其龐大的架構及驚人的運算需求引起關注,在自然語言處理領域裡,是不是非得依靠大數據才行?王文傑憂心的說,台灣的鄰居是一個一天就能產生「3.2 億篇微博貼文」的大數據產生國,如果我們的NLP技術只剩下透過數據來訓練模型這一招的話,絕對會被中國牽著走。++透過現代語言學的新方法,其實可以提供 NLP 問題的公式解,先使用少量的資料,再慢慢針對需求累積語料,之後再導入機器學習等技術,是解決產業資料數量不夠多的解法++。 ([摘錄知勢 陳梓元](https://edge.aif.tw/nlp-and-linguistics/))  5.**專業教育資源導入(可取得數據來源)** * ==各科系領域小考期中考試(AI需要參加學測)== * ==各科系領域專家資料匯入== * ==問卷式題目轉換為結構化數據== ## 透過FHIR標準化處理資料的不一致 > ++臨床評估用於醫療保健可以是非常複雜和繁雜的工具,但它們有許多共同方面。(例如,自動預填充字段、視覺呈現和交互式UI)++。然而,==顯然需要一個共同的形式標準,側重於用簡單的評估==。但以++手工產製的臨床評估導致非標準回饋和數據有限再利用。電子表單可以在系統之間和跨組織邊界共享++。考慮到這點,(Argonaut)領航員問卷項目的重點和範圍為問卷提供者進行簡單的臨床評估,具有一般的適用性和問題集,這些問題集在當今的系統中大多是非結構化的。下表概述了本實施指南的範圍:  [](http://build.fhir.org/ig/HL7/sdc/) ***國外範例展示(影片)** {%youtube aXKWDJ-GBKk %} **1.Resource欄位說明**  **2.欄位項目資料型態**  **3.EHR數據銀行**  **4.基本宇航員問卷工作流程** Basic Argonaut Questionnaire Workflow  **5.醫療專業術語互動**  **6.台灣核心實作指引(TWCoreIG)醫療專業術語** [](https://twcore.mohw.gov.tw/ig/terminologies.html) ## 目前研究LSA/LAI 語意分析概述 **`1. 自動化擷取資料`**  **`2. 自動化資料清理`**   **`3. 有效儲存與再利用`**  **`4. 資料庫即為各領域專家資料`**  **`5. 結合語意辨識成為搜尋引擎`**     **`6. 客製化的LSA搜尋引擎取得專家資料庫內容`**  **`7. 關鍵字分析產生圖形化文字雲呈現`**   ### 資料必須的預前處理(以政府公開資料網站開發引擎為例) > # 延伸思考 Low-Code或No-Code真的會實現? > ++許多人雖然不具程式專業,但對於手上正在做的事情非常了解++,也就開始希望能在「==不寫程式的前提之下」==,打造一個所需的工具來滿足使用需求。能讓++使用者以最自然的方式、機器自動去撈取、解析資料,具備可視化界面++,++還可以在很短的時間內,甚至是即時讓使用者得到符合需求的結果,是對No-Code平台的基本要求++。[(摘錄知勢 楊育青, 陳梓元)](https://edge.aif.tw/tendency-no-code-low-code/?utm_source=E-mail&utm_medium=epaper_index&utm_campaign=20221127_tendency-no-code-low-code) >
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up