aigo - HackMD

# aigo ## [比賽詳情：AI語音輔助視障者觀展體驗](https://aigo.org.tw/zh-tw/competitions/details/500) ## [註冊](https://aigo.org.tw/zh-tw/) ## [計劃書 word 連結](https://docs.google.com/document/d/1-6QHHv0-hqMErKO4IVLuPm9klzlobFub6su8a0A2nno/edit) ## [計劃書 ppt 連結](https://docs.google.com/presentation/d/1FRyOI0p4fIjxEALchizH3GiPioZKJWh0-7mLpK6B0kQ/edit?usp=sharing) ## 時程 [競賽簡報審查會名單公告暨審查會注意事項](https://aigo.org.tw/zh-tw/news/content/451) * 2023-06-26 * 2023-07 公告初選入圍名單 * 2023-08下旬期中訪視 * 2023-10下旬實證成果上傳 * 2023-11上旬決選審查 * 2023-11中旬公告得獎 * 2023-11月底成果發表 ## 使用技術，如果有額外技術請填上去： * 語音辨識： `kaldi-asr` * 語音合成： `` > [name=丁勁風] 選填 * NLP技術： `` > [name=NLP組] 選填 :::danger ## Deadline * 開會時間： 2023/06/09 早上 11:00 - 12:00 - [ ] 撰寫計畫書 2023/06/08 16:00 前 ::: ## 成員： * 楊中平 * 盧文祥 ### NLP 組 * ==李晨瑞== (Leader) - terry23304@gmail.com * 彭煜博 (NLP) - p76111123@gs.ncku.edu.tw * 黃詩晴 (NLP) - p76114820@gs.ncku.edu.tw * 高莉淇 (NLP) - p76111204@gs.ncku.edu.tw ### 語音以及其他 ~~* 侯佳典 (辨識) - p76111686@gs.ncku.edu.tw~~ * 丁竟烽 (合成) - p76111652@gs.ncku.edu.tw ~~* 李熙堃 (辨識) - p76111597@gs.ncku.edu.tw~~ * 趙元韻 (辨識) - p76111521@gs.ncku.edu.tw --- 團隊名稱：成視．程式．城市團隊簡介：在即將邁入建城400周年的「城市」，這個團隊以「程式」來建構「成」功大學對於「視」障的服務。自2018年起，成功大學資訊工程系楊中平老師領導的「聯網型嵌入式系統應用實驗室」與盧文祥老師的「多語心智服務實驗室」即開始合作，基於以語音為輸出入服務的物聯網系統技術，應用於生活福祉的改善 --- ## 計劃書 #### （一）解題計畫宗旨及目的 - 負責人：`丁竟烽 & 李晨瑞` ``` 條列重點。闡明：1.議題單位遇到的痛點；2.解題構想的摘要； 3.解題構想對實證場域的幫助；4.技術面的突破與創新。 ``` 1. 議題單位遇到的痛點： * 口述影像製作曠日廢時 - 以編寫完成之華語文字稿進行Text-To-Speech (TTS)文字轉合成語音，可以減少錄製時間與成本，其他語言之應用，如華語文字稿經由華語轉台語/客語翻譯器，轉為台語/客語常用語法並調整轉調，最後以通用台羅音標進行合成發音。 * 預錄語音無法提供即時答問 - 以多語ChatBot可進行即時語音對話，也搭配LBS及IoT技術結合手機APP，以語音辨識處理命令，語音合成聲音回應提示或ChatBot即時語音對話。 * 導覽人員有限 - 動線指引及空間介紹以LBS及IoT技術搭配手機APP提供服務，導覽解說可透過手機APP結合觸摸物件以啟動內嵌感測器進行口述影像。 2. 解題構想摘要：去年2022年在ICOM大會最新通過的博物館定義中提到，「博物館是一個為社會服務、非營利的常設性機構，……博物館向公眾開放，具近用性與包容力，促進多元及永續性。……」《身心障礙者權利公約》所揭示的人權模式精神，亦強調障礙者參與公民、政治、經濟、社會及文化等面向時的平等與主體性，且締約國應積極採取措施，以保障其各面向的近用權利。因此，現代博物館的展示，必須將身心障礙觀眾的情形納入考慮，當觀眾無法以某些感官接收展品的訊息時，博物館應規劃替代性近用方案，或是從通用設計著手，使各類觀眾均得以選擇自己合適的方式近用文化資源。此外，也應同時考量空間上的無障礙，使其便於依循參觀動線行動，或得知無障礙電梯等公共設施的位置等，進而提升其參觀體驗。博物館是一個以視覺為重的場域，因此，對於無法使用雙眼看見展品或是僅能用殘餘視力來感知博物館環境的視障者而言，博物館可運用聽覺、觸覺等較具優勢的感官元素，來補充其對於展品的理解，以及提升對博物館的空間概念。本計畫提案於無障礙服務臺提供安裝語音互動APP的手機及麥克風耳機，視障觀眾可將手機掛在胸前，並使用麥克風耳機與APP進行聽與說之雙向溝通。此裝置以語音合成之技術對空間引導及展品說明提供口述影像介紹，至於可觸摸之複製展品、地圖或建築模型，除了觸覺感知之外，也內嵌感測器以啟動語音介紹。參觀動線之移動方面，透過藏有定位感測之導盲磚，視障者可聆聽裝置對該環境或空間的影像介紹，也可以了解行進路線，以及聽見裝置發出之提示聲音或路線指引。此外，視障觀眾可透過語音命令模式下達控制指令，以中斷或設定導覽裝置之功能，或是開啟即時語音對話模式詢問問題，裝置即可透過語音回應。本團隊以過去語音/語言的研究發展及各項服務訓練為基礎，此視障導覽裝置將會建置華、台、客等三種語言/語音。由於口述影像之製作相當耗時費力，在計畫中也將利用開發的語音合成技術，直接將文字稿轉換為語音，省去語音錄製的過程。另外，文字稿中的中文將透過機器翻譯系統轉換為臺語的臺羅拼音，然後產生臺語的語音輸出。在互動展場的應用上，此計畫將開發一個行動APP，使用語音辨識輸入和自然語言處理的技術，並整合物聯網的感測資訊以達到對於空間及物件的認知及對應的語音輸出，提升視障者在博物館之平權近用體驗。 3. 解題構想對實證場域的幫助：對於場域之相關利害關係人的好處在於 * 將視障觀眾傳統固定式觸覺及聽覺之輔助導覽，提升為動態之語音互動，可更全面地獲得指引或導覽的資訊，使用者也可透過語音命令或對話，即時獲得所需訊息。 * 對口述影像開發單位，可因文字對語音的自動轉換而可以減少聲音錄製的人力及時間，而且當文本更新時，也可即時更改輸出之語音。也可利用華語轉台語/客語之自動機器翻譯系統將原本華語文本轉為慣用台語/客語之語法，進而自動產生台語/客語語音。 * 對博物館之身心障礙服務，由於人力有限，透過此系統可以減少服務人員之帶領與陪伴，改由定點之志工在旁協助或視障者自行操作即可。 4. 技術突破與創新：本提案對於傳統使用觸覺或聽覺協助視障者對環境或空間產生認知，將會以下列資訊技術來提升視障輔助導覽之良好體驗 * 自然語言理解 (Natural Language Understanding, NLU)完成華、台、客語語音辨識 (未來第二版將再擴增原住民語和新住民語言)，語意理解、分析、推論。 * 對博物館之身心障礙服務，由於人力有限，透過此系統可以減少服務人員之帶領與陪伴，改由定點之志工在旁協助或視障者自行操作即可。 * 知識圖譜 (Knowledge graph)分為兩部分，一為建置博物館展品資訊及空間環境分布之知識圖型架構，提供語音的導覽介紹及動線指引，二為博物館服務項目及內容，做為使用者詢問時之回答。 * 自然語言生成 (Natural Lnguage Generation, NLG)在服務之最後階段，透過前述知識圖譜取得回應資訊，以ChatGPT產生對應文句，再將生成文字以合成語音輸出，可提供華、台、客語 (未來第二版將再擴增原住民語和新住民語言)。 * 5G具有高速度、低延遲及多連結等三大特性，因應博物館之眾多參觀人數及日漸頻繁基於網路之數位應用，為了提供視障者或甚至其團體享有即時及順暢之導覽服務，採用5G手機為導覽工具。 * 物聯網 (Internet of Things)以空間及觸壓等感測器感知視障者之參觀狀態及需求，並透過無線網路、藍芽連線及伺服器進行視障者需求快速匹配，傳送給導覽手機，觸發對應之語音訊息。 #### (二) 解題技術架構及進行步驟 - 負責人：`彭煜博 | 丁竟烽 | 李晨瑞` ``` 解題技術架構與步驟說明，其中技術方法請詳細說明 1.採用之方法； 2.採用本方法之原因； 3.技術流程； (給例子(from 範例)，然後相關技術請各組別自己補充) 4.預計可能遭遇之因難及解決途徑…等相關說明 ``` 1. 採用之方法及原因: 為了解決視障觀眾的導覽需求，並降低志工或館員的人力成本，我們計劃開發一個多語言導覽系統，結合對話式的問答系統和場景互動性，提供視障者更好的導覽體驗。過去，視障者需要依賴專業導覽人員親自帶領，這種情況不僅對人力資源造成負擔，也不符合經濟效益。因此，本團隊提出使用物聯網 (IOT) 技術，在導盲磚及周圍環境中加入感測器或beacon，以協助視障者尋找行動路徑。同時，在具有體驗服務點的地方加入觸摸輔助設備，當感應到使用者觸摸時，系統將透過語音合成與使用者進行對話和解說。我們的語音合成技術支援華語、台語和客語三種語言，以滿足不同慣用語言的視障者的需求。有別於一般的合成技術，由於台語語系中的音調和華語有很大的差異，為了讓合成的聲音更自然，使用本團隊開發的轉調系統，使音調更貼近台語使用者的說話方式。此外，在館方提供的文本中，使用本團隊開發的翻譯技術，根據不同語言翻譯出對應的文本，使文本更貼近日常生活。再者，如果使用者在參觀過程中有問題，他們可以直接提問。我們使用語音辨識將使用者的聲音轉換為文字，在 5G 低延遲服務的特性下，即使在人群密集的場所，也能提供更好的使用體驗。透過自然語言理解（NLU）技術，來可以理解視障人士的需求。一旦理解了他們的需求，使用知識圖譜（Knowledge graph）來關聯使用者的意圖和相應的答案，並嘗試結合使用 ChatGPT 相關的自然語言生成（NLG）來回答使用者的問題和需求。最後，我們將使用語音合成將訊息傳遞給使用者。 2. 技術流程我們的系統將大致遵循以下流程： ![](https://hackmd.io/_uploads/HJzpYUyvh.jpg) * 視障者使用多語言導覽系統進行導覽。 * 系統利用導盲磚中的感測器協助視障者尋找行走路徑。 * 在體驗服務點，視障者觸摸輔助設備觸發語音合成解說。 * 視障者可以通過語音提出問題。 * 多語語音辨識將使用者的聲音轉換為文字。 * 自然語言理解（NLU）技術理解視障者的需求。 - 自然語言理解（Natural Language Understanding, NLU）技術能夠幫助機器分析、理解、推理並生成正確合理的回應，無論是單句還是整篇文章段落。其中包括命名實體偵測 (Named Entity Recognition, NER)、事件擷取與意圖分析等技術。預計使用事件擷取與實體關係擷取技術，以辨識文章中的關鍵實體。同時，我們將結合成熟的句法分析工具，快速解析句子中的SVO（主詞-動詞-受詞）結構，擷取出精簡事件、完整事件和與任務相關的關聯資訊。透過與知識圖譜的結合，我們可以找到相關資料來回答使用者的問題。 * 使用知識圖譜（Knowledge graph）關聯使用者的意圖和答案。 - 知識圖譜是一種網狀結構化的語義知識庫，用於以符號形式描述物理世界中的概念及其相互關係。並支持按主題而不是字符串進行檢索，從而實現真正的語義檢索。我們預計利用自然語言處理技術從導覽資料中提取特定的關鍵特徵，並建立「實體-關係-實體」的知識結構對應關係。這樣，在後續分析使用者問題的過程中，我們可以更有結構性地匹配問句並擷取出相應的回答。 * 自然語言生成（NLG）嘗試結合使用 ChatGPT 生成相關的答案，正確回應使用者的服務需求。 - NLG（Natural Language Generation）是一種讓機器能夠生成人類語言的技術。它讓機器能夠根據給定的資訊，生成適合的回答或描述。這種技術對於製作對話系統、問答系統等非常有用。目前時下最廣為人知的 ChatGPT 聊天機器人便是運用 NLG 的技術，來達到與人一樣能流暢對話的能力。ChatGPT 內部的結構為多層大型的 Transformer 神經網路模型，該模型採用了深層的自注意力機制 (Deep Self-attention Mechanism)，透過大量的自然語言數據，包括網路文本、對話記錄和其他類型的文本資料做預訓練，使其具有豐富的語言知識，同時能夠更好地理解上下文並生成連貫、有邏輯的回應。 * 語音合成將文字生成聲音回答播放給使用者聆聽。 - 語音合成 ( speech synthsis ) 可以將使用者給定的文字作為輸入，輸出一段聲音訊號供使用者聽取，我們採用了兩段式的生成方式，第一段是透過聲學模型 (Acoustic model)，將文字作為輸入，產生對應的梅爾頻譜圖 ( mel spectrogram )，此頻譜圖代表了各個頻率 (freqency) 對應的大小以及時間，再來透過聲碼器 (vocoder) 將梅爾頻譜圖從頻域 (freqeucy domain) 透過反時傅立葉轉換 (inverse fast fourier transform) 轉回人類聽的到的時域 (time domain)，經過上列兩步驟即可生成一段語音。另外，對於編輯完成的中文口述影像文本，需要自動機器翻譯將其翻譯為臺語，如此才可產生符合語言習慣的臺語合成聲音，因此，這裡我們需要使用機器翻譯的技術 * 機器翻譯 * 機器翻譯 (Machine Translation) 主要有三種方法進行：第一種為規則式翻譯 (RBMT)，其做法為理解兩種語言之間戶相對應的關係進而進行解析之後進行翻譯。第二種為統計式 (SMT) 翻譯，其做法主要以統計兩種語言的平行語料元素出現之頻率後再進行翻譯。最後一種為類神經機器翻譯 (NMT)，為加強統計以及使用高速運算後得到的翻譯。在不同文本下選擇不同的翻譯方法為得到效能的關鍵之處。本實驗室提供翻譯成臺語之技術，礙於現存平行文本數量稀少，翻譯之技巧為前者提到的 RBMT。 #### (三) 數據應用及作法 - 負責人：`高莉淇/ 盧老師` ``` 請詳述預期使用的數據資料來源、資料類型格式及內容欄位，請包含但不限於： 1.議題單位釋出之數據資料欄位； 2.自行額外使用的數據資料（包含第三方數據、Open Data或其他網路公開資訊）與資料集描述； 3.數據將會如何處理、疊合混搭與加值方法 ``` 1. 議題單位(臺灣博物館)釋出之數據資料欄位 * 導覽資料：文本資料(.txt) * 鐵道部建築與展覽作品簡介資料約1500筆 * 園區及館內平面圖量測資料約200筆 * 口述影像內容及觸摸輔具資料約100筆 * 觀展常見問題集約200筆等 * 觸摸輔具 * 觸摸地圖3組：園區地圖、廳舍一樓、廳舍二樓 `設置於台博鐵道館展場內` * 觸摸輔具6式：1/1000廳舍建築物外觀、1/100八角樓建築物外觀、1/100防空洞建築物外觀、1896年鐵道路線圖、2019年鐵道路線圖、1/1電氣路牌模型 `設置於台博鐵道館展場內` 2. 自行額外使用的數據資料（包含第三方數據、Open Data或其他網路公開資訊）與資料集描述 * 成功大學資訊工程系的數據資料：文本資料(.txt)、音檔(.wav) * 台語語音語料 * 語料來源：成大資訊系團隊所設計的 36 種不同領域的常用句子或詞彙，每組大約有 300 個不同的常用句子。並邀請台語語者志工幫忙錄製音檔。 * 錄音時數：370 小時 44 分鐘 24 秒 * 華語語音語料 * 語料來源：成大資訊系團隊所設計的 19 種不同主題組的常用句子或詞彙腳本，每組大約有 300 句不同的常用句子。 1. 請 Mi2S 團隊的同學幫忙錄製音檔。 2. 在 youtube 上尋找目標演講者的視頻，提取聲音和字幕作為訓練集。 3. 網路收集語音語料 * 錄音時數：約 376 小時 37 分鐘 51 秒 * 客語語音語料 * 語料來源：成大資訊系團隊所設計的 30 種不同領域的常用句子或詞彙腳本，每組大約有 300 句不同的常用句子。 1. 請客語語者志工幫忙錄製音檔。 2. 網路收集語音語料 * 錄音時數：60 小時 22 分鐘 11 秒 * 故宮博物院現有視障者觸覺的資料：觸摸輔具實體物件 * 觸摸地圖手冊1式：圖面為雙視觸圖（同時包含色彩資訊及觸覺資訊）異材質（觸覺資訊有不同材質）設計，文字為雙視（同時包含中文及臺灣點字），內容包含園區地圖及各樓層平面圖，文字或線條部分以2.5D發泡墨水列印於象牙紙上 `設置於故宮一樓展場入口旁展示架上，亦可向一樓服務台、B1服務台登記借用` * 觸摸地圖壓克力板1式：圖面為雙視觸圖設計，文字為雙視，內容為一樓展區平面圖，整體以數位印刷方式列印於壓克力上（設置於故宮一樓展場入口右前方牆面上） * 點字參觀手冊1式：圖面為雙視觸圖異材質設計，文字為雙視（同時包含中文及臺灣點字），內容包含選件清單、精選文物觸圖等，文字或線條部分以2.5D發泡墨水列印於象牙紙上，或以數位印刷方式列印於PC片上 `設置於故宮二樓205.207陳列室展示架上、三樓305.307陳列室展示架上、306.308陳列室展示架上，亦可向一樓服務台、B1服務台登記借用` * 複製文物約數百件（視障觸摸導覽約20件） `觸摸導覽時使用` * 園區及建築模型1式 * 可觸摸或非視覺感官體驗物件約4處 `陳列室內` * 點字說明板2式共約80件 `觸摸導覽或院外推廣活動時使用` * 觸摸圖卡21式 `觸摸導覽或院外推廣活動時使用` * 觸摸教具（壓克力、MDF、異材質、遊戲雙視教具等）約8組件 `觸摸導覽或院外推廣活動時使用` 3. 數據將會如何處理、疊合混搭與加值方法 * 動線引導及口述影像文字資料做自然語言處理，包含斷詞、POS（Part-of-speech tagging）、NER (Named Entity Recognition)、用句法剖析器擷取 SVO (主詞、動詞、受詞) 、擷取事件等，將處理好的語料創建專屬的知識圖譜，以呈現博物館導覽內容及觀展常見問題關聯性，建立自然語言理解（NLU）技術與自然語言生成（NLG）之間的橋樑。 * 收集不同語言、性別、年紀等群體之語音資料根據語言將文字轉換為拼音或音節後，文字前處理包含：將聲母與韻母切割、音素對齊、轉調、正歸化等，音檔前處理包含：降噪、提取音檔特徵、轉換為頻譜圖等，將處理好的數據依序對應後放入聲學模型 (Acoustic model) 與聲碼器 (Vocoder) 訓練。 * 觸摸輔具依據不同博物館之各式點字手冊、地圖及建築模型等選擇代表性或未來有更高可用性之物件，製作數件測試裝置，在表面貼上或在物件內部嵌入感測裝置，例如壓力、感光、超音波或電磁感測或微動開關等做為測試，將物件、位置等位址編號透過物聯網傳送。 #### (四) 預期完成之工作目標(KPI) - 負責人：`趙元韻/ 侯佳典` ``` 請列述在執行期限內預期完成之工作項目。解題目標內容應完整、明確，並須列出量化指標。 e.g. 完成系統(APP)、準確度 90% 、導覽流程滿意度簡述成果會有什麼功能及預期反應 ``` 1. 完成應用於動線導引及觸模輔具之物聯網建置 2. 完成視障導覽輔助App的介面及功能開發 3. 通過10位(含)以上視障朋友或口述影像專家的測試 4. 動線導引流程正確及滿意度達90%以上 5. 口述影像之聆聽滿意度90%以上 6. ChatBot問題互動滿意度達80%以上 #### (五) 預期工作摘要及進度表 - 負責人：`黃詩晴` | 月份 | 預定工作及階段目標 | | ---- | ------------------ | | 7 |1.數據資料前處理 2.完成NLU模組：準確率達到95% 3.觸摸輔具樣品建構與測試及物聯網系統建置 4.完成語音辨識：準確率達到80% | | 8 |1.完成知識圖譜生成 2.完成NLG模組 3.連接語音辨識及合成的API 4.語音及感測裝置API連接及物聯網功能測試 | | 9 |1.完成初版APP並進行測試：功能完成率至90%以上、介面完成率至75%以上 2.準確度提升情況：各個模組準確度提升至90%以上 3.觸摸輔具之使用者體驗方便性及滿意度改進| | 10 |1.完成導覽APP：功能及介面完成至100% 2.進行10位(含)以上視障朋友或口述影像專家的測試 | #### (六) 預期成果與效益 - 負責人：`趙元韻` ``` 預期成果形式如專利、論文、專著、設備、軟體等，須注意產出之智慧財產權歸屬由議題單位與解題團隊共同議定。 ``` * 社會功能面: 本計畫所提出之視障導覽輔助系統，可讓視障人士透過動態之語音互動獲得需要的訊息，並接收到即時且全面的展品介紹和空間導覽，可更深入地了解展覽內容。也因此推動無障礙科技領域的發展，促進更多創新和技術突破，為視障者提供更多的機會和便利，為博物館建立了近用的平權環境。 * 學術研究方面: 本計畫會將系統開發、驗證及場域應用經驗彙整成研究結果，分別在科技應用及博物館服務等科技與人文兩個領域，作為論文發表。預計其整合應用也會投在2024年的博物館研究國際雙年學術研討會。 * 其他產業應用: 結合語音合成及辨識技術，融合於物聯網環境，可以運用在不同的互動領域的應用，提高效率、安全性和用戶體驗。 #### (七) 其他有利審查項目 - 負責人：`黃詩晴` ``` 如相關產業實績、競賽得獎證明、隊員學經歷、學術、技術證明等，請重點摘要條列。 ``` 跟盧老師要、楊老師跟故宮、┬隊員們提供目前研究方向故宮端：利用建置後的APP，進行實地測試並進行觀眾使用滿意度及需求調查。今年的也可以列題目後面加(暫定) ==2023其他的要等學長回覆== | 年份 | 題目 | 姓名 | 指導教授 | | -------- | -------- | -------- | -------- | | 2023 | Inner Dialogue: Reflection by Self-Question-Answering and Human-AI Collaboration (暫定) | 石佳永 | 楊中平| | 2023 | 因果關係知識圖譜建構及事件原因推理chatbot應用實現(暫定) | 吳典志 | 盧文祥| | 2023 | Zero-Shot Foreign Cross-Lingual Multi-Speaker Text-to-Speech(暫定) | 林慶瑞 | 楊中平| | 2023 | 基於對話任務觸發事件及對話情緒與互動狀態追蹤的客服對話摘要(暫定) | 呂昱德 | 盧文祥| | 2023 | A Multi-News Summary System Based on Tree-Structured Knowledge Graph(暫定) | 許逸祥 | 盧文祥 | | 2023 | Effective ASR Correction System for Domain-Specific Voice Agent based on Phoneme, Context & Semantic Information (暫定) | 林鴻佑 | 盧文祥 | | 2023 | A Patient Education Chatbot for Chronic Kidney Disease Based on Medicine Knowledge Graph and Question Structure Analysis (暫定)| 黃亮潮 | 盧文祥 | | 2023 | Depression Detection BOT Based On Event Knowledge Graph(暫定) | 陳柏維 | 楊中平| | 2022 | 使用多重特徵之針對特定系統主題任務的高效語音辨識錯誤偵測與矯正系統 | 陳俊穎 | 盧文祥| | 2022 | 使用主訴與生命徵象的異質性分析構建檢傷分級系統 | 李承翰 | 楊中平| | 2022 | 解剖學治療學及化學五階層知識圖譜模型:單複方藥物之分類編碼器 | 賴建江 | 盧文祥| | 2022 | 以語法語意修正模型技術改善華語轉台語機器翻譯之語意流暢度 | 李沅翰 | 盧文祥| | 2021 | 使用句法、語義分析自動插入標點符號之串流中文及台語語音辨識系統 | 范真瑋 | 盧文祥| | 2021 | 基於變調的台語語音合成系與中台翻譯應用 | 潘冠勳 | 盧文祥| | 2020 | 基於身心需求飲食模型的食物推薦多輪對話機器人 | 蔡政諺 | 盧文祥| | 2020 | 基於人際關係知識圖譜之新聞名人聊天機器人 | 賴建江 | 盧文祥| | | 2020 | 基於財經新聞知識圖譜的公司關係聊天機器人 | 張允揚 | 盧文祥| --- 楊中平國立成功大學資訊工程學系副教授經歷 * 國立成功大學資訊工程學系副教授（2009/8 – 迄今） * 國立成功大學博物館展示組組長 (2022/7 – 2023/1) * 國立成功大學博物館推廣組組長 (2019/4 – 2022/7) * 國立成功大學國際事務處國際化資訊語服務組組長 (2017/2 – 2019/1) * 國立成功大學計算機與網路中心教學研究組組長 (2010/2 – 2013/1) 相關計畫 * 科普活動：再現西拉雅 —— 以智慧科技尋根文化(主題三) 2022/8 – 2023/7 國科會主持人 * 科普活動：AI放送頭 (hòng-sàng-thâu)——AI科技台語科普教材創作與推廣(主題五) 2022/8 – 2023/7 國科會共同主持人 * 學門主題式計畫：結合5G與工業邊緣雲、人工智慧、微服務之智慧自動化虛實整合系統發展與實現(2/2) 2022/8 – 2023/7 國科會共同主持人 * 具資訊加密與防護機制之物聯網工業控制系統研究--具資訊加密與防護機制之物聯網工業控制系統研究(2/3) 2022/6 – 2023/5 國科會共同主持人 * 建立閩南語及西拉雅語對話之教育及展示應用 2021/8 – 2022/7 國科會主持人 * 以人工智慧重新定義幸福城市: 高齡者持續獨立之本土陪伴溝通跨語言機器人社會服務創新模式(3/3) 2021/8 – 2022/10 國科會共同主持人 * 從熱蘭遮到府城東-跨越時空的成功，文化部推動博物館及藝術5G科技跨域應用計畫 2021/12 – 2022/12 文化部共同主持人 (提案及執行) --- 盧文祥國立成功大學資訊工程學系教授經歷 * 國立成功大學資訊工程學系教授（2009/8 – 迄今）相關計畫 * 新聞資料擷取及其應用 2022/8 – 2023/7 聯經數位建教合作計畫主持人 * 科普活動：AI放送頭 (hòng-sàng-thâu)——AI科技台語科普教材創作與推廣(主題五) 2022/8–2023/7 國科會主持人 * 人工智慧技術及應用領域系列課程計畫-以病人為中心的AI藥師與智慧用藥 2022/9 – 2024/8 教育部共同主持人 * 社群與教育的共創--台灣語文學元宇宙平台與服務 2023/4 – 2023/12 成功大學高教深耕計畫共同主持人專利 * ==6/9開會討論==(來源：跨領域計劃案) ![](https://hackmd.io/_uploads/HkgWgtJvn.png) --- 李晨瑞國立成功大學資訊工程研究所碩士生彭煜博國立成功大學資訊工程研究所碩士生黃詩晴國立成功大學資訊工程研究所碩士生高莉淇國立成功大學資訊工程研究所碩士生侯佳典國立成功大學資訊工程研究所碩士生丁竟烽國立成功大學資訊工程研究所碩士生趙元韻國立成功大學資訊工程研究所碩士生 --- 外部應用諮詢鄧欣潔學歷：國立臺北教育大學藝術與造形設計學系藝術跨域整合博士班博士候選人經歷：國立故宮博物院行銷業務處助理研究員 --- Mi2S 台語產品新聞報導連結機器人也要拚長照，召募百人「教它說台語」 (自由時報 2017/11/3)：https://news.ltn.com.tw/news/life/breakingnews/2242788 長照機器人，成大拚講台語嘛欸通 (自由時報 2017/11/4)：https://news.ltn.com.tw/news/life/paper/1148966 成大機器人測試，長者盼增台語功能 (中華日報 2017/11/3)：https://tw.news.yahoo.com/%E6%88%90%E5%A4%A7%E6%A9%9F%E5%99%A8%E4%BA%BA%E6%B8%AC%E8%A9%A6-%E9%95%B7%E8%80%85%E7%9B%BC%E5%A2%9E%E5%8F%B0%E8%AA%9E%E5%8A%9F%E8%83%BD-125500214.html 成大教授盧文祥研發台語語音辨識阿公阿嬤就醫用藥好幫手 (自由時報 2018/11/20)：https://news.ltn.com.tw/news/life/breakingnews/2618435 機器人講台語也能通「南科大數據市集」秀成果 (今日新聞 2018/11/21)：https://news.ltn.com.tw/news/life/breakingnews/2618435 說台語嘛也通成大團隊開發「台華語點歌APP」免費下載 (聯合報 2023/05/13)：https://udn.com/news/story/6928/7162369 成大開發「台華點歌APP」免費下載搜尋歌曲說台語嘛也通(自由時報 2023/05/12)：https://news.ltn.com.tw/news/life/breakingnews/4299877 --- ## 獎金分配實驗室保留 xx% --- ## 參考： * [社團法人臺灣非視覺美學教育協會 Taiwan Art Beyond Vision Association](https://www.facebook.com/tabva2014) * 舉辦多樣性非視覺美學教育活動，包含視障種子教師及口述影像服務志工之培訓研習講座與工作坊，並開發多元感官教材與藝術教育輔具，規劃無障礙文化展覽活動。 * [Excellence in DEAI Report](https://www.aam-us.org/2022/08/02/excellence-in-deai-report/) * [議題說明簡報.pdf](https://aigo.org.tw/img/aigood/pdf/AI%E8%AA%9E%E9%9F%B3%E8%BC%94%E5%8A%A9%E8%A6%96%E9%9A%9C%E8%80%85%E8%A7%80%E5%B1%95%E9%AB%94%E9%A9%97.pdf) * [展品導覽資料](https://www.datastation.org.tw/datasets/87) * [臺博館鐵道部園區資料、展品介紹.zip](https://www.datastation.org.tw/upload/file_646da88d4f2f0.zip) * [口述影像聲音資料](https://www.datastation.org.tw/datasets/88) * [HOVA口述影像](https://www.youtube.com/playlist?list=PLobHPRwcatq1IXnQMnFmWnUW-teOHSJrM) * [HOVA聲音資料庫](https://www.youtube.com/playlist?list=PLobHPRwcatq1IXnQMnFmWnUW-teOHSJrM) ## 場景及服務流程 * 服務臺 * 動線移動 * [取得]目前位置方位 * [語音]目前位置 * [語音]下個目的地 * [語音]移動方式 * 導覽點口述影像 * [取得]目前位置 * [語音]口述影像 * 體驗點口述物件 * [取得]目前物件 * [取得]觸摸區塊 * [語音]口述物件 * 命令模式 * [命令] XXX (類似 siri) * [動作] 回應命令要求，比如調整音量大小、切換操作模式，應該也要語音復誦使用者才知道 * 對話模式 * [問題] 也是類似 siri * [語音] 回答問題，例如博物館閉館時間為... ## 功能 * 口述影像 - 語音合成 * 觸摸地圖 - 啟動語音解說 * 定向行動指引 - 感測器定位，LBS定位或指引提示 * 指引磚、定位磚 - 感測器定位，LBS定位或指引提示 * 觸摸輔具 - 啟動語音解說 * 額外 * 語音介面操控 * 華臺自動翻譯 (翻譯組) * 華、臺、客自動TTS ## 架構 * 輸入 * 空間 (點、線) * 物件 (移動、觸壓) * APP按鍵 ( for 導覽人員 ) * APP語音 * 輸出 ( 類似 google map ) * 語音 * 提示音 * 震動 * 技術 * APP * NLU * Knowledge graph * Service * NLG * 5G * IoT * 注意 * 要有非/視障雙重操控，提供給視障及周圍輔助者 * 行進間導盲無法手持手機，所以吊掛，另聲音以耳機或喇叭輸出 * 即時性，動線導引的安全性及語音回答的低延遲 ## Proposal 可以先從 `導覽文稿` 中取一段，展示翻譯技術 5G 的部分，因應博物館人流大的部分，可以提供使用者更低延遲的體驗，可以預防危險發生。