--- ###### tags: `專題` --- # 專題presentation ## 資服亞太英文決賽QA plan如何做 Q: 精準度高但標準是啥? A: Q: 怎更進一步提升精確度? A: 例如,我们的数据库里有ted会谈,将来会收集更多外国人的数据,并使用更多的数据集来提高模型的准确性。 For example, we have ted talks in our database and will collect more data from foreigners in the future, and use more datasets to improve model accurency. Q: 語言有哪些 A: 我们目前只对中文进行分析,但在未来,我们将扩大我们对不同语言的分析支持。 We currently only analyze for Chinese, but in the future, we will expand our analysis supports for different languages Q: different emotion in different country A: 可以蒐集該國家的資料進行訓練,並請語言專家協助分析文本的情緒 We can collect different countries data into training. Also invite the enterprises to assist us understanding the different languages sementics. Q: 分類的標準benchmark A: 用专业的良好表现来获得高分,与企业差异相比 Use professional good performance for high scores, compared to business differences Q: Market analyze 市場 有誰會用 誰會付錢 A: our target audience is university students. Therefore, we designed situations for college students such as interviews, presentations, reports. can be extended in the future to assist users in more different contexts.Besides, there is also an achievement system to guide users through a step-by-step training. ## 資服亞太英文QA **DeepL翻譯專區** Q: A: 1. 英文以外可以翻譯嗎 我們目前只針對中文進行分析,在未來我們會針對不同語言的分析擴充功能 We currently only analyze for Chinese, but in the future, we will expand our analysis supports for different languages 2. 怎麼評分 We use sound, semetic, and faical expression to alnalyze users' performance and calculate the scores by the models we trained, after that, we classify users' three kinds of scores into S to B. 3. 誰會需要 大學生 our target audience is university students. Therefore, we designed the achievement system to be graded by grade level. 1. fake emotion 如何處理 quention for how to 處理 fake emotion we think that Micro Expression on fcae is difficllt to disguise 無法偽裝 but sometimes the Antonyms 反義詞? 2. expression training 1. 分析語意 - 語意評分如何training 先手動label,再用多元線性回歸獲得係數 We trained semetics model by manual labeling, then used multiple linear regressions to obtain eight based emotion's coefficients. Finally, we used these data to give feedback to our users. - 問到如何評判好壞 Our survey data shows that the normal speed of spoken Chinese is between 160 and 200 words per minute. If the speed of speech is too slow, the listener may find it too boring and impatient; if the speed of speech is too fast, the listener will have difficulty in responding and processing the message received, which will eventually lead to a failure in communication between the two people. - 問到情緒分析 There is a concept called scope in language, which is used to calculate the control range of certain semantics. These words containing the semantic function of scope affect the result of the calculation of the semantics of the sentence, so it is possible that the mood of the previous sentence extends to the next sentence. 2. ## QA簡報 校內競賽 - 1. 市場上的比較 - 2. 投影片頁碼 - 3. 聲音分貝 - 4. 表情工具如何做結合 ### 文字 - Q: 語速的部分如何決定好壞 - Q: How to decide whether the speed of speech is good or bad - A:我們**調查資料**顯示,一般中文正常口語速度約為每分鐘160-200字之間,若語速過慢,聽者可能覺得過於無聊、不耐煩,若語速過快,則聽者難以反應及處理接收到的訊息,最後導致兩人溝通失敗。 - Our survey data shows that the normal speed of spoken Chinese is between 160 and 200 words per minute. If the speed of speech is too slow, the listener may find it too boring and impatient; if the speed of speech is too fast, the listener will have difficulty in responding and processing the message received, which will eventually lead to a failure in communication between the two people. - Q: 語意的八種情緒判斷的如果跟你自己判斷的有出入會怎麼處理? - Q: What will you do if there is a discrepancy between the eight emotional judgments of semantics and your own judgment? - A:在語言裡面有一個叫scope的概念,是用來計算某些語意的控制範圍,這些含有scope語意功能的詞彙,會影響句子語意的計算結果,因此,有可能是上一句延伸到下一句的情緒。 - There is a concept called scope in language, which is used to calculate the control range of certain semantics. These words containing the semantic function of scope affect the result of the calculation of the semantics of the sentence, so it is possible that the mood of the previous sentence extends to the next sentence. - Q: 語意有提到使用Rule-based以及data-driven混和的,可以分別講一下各自的優缺點嗎 - Q: The semantics mentions the use of Rule-based and data-driven hybrid, can you tell us the advantages and disadvantages of each? - A:通常會分成三種。1.專家標記,優點是準確性高,缺點是完備速度很慢,2.Data-driven,優點是速度很快,缺點同樣是需要大量資料,且準確性低,3.Hybrid,完備速度較專家標記快,但仍需要大量資料,中研院使用第一種,google使用第二種,卓騰api使用第三種。 - Rule-based, the advantage is high accuracy, the disadvantage is very slow completion. - Data-driven, The advantage is that it is fast, but the disadvantage is that it requires a lot of data and has low accuracy. - Hybrid, Faster to complete than Rule-based, but still requires a lot of data ### 表情 - Q: 每個人臉的構造都不一樣 如何用數據判斷特徵呢? - A:為了應對此類狀況我們使用前側來針對不同的使用者臉型做出區隔,每位使用者在進行實測時皆是以該使用者先前取得的前側數據來做計算,因此嘴巴較大的人在實測時也會是大嘴巴為基準,使用者本身的眉毛較高在計算時的眉毛也會除以較高的值,提高公平性 - for this situation, we use the pretest to distinguish different user’s face shapes. When a user performs the actual test, the calculation is based on the pretest data obtained by himself. - Therefore, when a user with larger mouths The actual test to calculation his facial score will also be based on the big mouth to improve fairness - Q: 離鏡頭較遠的使用者? - A:在計算上是透過比例,例如眼距資料,是使用眼距/使用者臉寬來代表他的眼距的資料,因此不論使用者距離鏡頭遠近,在數據上仍皆為同一標準 - The calculation is based on the ratio, such as calculatie eye distance data, which means uses eye distance divide user’s face width to represent his eye distance data, so no matter how far the user is from the lens, the data is also still base on the same standard ### 聲音 - Q: 抑揚頓挫這類標籤使用二分法是否不合適 - A:我們認為是合適的。有些人在表達的時候常被說成像是在『念經』 或是『讓人想睡覺』,我們收集了網路上這類的聲音作為一個類別,另一個類別 丟入正常說話的語調,即可有兩個類別分析。 ### 其他 - Q: 每個人說話程度不同,為什麼最初定義在同個年級? - A:成就系統設計結合先天優勢與後天努力,利用三項AI評分依據做評判,加上練習次數進而得到升級獎勵,以鼓勵使用者努力訓練的成果。 - 倘若今天你程度很好得到S的頻率很高便會升級較快,但仍會有最低的練習次數作為門檻 - The achievement system is designed to combine innate strengths and acquired efforts, using three AI scoring criteria for judging, plus the number of practice sessions to obtain promotion rewards to encourage the results of users' hard training. - If you communication skill is good enought to get S score, you will advance faster, but there will still be a minimum number of practice sessions as a threshold. - Q: 使用這個app是否會將每個人的說話方式都訓練成同樣模式? - A:Talkversity是一款輔助表達訓練的數位學習平台,給予使用者數據化分析,讓使用者知道需加強的部分,而非強烈訂定特定規則。 - Talkversity is a digital learning platform that assists in expression training. It provides users with data analysis and lets users know what needs to be strengthened, rather than strongly setting specific rules. - Q: **現其競爭狀態**針對教授所說現在已存的競品分析 - 市面上的AI學習app通常是針對特定的語言,例如英文學習,以台灣英語學習平台 VoiceTube 來說,在VoiceTube內有發音校正的的功能,並針對使用者的英語流利程度給予評分。但卻很少看到針對日常生活中會應對到的情境去做練習的產品,且市面上的app大多僅透過錄音去了解使用者的學習狀況,但在日常中,除了聲音之外,臉部表情、語意內容也會相當程度的影響他人觀感。 - The AI learning apps on the market usually focus on a specific language, such as English, for example, VoiceTube, an English learning platform in Taiwan, has a function to correct pronunciation and rate the user's English fluency. Most of the apps on the market only use sound recording to analyze the user's performance, but in the real life conversations, not only sounds, but facial expressions and semantic content also affect others' perception to a great extent. - Q: 針對大學生設定的功能 - 大學生特有情境例如面試、演講、報告等情境,未來更能延伸更多不同的情境來協助使用者,另外也有成就系統,透過一步步有系統的訓練引導使用者方向。 - The situations for college students such as interviews, presentations, reports. can be extended in the future to assist users in more different contexts.Besides, there is also an achievement system to guide users through a step-by-step training. - Q: 是否有專家使用過並且給予回饋,使用者的回饋為何? - Our project is in the development phase. We did some researches in the beginning and found Facial Expression, Voice, and Semantics are key factors in expression skills. Then we focus on proving our concept is technically possible. Users experiences, engaging experts to provide feedbacks are our next step in the future. 室內空間、室外空間分貝 ## 工作分配 - present 1 - 謝 - 紐 - 製作簡報 2 - 顏 - 陳 - 計劃書 推薦信 - 周 - 影片 ## 時間分配 **00:00~00:10** 自我介紹 **00:10~01:00** 介紹產品核心 破題 網紅時代 AI訓練講話可實現 **01:00~04:30** 前結束 技術(AI模型) 套件 樣本 準確性 統計到深度學習 三大項目的特徵 **04:30~05:30** 功能 + demo **05:30~06:00** 統整(動機、價值延伸、應用) 技術架構 ## 近期相關比賽0902 1. 中技社 創意獎學金(9/15) 2. 系上專題比賽 資訊技術應用組(9/16) 3. Innoserve資訊應用組(10/8) 4. Innoserve 亞太交流 英文組(10/8) 5. Innoserve 編號1 亞洲矽谷智慧創新組(10/8) --- - 千里馬 科技創新組 - 08/23電子檔截止 - 09/01初審公布 - ==09/10交簡報== - Demo Pitch 簡報內容不超過 15 頁,須提供兩種檔案格式(PPT及PDF),並於 110 年 09 月 10 日(五)24:00 前繳交,逾期不予補件。 - 09/15決賽 - 地點: 桃園市青年事務局 - Startup創業競技場 - 8/26 公布初審 - 9/16 交決賽資料 - 請將決賽「營運計畫書」與「口頭簡報」電子檔 - 9/24決賽&頒獎 - 地點: 臺灣師範大學(台北市大安區和平東路1段162號普大樓2樓) - 萬潤 - 08/27實體紙本資料截止() - 09/17初審公布 - 09/24決賽回覆 - 10/15 決賽 - 地點: 崑山科技大學(台南市永康區崑大路 195 號) - 中技社獎學金 - 09/15前書面報名 - 資服 - 09/27~10/8報名 - ![](https://i.imgur.com/utHbHCm.png) - 11/6 決賽 - 11/13 頒獎典禮 收據 ### 構想與動機、產品價值、市場需求 2分鐘 - 構想與動機 - Talkversity = Talk + university - 訓練溝通的大學,有系統、專業化引導著使用者進行訓練 - 主要客群為大學生,以大學生的數位學習設計去切入與發想 - 目標客群調查 - 每年的大專校院畢業生**約有30萬人** (資料來源:教育部統計處) ![](https://i.imgur.com/ivtVtXh.png) - 每年新登記的求職人數,**高達70萬人** - 近三年來的求職人數逐年上升 - 市場調查與競爭者分析 - **AI教育**市場調查 - 預估2027年,AI教育的市場規模超過200億美元 (資料來源: Global Market Insights, Inc. Report(2021年6月)) - 在中國,企業需求不斷增加,預估2027年,學習平台的收益將超過8億美元 ![](https://i.imgur.com/8fUK0Wv.png) - **現有溝通表達力課程**市場調查 - 優勢: 教導如何上台演講、與人溝通,由真人老師帶領學習 - 劣勢: - 需投入較高的人力成本,難以即時給予建議。 - 對於只是想快速練習、時間緊迫的人來說過於昂貴 - **現有多數的數位學習產品**競爭者分析 - 只針對特定語言或特定情境 - 英文學習app - 面試練習app - 僅透過錄音了解學習狀況 - 產品價值 - 有很多大學生對於溝通的能力與自信有加強空間 - 書店總是充滿大量溝通技巧書籍,顯示大眾對於溝通能力培養的需求 ![](https://i.imgur.com/e8geAml.png) - 透過AI輔助學習,不受時間地點限制 - 提供多項情境滿足使用者需求 - 運用錄影練習完全掌握自身狀況 ### 服務 1分鐘 - Talkversity 特點 - 隨時隨地 - 個人化設計 ![](https://i.imgur.com/4Y5EiZe.png) - 數據化分析與自動記錄 ![](https://i.imgur.com/CUWtJwL.png) ![](https://i.imgur.com/ZhVTCAD.png) - 遊戲化設計 ![](https://i.imgur.com/K5fzxY3.png) - Talkversity功能介紹 - demo - 技術架構 ![](https://i.imgur.com/8k3TBJh.png) ### 技術 3分鐘 #### 臉部 - 在臉部使用**dlib** library face dectection應用裡的**68_face_landmarks**特徵點模型,來達到**抓取臉部68特徵點的微表情數據**目標 - 此model之所以能夠達到物件辨識(辨識臉部),主要是來自其使用ML機器學習中的兩個特別的算法,來達到辨識臉部的功能。分別是 1. **HOG特徵提取** 1. **SVM algorithm** - 將影片丟入模型後能自動順著時間序列取出以下數據 1. **眉毛多個特徵點的高度變化** 1. **眉間距離** 1. **兩邊嘴角高度變化** 1. **嘴巴多個特徵點的張和寬** 1. **上下眼皮距離** 1. **瞳孔位置變化** - 最後再進行相關資料處理ex:**剔除偏差值、計算平均**、依照每個人的臉部大小進行**規一化**等動作便可取出最終分析數據 #### 語意 - 在語意的部分,首先使用由Google Cloud Platform提供的Speech-to-Text API將語音精準轉換為文字,並且能自動加上標點符號以及做分段標記, - 使用卓騰科技開發的Keymoji api,偵測關鍵情緒,採用不同於其它「素人標記」和「純機器學習」的文本情緒偵測分析工具,結合了「句型」、「邏輯語意」和「詞彙模型」,設計出一個完整的「情緒計算過程」。 - 並依中文的句法結構,定義多種句型,結合「句法知識」和「詞彙模型」,將 Rule-based 和 Data-driven 兩種方法結合在一起。 - 在拿到文章中的八種基本情緒分數後,以訪談者的訪談樣本為基底,計算各種情緒的平均分數後,使用多元線性回歸劑算文章的情緒分數,並依情緒的正面及負面分數高低,給予使用者改善建議。(放八種情緒的雷達圖) - 同時計算語速、冗詞贅字出現次數、文章的句意正負面,給予相關建議。 - https://blog.droidtown.co/post/644739102322900993/keymoji ### 聲音 - 人工智慧模型分析 使用RNN-LSTM模型 - 訓練集資料: 2000多筆錄音檔 - 訓練分類及標籤: - 語調:(語調平淡、語調有起伏) 二分法模型 - 語言間隔:(語句間停頓過長、語句間停頓順暢) 二分法模型 - 發語聲(有不必要的發語詞 如恩...、無不必要的發語詞) 二分法模型 - 使用模型:因為聲音根據採樣頻率、聲道屬於長序列,故使用LSTM模型 資料處理: 1. 收集大量的聲音檔,手動分類聲音類別,標籤聲音類別,同一類別儲存於相同資料夾 2. 讀取收集下來的聲音檔並轉換成wav檔 3. 將所有聲音轉換成MFCC序列格式、連同前面標籤的聲音類別,儲存於json檔中(方便下次訓練直接使用,下次訓練時不必再度將資料切割) 模型訓練: 1. 讀取儲存的json檔 2. 拆分訓練集與驗證集(train test split) 3. 擬定雙向lstm 與一層dense layer 的訓練參數 4. 擬定callback參數 optimizer參數 loss function規則 與訓練epoch次數 5. 開始訓練 訓練結束後不斷調整參數尋找最佳模型 6. 使用訓練集外的資料測試 7. 儲存模型 ![](https://i.imgur.com/dfY928U.png) ### 價值延伸 1分鐘 - 醫療院所合作 - 失語症患者,或者各種溝通方面障礙者需求 - 大專院校、職涯中心合作 - 提供大學生、新鮮人使用此APP,也可以讓我們取得更多使用者資料供模型訓練,達到雙贏局面。 - 人力資源部門 - 可提供給需要良好溝通表現的產業,在HR獵人頭的時候可以先讓求職者用Talkversity,可初步提供客觀表現數據