HackMD - Collaborative Markdown Knowledge Base

- 老師： - 報告：可以講遇到的困難 - 不知道inference原理，透過多張圖在唇形上的轉變分析唇形變化 - 要再去研究lipnet是如何辨識，要再去看paper - rpi只有CPU,處理單張是可以，但是sequence前後文是有關係的，所以要分析一段話的計算量其實很大。所以很難達到realtime(一秒)，所以使用情境要再考慮，若要實用是比較困難的事情，可以不用那麼多coversation，如做一個device，可以變成一句話就可以了，不用再強調對話的功能(與真實世界有出入) - 技術含量非常大，每個人要cover的技術範圍有點大，要focus一點，可以做一件最想要做的事情，在設定適合的場景與應用 - PAPER PELEEA - 情境需要重新思考： - 遊戲、音軌 - 可以做一個LIPNET的檢測器，辨識哪一種嘴唇比較容易被辨識 - 24秒有點久，不太可能用現成的MODEL達到REAL TIME，單字單詞可能還有機會是real time - 一串影像辨識完才能正確辨識，很難讓這個東西實用，技術複雜 - RPI 上面要錄影處理影片傳回文字檔，很不實際，因為會更慢，通常用RPI的情況都是INFERENCE很快，但剛好我們的MODEL很慢，傳到電腦INFERENCE可能還是很慢，連續audio或是單張可能可以 - lipnet 放雲端要考慮頻寬問題 - model： - frame rate：試試看減少到一秒15張圖 - RPI： - inference 時間要短 - 反過來讓人來適應lipnet，語言繳正，發音 - 模仿一個人的唇形 - 盡量要是real time - frame rate : 影像的video一秒中有多少圖,每秒顯示影格數(正常一秒60張)，看能不能減到15個，這樣可以減少運算量 - 密碼： - 優：inference時間短、data少 - 缺：一樣是連續問題 - 做一個DEVICE讓他可以轉成一句話，怎麼把一段影片能夠恢復音軌之類的，往後製的方向去想，或是做成遊戲(1a2b)的形式辨識單字，口音問題也要考慮，什麼樣的唇型比較容易被辨識，語速問題 - 做speech to text - 可以應用到後製方面若忘記錄音檔的影片可以再加上音檔。 - 如果是做成遊戲的形式就比較合理，不出聲講話猜唇形意思，針對單詞或單字，較可能做到realtime，比較少在rpi跑whole sentence→遊戲範例：1A2B - 不同方向：同一句話，讓不同人講，看能不能都能正確辨識。不一定成功，因為不同人有不同口音。同樣都是lipnet可以統整出那些脣形是比較容易辨識出來的，與語速也有關係，可以測試到多快就無法辨識，若可以統整出這些數據就可以知道人的適用性等問題，可以知道如何在最短時間說出最正確的，最容易辨識的。 - 過程：先讓人說幾個單辭，接著讓lipnet以此作為dataset去train。可以讓人知道在lipnet的辨識成功率有多高，若單詞的inference與whole sentence的成功率是正相關的，就證明樹梅派這個簡單的檢測器是成功的，這樣inference較快並且可以realtime。在最後測試時還是要做常句子的檢測就可以知道RPI有沒有用。看能不能以人來適應檢測器。 - 可以用在語言矯正，口音不正確或是捲舌音不正確要做語言訓練