- 老師: - 報告:可以講遇到的困難 - 不知道inference原理,透過多張圖在唇形上的轉變分析唇形變化 - 要再去研究lipnet是如何辨識,要再去看paper - rpi只有CPU,處理單張是可以,但是sequence前後文是有關係的,所以要分析一段話的計算量其實很大。所以很難達到realtime(一秒),所以使用情境要再考慮,若要實用是比較困難的事情,可以不用那麼多coversation,如做一個device,可以變成一句話就可以了,不用再強調對話的功能(與真實世界有出入) - 技術含量非常大,每個人要cover的技術範圍有點大,要focus一點,可以做一件最想要做的事情,在設定適合的場景與應用 - PAPER PELEEA - 情境需要重新思考: - 遊戲、音軌 - 可以做一個LIPNET的檢測器,辨識哪一種嘴唇比較容易被辨識 - 24秒有點久,不太可能用現成的MODEL達到REAL TIME,單字單詞可能還有機會是real time - 一串影像辨識完才能正確辨識,很難讓這個東西實用,技術複雜 - RPI 上面要錄影 處理影片 傳回文字檔,很不實際,因為會更慢,通常用RPI的情況都是INFERENCE很快,但剛好我們的MODEL很慢,傳到電腦INFERENCE可能還是很慢,連續audio或是單張可能可以 - lipnet 放雲端 要考慮頻寬問題 - model: - frame rate:試試看減少到一秒15張圖 - RPI: - inference 時間要短 - 反過來讓人來適應lipnet,語言繳正,發音 - 模仿一個人的唇形 - 盡量要是real time - frame rate : 影像的video一秒中有多 少圖,每秒顯示影格數(正常一秒60張),看能不能減到15個,這樣可以減少運算量 - 密碼: - 優:inference時間短、data少 - 缺:一樣是連續問題 - 做一個DEVICE讓他可以轉成一句話,怎麼把一段影片能夠恢復音軌之類的,往後製的方向去想,或是做成遊戲(1a2b)的形式辨識單字,口音問題也要考慮,什麼樣的唇型比較容易被辨識,語速問題 - 做speech to text - 可以應用到後製方面若忘記錄音檔的影片可以再加上音檔。 - 如果是做成遊戲的形式就比較合理,不出聲講話猜唇形意思,針對單詞或單字,較可能做到realtime,比較少在rpi跑whole sentence→遊戲範例:1A2B - 不同方向:同一句話,讓不同人講,看能不能都能正確辨識。不一定成功,因為不同人有不同口音。同樣都是lipnet可以統整出那些脣形是比較容易辨識出來的,與語速也有關係,可以測試到多快就無法辨識,若可以統整出這些數據就可以知道人的適用性等問題,可以知道如何在最短時間說出最正確的,最容易辨識的。 - 過程:先讓人說幾個單辭,接著讓lipnet以此作為dataset去train。可以讓人知道在lipnet的辨識成功率有多高,若單詞的inference與whole sentence的成功率是正相關的,就證明樹梅派這個簡單的檢測器是成功的,這樣inference較快並且可以realtime。在最後測試時還是要做常句子的檢測就可以知道RPI有沒有用。看能不能以人來適應檢測器。 - 可以用在語言矯正,口音不正確或是捲舌音不正確要做語言訓練
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up