PPT講稿 - HackMD

# PPT講稿大家好，我們這一組是Moocs自動影片標註，組員有辜逸樺、周宏達、周耘、馮柏維、張碩齊。 ### 目錄以下是我們的目錄，依序有研究動機與目的、專題特色、專題流程、成果畫面和最後的結論。 ### 研究動機與目的我們的研究動機與目的是因為學生容易因缺乏練習題目及課程總結，進而導致難以完全吸收課堂上的知識，因此我們利用Claude 3找出上課錄影的斷點並生成總結與問題，並結合當代流行短影音，透過內容簡潔明瞭和符合現代人快速的生活節奏的特性提高學生學習意願，最後生成一系列的Moocs課程。 ### 專題特色首先介紹專題的各種特色，第一個特色是一鍵生成，我們的專題就像是個黑盒子，使用者不需要知道內部是如何運作的，需要做的只有準備一部影片並執行專題，等待一段時間後即可取得專題的成果。第二個特色是自動分段，因為輸入的影片有可能會非常地長，所以我們會根據影片中的內容找出知識斷點並切割成多個片段，每個片段都對應到一部短影音。第三個特色是AI生成，背景圖片、人物語音、影片內容、人物動作、人物嘴型等都完全是由AI生成出來的，生成影片最大的難處在於前一幀與後一幀的前後一致性，假如模型表現不佳就容易產生人物抖動的情況，但是此專題的成果影片並不會出現這種現象。最後一個特色是支援多國語言，中文教學影片對於外籍生是一大困擾，但是經過此專題處理後，可以轉換成各種語言的短影音，拓展此專題的適用對象。 ### 專題流程接下來進入我們的專題流程。 ### 專題流程1 這張圖可以很快地了解我們所有的流程，從上傳影片、影片斷句到找出斷點生成總結問題，再透過語音合成，串接影片並配合人物對嘴和字幕，最終生成影片。 ### 專題流程 – 上傳影片我們利用Flask這個使用Python編寫的輕量級Web應用框架，並搭配html與css，可以生成如畫面中圖片所示的網頁，進行後續的一些操作。 ### 專題流程 – 上傳影片 Step1: 首先點擊「選擇檔案」按鈕，即可從本地端挑選目標影片。 ### 專題流程 – 上傳影片 Step2: 接著點擊「啟動」按鈕，會跳出確認視窗確認你是否真的要啟動，點擊確定後會從前端利用fetch方法，post請求至後端"/api/upload"，正式開始一整個自動化流程，依序進行語音轉文字、找斷點、生成問題、分割原影片、語音合成、影片生成。 ### 專題流程 – 影片斷句透過OpenAi的Whisper，將影片語音轉成文字並記錄每句話的開始與結束時間，轉換完的結果存成文字檔做後續的操作。這部分我們使用base模型來以最快的速度生成出影片的文字檔。儘管該模型容易出現錯誤的字，不過只要大部分的字都是正確的就能讓Claude 3理解影片中的內容。 ### 專題流程 – 找出斷點生成總結問題將前面透過Whisper處理完的文字檔，上傳給Claude 3，要求Claude 3將內容分段並把分段時間、摘要以及問題整理成一個新的文字檔，此文檔可依需求轉換成不同語言。後續再透過splitTxt.py這個程式幫我們將斷點、摘要和問題分成三個不同的檔案，以供後面使用。 ### 專題流程 – 語音合成接下來要介紹的是語言合成的部分，首先將上傳的影片透過moviepy轉換成音訊檔，再分隔成數個小體積的音訊檔以符合訓練檔的數量限制。隨後透過API上傳至eleven labs訓練與使用者選擇的語言所產生的文字檔結合產生我們所需的音訊檔，最後避免超出方案模型數量限制將現有的模型刪除，以利下次操作。 ### 專題流程 – 語音斷句語音斷句則透過whisper取得每段話的起點與終點秒數並儲存成文字檔，以利後續上字幕的流程。 ### 專題流程 – 串接搭配語音的影片我們使用Moore-AnimateAnyone來製作搭配語音的影片，只要輸入圖片跟骨架影片即可讓人物中的人照著影片中的骨架動起來。投影片上展示了三種動作，圖片跟姿勢序列是模型的輸入，成果是模型的輸出，可以看到圖片中的人有確實地按照骨架做出不同的動作。取得輸出後，我們會把影片去背並且擴大至一九二零乘一零八零解析度。接下來開始串接總結影片，我們會把語音跟文字輸入至動作大小預測模型來選擇講話期間要用哪一種動作，並且我們會把文字輸入到DALL-E 3模型中取得跟文字相關的圖片作為背景，這句話期間就會使用我們產生的影片來呈現。問題片段的流程也是大同小異，我們先把語音跟文字輸入進動作大小預測模型來取得對應的動作類別，但是背景的部分則會使用Pillow套件在畫面上列舉提出的三個問題。 ### 專題流程 – 人物對嘴 Synclabs的對嘴模型透過輸入語音和影片來進行對嘴，不過Synclabs的API只接受檔案的網址，因此必須要先透過boto 3，也就是Amazon的Python API，把影片跟語音上傳至Amazon S3。上傳完畢後，再透過Synclabs API取得根據語音對嘴後的影片。 ### 專題流程 – 上字幕在對合成出來的語音進行斷句時，已經取得了每句話的內容、時間起點、終點，所以使用MoviePy即可為影片加上字幕。 ### 專題流程 – 串接總結、問題使用MoviePy將每個分割片段對應的總結和問題串接起來即可，到這邊就完成了專題的整體流程了。 ### 成果畫面接下來進到成果畫面的部分。前端畫面非常簡潔，選擇檔案後按下啟動按鈕即可開始執行，當執行完畢時會在下方出現下載按鈕，按下去後即可下載成果影片的壓縮檔。每一部成果影片包含總結、問題兩個部分。 ### 結論最後是結論的部分，本專題使用各式各樣的技術將教學影片整理成一系列的短影音，希望在未來能夠透過轉換成短影音提高學生的學習意願，並且利用內容簡短的特色提升學習效率。在未來展望方面還可以應用在連續劇或電影等情境上，如果把第一集的總結串接到第二集前方，這就是前情提要。如果把第二集的總結串接到第一集後方，這又變成了下集預告。因此，本專題只是應用在教學上的一個例子，專題背後的概念實際上可以推廣到多個領域上。