# 影片/音訊字幕生成指南 ### by 𝓑𝓪𝓰𝓮𝓵 :::warning 如果有想補充ChatGPT的使用部份或是完善這份教學的可以聯絡我開共編權限。 ::: --- 本指南目的在於讓沒有程式基礎的人也能免費自行生成日文廣播劇/生放送的字幕,以輔助理解內容,若有需要程式基礎的內容原則上會使用防據透區塊避免精神污染。 :::spoiler 範例:解鎖程式等級以閱讀本區塊 Hello world! ::: 本指南以Windows作業系統為主要對象,其他作業系統可能會有某些步驟無法參考,需要自行調整。 本指南主要以如何生成廣播劇的字幕為主,其中又以花譜和情緒的廣播劇為範本,但本指南實際適用於任何影音檔案字幕的生成,只要參考對應的步驟即可。主要共分為三步驟: 1. 下載廣播劇 2. 使用N64Whisper生成字幕檔案 3. 同步播放影音與字幕 --- ## 1. 下載廣播劇 1. 安裝Rajiko瀏覽器附加元件([Chrome/Edge](https://chromewebstore.google.com/detail/rajiko/ejcfdikabeebbgbopoagpabbdokepnff)、[Firefox](https://addons.mozilla.org/zh-TW/firefox/addon/rajiko/)載點)。 2. (可選)下載ぱんぱかカフぃR(花譜廣播)的音訊 前往[官網](https://www.interfm.co.jp/kaf)點擊「radikoでアーカイブ放送を聴く」,就能進入本週的廣播留檔,這時點擊「Rajiko的圖標」,然後點擊「タイムシフト ダウンロード」按鈕就能下載(右圖Firefox的按鈕文字有些許不同)。 ![](https://i.imgur.com/hhSaJLc.png)![](https://i.imgur.com/z5o0VsM.png) 3. (可選)下載ヰ世界らじおプラネット(情緒廣播)的音訊 前往[官網](https://www.fmyokohama.co.jp/program/isekairadioplanet)點擊「radikoタイムフリーで聴く」,<font color="red">***注意是紅色字的那個,不是藍色的***</font>,就能進入本週的廣播留檔,同步驟二方法下載。 4. (可選)從Radiko的履歷下載 在Radiko的[聴取履歴](https://radiko.jp/#!/history)中會有你之前聽過的節目,從這邊點擊節目可以快速搜尋某節目目前的存檔以及未來的放送,就不需要特地到廣播官網去找連結,不過你需要在廣播頁面上點過至少一次***再生する***來讓他留下履歷,之後同步驟二方法下載。 ## 2. 使用N64Whisper生成字幕檔案 0. 前置:擁有想產生字幕的音訊/影片檔案。 1. [點此](https://colab.research.google.com/github/Ayanaminn/N46Whisper/blob/main/N46Whisper.ipynb)進入`N46Whisper.ipynb`。 2. 點擊檔案 > 在雲端硬碟中儲存複本。 :::info 由於這個動作複製了這份文件到你的硬碟中,因此如果未來此文件的作者更新文件你的複本將不會隨之更新,必須要重新複製一份。 ::: ![](https://i.imgur.com/KEVk5dX.png) 3. 之後網址會變成`https://colab.research.google.com/drive/<一串亂碼>`,你可以把這個網址加入書籤,之後產生字幕從這個步驟開始。 例如:![](https://i.imgur.com/8SN3ltC.png) 4. 在從本地上傳文件的儲存格中(每個區塊我們稱之為儲存格)點左方的「執行儲存格」按鈕,往後這樣的操作簡稱為執行這個儲存格。 ![](https://i.imgur.com/qIJ3tAr.png) 5. 執行後過一陣子會出現可供上傳檔案的按鈕,點一下瀏覽,然後選擇你要產生字幕的音訊/影片,並且等待上傳完成。 ![](https://i.imgur.com/j3q5f3K.png) ![](https://i.imgur.com/h9YgOlq.png) 6. 在下方通用參數的儲存格根據自身需求選擇選項,`file_type`我建議一律選擇video;`model_size`的部份可以選擇large-v2或v3,兩種都能試試看哪種效果比較好;`export_str`主要影響會不會下載srt格式的字幕,如果你還不確定的話就選擇Yes,之後再視情況改成No,全部選完之後就執行這個儲存格。 :::info 你可以在上一個儲存格還沒跑完之前就執行下一個儲存格,不必等他跑完。 ::: ![](https://i.imgur.com/MQfPPmK.png) 7. 在其他選項儲存格中將`is_split`改為Yes、並把`is_vad_filter`改為Yes,其他選項可以保持不動,或是你可以參考下圖設為一樣的設置就好,同樣選完之後執行這個儲存格。 :::info - 步驟6的`file_type`選擇video是根據我朋友的建議,並且我也試過v3+video看起來效果最好才推薦。 - 聽其他人說步驟7的`is_vad_filter`可以改善廣播劇音樂部份的辨識問題,不過曾經試過用了的結果反而比不用還差一點點,這個選項是有好有壞的,可以多嘗試看看開與不開的分別 - 步驟6、7的選項不見得依照我給的會最好,也許有更好的設置方法也不一定,可以多和其他人交換意見,或是自己嘗試調配選項,主要我認為有討論空間的選項有:`file_type`、`model_size`、`is_split`、`split_method`、`is_vad_filter`、`set_beam_size`,如果要實驗配置的切記要記好哪個結果對應哪個配置,否則很容易搞混。 ::: ![](https://i.imgur.com/QgmYYRH.png) ![](https://i.imgur.com/0rnyo8w.png) 8. 執行運行Whisper儲存格並且等待一段時間,處理完畢之後會直接下載字幕檔,儲存位置根據你的瀏覽器偏好設定有所不同。 ![](https://i.imgur.com/My12vBe.png) ![](https://i.imgur.com/G8palR4.png) :::info - 目前觀察到廣播產生出來的字幕在放歌的片段很容易出現跳針的現象,會一直不斷重複同一句,有可能跳到歌結束過好一陣子都沒有恢復,`is_vad_filter`有可能可以緩解這個問題,但是因為這個選項不是一定會讓結果更好,所以效果可能需要自己多加嘗試。 - `N46Whisper.ipynb`下方有使用ChatGPT翻譯的部份,不過這部份是需要花錢使用他們的api的,而且可能需要長時間的調整與測試,故不在此多提。 ::: ## 3. 同步播放影音與字幕 0. 前置:擁有想播放的音訊/影片檔案以及對應的字幕檔案 由於播放器可以有很多種選擇,因此這邊會提供幾種不同的方案,你也可以試著用其他播放器播放看看。 ### 3.1. VLC播放器 :::info 使用這個方法的時候.ass與.srt的字幕格式皆可,因此`export_str`可以設置為No。 ::: 1. 前往[VLC官網](https://www.videolan.org/vlc/index.zh_TW.html)根據自己的作業系統選擇適合的版本並安裝。 2. 將字幕檔放在與影音檔同資料夾下,並且除了副檔名以外的名字要相同。 ![](https://i.imgur.com/8nRuSWL.png) 3. 使用VLC播放器播放該影音檔。 4. 在工具 > 偏好設定 > 音訊 > 視覺效果中選擇視覺化過濾器或Goom特效其中一個,出於未知的原因純音訊需要顯示特定視覺效果才能看到字幕,如果你是播放影片的話可以跳過此步驟。 ![](https://i.imgur.com/sXjfQQ0.png) ![](https://i.imgur.com/eU9HcnK.png) ### 3.2. WMP(Windows Media Player) + MiniLyrics :::info 使用這個方法僅能使用.srt的字幕格式,因此`export_str`必須設置為Yes。並且此方法與3.1相比較為複雜一點,但是個人覺得字幕播放效果較佳,所以兩種方法都列出供參考。本方法必須使用WMP與MiniLyrics,兩者都是僅適用於Windows的軟體,因此其他作業系統的使用者無法參考本方法。 ::: 1. 前往[MiniLyrics](https://www.crintsoft.com/minilyrics/download/)下載並安裝。 2. 除了一般常見的安裝步驟以外MiniLyrics還需要設定一些關於播放器的設定,這邊直接按安裝。 ![](https://i.imgur.com/YK9175b.png) :::spoiler 一些不是很重要的細節 根據我的測試MiniLyrics雖然有支援VLC與MPC-HZ,但可能因為版本不合的緣故無法搭配使用,其他播放器我是沒測試過,我只測試過VLC、MPC-HZ與WMP,而且只有WMP成功了,因此才推薦搭配WMP,如果有發現其他播放器能配合也可以推薦。 ::: 3. 將字幕檔放在與影音檔同資料夾下,除了副檔名以外的名字要相同,<font color="red">***並且不能有名稱相近的檔案在同資料夾內***</font>,因為MiniLyrics如果有名稱相近的檔案在同資料夾可能MiniLyrics會抓錯字幕檔,例如下圖的1129的檔案不可以放在此資料夾,有機會導致抓錯檔案。 ![](https://i.imgur.com/X1yEFVe.png) 4. 使用WMP播放器播放該影音檔,如果順利的話你會發現MiniLyrics也隨之開啟並且顯示了對應的字幕檔。 ![](https://i.imgur.com/IjqFEYQ.png) 5. 在字幕顯示處右鍵呼叫選單調整選項,將外觀設定為MiniLyrics,顯示選項選擇靜態文字顯示風格。其他還有一些選項像是最上層顯示之類的可以自己隨喜好設定,也可以憑自己喜好選擇其他外觀或顯示選項,此處只是提供一個推薦的。之所以推薦靜態文字顯示風格是因為這個顯示方式會顯示多行,如果遇到時間軸跑掉的問題(下方會解釋)也不至於讓字幕完全無法配合,只需要往上或往下看其他行即可。 ![](https://i.imgur.com/vswGG0S.png) ![](https://i.imgur.com/3iOnptC.png) 6. 注意不要從MiniLyrics跳時間軸,有高機率會跳回一開始的地方,算是一個小bug。 ![](https://i.imgur.com/fmVe6wv.png) ### 3.bug. 時間軸跑掉的問題 出於不知名的原因我自己的電腦上只要快進退N秒或直接跳時間軸就會出現時間軸錯亂的現象,只要不這樣做就能很順利播放完,即使沒有字幕也會發生這個現象,而這個現象影響了字幕的播放時間,因此如果你遇到了同樣的問題就只能在不快進退也不跳時間的前提下看完來解決。 以下是測試影片,第一次播放因為沒有跳所以字幕時間都是吻合的,一句字幕最後一個字講完的瞬間下一句字幕就會出現;而第二次播放的時候因為一開始就跳了五次左右,因此可以很明顯觀察到時間軸錯亂的現象,不確定是只有我的電腦上會發生還是Windows都會。 {%youtube vXaYRTYWOBk %}