# Whisper 與語音轉文字簡介 * Whisper 是 OpenAI 開發的開源語音辨識模型 * 支援英文與約 96 種語言 * 背景雜音多、口音重也能有良好辨識效果 * 免費使用,準確度通常優於多數人工轉錄 * 可輸出文字稿與含時間軸的字幕檔 # 使用 Google Colaboratory 的原因 * 本機安裝 Whisper 需要較高硬體效能 * Colab 在雲端執行,不吃自己電腦資源 * 只需瀏覽器與 Google 帳號即可使用 * 適合想快速開始、不想手動建環境的使用者 # 在 Google Drive 安裝與啟用 Colab * 開啟 Google Drive,點選左上「新增」 * 點「更多」→「連結更多應用程式」 * 搜尋「Google Colaboratory」 * 點選「Colaboratory」→「安裝」並完成授權 * 安裝完成後,「新增」→「更多」中會出現「Google Colaboratory」 # 建立 Colab 筆記本與命名 * 在 Google Drive 點「新增」→「更多」→「Google Colaboratory」 * 進入後將檔名改為例如「transcribe audio」 * 命名可方便日後在 Drive 中搜尋與管理 # 設定執行環境與啟用 GPU * 在 Colab 上方選單點「Runtime」 * 選「Change runtime type」 * 將「Hardware accelerator」設定為「GPU」 * GPU 可大幅加快 Whisper 模型運算速度 * 設定完成後點「Save」 # 安裝 Whisper 與 ffmpeg * 在第一個程式碼區塊貼上安裝 Whisper 與 ffmpeg 的指令 * Whisper 從 GitHub 安裝,包含模型與程式碼 * ffmpeg 用於處理音訊與影片格式 * 所有安裝都在 Colab 環境中,不會動到本機 * 點左側執行按鈕,等待安裝完成後再進行下一步 # 上傳要轉錄的音訊或影片 * 點左側資料夾圖示開啟檔案面板 * 將音訊或影片檔(如 MP3)拖曳到面板中 * 上傳完成後可在左側檔案列表看到檔案 * Colab 提示 runtime 結束後檔案會刪除,之後需自行下載結果 # 使用 Whisper 進行基本轉錄 * 新增程式碼區塊,輸入呼叫 Whisper 的指令 * 指令中檔名需與上傳檔案名稱完全一致(例如 cookies.mp3) * 指定使用的模型,如 tiny、small、medium、large * tiny 體積小速度快但準確度低 * large 體積大速度慢但準確度最高 * medium 在速度與準確度間較平衡,適合作為一般選擇 * 執行後 Colab 會開始將音訊轉成文字 # 轉錄結果與輸出檔案類型 * 轉錄完成後,下方輸出區會顯示完整文字稿 * 左側檔案面板會多出三種檔案:.txt、.srt、.vtt * .txt 為純文字稿 * .srt 為常見字幕格式,含時間軸 * .vtt 為另一種字幕格式,同樣含時間資訊 * 若看不到新檔案,可點檔案面板的重新整理圖示 * 文字稿包含標點與大小寫,可直接閱讀與使用 # 下載文字與字幕檔 * 在左側檔案列表中找到 .txt、.srt 或 .vtt 檔 * 點檔案右側的三個點開啟選單 * 選擇「Download」下載到本機 * .txt 適合整理內容或當腳本使用 * .srt 與 .vtt 可直接作為影片字幕檔 # 再次轉錄其他檔案的流程 * 將新的音訊或影片檔再次拖曳上傳到 Colab * 在原本的 Whisper 指令中把檔名改成新檔名 * 重新執行該程式碼區塊 * 會再產生新的文字稿與字幕檔供下載 # 查看與使用 Whisper 進階參數 * 新增程式碼區塊,輸入顯示說明的指令(例如 whisper -h) * 執行後會列出所有可設定參數 * 可調整輸出檔案儲存位置與檔名 * 可選擇只轉錄原文或直接翻譯成其他語言 * 可手動指定音檔語言 * 其他參數可調整速度與品質等行為 * 每個參數下方都有用途解釋,可依需求調整 # Colab Runtime 與檔案保存注意事項 * 離開 Colab 或 runtime 結束後環境會被重置 * 上傳檔案及產生的輸出檔都會被刪除 * 重要的文字稿與字幕檔需在離開前先下載保存 # 實際應用情境 * 可用於製作 YouTube 影片字幕 * 轉錄準確度高,錯字少,標點與大小寫處理完整 * 適合課程影片、演講、Podcast、會議錄音等內容轉文字使用 --- # Terminology * 語音轉文字(Speech-to-Text):將口說內容自動轉換成可編輯文字的技術 * 人工智慧(Artificial Intelligence, AI):讓電腦模擬人類思考與判斷的技術總稱 * 開源軟體(Open Source Software):原始碼公開、可自由使用與修改的軟體 * 語音識別模型(Speech Recognition Model):專門辨識與解析人類語音的機器學習模型 * 背景噪音抑制(Background Noise Suppression):在錄音中降低環境雜音影響的處理技術 * 口音魯棒性(Accent Robustness):模型在面對不同口音時仍能維持準確度的能力 * Whisper 模型(Whisper Model):OpenAI 提供的多語言通用語音識別與翻譯模型 * OpenAI 平台(OpenAI Platform):提供各種 AI 模型與 API 的服務平台 * 自然語言處理(Natural Language Processing, NLP):讓電腦理解與產生人類語言的技術領域 * 文字轉圖片(Text-to-Image):依照文字描述自動生成圖像的 AI 技術 * Google 雲端硬碟(Google Drive):Google 提供的雲端檔案儲存與同步服務 * Google Colaboratory(Google Colaboratory):可在瀏覽器中執行 Python 程式碼的雲端筆記本服務 * 雲端運算環境(Cloud Computing Environment):在遠端伺服器上提供運算資源的執行環境 * 執行階段(Runtime):實際執行程式與管理資源的後端計算實例 * 硬體加速器(Hardware Accelerator):用來加速特定運算工作的專用硬體,如 GPU * 圖形處理器(Graphics Processing Unit, GPU):能大量平行運算,常用於深度學習推論與訓練的晶片 * 程式碼儲存格(Code Cell):在筆記本環境中可獨立編寫與執行的一段程式區塊 * 軟體安裝(Software Installation):將程式或套件部署到環境中以便使用的過程 * 版本控制平台(Version Control Platform):用來管理程式碼歷史版本與協作的服務 * GitHub 儲存庫(GitHub Repository):在 GitHub 上託管專案程式碼與文件的空間 * 套件管理工具(Package Manager):用來安裝、更新與管理程式庫的工具(如 pip) * ffmpeg 函式庫(ffmpeg Library):處理音訊與視訊轉檔、剪輯與編碼的多媒體工具集 * 音訊編碼格式(Audio Codec Format):定義音訊資料壓縮與儲存方式的標準 * 視訊編碼格式(Video Codec Format):定義影像與聲音如何壓縮與封裝的格式 * 音檔轉錄(Audio Transcription):將純音訊內容轉換為文字記錄的過程 * 影片轉錄(Video Transcription):從影片中擷取聲音並轉換成文字的過程 * 語言模型(Language Model):用來預測或生成文字序列的統計或深度學習模型 * 模型大小(Model Size):以參數數量或佔用記憶體量衡量模型規模的指標 * 模型推論(Model Inference):使用訓練完成的模型進行預測或產生輸出的階段 * 識別精確度(Recognition Accuracy):模型在辨識任務中輸出結果正確的比例 * 處理延遲(Processing Latency):從輸入到輸出完成所需的時間延遲 * 字幕檔案(Subtitle File):儲存對話文字與對應時間資訊的檔案 * SRT 格式(SRT Format):常見的純文字字幕檔格式,包含分段與時間戳記 * VTT 格式(VTT Format):用於網頁影片字幕的 WebVTT 標準格式 * 純文字輸出(Text File Output):將結果保存為副檔名為 .txt 的文字檔 * 自動斷句(Automatic Sentence Segmentation):自動判斷句子邊界並分段的處理 * 自動標點(Automatic Punctuation):在純連續文字中自動加入標點符號的技術 * 參數設定(Parameter Configuration):調整模型或程式行為的各種選項與數值 * 輸出路徑(Output Path):指定轉錄結果或檔案保存位置的路徑設定 * 語言偵測(Language Detection):自動判斷輸入音訊或文字所使用語言的功能 * 語音翻譯(Speech Translation):將語音內容直接轉成另一種語言文字的技術 * 自動產生字幕(Auto-generated Captions):由系統自動產生的影片對話文字說明 * 時間戳記(Timestamp):記錄某段文字或事件在時間軸上發生的具體時間點 * 執行環境重置(Runtime Reset):將目前雲端執行環境清空並重新啟動的操作 * 臨時檔案儲存(Temporary File Storage):只在執行期間短暫存在的檔案儲存方式 * 使用者介面(User Interface, UI):使用者與系統互動的視覺與操作層 * 互動式筆記本環境(Interactive Notebook Environment):可邊寫邊執行程式並即時看到結果的開發介面 * 後製工作流程(Post-production Workflow):影片完成拍攝後的剪輯、上字幕等處理流程 * 文本校對(Text Proofreading):檢查並修正轉錄文字錯字與語病的過程 * 字幕時間軸(Subtitle Timeline):字幕在影片播放過程中顯示與隱藏的時間安排