Potplayer隐藏福利：免费字幕自动生成，教程手把手教你！

## 需求与问题 ![image.png|450](https://wechatarticle-1329312469.cos.ap-guangzhou.myqcloud.com/Obsidian/20250830154102444.png) 近期，剪映的自动识别字幕需升级到 SVIP 才能使用，看在豆包免费的份上就不吐槽，但我最常使用剪映的功能就是识别字幕，其他花哨的技巧我用的少，再继续升级氪金实属有点费钱。其实，很早就知道 PotPlayer 支持自动生成字幕，而且很多大佬都说速度快、是标准，我们今天就用起来吧！如何安装 potplayer 就不赘述，主要讲授使用 potplayer 自动生成字幕时，不会根据自己的电脑配置选择转换引擎、型号等这个问题。希望一文带你实现免费、快速、好用AI 自动生成字幕的自由。 ## 电脑配置我的主机是零刻 GTR7 Pro—— CPU：AMD Ryzen 7 7840HS 内存：32GB GPU：Radeon 780M 系统：Windows 11 Pro 24H2 > [!NOTE] 笔记 > 如果是同型号电脑那就照抄。 > > 不同的话，各位可以更换上方的配置信息+生成有声字幕的截图，一并发送给 AI 询问`建议如何设置这个软件`。 ## 设置方法 **7840HS + Radeon 780M（Win11）最合适的引擎顺序是**： ① Whisper Const-me（DirectML）＞ ② whisper.cpp Vulkan ＞ ③ Whisper-Faster（CPU）。 > [!NOTE] 笔记 > CUDA 专供 NVIDIA，不适合； > whisper.cpp CPU/BLAS 仅作兜底。 ### 不同场景的推荐设置 #### 场景A：日常转写（快速） - **转换引擎**：Whisper Const-me - **模型**：`small`（中文已很稳、速度快） - **语言**：**可指定语言，如Chinese**，减少多语种混判。若是多语种则选择 Auto。 - **语音增强滤镜**：嘈杂素材才开“语音增强滤镜”，干净录音建议关闭以免音色失真。 - 自动生成：禁用； - 备注：同目录保存可勾选 #### 场景B：需要高准确率（定稿级） - **转换引擎**：Whisper Const-me - **模型**：`medium`（更准，稍慢） - 其余同上 ### 如果 Whisper Const-me 不稳定/报显存不足 - 切换 **whisper.cpp Vulkan**（也能吃到 AMD GPU 加速）。 - 仍不行再用 **Whisper-Faster**（走 CPU，7840HS 也很能打），模型选 `small/medium`。 ### 引擎简述 - **Whisper Const-me**：走 **DirectML**，最适合 AMD/Intel 显卡的 Windows；速度通常是纯 CPU 的 2–4 倍。 - **whisper.cpp Vulkan**：走 Vulkan GPU，兼容 780M；偶尔更挑驱动。 - **Whisper-Faster**：基于 CTranslate2，CPU 优化好；你这颗 Zen4 多核跑 `small/medium` 速度也可观。 - **CUDA**：仅 NVIDIA；**不要选**。 - **Faster-Whisper-XXL**：大模型/英文更强，但在你这边只能 CPU，**慢**；中文不一定优于 `medium`。 ### 模型简述 ![image.png|450](https://wechatarticle-1329312469.cos.ap-guangzhou.myqcloud.com/Obsidian/20250830162519511.png) > [!NOTE] 说明 > - `.en` 是**仅英文**版，体积与对应非 `.en` 基本相同。若素材多语混讲，就选**非 `.en`**。 > - 不同引擎的打包格式（GGML/GGUF/CT2）会让数字有±5~10%的出入，但量级不变。 > - 如果同时下了 `large`、`large-v2`、`large-v3`，会**各占一份**空间；只保留 **`large-v3`（或 v3-turbo）** 即可。 > - 实用组合：`small`（244 MB）+ `medium`（769 MB）+ `large-v3`（1.55 GB）合计**≈ 2.6 GB**，覆盖“草稿 → 定稿 → 高难片段”的全流程。 ## 小技巧 ### 模型大小怎么选 - `small`：≈0.5–1.2 GB；**草稿/常规**（硬件要求低） - `medium`：≈2–4 GB；**定稿**（更准） - `large-v3`：≥5 GB；对 iGPU 压力大，**除非特别追求极致，不建议** > 若 DirectML 提示显存不足：把 BIOS 里的 UMA/iGPU 显存调到 4–8 GB（可选），或改用 `small`/Vulkan/CPU。 ### 为什么不建议用 tiny？ - tiny/ base 在中文上**漏字、错词**会明显增多；`small` 是速度与准确率的更好平衡，`medium` 是稳定成片的常用选择。 ### 何时开启“语音增强滤镜”？ - **开**：人多嘈杂/空房间混响/底噪重（空调、风声）。 - **关**：原本就干净的人声录音（避免过度处理导致失真）。 ### “附加选项”留空更稳 - 这栏通常是传递底层引擎参数的，默认就很好； - 当你遇到被自动翻译成英文、漏字、乱码之类情况，再尝试填（若软件不支持，会直接忽略，不影响使用）： ~~~text --task transcribe --temperature 0 --vad_filter true ~~~ 解释： - `--task transcribe`：确保按照你选择的**语种转写**，不把非英语强行翻译成英文。 - `--temperature 0`：更稳定；若遇到漏字/乱码，可改为 `--temperature 0,0.2,0.4`（回退重试）。 - `--vad_filter true`：更好地跳过静音/噪声段（如果你的版本支持）。