## 需求与问题 ![image.png|450](https://wechatarticle-1329312469.cos.ap-guangzhou.myqcloud.com/Obsidian/20250830154102444.png) 近期,剪映的自动识别字幕需升级到 SVIP 才能使用,看在豆包免费的份上就不吐槽,但我最常使用剪映的功能就是识别字幕,其他花哨的技巧我用的少,再继续升级氪金实属有点费钱。 其实,很早就知道 PotPlayer 支持自动生成字幕,而且很多大佬都说速度快、是标准,我们今天就用起来吧! 如何安装 potplayer 就不赘述,主要讲授使用 potplayer 自动生成字幕时,不会根据自己的电脑配置选择转换引擎、型号等这个问题。 希望一文带你实现免费、快速、好用AI 自动生成字幕的自由。 ## 电脑配置 我的主机是零刻 GTR7 Pro—— CPU:AMD Ryzen 7 7840HS 内存:32GB GPU:Radeon 780M 系统:Windows 11 Pro 24H2 > [!NOTE] 笔记 > 如果是同型号电脑那就照抄。 > > 不同的话,各位可以更换上方的配置信息+生成有声字幕的截图,一并发送给 AI 询问`建议如何设置这个软件`。 ## 设置方法 **7840HS + Radeon 780M(Win11)最合适的引擎顺序是**: ① Whisper Const-me(DirectML)> ② whisper.cpp Vulkan > ③ Whisper-Faster(CPU)。 > [!NOTE] 笔记 > CUDA 专供 NVIDIA,不适合; > whisper.cpp CPU/BLAS 仅作兜底。 ### 不同场景的推荐设置 #### 场景A:日常转写(快速) - **转换引擎**:Whisper Const-me - **模型**:`small`(中文已很稳、速度快) - **语言**:**可指定语言,如Chinese**,减少多语种混判。若是多语种则选择 Auto。 - **语音增强滤镜**:嘈杂素材才开“语音增强滤镜”,干净录音建议关闭以免音色失真。 - 自动生成:禁用; - 备注:同目录保存可勾选 #### 场景B:需要高准确率(定稿级) - **转换引擎**:Whisper Const-me - **模型**:`medium`(更准,稍慢) - 其余同上 ### 如果 Whisper Const-me 不稳定/报显存不足 - 切换 **whisper.cpp Vulkan**(也能吃到 AMD GPU 加速)。 - 仍不行再用 **Whisper-Faster**(走 CPU,7840HS 也很能打),模型选 `small/medium`。 ### 引擎简述 - **Whisper Const-me**:走 **DirectML**,最适合 AMD/Intel 显卡的 Windows;速度通常是纯 CPU 的 2–4 倍。 - **whisper.cpp Vulkan**:走 Vulkan GPU,兼容 780M;偶尔更挑驱动。 - **Whisper-Faster**:基于 CTranslate2,CPU 优化好;你这颗 Zen4 多核跑 `small/medium` 速度也可观。 - **CUDA**:仅 NVIDIA;**不要选**。 - **Faster-Whisper-XXL**:大模型/英文更强,但在你这边只能 CPU,**慢**;中文不一定优于 `medium`。 ### 模型简述 ![image.png|450](https://wechatarticle-1329312469.cos.ap-guangzhou.myqcloud.com/Obsidian/20250830162519511.png) > [!NOTE] 说明 > - `.en` 是**仅英文**版,体积与对应非 `.en` 基本相同。若素材多语混讲,就选**非 `.en`**。 > - 不同引擎的打包格式(GGML/GGUF/CT2)会让数字有±5~10%的出入,但量级不变。 > - 如果同时下了 `large`、`large-v2`、`large-v3`,会**各占一份**空间;只保留 **`large-v3`(或 v3-turbo)** 即可。 > - 实用组合:`small`(244 MB)+ `medium`(769 MB)+ `large-v3`(1.55 GB)合计**≈ 2.6 GB**,覆盖“草稿 → 定稿 → 高难片段”的全流程。 ## 小技巧 ### 模型大小怎么选 - `small`:≈0.5–1.2 GB;**草稿/常规**(硬件要求低) - `medium`:≈2–4 GB;**定稿**(更准) - `large-v3`:≥5 GB;对 iGPU 压力大,**除非特别追求极致,不建议** > 若 DirectML 提示显存不足:把 BIOS 里的 UMA/iGPU 显存调到 4–8 GB(可选),或改用 `small`/Vulkan/CPU。 ### 为什么不建议用 tiny? - tiny/ base 在中文上**漏字、错词**会明显增多;`small` 是速度与准确率的更好平衡,`medium` 是稳定成片的常用选择。 ### 何时开启“语音增强滤镜”? - **开**:人多嘈杂/空房间混响/底噪重(空调、风声)。 - **关**:原本就干净的人声录音(避免过度处理导致失真)。 ### “附加选项”留空更稳 - 这栏通常是传递底层引擎参数的,默认就很好; - 当你遇到被自动翻译成英文、漏字、乱码之类情况,再尝试填(若软件不支持,会直接忽略,不影响使用): ~~~text --task transcribe --temperature 0 --vad_filter true ~~~ 解释: - `--task transcribe`:确保按照你选择的**语种转写**,不把非英语强行翻译成英文。 - `--temperature 0`:更稳定;若遇到漏字/乱码,可改为 `--temperature 0,0.2,0.4`(回退重试)。 - `--vad_filter true`:更好地跳过静音/噪声段(如果你的版本支持)。