## 需求与问题  近期,剪映的自动识别字幕需升级到 SVIP 才能使用,看在豆包免费的份上就不吐槽,但我最常使用剪映的功能就是识别字幕,其他花哨的技巧我用的少,再继续升级氪金实属有点费钱。 其实,很早就知道 PotPlayer 支持自动生成字幕,而且很多大佬都说速度快、是标准,我们今天就用起来吧! 如何安装 potplayer 就不赘述,主要讲授使用 potplayer 自动生成字幕时,不会根据自己的电脑配置选择转换引擎、型号等这个问题。 希望一文带你实现免费、快速、好用AI 自动生成字幕的自由。 ## 电脑配置 我的主机是零刻 GTR7 Pro—— CPU:AMD Ryzen 7 7840HS 内存:32GB GPU:Radeon 780M 系统:Windows 11 Pro 24H2 > [!NOTE] 笔记 > 如果是同型号电脑那就照抄。 > > 不同的话,各位可以更换上方的配置信息+生成有声字幕的截图,一并发送给 AI 询问`建议如何设置这个软件`。 ## 设置方法 **7840HS + Radeon 780M(Win11)最合适的引擎顺序是**: ① Whisper Const-me(DirectML)> ② whisper.cpp Vulkan > ③ Whisper-Faster(CPU)。 > [!NOTE] 笔记 > CUDA 专供 NVIDIA,不适合; > whisper.cpp CPU/BLAS 仅作兜底。 ### 不同场景的推荐设置 #### 场景A:日常转写(快速) - **转换引擎**:Whisper Const-me - **模型**:`small`(中文已很稳、速度快) - **语言**:**可指定语言,如Chinese**,减少多语种混判。若是多语种则选择 Auto。 - **语音增强滤镜**:嘈杂素材才开“语音增强滤镜”,干净录音建议关闭以免音色失真。 - 自动生成:禁用; - 备注:同目录保存可勾选 #### 场景B:需要高准确率(定稿级) - **转换引擎**:Whisper Const-me - **模型**:`medium`(更准,稍慢) - 其余同上 ### 如果 Whisper Const-me 不稳定/报显存不足 - 切换 **whisper.cpp Vulkan**(也能吃到 AMD GPU 加速)。 - 仍不行再用 **Whisper-Faster**(走 CPU,7840HS 也很能打),模型选 `small/medium`。 ### 引擎简述 - **Whisper Const-me**:走 **DirectML**,最适合 AMD/Intel 显卡的 Windows;速度通常是纯 CPU 的 2–4 倍。 - **whisper.cpp Vulkan**:走 Vulkan GPU,兼容 780M;偶尔更挑驱动。 - **Whisper-Faster**:基于 CTranslate2,CPU 优化好;你这颗 Zen4 多核跑 `small/medium` 速度也可观。 - **CUDA**:仅 NVIDIA;**不要选**。 - **Faster-Whisper-XXL**:大模型/英文更强,但在你这边只能 CPU,**慢**;中文不一定优于 `medium`。 ### 模型简述  > [!NOTE] 说明 > - `.en` 是**仅英文**版,体积与对应非 `.en` 基本相同。若素材多语混讲,就选**非 `.en`**。 > - 不同引擎的打包格式(GGML/GGUF/CT2)会让数字有±5~10%的出入,但量级不变。 > - 如果同时下了 `large`、`large-v2`、`large-v3`,会**各占一份**空间;只保留 **`large-v3`(或 v3-turbo)** 即可。 > - 实用组合:`small`(244 MB)+ `medium`(769 MB)+ `large-v3`(1.55 GB)合计**≈ 2.6 GB**,覆盖“草稿 → 定稿 → 高难片段”的全流程。 ## 小技巧 ### 模型大小怎么选 - `small`:≈0.5–1.2 GB;**草稿/常规**(硬件要求低) - `medium`:≈2–4 GB;**定稿**(更准) - `large-v3`:≥5 GB;对 iGPU 压力大,**除非特别追求极致,不建议** > 若 DirectML 提示显存不足:把 BIOS 里的 UMA/iGPU 显存调到 4–8 GB(可选),或改用 `small`/Vulkan/CPU。 ### 为什么不建议用 tiny? - tiny/ base 在中文上**漏字、错词**会明显增多;`small` 是速度与准确率的更好平衡,`medium` 是稳定成片的常用选择。 ### 何时开启“语音增强滤镜”? - **开**:人多嘈杂/空房间混响/底噪重(空调、风声)。 - **关**:原本就干净的人声录音(避免过度处理导致失真)。 ### “附加选项”留空更稳 - 这栏通常是传递底层引擎参数的,默认就很好; - 当你遇到被自动翻译成英文、漏字、乱码之类情况,再尝试填(若软件不支持,会直接忽略,不影响使用): ~~~text --task transcribe --temperature 0 --vad_filter true ~~~ 解释: - `--task transcribe`:确保按照你选择的**语种转写**,不把非英语强行翻译成英文。 - `--temperature 0`:更稳定;若遇到漏字/乱码,可改为 `--temperature 0,0.2,0.4`(回退重试)。 - `--vad_filter true`:更好地跳过静音/噪声段(如果你的版本支持)。
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.