---
# System prepended metadata

title: Potplayer隐藏福利：免费字幕自动生成，教程手把手教你！
tags: [术业专攻]

---

## 需求与问题
![image.png|450](https://wechatarticle-1329312469.cos.ap-guangzhou.myqcloud.com/Obsidian/20250830154102444.png)
近期，剪映的自动识别字幕需升级到 SVIP 才能使用，看在豆包免费的份上就不吐槽，但我最常使用剪映的功能就是识别字幕，其他花哨的技巧我用的少，再继续升级氪金实属有点费钱。
其实，很早就知道 PotPlayer 支持自动生成字幕，而且很多大佬都说速度快、是标准，我们今天就用起来吧！
如何安装 potplayer 就不赘述，主要讲授使用 potplayer 自动生成字幕时，不会根据自己的电脑配置选择转换引擎、型号等这个问题。
希望一文带你实现免费、快速、好用AI 自动生成字幕的自由。

## 电脑配置
我的主机是零刻 GTR7 Pro——  
CPU：AMD Ryzen 7 7840HS  
内存：32GB  
GPU：Radeon 780M  
系统：Windows 11 Pro 24H2  

> [!NOTE] 笔记
> 如果是同型号电脑那就照抄。
>
> 不同的话，各位可以更换上方的配置信息+生成有声字幕的截图，一并发送给 AI 询问`建议如何设置这个软件`。

## 设置方法
**7840HS + Radeon 780M（Win11）最合适的引擎顺序是**：
① Whisper Const-me（DirectML）＞ ② whisper.cpp Vulkan ＞ ③ Whisper-Faster（CPU）。
> [!NOTE] 笔记
> CUDA 专供 NVIDIA，不适合；  
> whisper.cpp CPU/BLAS 仅作兜底。

### 不同场景的推荐设置
#### 场景A：日常转写（快速）
- **转换引擎**：Whisper Const-me
- **模型**：`small`（中文已很稳、速度快）
- **语言**：**可指定语言，如Chinese**，减少多语种混判。若是多语种则选择 Auto。
- **语音增强滤镜**：嘈杂素材才开“语音增强滤镜”，干净录音建议关闭以免音色失真。
- 自动生成：禁用；
- 备注：同目录保存可勾选

#### 场景B：需要高准确率（定稿级）
- **转换引擎**：Whisper Const-me
- **模型**：`medium`（更准，稍慢）
- 其余同上

### 如果 Whisper Const-me 不稳定/报显存不足
- 切换 **whisper.cpp Vulkan**（也能吃到 AMD GPU 加速）。
- 仍不行再用 **Whisper-Faster**（走 CPU，7840HS 也很能打），模型选 `small/medium`。

### 引擎简述
- **Whisper Const-me**：走 **DirectML**，最适合 AMD/Intel 显卡的 Windows；速度通常是纯 CPU 的 2–4 倍。
- **whisper.cpp Vulkan**：走 Vulkan GPU，兼容 780M；偶尔更挑驱动。
- **Whisper-Faster**：基于 CTranslate2，CPU 优化好；你这颗 Zen4 多核跑 `small/medium` 速度也可观。
- **CUDA**：仅 NVIDIA；**不要选**。
- **Faster-Whisper-XXL**：大模型/英文更强，但在你这边只能 CPU，**慢**；中文不一定优于 `medium`。

### 模型简述
![image.png|450](https://wechatarticle-1329312469.cos.ap-guangzhou.myqcloud.com/Obsidian/20250830162519511.png)
> [!NOTE] 说明
> - `.en` 是**仅英文**版，体积与对应非 `.en` 基本相同。若素材多语混讲，就选**非 `.en`**。
> - 不同引擎的打包格式（GGML/GGUF/CT2）会让数字有±5~10%的出入，但量级不变。
> - 如果同时下了 `large`、`large-v2`、`large-v3`，会**各占一份**空间；只保留 **`large-v3`（或 v3-turbo）** 即可。
> - 实用组合：`small`（244 MB）+ `medium`（769 MB）+ `large-v3`（1.55 GB）合计**≈ 2.6 GB**，覆盖“草稿 → 定稿 → 高难片段”的全流程。

## 小技巧
### 模型大小怎么选
- `small`：≈0.5–1.2 GB；**草稿/常规**（硬件要求低）
- `medium`：≈2–4 GB；**定稿**（更准）
- `large-v3`：≥5 GB；对 iGPU 压力大，**除非特别追求极致，不建议**
> 若 DirectML 提示显存不足：把 BIOS 里的 UMA/iGPU 显存调到 4–8 GB（可选），或改用 `small`/Vulkan/CPU。

### 为什么不建议用 tiny？
- tiny/ base 在中文上**漏字、错词**会明显增多；`small` 是速度与准确率的更好平衡，`medium` 是稳定成片的常用选择。

### 何时开启“语音增强滤镜”？
- **开**：人多嘈杂/空房间混响/底噪重（空调、风声）。
- **关**：原本就干净的人声录音（避免过度处理导致失真）。

### “附加选项”留空更稳
- 这栏通常是传递底层引擎参数的，默认就很好；
- 当你遇到被自动翻译成英文、漏字、乱码之类情况，再尝试填（若软件不支持，会直接忽略，不影响使用）：
~~~text
--task transcribe
--temperature 0
--vad_filter true
~~~
解释：
- `--task transcribe`：确保按照你选择的**语种转写**，不把非英语强行翻译成英文。
- `--temperature 0`：更稳定；若遇到漏字/乱码，可改为 `--temperature 0,0.2,0.4`（回退重试）。
- `--vad_filter true`：更好地跳过静音/噪声段（如果你的版本支持）。