# 批量生成AIGC有聲繪本影片 -- 工作流程與後續建議
## 一、主要流程
| 生成項目 | 使用工具 | 手動/自動 | 產出檔案 |
|---|---|---|---|
| 100 則主題 | ChatGPT | 手動 | `themes.txt` |
| ***單一主題處理*** | | | |
| 提示詞、旁白 | ChatGPT | 手動 | `prompts.txt`+`narration.txt`|
| 場景圖片 | Python/OpenAI等 | 自動 | 10張圖片 |
| 語音字幕 | Python/TTS | 自動 | `subtitles.srt` + 很多個mp3 |
| 繪本影片 | Python/ffmpeg | 自動 | `story.mp4` |
| YT標題說明 | ChatGPT/YT Studio | 手動 | 上傳至YouTube |
## 二、操作細節
### 1. 100 則主題
請ChatGPT針對單一主題構思100則兒童故事主題,人工確認內容無誤後手動存入`themes.txt` 。
### 2. 提示詞、旁白
先請ChatGPT針對單一主題構思故事大綱,要求故事切分10個段落,每個段落生成一個場景繪圖prompt與旁白,分別手動存入`prompts.txt`與`narration.txt`,並提出精準要求每一句prompt的格式,生成出來的prompt每一句都要有大量相同開頭描述,才能讓後續生成出來的圖片角色形象盡量連貫。
#### 範例:
```
樹屋大會議——一群小動物決定搭建屬於大家的樹屋,但需要解決意見不同的問題。
幫我以此主題構思10個場景的兒童繪本故事,給我生成10張場景圖的英文prompt,prompt要求如下:
我是要直接複製進txt檔後續讓程式批量生圖的,所以直接給我純文字就好,每一段prompt都用一行呈現,每一行用1.2.標記就好,prompt之間要記得換行,所以總共有10行的prompt,每一段prompt都要有10句,前6句都是相同的用來描述繪畫風格、角色設定細節等等,後4句才是關於故事進展到這一幕的場景描述。
完成之後再給我10段對應的中文故事旁白,所以會有10行的中文旁白文字,也是要直接存進txt檔,後續批量生成語音檔,每一行用1.2.標記就好。
所以最後你要生成10行的英文prompt,以及10行的中文故事旁白,要記得換行,不要全部擠在一行
```
#### 難點:
一定要給足夠多的約束條件,才能盡量讓ChatGPT生成內容標準化,方便手動複製到文檔,但實際產出的文字格式還是常常不可控,或是prompt與旁白沒對上,且模型產出的故事文本質量也很難把控,因此需要人工檢查生成內容,該步驟 **很難以python程式自動化**。
### 3.場景圖片
python程式讀取提示詞檔`prompts.txt`,逐一透過API輸入給雲端繪圖模型,可能是OpenAI或是其他眾多模型,最終生成10張場景圖片。
#### 難點:
即便是使用付費的OpenAI 最高規格 DALL·E 3模型,生成出來的圖案依然會有角色形象不連貫,甚至內容不按prompt生成,或是畫面有違常理的狀況,只是產圖速度較快,但素質並不比免費模型高出多少。
且產圖的提示詞,讓他每一句之間都要有相同的風格場景人物描述,相同的部份太少腳色會不連貫,相同部份太多每一張圖又太像,這些問題都是Prompt-Based生圖模型通病。
### 4.語音字幕
python程式讀取旁白檔`narration.txt`,將每一段旁白依據標點符號切分,每一句話單獨生成mp3檔,才能精準計算每一句字幕出現與消失的時間點,最後生成`subtitles.srt`標準字幕檔。
另外加總同一段旁白中所有語音檔時間,計算出出每一張場景圖片停留的時長。
### 5.繪本影片
python程式結合先前生成之圖片與語音檔案,以及計算出來的時間戳記,自動剪接出精準配音的故事繪本影片`story.mp4`。
### 6.YT標題說明
請ChatGPT針對該故事生成影片標題、說明與tag,並連同影片`story.mp4`與字幕檔`subtitles.srt`上傳至YT Studio,此步驟可用python程式自動化。
## 三、解決方案
如果要繼續投入製作有聲繪本影片,生圖的模型須轉用Node-Based模型。
### 提示詞生圖 vs. 圖形節點生圖 比較
| **特性** | **提示詞生圖(Prompt-Based)** | **圖形節點生圖(Node-Based)** |
|------------|----------------|----------------|
| **使用方式** | 輸入文字描述 | 透過節點控制流程 |
| **控制精度** | 低(依賴 AI 理解) | 高(可精細調整各項參數) |
| **可重現性** | 低(相同 Prompt 可能不同結果) | 高(相同節點流程產生一致結果) |
| **適合對象** | 新手、快速生成 | 進階用戶、專業設計師 |
| **細節修改** | 受限於 AI 理解 | 可精細調整構圖、風格、姿勢等 |
| **技術依賴** | DALL·E, MidJourney, Stable Diffusion | Stable Diffusion + ComfyUI, ControlNet |
| **學習難度** | 低(簡單輸入即可) | 高(需理解節點流程) |
| **適合用途** | 快速概念設計、靈感發想 | 高精度美術製作、角色設計 |
| **範例工具** | MidJourney, DALL·E, Stable Diffusion Web UI | ComfyUI, Automatic1111, InvokeAI |
- **提示詞生圖** 適合快速生成 AI 圖片,適合一般用戶。
- **圖形節點生圖** 提供更高精度與控制,適合專業美術與設計流程。
### **Google Colab + ComfyUI 節點式 AI 生圖方案**
#### 方案概述
本方案使用 **Google Colab 運行 ComfyUI**,透過 **節點式流程(Node-Based Workflow)** 來控制 AI 繪圖的細節,提供比傳統提示詞生圖更高的可控性與一致性。
適合用於 **繪本製作、角色設計、概念藝術**,並支持 **遠端 API 自動化請求**,提升批量生成效率。
#### 方案優勢
✅ **免費使用 Google Colab GPU**,無需高階本地設備
✅ **節點式控制**,可細調構圖、光影、風格,確保一致性
✅ **支援 ControlNet、Lora、img2img**,可高度定製 AI 繪圖
✅ **可透過 API 遠端請求**,適合大規模自動化生圖
✅ **適用於 AI 繪本、角色設計、場景創作**,比純提示詞生成更穩定可控
## 四、技術挪用
#### 如果中止有聲繪本影片製作計畫,目前技術可以挪用在以下方向:
| **應用方向** | **使用 AI 圖像** | **使用 AI 文字** | **使用 AI 語音** | **使用 AI 影片剪輯** | **風格連貫需求** | **適用平台 / 產出形式** |
|-------------|----------------|----------------|----------------|----------------|----------------|----------------|
| **單張 AI 插畫集** | ✅ | ✅ | ❌ | ❌ | ❌ | IG、Pinterest、Behance(獨立插畫展示) |
| **AI 桌遊卡片設計** | ✅ | ✅ | ❌ | ❌ | ❌ | RPG、策略桌遊(可印製或數位卡牌) |
| **百科內容、世界觀設定** | ✅ | ✅ | ❌ | ❌ | ❌ | Wiki、Discord、小說輔助(世界觀構建) |
| **教育內容(數學、科學)** | ✅ | ✅ | ✅ | ✅ | ❌ | 教材、PPT、學習網站(圖解+語音講解) |
| **YouTube Shorts** | ✅ | ✅ | ✅ | ✅ | ❌ | AI 短片、故事、趨勢科普(YT、TikTok) |
| **自動化 AI 影片剪輯** | ❌ | ✅ | ✅ | ✅ | ❌ | 影片轉換、短片製作、AI 配音剪輯 |
✅ **這些方向不要求 AI 圖像的風格完全一致**,但可利用 **Prompt-Based** 技術生成內容。
✅ **自動生語音(TTS)與剪輯技術也可用於 AI 短片、教育內容、數位廣告製作等應用。**