批量生成AIGC有聲繪本影片-工作流程

# 批量生成AIGC有聲繪本影片 -- 工作流程與後續建議 ## 一、主要流程 | 生成項目 | 使用工具 | 手動/自動 | 產出檔案 | |---|---|---|---| | 100 則主題 | ChatGPT | 手動 | `themes.txt` | | ***單一主題處理*** | | | | | 提示詞、旁白 | ChatGPT | 手動 | `prompts.txt`+`narration.txt`| | 場景圖片 | Python/OpenAI等 | 自動 | 10張圖片 | | 語音字幕 | Python/TTS | 自動 | `subtitles.srt` + 很多個mp3 | | 繪本影片 | Python/ffmpeg | 自動 | `story.mp4` | | YT標題說明 | ChatGPT/YT Studio | 手動 | 上傳至YouTube | ## 二、操作細節 ### 1. 100 則主題請ChatGPT針對單一主題構思100則兒童故事主題，人工確認內容無誤後手動存入`themes.txt` 。 ### 2. 提示詞、旁白先請ChatGPT針對單一主題構思故事大綱，要求故事切分10個段落，每個段落生成一個場景繪圖prompt與旁白，分別手動存入`prompts.txt`與`narration.txt`，並提出精準要求每一句prompt的格式，生成出來的prompt每一句都要有大量相同開頭描述，才能讓後續生成出來的圖片角色形象盡量連貫。 #### 範例： ``` 樹屋大會議——一群小動物決定搭建屬於大家的樹屋，但需要解決意見不同的問題。幫我以此主題構思10個場景的兒童繪本故事，給我生成10張場景圖的英文prompt，prompt要求如下：我是要直接複製進txt檔後續讓程式批量生圖的，所以直接給我純文字就好，每一段prompt都用一行呈現，每一行用1.2.標記就好，prompt之間要記得換行，所以總共有10行的prompt，每一段prompt都要有10句，前6句都是相同的用來描述繪畫風格、角色設定細節等等，後4句才是關於故事進展到這一幕的場景描述。完成之後再給我10段對應的中文故事旁白，所以會有10行的中文旁白文字，也是要直接存進txt檔，後續批量生成語音檔，每一行用1.2.標記就好。所以最後你要生成10行的英文prompt，以及10行的中文故事旁白，要記得換行，不要全部擠在一行 ``` #### 難點：一定要給足夠多的約束條件，才能盡量讓ChatGPT生成內容標準化，方便手動複製到文檔，但實際產出的文字格式還是常常不可控，或是prompt與旁白沒對上，且模型產出的故事文本質量也很難把控，因此需要人工檢查生成內容，該步驟 **很難以python程式自動化**。 ### 3.場景圖片 python程式讀取提示詞檔`prompts.txt`，逐一透過API輸入給雲端繪圖模型，可能是OpenAI或是其他眾多模型，最終生成10張場景圖片。 #### 難點：即便是使用付費的OpenAI 最高規格 DALL·E 3模型，生成出來的圖案依然會有角色形象不連貫，甚至內容不按prompt生成，或是畫面有違常理的狀況，只是產圖速度較快，但素質並不比免費模型高出多少。且產圖的提示詞，讓他每一句之間都要有相同的風格場景人物描述，相同的部份太少腳色會不連貫，相同部份太多每一張圖又太像，這些問題都是Prompt-Based生圖模型通病。 ### 4.語音字幕 python程式讀取旁白檔`narration.txt`，將每一段旁白依據標點符號切分，每一句話單獨生成mp3檔，才能精準計算每一句字幕出現與消失的時間點，最後生成`subtitles.srt`標準字幕檔。另外加總同一段旁白中所有語音檔時間，計算出出每一張場景圖片停留的時長。 ### 5.繪本影片 python程式結合先前生成之圖片與語音檔案，以及計算出來的時間戳記，自動剪接出精準配音的故事繪本影片`story.mp4`。 ### 6.YT標題說明請ChatGPT針對該故事生成影片標題、說明與tag，並連同影片`story.mp4`與字幕檔`subtitles.srt`上傳至YT Studio，此步驟可用python程式自動化。 ## 三、解決方案如果要繼續投入製作有聲繪本影片，生圖的模型須轉用Node-Based模型。 ### 提示詞生圖 vs. 圖形節點生圖比較 | **特性** | **提示詞生圖（Prompt-Based）** | **圖形節點生圖（Node-Based）** | |------------|----------------|----------------| | **使用方式** | 輸入文字描述 | 透過節點控制流程 | | **控制精度** | 低（依賴 AI 理解） | 高（可精細調整各項參數） | | **可重現性** | 低（相同 Prompt 可能不同結果） | 高（相同節點流程產生一致結果） | | **適合對象** | 新手、快速生成 | 進階用戶、專業設計師 | | **細節修改** | 受限於 AI 理解 | 可精細調整構圖、風格、姿勢等 | | **技術依賴** | DALL·E, MidJourney, Stable Diffusion | Stable Diffusion + ComfyUI, ControlNet | | **學習難度** | 低（簡單輸入即可） | 高（需理解節點流程） | | **適合用途** | 快速概念設計、靈感發想 | 高精度美術製作、角色設計 | | **範例工具** | MidJourney, DALL·E, Stable Diffusion Web UI | ComfyUI, Automatic1111, InvokeAI | - **提示詞生圖** 適合快速生成 AI 圖片，適合一般用戶。 - **圖形節點生圖** 提供更高精度與控制，適合專業美術與設計流程。 ### **Google Colab + ComfyUI 節點式 AI 生圖方案** #### 方案概述本方案使用 **Google Colab 運行 ComfyUI**，透過 **節點式流程（Node-Based Workflow）** 來控制 AI 繪圖的細節，提供比傳統提示詞生圖更高的可控性與一致性。適合用於 **繪本製作、角色設計、概念藝術**，並支持 **遠端 API 自動化請求**，提升批量生成效率。 #### 方案優勢 ✅ **免費使用 Google Colab GPU**，無需高階本地設備 ✅ **節點式控制**，可細調構圖、光影、風格，確保一致性 ✅ **支援 ControlNet、Lora、img2img**，可高度定製 AI 繪圖 ✅ **可透過 API 遠端請求**，適合大規模自動化生圖 ✅ **適用於 AI 繪本、角色設計、場景創作**，比純提示詞生成更穩定可控 ## 四、技術挪用 #### 如果中止有聲繪本影片製作計畫，目前技術可以挪用在以下方向： | **應用方向** | **使用 AI 圖像** | **使用 AI 文字** | **使用 AI 語音** | **使用 AI 影片剪輯** | **風格連貫需求** | **適用平台 / 產出形式** | |-------------|----------------|----------------|----------------|----------------|----------------|----------------| | **單張 AI 插畫集** | ✅ | ✅ | ❌ | ❌ | ❌ | IG、Pinterest、Behance（獨立插畫展示） | | **AI 桌遊卡片設計** | ✅ | ✅ | ❌ | ❌ | ❌ | RPG、策略桌遊（可印製或數位卡牌） | | **百科內容、世界觀設定** | ✅ | ✅ | ❌ | ❌ | ❌ | Wiki、Discord、小說輔助（世界觀構建） | | **教育內容（數學、科學）** | ✅ | ✅ | ✅ | ✅ | ❌ | 教材、PPT、學習網站（圖解+語音講解） | | **YouTube Shorts** | ✅ | ✅ | ✅ | ✅ | ❌ | AI 短片、故事、趨勢科普（YT、TikTok） | | **自動化 AI 影片剪輯** | ❌ | ✅ | ✅ | ✅ | ❌ | 影片轉換、短片製作、AI 配音剪輯 | ✅ **這些方向不要求 AI 圖像的風格完全一致**，但可利用 **Prompt-Based** 技術生成內容。 ✅ **自動生語音（TTS）與剪輯技術也可用於 AI 短片、教育內容、數位廣告製作等應用。**