# 批量生成AIGC有聲繪本影片 -- 工作流程與後續建議 ## 一、主要流程 | 生成項目 | 使用工具 | 手動/自動 | 產出檔案 | |---|---|---|---| | 100 則主題 | ChatGPT | 手動 | `themes.txt` | | ***單一主題處理*** | | | | | 提示詞、旁白 | ChatGPT | 手動 | `prompts.txt`+`narration.txt`| | 場景圖片 | Python/OpenAI等 | 自動 | 10張圖片 | | 語音字幕 | Python/TTS | 自動 | `subtitles.srt` + 很多個mp3 | | 繪本影片 | Python/ffmpeg | 自動 | `story.mp4` | | YT標題說明 | ChatGPT/YT Studio | 手動 | 上傳至YouTube | ## 二、操作細節 ### 1. 100 則主題 請ChatGPT針對單一主題構思100則兒童故事主題,人工確認內容無誤後手動存入`themes.txt` 。 ### 2. 提示詞、旁白 先請ChatGPT針對單一主題構思故事大綱,要求故事切分10個段落,每個段落生成一個場景繪圖prompt與旁白,分別手動存入`prompts.txt`與`narration.txt`,並提出精準要求每一句prompt的格式,生成出來的prompt每一句都要有大量相同開頭描述,才能讓後續生成出來的圖片角色形象盡量連貫。 #### 範例: ``` 樹屋大會議——一群小動物決定搭建屬於大家的樹屋,但需要解決意見不同的問題。 幫我以此主題構思10個場景的兒童繪本故事,給我生成10張場景圖的英文prompt,prompt要求如下: 我是要直接複製進txt檔後續讓程式批量生圖的,所以直接給我純文字就好,每一段prompt都用一行呈現,每一行用1.2.標記就好,prompt之間要記得換行,所以總共有10行的prompt,每一段prompt都要有10句,前6句都是相同的用來描述繪畫風格、角色設定細節等等,後4句才是關於故事進展到這一幕的場景描述。 完成之後再給我10段對應的中文故事旁白,所以會有10行的中文旁白文字,也是要直接存進txt檔,後續批量生成語音檔,每一行用1.2.標記就好。 所以最後你要生成10行的英文prompt,以及10行的中文故事旁白,要記得換行,不要全部擠在一行 ``` #### 難點: 一定要給足夠多的約束條件,才能盡量讓ChatGPT生成內容標準化,方便手動複製到文檔,但實際產出的文字格式還是常常不可控,或是prompt與旁白沒對上,且模型產出的故事文本質量也很難把控,因此需要人工檢查生成內容,該步驟 **很難以python程式自動化**。 ### 3.場景圖片 python程式讀取提示詞檔`prompts.txt`,逐一透過API輸入給雲端繪圖模型,可能是OpenAI或是其他眾多模型,最終生成10張場景圖片。 #### 難點: 即便是使用付費的OpenAI 最高規格 DALL·E 3模型,生成出來的圖案依然會有角色形象不連貫,甚至內容不按prompt生成,或是畫面有違常理的狀況,只是產圖速度較快,但素質並不比免費模型高出多少。 且產圖的提示詞,讓他每一句之間都要有相同的風格場景人物描述,相同的部份太少腳色會不連貫,相同部份太多每一張圖又太像,這些問題都是Prompt-Based生圖模型通病。 ### 4.語音字幕 python程式讀取旁白檔`narration.txt`,將每一段旁白依據標點符號切分,每一句話單獨生成mp3檔,才能精準計算每一句字幕出現與消失的時間點,最後生成`subtitles.srt`標準字幕檔。 另外加總同一段旁白中所有語音檔時間,計算出出每一張場景圖片停留的時長。 ### 5.繪本影片 python程式結合先前生成之圖片與語音檔案,以及計算出來的時間戳記,自動剪接出精準配音的故事繪本影片`story.mp4`。 ### 6.YT標題說明 請ChatGPT針對該故事生成影片標題、說明與tag,並連同影片`story.mp4`與字幕檔`subtitles.srt`上傳至YT Studio,此步驟可用python程式自動化。 ## 三、解決方案 如果要繼續投入製作有聲繪本影片,生圖的模型須轉用Node-Based模型。 ### 提示詞生圖 vs. 圖形節點生圖 比較 | **特性** | **提示詞生圖(Prompt-Based)** | **圖形節點生圖(Node-Based)** | |------------|----------------|----------------| | **使用方式** | 輸入文字描述 | 透過節點控制流程 | | **控制精度** | 低(依賴 AI 理解) | 高(可精細調整各項參數) | | **可重現性** | 低(相同 Prompt 可能不同結果) | 高(相同節點流程產生一致結果) | | **適合對象** | 新手、快速生成 | 進階用戶、專業設計師 | | **細節修改** | 受限於 AI 理解 | 可精細調整構圖、風格、姿勢等 | | **技術依賴** | DALL·E, MidJourney, Stable Diffusion | Stable Diffusion + ComfyUI, ControlNet | | **學習難度** | 低(簡單輸入即可) | 高(需理解節點流程) | | **適合用途** | 快速概念設計、靈感發想 | 高精度美術製作、角色設計 | | **範例工具** | MidJourney, DALL·E, Stable Diffusion Web UI | ComfyUI, Automatic1111, InvokeAI | - **提示詞生圖** 適合快速生成 AI 圖片,適合一般用戶。 - **圖形節點生圖** 提供更高精度與控制,適合專業美術與設計流程。 ### **Google Colab + ComfyUI 節點式 AI 生圖方案** #### 方案概述 本方案使用 **Google Colab 運行 ComfyUI**,透過 **節點式流程(Node-Based Workflow)** 來控制 AI 繪圖的細節,提供比傳統提示詞生圖更高的可控性與一致性。 適合用於 **繪本製作、角色設計、概念藝術**,並支持 **遠端 API 自動化請求**,提升批量生成效率。 #### 方案優勢 ✅ **免費使用 Google Colab GPU**,無需高階本地設備 ✅ **節點式控制**,可細調構圖、光影、風格,確保一致性 ✅ **支援 ControlNet、Lora、img2img**,可高度定製 AI 繪圖 ✅ **可透過 API 遠端請求**,適合大規模自動化生圖 ✅ **適用於 AI 繪本、角色設計、場景創作**,比純提示詞生成更穩定可控 ## 四、技術挪用 #### 如果中止有聲繪本影片製作計畫,目前技術可以挪用在以下方向: | **應用方向** | **使用 AI 圖像** | **使用 AI 文字** | **使用 AI 語音** | **使用 AI 影片剪輯** | **風格連貫需求** | **適用平台 / 產出形式** | |-------------|----------------|----------------|----------------|----------------|----------------|----------------| | **單張 AI 插畫集** | ✅ | ✅ | ❌ | ❌ | ❌ | IG、Pinterest、Behance(獨立插畫展示) | | **AI 桌遊卡片設計** | ✅ | ✅ | ❌ | ❌ | ❌ | RPG、策略桌遊(可印製或數位卡牌) | | **百科內容、世界觀設定** | ✅ | ✅ | ❌ | ❌ | ❌ | Wiki、Discord、小說輔助(世界觀構建) | | **教育內容(數學、科學)** | ✅ | ✅ | ✅ | ✅ | ❌ | 教材、PPT、學習網站(圖解+語音講解) | | **YouTube Shorts** | ✅ | ✅ | ✅ | ✅ | ❌ | AI 短片、故事、趨勢科普(YT、TikTok) | | **自動化 AI 影片剪輯** | ❌ | ✅ | ✅ | ✅ | ❌ | 影片轉換、短片製作、AI 配音剪輯 | ✅ **這些方向不要求 AI 圖像的風格完全一致**,但可利用 **Prompt-Based** 技術生成內容。 ✅ **自動生語音(TTS)與剪輯技術也可用於 AI 短片、教育內容、數位廣告製作等應用。**