stable diffusion
Stable Diffusion是2022年發布的深度學習文字到圖像生成模型。它主要用於根據文字的描述產生詳細圖像,儘管它也可以應用於其他任務,如內補繪製、外補繪製,以及在提示詞指導下產生圖生圖的轉變。
- 開源軟體
- 可在本機上執行
- 外掛很多
- 用 python 開發
- 可供下載模型的網站主要有2個 :
- Hugging Face : 這個網站裡大多以官方模型為主,再加上網站都是密密麻麻的文字內容,不夠視覺化方便使用者瀏覽找到喜歡的模型。
- Civitai : Civitai 裡的模型豐富多元,幾乎所有官方、非官方的模型這裡都找得到。圖像化顯示方式讓人可以更快速了解每個模型的風格特色,以及每個模型頁面中也都會有完整的使用相關說明提示,所以要下載模型時主要都會使用這個網站。
執行原理說明
執行
- 安裝主程式
- 將訓練模型放入
- 輸入AI繪圖咒語、指令(prompt)執行 AI 生圖
模型
Stable Diffusion 1.5版的模型可是輸入了23億張圖片訓練出來的
訓練模型至少需要10GB的VRAM,也就是RTX3060等級以上的GPU。
Checkpoint
大模型/主模型/底模型
要有這個才能生圖。
更簡潔有效率、輔助形式的模型
主要是用於生成特定人物/物件/畫風,並且訓練的模型可以多個混用。
- Embedding(Textual inversion)
- LoRA
很常簡單化的説法,可以當成風格濾鏡來理解。在 Prompt 中加入 LoRA 引用,即能大幅改變算圖的結果,甚至也能同時套用多個 LoRA 來取得混合風格。使用上比單純更換 model 或作 checkpoint merge 更有彈性且多變。
- LyCORIS
- Hypernetwork
- VAE
模型訓練流程
- 輸入素材
- 素材上標籤(有協助工具,但是不精準,人力輸入最好)
上標籤工具
參考資料
AI繪圖-Stable Diffusion 003- 模型分類 & 常用下載網站
https://vocus.cc/article/64cbab0dfd89780001d138ab