stable diffusion

Stable Diffusion是2022年發布的深度學習文字到圖像生成模型。它主要用於根據文字的描述產生詳細圖像,儘管它也可以應用於其他任務,如內補繪製、外補繪製,以及在提示詞指導下產生圖生圖的轉變。

  • 開源軟體
  • 可在本機上執行
  • 外掛很多
  • 用 python 開發
  • 可供下載模型的網站主要有2個 :
    • Hugging Face : 這個網站裡大多以官方模型為主,再加上網站都是密密麻麻的文字內容,不夠視覺化方便使用者瀏覽找到喜歡的模型。
    • Civitai : Civitai 裡的模型豐富多元,幾乎所有官方、非官方的模型這裡都找得到。圖像化顯示方式讓人可以更快速了解每個模型的風格特色,以及每個模型頁面中也都會有完整的使用相關說明提示,所以要下載模型時主要都會使用這個網站。

執行原理說明

執行

  1. 安裝主程式
  2. 將訓練模型放入
  3. 輸入AI繪圖咒語、指令(prompt)執行 AI 生圖

模型

Stable Diffusion 1.5版的模型可是輸入了23億張圖片訓練出來的
訓練模型至少需要10GB的VRAM,也就是RTX3060等級以上的GPU。

Checkpoint

大模型/主模型/底模型
要有這個才能生圖。

更簡潔有效率、輔助形式的模型

主要是用於生成特定人物/物件/畫風,並且訓練的模型可以多個混用。

  • Embedding(Textual inversion)
  • LoRA
    很常簡單化的説法,可以當成風格濾鏡來理解。在 Prompt 中加入 LoRA 引用,即能大幅改變算圖的結果,甚至也能同時套用多個 LoRA 來取得混合風格。使用上比單純更換 model 或作 checkpoint merge 更有彈性且多變。
  • LyCORIS
  • Hypernetwork
  • VAE

模型訓練流程

  1. 輸入素材
  2. 素材上標籤(有協助工具,但是不精準,人力輸入最好)

上標籤工具

參考資料

AI繪圖-Stable Diffusion 003- 模型分類 & 常用下載網站

https://vocus.cc/article/64cbab0dfd89780001d138ab