目標/方向 - HackMD

# 目標/方向 ## 目標 1. 圖片導向的風格轉換 ## 時程 https://mermaid.js.org/syntax/gantt.html ```mermaid gantt dateFormat MM-DD axisFormat %m-%d 討論風格轉換可行性 :a1, 06-27, 16d 修改loss function :a2,after a1 , 15d model比較 : a3,after a2, 10d ``` ## 待完成 - [ ] 嘗試在CLIP space 做修改，讓細節模糊化 - [ ] 產生一個結果比較的圖片(包含原圖、用文字guide(目標風格文字&結果)、圖片guide(目標風格圖片&結果)) ## 目前結果 ### 原本的content loss不變 ![](https://hackmd.io/_uploads/HykKs6UOn.png) ### 將CLIP loss的Ptarget(文字導向) 改為一個風格導向圖片y ![](https://hackmd.io/_uploads/H1dcdSddn.png) ![](https://hackmd.io/_uploads/Skvm2aUOh.png) $D_{CLIP}$():在CLIP embedding space(文字和圖片都被embedded進去的空間）中，generated image和目標風格（文字）的距離 ## 目前問題原始的做法中有提到在產出圖片時可能會出現文字本身印在圖片上面原始的作法對顏色的敏感程度較高使用圖片修改難以改變色調原始作法可能會因為CLIP背後的資料集有特定傾向而導致更改的結果有問題例如一風格幾乎都是肖像畫按照此風格產出的圖片有高機率會藏人臉 ![](https://hackmd.io/_uploads/Bkze6TIuh.png) 而用圖片更改則是有可能會將圖片的內容混進去 ![](https://hackmd.io/_uploads/r1SFT6L_2.png) 目前結果 ![](https://hackmd.io/_uploads/BJrLtTLdh.png) ![](https://hackmd.io/_uploads/BJBLqWDun.png) ![](https://hackmd.io/_uploads/HkSX5Zwd2.png) ![](https://hackmd.io/_uploads/B1qvqWP_n.png) ![](https://hackmd.io/_uploads/rkSDeLuOn.png) ## 參考文獻 [Zecon paper](https://arxiv.org/pdf/2303.08622.pdf)