每日關心專題進度

@meow2meow

專題

Public team

Joined on Sep 28, 2022

  • 張銀軒 黃色 past 6/24 永毅 [x] 將原本的image base, text base合併成image+text base來比較結果 銀軒 [ ] 如何量化(辨識率等等,想呈現的效果在clip space上的分數)進度: 目前實作分類器,後續進度在 7/4
     Like  Bookmark
  •  Like  Bookmark
  • 摘要 擴散模型在圖像風格轉換中的表現一直都很出色,但最大的問題是模型本身速度不快,且擴散模型的隨機性也影響了產出的內容。大部分現有的方法需要對擴散模型進行微調,或者用額外的神經網絡。而我們使用了一種不需要額外訓練,直接使用額外的 loss function 來試圖將預訓練擴散模型的輸出導向到想要的方向。通過這種方法來提高使用者建構的速度,而不用花太多時間來微調擴散模型,並與其他現有不同的圖像風格轉換方法來做比較。 前言 風格轉換指將給定圖像的風格轉換為另一種風格,同時保留其內容。過去幾年有許多基於GAN的方法。而最近,使用預先訓練圖像生成器和圖像文本編碼器(encoder)的讓網路本身不需要或只用很少的訓練就能達到文字引導風格轉換。 近年擴散模型在圖像生成、修改的方面展現出了極高的品質,也有許多人使用擴散模型搭配不同的方法達到風格轉換, 文獻回顧 圖片風格
     Like  Bookmark
  • 作法A 封面頁: 專題標題 作者姓名 學校名稱 日期等基本資訊 摘要/提要: 對專題的簡要介紹
     Like  Bookmark
  • CNNVGG16 colab, pc 問題 [ ] dense 可嘗試 512, 1024個 neuron [ ] ImageDataGenerator 處理圖片大小、旋轉、縮放... [ ] Normalize 用法 [x] image, label 一起 split 訓練模型架構 水平翻轉...: 讓訓練出來的模型不會因為有些微的變化而改變結果
     Like  Bookmark
  • paper source code Introduction conditional diffusion model : 需要 paired data set with matched source and target styles $\downarrow$ Unconditional diffusion model : 從 noise 回到圖片的過程是隨機的?????,導致圖片內容不一致 $\downarrow$ DDIB : 2個 domain?
     Like  Bookmark
  • 方法 paper with code [x] Arbitrary Style Transfer in Real-time with Adaptive Instance NormalizationrequirementsPython 3.10 torchvision==0.14.1 numpy==1.25.2 ignore opencv-python and pkg-resources result
     Like  Bookmark
  • [論文連結] https://proceedings.neurips.cc/paper/2021/file/8606f35ec6c77858dfb80a385d0d1151-Paper.pdf 架構 x:圖片 G(x):類別冗餘資訊 x - G(x):類別相關資訊 類別冗餘資訊和類別相關資訊是互補的,將他們相加後會得到圖片x 整個模型的(訓練)架構
     Like  Bookmark
  • https://github.com/LouieLK/ZeCon_edit_by_image 原圖 修改結果 左上為引導文字 引導圖片 剩下三個為用文字 圖片 或文字+圖片修改的結果 下方為該圖片與文字以及圖片的CLIP score 越大越好 使用global/dir clip score 當 loss 三種style loss比較
     Like  Bookmark
  • Diffusion Models for Adversarial Purification(DiffPure) ICML 2022 https://arxiv.org/pdf/2205.07460.pdf https://icml.cc/media/icml-2022/Slides/16708.pdf 目前比較完整說明將Diffusion Models 應用在Adversarial Purification 的一篇文章,不過沒有很精確的說明模型為何可以起到防禦的作用,只提到在Forward Process 對圖片加入Gaussian Noise 的時候會將圖片本身的結構以及Adversarial Noise一併破壞掉,起到將攻擊"Wash Out"的作用 Guided Diffusion Model for Adversarial Purification https://arxiv.org/pdf/2205.14969.pdf 用受到攻擊的圖片來引導模型生成"長得很像原圖"(也可以說長得像受到攻擊的圖片)的乾淨圖片 (Certified!!) Adversarial Robustness for Free!
     Like  Bookmark
  • 目標 圖片導向的風格轉換 時程 https://mermaid.js.org/syntax/gantt.html gantt dateFormat MM-DD axisFormat %m-%d 討論風格轉換可行性 :a1, 06-27, 16d
     Like  Bookmark
  • 修改模型參數 類似erasing diffusion,修改參數來達到... 聲音相關 語音去噪:語音信號可能受到多種類型的噪音污染,例如環境噪音、麥克風噪音等。語音去噪是一種重要的音頻處理任務,可以應用於語音識別、語音合成、語音通話等應用場景。使用去噪擴散模型可以幫助減少噪音對語音信號的干擾,從而提高語音處理的性能。 音頻恢復:音頻信號可能因為傳輸、錄制或壓縮等原因而受到失真或損壞。音頻恢復任務旨在從損壞的音頻信號中恢復原始信號。去噪擴散模型可以用於恢復受損的音頻信號,從而提高音頻的質量和清晰度。 音頻增強:音頻增強任務旨在提升音頻信號的質量、清晰度或響度。例如,可以使用去噪擴散模型來去除背景噪音,增加音頻的清晰度,或者用於音頻增益控制,以調整音頻的響度水平。 音頻合成:音頻合成任務涉及生成新的音頻信號,例如語音合成、音樂合成等。去噪擴散模型可以用於生成高質量、清晰的合成音頻信號,從而提高音頻合成的質量。 ddim
     Like  Bookmark
  • https://github.com/ankile/Adversarial-Diffusion 簡介 類似之前看過的DiffPure,也是利用去噪Diffusion Models作為樣本進入分類器的前處理,不過採用的Diffusion Models是DDPM而非Score-based Generative Models,並且對Noise Level做最佳化,決定t* = 0.04(40個推理步驟),降低Reverse Process的耗時。 方法 最佳化Noise Level(尋找t*) 測試Noise Level在[0.001, 0.300]區間分類器的穩健性,發現穩健性最高的Noise Level是0.10,在0.10之後模型穩健性開始出現下滑的趨勢(加入的Noise太多導致DDPM無法較正確地恢復原本的圖片),但0.10需要經過100步的推理步驟,速度太慢了,因此在速度與準確性的權衡下決定t* = 0.04,大幅提升性能的前提下也能有不錯的效果。 不過要注意的是t* = 0.04並不是一個通用的最佳解,可能會因為分類器要分類的樣本的不同而有影響,因為對抗攻擊對不同樣本的攻擊效果有所不同,因此在實作上需要根據不同的樣本決定出不同的t*。
     Like  Bookmark
  • 定義一個噪聲過程,並嘗試學習一個神經網路來恢復噪聲過程 original loss function $$L_{vlb} := L_0 + L_1 + \dots + L_{T-1}+L_T \ L_0 := -\log p_\theta(x_0|x_1) \ L_{t-1} := D_{KL}(q(x_{t-1}|x_t,x_0) || p_\theta(x_{t-1}|x_t)) \ L_T := D_{KL}(q(x_T|x_0) || p(x_T))\ $$ simple loss function
     Like  Bookmark
  • paper Definition Style Definition Linguistic表現方式 (ex:選擇的詞彙、文法結構) 給人的感覺 Data-Driven v.s Linguistic Data-Driven (本篇採用此定義)
     Like  Bookmark
  • paper: Denoising Diffusion Probabilistic Models Improved Denoising Diffusion Probabilistic Models Diffusion Models Beat GANs on Image Synthesis GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models Youtube Video: 3/14 DDPM - Diffusion Models Beat GANs on Image Synthesis (Machine Learning Research Paper Explained)
     Like 1 Bookmark
  • variational bound 講解 Uploading file..._gzfib1o8e 後面會用到的性質 Uploading file..._o80y1pma3 因為p(x)不好算(因為是會用到一系列的latent variable) 使用一近似函數q(x)來逼近真實的值 第一行 單純乘上分母(完全沒變)
     Like  Bookmark
  • hyperlink : https://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html conclution 概念描述較多 感覺沒啥重點 Speech processing plays an important role in any speech system whether its Automatic Speech Recognition (ASR) or speaker recognition or something else. Mel-Frequency Cepstral Coefficients (MFCCs) were very popular features for a long time; but more recently, filter banks are becoming increasingly popular. In this post, I will discuss filter banks and MFCCs and why are filter banks becoming increasingly popular. 解釋信號處理(filter bank)為何會popular Computing filter banks and MFCCs involve somewhat the same procedure, where in both cases filter banks are computed and with a few more extra steps MFCCs can be obtained. In a nutshell, a signal goes through a pre-emphasis filter; then gets sliced into (overlapping) frames and a window function is applied to each frame; afterwards, we do a Fourier transform on each frame (or more specifically a Short-Time Fourier Transform) and calculate the power spectrum; and subsequently compute the filter banks. To obtain MFCCs, a Discrete Cosine Transform (DCT) is applied to the filter banks retaining a number of the resulting coefficients while the rest are discarded. A final step in both cases, is mean normalization. 如何將filter bank經過一些步驟得到MFCCs的作法
     Like  Bookmark
  • link : this review Text-to-image by diffusion model 1. Introduction 大概是在說新的模型(StableDiffusion, MidJourney) 用了很大的資料集(LAION-5B, 5B 的圖片),這個資料集中有很多的版權圖片之類的...影響了智財權之類的,下面這句話就是說這個 Glaze 會給圖片一些擾動(? Galze works by taking a piece of artwork, and computing a minmal perturbation.
     Like  Bookmark
  •  Like  Bookmark