第二天上午(影片)

# 生成式AI影片 ## 影片生成網站 ### Runway (2023) > Runwayml GEN1/GEN2 影像生成工具 | 文字生成影片 > https://hackmd.io/@DCT/Runway-Gen1-Gen2-intro * 2018成立，2023/6發布Gen-2 * Google投資 * 邏輯上較易出現邏輯不合理 ### Pika (2023) * 2023/4創立，2023/11/29發布Pika 1.0 ### Sora (2024) > Sora官網 > https://openai.com/sora > 與原理無關的sora介紹 from 某人的英文報告3/25(其實沒有很重要，應該不會特別講到，**但是Joyce必須看**) > https://www.canva.com/design/DAGAhn_qrhc/_fSnOXZP9hRxLa4mXIFt1Q/edit?utm_content=DAGAhn_qrhc&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton * 2024/2/16由OpenAI推出 * Sora源自日文「天空」，有創造潛力無窮的含意 * 相較於其他一次只能生成3~4秒影片的現有其他網站，Sora可生成1分鐘的影片 * 目前支援介於最高1920x1080或垂直1080x1920解析度的影片 * 1分鐘影片就要耗時1個多小時 #### 原理 > OpenAI 新突破！為什麼 Sora 可以產出這麼流暢的動畫？你不可錯過的技術文件大解密！ > https://pansci.asia/archives/374801#google_vignette * diffusion transformer ![螢幕擷取畫面 2024-03-23 132944](https://hackmd.io/_uploads/Bk3JYJnRp.png) * 方塊即 patch (像圖片版的 token) 是包含時間在內的 4D 立體拼圖，可以針對畫面與時間的連續性進行計算 * patch 是將影像切成一樣等大的區塊後，進行編碼、壓縮，產生類似 ChatGPT 能分析的文字語意 token * Transformer 可以計算 patch 之間的關聯性形成序列(應該是進行圖像便是的意思，將圖片分成不同物件 * 影片的處理只要再加上 patch 間的先後順序，這樣就能讓 transformer 理解隨時間改變的演化 ![螢幕擷取畫面 2024-03-23 132929](https://hackmd.io/_uploads/Hy8GK1nAp.png) * Sora 從提取影像特徵，到形成有意義的 patch，到最後串聯成序列，如果你接觸過認知心理學，你會發現這其過程就跟認知心理學描述人類處理訊息的過程如出一轍。都是擷取特徵、幫特徵編碼形成意義、最後組合長期記憶形成序列，可以說 Sora 已經接近複製人類認知過程的程度 #### 錯誤 * 人體動作的錯誤 * 動物或人可能會憑空出現，尤其是在包含許多實體的場景中 * 準確的物理建模和不自然的物體「變形」的例子 * 未能將物體建模為剛性物體，導致物理互動不準確 * 模擬物件和多個角色之間的複雜互動通常對模型來說具有挑戰性，有時會導致幽默的生成 #### 惡搞 > 幽默！威爾史密斯本尊模仿 AI 史密斯吃麵片段，網友表示都被騙 > https://www.kocpc.com.tw/archives/535331 > AI Will Smith eating spaghetti pasta (AI footage and audio) > https://www.youtube.com/watch?v=XQr4Xklqzw8 > Will Smith自己在ig放的影片 > https://www.instagram.com/reel/C3i5vAZvRS3/?utm_source=ig_embed&utm_campaign=loading