# [2021-11-19] Dr. Yi-Hsuan Yang, Taiwan AI Labs, "Automatic Music Generation with Transformers" AI創作音樂或許能夠填補人類的空缺,我們看到做AI音樂的大公司或新創,Google把作曲技術做成Plugins供音樂人使用,當音樂人缺乏靈感時,可以透過AI試試看AI對於後半段的建議為何?可以幫助音樂人把瑣碎的東西填補,甚至啟發靈感。 如何把AI音樂提供給普羅大眾,使大家內在創作音樂的渴望成為可能,Google在巴哈誕辰日發布了Doodle model,可以根據使用者輸入的旋律配上AI產生的另外三部的旋律,使大眾能夠以輕鬆的方式產生曲子,從被動聽音樂到主動以自己的人生經歷透過AI作曲。 學術界音樂AI進展也非常快,ISMIR tutorial的主題自2017年以來皆有跟音樂作曲AI的Topic,每年進步的飛快使1-2年前的論文已經不被大家拿來做比較了。 技術面上,自動作曲在1960,通才們以rule based以及統計的方式建立模型已進行作曲,但創作缺乏變化。2016年開始以DNN進行創作,像是2018以RNN進行作曲,因為RNN擅長處理時間軸上的data,把音樂當成文字。RNN可以按照時間順序,一顆音符一顆音符的創作成曲。Google所發布的MusicVAE,將音符Encode成latent vector(有KL divergence),在用多層Decoder,串成音樂。Decoder有sentence, word level,使得生成音樂時更加fit音樂上的段落與小節。當初RNN為State OF The Arts,但只能做16小節的音樂。 實驗室發現不一定要用RNN,可以用CNN把音樂當作圖片,以GAN搭配之,推出MidiNet以及MuseNet。MidiNet生成之音樂較為Robust,較為缺乏感情。 2019年google用transfrom生成,用self-attenetion的方式學音符間關係,可以學到長距離的交互作用,大幅把音樂長度拉長,生成1分鐘音樂,且可以是鋼琴左右手。OpenAI更是急起直追,提出了MuseNet,可以將時間拉長至4min以及10種樂器的音樂,甚至可以把不同曲風混在一起! 音樂到底要怎麼表達成文字呢?阿拉伯數字代表音高音長,紅字代表旋律和和旋,可以把他們都變成一個又一個的字,變成了token sequence,RNN因此可以拿過去的字來預測未來。鋼琴更加複雜了,時間上音符會overlap,但也因此使鋼琴聲音變得美妙,那MuseNet倒底怎麼將鋼琴譜轉換成文字的呢?其使用特殊token,用空格區別不同的字,用字表示不同的事件,例如wait token前8個音,是同時發出聲響的,用v0代表一個音的結束,因此可以表達同時發出聲音的狀態。但是這種表示方法仍有問題,需要加總wait token的方式間接取得音長,不太直觀,也沒有小節線,難以數拍以及配上打擊樂器,因此兩種model難以做出有節奏感的現代音樂。 2020中研院推出Pop Music Transformer,使音樂轉成文字時有小節線,可以生成有節奏感的現代鋼琴音樂,2021推出改良版,一個音有音符音長音高,1個音有太多的word,因此發想如何使一個音的4個word同時生成出來,使得音的生成更加直觀。今年也提出VAE+transformer,把既有歌曲轉成latent space,使得風格轉換得以實現;另外也提出主題式生成的Transformer,過往AI生成的音樂聽不出方向,只會繞來繞去,因此構想使transformer多去吃一個主題的condition,使AI生成的音域限制在主題以內。 AI亦可做歌聲合成,例如KaraSinger,使用VQ-VAE架構,使用者只要輸入文字,AI自己決定怎麼去把它唱出來,因此AI可以唱出好幾種版本的歌曲。AI不只產出樂譜,還有人聲內容。除此之外,假若連歌詞都不給,只給鋼琴聲,讓AI自己決定歌詞會是如何?因此在歌聲方面有兩種方式,有歌詞以及沒有歌詞的,各有優缺。 音樂生成的十年以來,從RNN到CNN以致於Transform,從旋律到主題式以至於人聲等,是十分有潛力的研究方向。 但是在testing上,仍然要用人聽的,去看看曲風、主題是否有呈現出來或是一致性,AI音樂生成本質上是模仿,但如何跳脫既有框架,例如:在後面加上分類器,迫使model生成之音樂不能被歸類在既有曲風,或是在模型上加上更多random。另外,生成音樂可以突破身體物理極限,可以做到全新的曲風,跳脫模仿的框架。 ## Note ### The note I write is totally summarized version of speaker with minor my opinion. The citation is described below. ## Citation ### Topic: Automatic Music Generation with Transformers ### Speaker: Dr. Yi-Hsuan Yang