# Music Popluarity Prediction (zh_tw ver.) - English Version: https://hackmd.io/W03TtVhOSQCbceFOnd5vNQ?view - https://github.com/bhbbbbb/MPPP ## 研究背景簡介 從網路的普及和串流平台的崛起以來,音樂產業的規模與產值已不可同日而語。 成功的歌曲背後的成因也因此是各界關注的焦點。 *Carlos* 等人[^1]同時利用了外部資訊(如創作者、過去歌曲排名)與歌曲本身的音訊,來預測歌曲是否能紅(become popular)。在他們的實驗結果達到超過 80% 的準確率,並且指出加入歌曲本身的音訊資訊才將準確提高了5.23%,因此他們推斷:也許歌曲的本質對能否成功的影響微小。 然而 *Laura* 等人[^2] 卻發現 Youtube 觀看數和由 Spotify 所定義的指標 *Popularity* 都和歌曲的能量感(Energy)、聲樂感(Accousticness)、樂器性(instrumentalness)有著高度的正或負相關性。而最近以提供短影片分享平台快速崛起的串流平台 TikTok,統計結果卻顯示歌曲的點閱數與任何 Spotify 提供的高階音訊指標(high-level acoustic metrics)有著很弱的相關性。 這個結果我認為十分有趣之處在於,那些常常被跟 TikTok 聯結的歌曲,常常被描述成「洗腦」、「有記憶點」,而非是因為歌曲是來自知名歌手或發行商。 > 社群常常在聽到過去沒有聽過的歌曲時表示:「在 TikTok 聽過。」。有 72% 的 TikTok 使用者認同他們常常將一些歌曲和 TikTok 做聯結。[^4] 雖然說 TikTok 實際上是提供影音而非純音樂,可能因此造成了弱相關性的結果,但從上述來自 TikTok 官方的研究結果來說,我認為實際上與過去相比,還沒成名的創作者確實能受惠於新興的短影片形式,讓音樂創作更能被看見。 綜上所述,我提出一個假設認為:如今的音樂即便在首次亮相時容易受到外部、社會性、商業宣傳的影響,但一旦能出現在音樂串流排行榜上一次,拜各大音樂串流平台推薦演算法所賜,歌曲的興衰更能回歸於**音樂本質**。而來自 TikTok 這種新興的商業模式則大大降低了從無名到被看見的高牆。 --- ## 研究目標 - 驗證前一段落所提出的假設 - 在歌曲於 Spotify Chart 登榜後,預測包含**時間序列**的 Popularity - 只用 low-level acoustic features (時頻圖)下手,驗證新興的 transformer 架構能否克服傳統上容易遇到的「語意鴻溝(semantic gap)」[^5] - 比較所謂「TikTok 歌曲」和傳統上一般不會和 TikTok 產生聯想的歌曲,是否存在明顯的差距。 --- ## What is Popularity - 根據 *Lee* 等人[^6],*Popularity* 可以被用多種面向表示: <br> ![](https://dsm01pap006files.storage.live.com/y4mN8gKrELGHWXQdsF5khhb48eymFEAH0HMcVKE7m8JtLeDnm_HLSvn4NrD9HrBjmsqrOrRWqjDFVxM5CgdYCFYpPFdlYjxKLlfNV4izGe-0RH_ftUlXDWDC7oPx2w_ko1bEDhWsqqg5DjUfvMJA7nGtDAwt-1Qqmf1titTH5SJF_gHWZsrev7bWzUrSLKhwO6J?width=1054&height=497&cropmode=none) - 雖然上圖是使用 Rank 來表示 Popularity,但在我收集的資料以及研究中,我使用的是歌曲的流量 stream --- ## 資料收集 - 歌曲統計歷史資料(資料來源為 Spotify): [kworb.net](kworb.net) - 音訊來源:Spotify Api 提供的 30 秒預覽。 --- ## 研究方法 雖然最終目標是預測時間序列的 *Popularity* 但是這是相對困難的。因此我先採用下述的 *MP2* 架構作為中繼。 ![](https://dsm01pap006files.storage.live.com/y4msc3cTJdOPesrepSq5QOay3TG4ooM5QpXKlc39_l_xJgPL8m3YJVl5K1xE6W6CLHhrbwj7WjAkSOUQ5IDjiYGlnvfsxgV3tDt0wvNRlnH6uEDTfI5-YnijQ0mCkssCpgk6inHm2rntuzkLh3FIKg1rZGa7KfQ_v4RueHumfUxuePTL3rApQcJqvQmPFdOuPjw?width=2792&height=1354&cropmode=none) - 架構:Transformer #### MP3 (Music Popularity Period Prediction) - Encoder + Decoder - 預測時間序列的 *Popularity* #### MP2 (Music Popularity Prediction) - 預測 *sumation*[^6] (Regression task) - fine-tuned MP2 (Encoder) 可以直接作為 MP3 model 的 pretrained encoder. - Encoder &dash; AST(Audio Spectromgram Transformer)[^7] - loss: MSE ### 加入地區資訊 - 由於資料來源的限制,只能取得有上過排行榜的歌曲歷史紀錄,因此單一地區的歌曲量似乎不足以支撐 Transformer。 - 然而不同區域對於歌曲的偏好程度會有很大的影響,因此我提出以下將地區的資訊加入的方法 1. region cls_token 2. region embeding - 若能成功,此區域資料能用於進一部的分析不同地區的偏好差異程度。也能拿來作為個人的偏好,使用於推薦系統。 ---- ### 其他 #### Augumentation - use different preview clip of same tracks - typically, there are more than one track for a song on Spotify (since they published by different album), and they may not have same preview clip. - Specaugment :heavy_check_mark: - Rolling :heavy_check_mark: - Random Gain :heavy_check_mark: - pitch - timbre ### 觀察 - 聖誕節相關的歌曲,容易每年聖誕節左右都重新上榜一次 - [All I Want for Christmas Is You](https://kworb.net/spotify/track/0bYg9bo50gSsH3LtXe2SQn.html) - [Last Christmas](https://kworb.net/spotify/track/2FRnf9qhLbvw8fu4IBXx78.html) - [Underneath the Tree](https://kworb.net/spotify/track/3nAp4IvdMPPWEH9uuXFFV5.html) ## Refs [^1]: C. V. Soares Araujo, M. A. Pinheiro de Cristo and R. Giusti, "Predicting Music Popularity Using Music Charts," 2019 18th IEEE International Conference On Machine Learning And Applications (ICMLA), 2019, pp. 859-864, doi: 10.1109/ICMLA.2019.00149. [^2]: L. Colley et al., "Elucidation of the Relationship Between a Song's Spotify Descriptive Metrics and its Popularity on Various Platforms," 2022 IEEE 46th Annual Computers, Software, and Applications Conference (COMPSAC), 2022, pp. 241-249, doi: 10.1109/COMPSAC54236.2022.00042. [^4]: https://newsroom.tiktok.com/en-us/new-studies-quantify-tiktoks-growing-impact-on-culture-and-music [^5]: HIT SONG PREDICTION FOR POP MUSIC BY SIAMESE CNN WITH RANKING LOSS Lang-Chi Yu∗ , Yi-Hsuan Yang∗ , Yun-Ning Hung∗ , Yi-An Chen† (1710) [^6]: Lee, Junghyuk and Jong-Seok Lee. “Music Popularity: Metrics, Characteristics, and Audio-Based Prediction.” IEEE Transactions on Multimedia 20 (2018): 3173-3182. [^7]: Gong, Yuan and Chung, Yu-An and Glass, James. "AST: Audio Spectrogram Transformer" arXiv:2104.01778