changed 2 years ago
Published Linked with GitHub

Music Popluarity Prediction (zh_tw ver.)

研究背景簡介

從網路的普及和串流平台的崛起以來,音樂產業的規模與產值已不可同日而語。

成功的歌曲背後的成因也因此是各界關注的焦點。

Carlos 等人[1]同時利用了外部資訊(如創作者、過去歌曲排名)與歌曲本身的音訊,來預測歌曲是否能紅(become popular)。在他們的實驗結果達到超過 80% 的準確率,並且指出加入歌曲本身的音訊資訊才將準確提高了5.23%,因此他們推斷:也許歌曲的本質對能否成功的影響微小。

然而 Laura 等人[2] 卻發現 Youtube 觀看數和由 Spotify 所定義的指標 Popularity 都和歌曲的能量感(Energy)、聲樂感(Accousticness)、樂器性(instrumentalness)有著高度的正或負相關性。而最近以提供短影片分享平台快速崛起的串流平台 TikTok,統計結果卻顯示歌曲的點閱數與任何 Spotify 提供的高階音訊指標(high-level acoustic metrics)有著很弱的相關性。

這個結果我認為十分有趣之處在於,那些常常被跟 TikTok 聯結的歌曲,常常被描述成「洗腦」、「有記憶點」,而非是因為歌曲是來自知名歌手或發行商。

社群常常在聽到過去沒有聽過的歌曲時表示:「在 TikTok 聽過。」。有 72% 的 TikTok 使用者認同他們常常將一些歌曲和 TikTok 做聯結。[3]

雖然說 TikTok 實際上是提供影音而非純音樂,可能因此造成了弱相關性的結果,但從上述來自 TikTok 官方的研究結果來說,我認為實際上與過去相比,還沒成名的創作者確實能受惠於新興的短影片形式,讓音樂創作更能被看見。

綜上所述,我提出一個假設認為:如今的音樂即便在首次亮相時容易受到外部、社會性、商業宣傳的影響,但一旦能出現在音樂串流排行榜上一次,拜各大音樂串流平台推薦演算法所賜,歌曲的興衰更能回歸於音樂本質。而來自 TikTok 這種新興的商業模式則大大降低了從無名到被看見的高牆。


研究目標

  • 驗證前一段落所提出的假設

  • 在歌曲於 Spotify Chart 登榜後,預測包含時間序列的 Popularity

    • 只用 low-level acoustic features (時頻圖)下手,驗證新興的 transformer 架構能否克服傳統上容易遇到的「語意鴻溝(semantic gap)」[4]
  • 比較所謂「TikTok 歌曲」和傳統上一般不會和 TikTok 產生聯想的歌曲,是否存在明顯的差距。


What is Popularity

  • 根據 Lee 等人[5]Popularity 可以被用多種面向表示:


  • 雖然上圖是使用 Rank 來表示 Popularity,但在我收集的資料以及研究中,我使用的是歌曲的流量 stream


資料收集

  • 歌曲統計歷史資料(資料來源為 Spotify): kworb.net
  • 音訊來源:Spotify Api 提供的 30 秒預覽。

研究方法

雖然最終目標是預測時間序列的 Popularity 但是這是相對困難的。因此我先採用下述的 MP2 架構作為中繼。

  • 架構:Transformer

MP3 (Music Popularity Period Prediction)

  • Encoder + Decoder
  • 預測時間序列的 Popularity

MP2 (Music Popularity Prediction)

  • 預測 sumation[5:1] (Regression task)

  • fine-tuned MP2 (Encoder) 可以直接作為 MP3 model 的 pretrained encoder.

  • Encoder ‐ AST(Audio Spectromgram Transformer)[6]

  • loss: MSE

加入地區資訊

  • 由於資料來源的限制,只能取得有上過排行榜的歌曲歷史紀錄,因此單一地區的歌曲量似乎不足以支撐 Transformer。
  • 然而不同區域對於歌曲的偏好程度會有很大的影響,因此我提出以下將地區的資訊加入的方法
    1. region cls_token
    2. region embeding
  • 若能成功,此區域資料能用於進一部的分析不同地區的偏好差異程度。也能拿來作為個人的偏好,使用於推薦系統。

其他

Augumentation

  • use different preview clip of same tracks
    • typically, there are more than one track for a song on Spotify (since they published by different album), and they may not have same preview clip.
  • Specaugment :heavy_check_mark:
  • Rolling :heavy_check_mark:
  • Random Gain :heavy_check_mark:
  • pitch
  • timbre

觀察

Refs


  1. C. V. Soares Araujo, M. A. Pinheiro de Cristo and R. Giusti, "Predicting Music Popularity Using Music Charts," 2019 18th IEEE International Conference On Machine Learning And Applications (ICMLA), 2019, pp. 859-864, doi: 10.1109/ICMLA.2019.00149. ↩︎

  2. L. Colley et al., "Elucidation of the Relationship Between a Song's Spotify Descriptive Metrics and its Popularity on Various Platforms," 2022 IEEE 46th Annual Computers, Software, and Applications Conference (COMPSAC), 2022, pp. 241-249, doi: 10.1109/COMPSAC54236.2022.00042. ↩︎

  3. https://newsroom.tiktok.com/en-us/new-studies-quantify-tiktoks-growing-impact-on-culture-and-music ↩︎

  4. HIT SONG PREDICTION FOR POP MUSIC BY SIAMESE CNN WITH RANKING LOSS Lang-Chi Yu∗ , Yi-Hsuan Yang∗ , Yun-Ning Hung∗ , Yi-An Chen† (1710) ↩︎

  5. Lee, Junghyuk and Jong-Seok Lee. “Music Popularity: Metrics, Characteristics, and Audio-Based Prediction.” IEEE Transactions on Multimedia 20 (2018): 3173-3182. ↩︎ ↩︎

  6. Gong, Yuan and Chung, Yu-An and Glass, James. "AST: Audio Spectrogram Transformer" arXiv:2104.01778 ↩︎

Select a repo