Music Popluarity Prediction (zh_tw ver.)




Carlos 等人[1]同時利用了外部資訊(如創作者、過去歌曲排名)與歌曲本身的音訊,來預測歌曲是否能紅(become popular)。在他們的實驗結果達到超過 80% 的準確率,並且指出加入歌曲本身的音訊資訊才將準確提高了5.23%,因此他們推斷:也許歌曲的本質對能否成功的影響微小。

然而 Laura 等人[2] 卻發現 Youtube 觀看數和由 Spotify 所定義的指標 Popularity 都和歌曲的能量感(Energy)、聲樂感(Accousticness)、樂器性(instrumentalness)有著高度的正或負相關性。而最近以提供短影片分享平台快速崛起的串流平台 TikTok,統計結果卻顯示歌曲的點閱數與任何 Spotify 提供的高階音訊指標(high-level acoustic metrics)有著很弱的相關性。

這個結果我認為十分有趣之處在於,那些常常被跟 TikTok 聯結的歌曲,常常被描述成「洗腦」、「有記憶點」,而非是因為歌曲是來自知名歌手或發行商。

社群常常在聽到過去沒有聽過的歌曲時表示:「在 TikTok 聽過。」。有 72% 的 TikTok 使用者認同他們常常將一些歌曲和 TikTok 做聯結。[3]

雖然說 TikTok 實際上是提供影音而非純音樂,可能因此造成了弱相關性的結果,但從上述來自 TikTok 官方的研究結果來說,我認為實際上與過去相比,還沒成名的創作者確實能受惠於新興的短影片形式,讓音樂創作更能被看見。

綜上所述,我提出一個假設認為:如今的音樂即便在首次亮相時容易受到外部、社會性、商業宣傳的影響,但一旦能出現在音樂串流排行榜上一次,拜各大音樂串流平台推薦演算法所賜,歌曲的興衰更能回歸於音樂本質。而來自 TikTok 這種新興的商業模式則大大降低了從無名到被看見的高牆。


  • 驗證前一段落所提出的假設

  • 在歌曲於 Spotify Chart 登榜後,預測包含時間序列的 Popularity

    • 只用 low-level acoustic features (時頻圖)下手,驗證新興的 transformer 架構能否克服傳統上容易遇到的「語意鴻溝(semantic gap)」[4]
  • 比較所謂「TikTok 歌曲」和傳統上一般不會和 TikTok 產生聯想的歌曲,是否存在明顯的差距。

What is Popularity

  • 根據 Lee 等人[5]Popularity 可以被用多種面向表示:

  • 雖然上圖是使用 Rank 來表示 Popularity,但在我收集的資料以及研究中,我使用的是歌曲的流量 stream


  • 歌曲統計歷史資料(資料來源為 Spotify):
  • 音訊來源:Spotify Api 提供的 30 秒預覽。


雖然最終目標是預測時間序列的 Popularity 但是這是相對困難的。因此我先採用下述的 MP2 架構作為中繼。

  • 架構:Transformer

MP3 (Music Popularity Period Prediction)

  • Encoder + Decoder
  • 預測時間序列的 Popularity

MP2 (Music Popularity Prediction)

  • 預測 sumation[5:1] (Regression task)

  • fine-tuned MP2 (Encoder) 可以直接作為 MP3 model 的 pretrained encoder.

  • Encoder ‐ AST(Audio Spectromgram Transformer)[6]

  • loss: MSE


  • 由於資料來源的限制,只能取得有上過排行榜的歌曲歷史紀錄,因此單一地區的歌曲量似乎不足以支撐 Transformer。
  • 然而不同區域對於歌曲的偏好程度會有很大的影響,因此我提出以下將地區的資訊加入的方法
    1. region cls_token
    2. region embeding
  • 若能成功,此區域資料能用於進一部的分析不同地區的偏好差異程度。也能拿來作為個人的偏好,使用於推薦系統。



  • use different preview clip of same tracks
    • typically, there are more than one track for a song on Spotify (since they published by different album), and they may not have same preview clip.
  • Specaugment :heavy_check_mark:
  • Rolling :heavy_check_mark:
  • Random Gain :heavy_check_mark:
  • pitch
  • timbre



