# News Recommender System: A review of recent progress, challenges, and opportunities - [paper link](https://arxiv.org/abs/2009.04964) - 本文基於[v4] Fri, 9 Jul 2021 16:44:10 UTC (949 KB) 撰寫 # 1. Intro - 這篇是一個survey paper,主要回顧新聞推薦系統(News Recommendation System, NRS)的主要挑戰和可能的解法,第一個部分是關於推薦系統的解法、資料和超脫準確度的評估基準,第二個部分則專注在深度神經網路如何解決新聞推薦系統 - 根據Shoemaker PJ 2006的研究,線上新聞與以往的報章雜誌媒體相比,並沒有一些顯著不同的標準來衡量新聞是否值得報導(Newsworthiness),其中一個原因是因為缺乏一個既定的程序來及時提供各式各樣的新聞以及缺乏一個系統來更好的model使用者行為,因此推薦系統的價值非常重要 ## 新聞推薦系統的特別之處 1. timeliness: 最重要的挑戰之一,每一秒都有新近的(recency)、熱門的(popularity)、趨勢(trend)的且大量的新聞在產生 2. highly dynamic user behavior: 新聞的讀者可能有長期和短期的偏好,這個偏好會隨著時間而漸漸或突然改變 除此之外,近期也有很多詐騙資訊、假新聞分布在各處,這使得新聞推薦又更有挑戰性 ## 過度個人化 在新聞推薦領域,過度個人化的新聞會讓讀者無法閱讀到不同種類的新聞,因此而長期影響到讀者的視角、觀點、意見有所偏頗 通常如果一個推薦系統過度重視預測的準確度,就會造成新聞推薦系統的過度個人化,所以我們需要更多超脫準確度的面向(beyond-accuracy aspects)去評估一個新聞推薦系統的品質 ## 過去跟新聞推薦系統相關的survey 雖然過去也有一些跟NRS相關的survey paper,但這些著作有以下缺點: 1. 涉及的議題太少 2. 通常是以電腦科學家的觀點來看而忽略了使用者行為的效應 3. 缺少跟深度學習相關的推薦系統討論 ![螢幕擷取畫面 2025-05-30 005126](https://hackmd.io/_uploads/ByQigGLGee.png) 因此本篇就涵蓋了更廣的議題、涵蓋深度學習模型以及涵蓋對使用者行為的改變如何影響推薦系統 ## 搜尋策略、範圍和研究趨勢 - 搜尋的地方: ACM, SpringerLink, IEEE, Elsevier... - 年份範圍: 2012 ~ 2021 早期 - 搜尋的方式: Boolean search query ((“News”) AND (“Recommender System” OR “Recommendation System” OR “Recommendations”) OR ((“Deep Learning) AND (“News Recommendations” OR “News Recommenders”) - 過濾條件: 英文、跟新聞推薦系統的相關度、只拿期刊跟研討會的論文 最終從156篇論文中拿出126篇,其中92篇是設計NRS相關、8篇survey paper以及26篇新聞領域的論文,統計如圖1 ![螢幕擷取畫面 2025-05-27 231111](https://hackmd.io/_uploads/ByaGILXfxg.png) - 在2014年開始舉辦的 CLEF NEWSREEL Challenge之後明顯讓NRS這個領域更加蓬勃發展,即使這個比賽在2018年結束之後仍有許多論文發表 - 在2020年有大量的論文發表,很可能是因為Microsoft發表了MIND benchmark dataset ## Mind map of NRS evolution ![螢幕擷取畫面 2025-05-27 233500](https://hackmd.io/_uploads/Hy1no8Xfel.png) ## 新聞領域的特質 在開始review NRS所遇上的挑戰之前,首先來討論推薦新聞跟推薦書籍、電影、餐廳、音樂的差別有哪些 1. 平均消耗時間: 一般會用新聞文章的平均長度是否超過200個字來衡量閱讀一個新聞所需要的時間。根據[PEW 研究中心的報告](https://www.journalism.org/2016/05/05/2-analysis-suggests-some-readers-willingness-to-dig-into-long-form-news-on-cellphones/),少於250個字的新聞平均需要43秒來閱讀,而超過5000個字的則需要至少270秒(4.5min)來閱讀(做為額外參考,推特的字數限制是280個字)。相較之下,一部電影通常需要90 ~ 120min,而一首音樂平均需要3 ~ 5min,一本書則需要非常長的時間。 ![螢幕擷取畫面 2025-05-27 234645](https://hackmd.io/_uploads/Sy4dRImMeg.png) 2. 新聞的壽命: 新聞item通常有更短的shelf-lives,相較於其他領域會在幾天、幾周甚至幾個月、幾個年才過期,新聞可能在幾分鐘、幾小時、幾天就會過期。除此之外,一個新聞item的發布時間跟在新聞網站或社交媒體上評論出現的時間之間的gap也是最小的 (幾秒、幾分鐘、幾小時)。 3. 新聞item的目錄大小: 新聞常常在短時間內就充斥在系統中,一小時內可能有幾千篇news item正在產生,另一方面,書籍或電影服務的目錄大小可能頂多只有幾百幾千個而且會存在更長的時間 4. 預期的request-response速率: 即時地傳遞新聞內容在新聞領域中非常重要且被視為一個獨特的特質。在新聞整合網站上一個news item的request數有時候會超過 100/sec 而且預期的回應時間要在 100ms 以內才能實時地提供新聞 5. 照順序消費(Sequential Consumption): 新聞item通常是照順序閱讀的,而讀者有時候也可能會想要**一次了解不同的新聞**。照順序消費新聞item和音樂item的差別在於,音樂通常會在一個序列中重複多次,新聞讀者則是希望了解不同的或正在進行的故事,而不是重複的故事 6. 多樣性: 一個使用者通常一次聽一種音樂或看一種電影,並且偶爾才會因為不同的心情或情況而切換到不同種類的內容。另一方面,新聞領域的多樣性至關重要,不只是為了在線上閱讀過程中保持讀者的參與度,也是為了讓讀者接觸到反態度行為(counter-attitudinal behavior)。在民主社會中,新聞媒體的多樣性是關鍵原則。 > 反態度行為是指與個人既有態度或信念直接衝突的行為。一個人的信念和行為之間的不一致會導致不適,促使人們尋求解決方案,並常常導致態度的改變。採取反態度行為是認知失調理論解釋人們如何協調相互衝突的信念和行為的關鍵機制。 7. 閱讀行為(Consumption Behavior): 新聞通常是在匿名且缺少明確的使用者資料下的情況下被閱讀。雖然這個問題可以透過點擊的模式、在新聞上的閱讀時間、瀏覽和導覽的模式等等來減緩,但用這些隱含的訊號作為指標很可能會誤判了使用者的興趣或欣賞的事物。舉例來說,更長的閱讀時間可能只是因為使用者的疲勞或是閒置所導致,而並非是一個使用者興趣的指標 8. 隱私問題:線上媒體的閱讀也透過對讀者資料的過度分析對用戶隱私構成威脅 9. 閱讀情境: 閱讀的情境具有高度發展性、時間順序性以及社會性,並且是新聞領域才有的。NRS中最被廣為使用的上下文情境就是位置和時間。Lommatzsch et al. 評估了使用者的在時間和星期幾所對應的動態,根據他們的發現,在新聞網站上平日的訪客量比假日更多,除了時間和位置以外,讀者的上下文可能跟目前最新的事件或趨勢新聞、天氣或是一些個人特質(心情、興趣)有關。舉例來說,在奧林匹克的舉辦期間,平常對運動新聞沒有興趣的人也可能會想要知道某些比賽的最新結果 10. 社群媒體的衝擊:社群媒體極大地影響了新聞報導的搜尋和收集方式。讀者喜歡透過追蹤新聞故事在社群媒體上的影響力來了解更多相關資訊。新聞報導在社群媒體上的對話、持續時間、公眾反應和結果也可能幫助記者確定哪些議題需要進一步關注。 11. 情感: 情感能吸引讀者的注意,並讓他們對人事物產生感情。音樂或電影能直觀地喚起用戶的情感,進而影響他們的偏好。情感日益成為閱讀新聞的驅動力,這不僅對新聞製作的品質提出了挑戰,也為NRS進一步重塑自我提供了機會(Beckett and Deuze,2016)。 12. 偏見: 新聞最初是為了獲取資訊而被閱讀的;然而,以不同的風格和語氣呈現新聞可能會引起偏見。好的新聞報導應該提供讀者細節,以便他們做出自己的判斷並且與人事物產生情感連結。 13. 多模態新聞資訊: 在當今資訊時代,網路對於傳播資訊和新聞至關重要。尤其是社群媒體,它可以輕鬆地向用戶通報全球事件,並且已成為新聞的重要來源,越來越受歡迎。這些新聞文章通常使用多種形式,例如文字、影片、播客,以更有效地傳達訊息。當它是文字格式時,它可以用不同的語言傳遞。當今的大多數研究工作都集中在一種語言的基於文本的新聞文章上,而沒有考慮多種模態和語言帶來的複雜性,因為量化當今新聞領域的跨模態和跨語言實體表徵具有挑戰性。由於**缺乏對非文字格式和多種語言的新聞推薦的積極研究**,在本次調查中,我們僅回顧了關於以一種語言推薦基於文本的新聞的論文。然而,我們確實認識到需要對多模式和多語言新聞推薦進行更多的研究。 # 2. Overview of Research in News Recommender Systems ## 通用演算法解決方案 傳統的推薦系統可分為 1. 協同過濾(Collaborative filtering, CF), 基於內容過濾(Content-based filtering, CBF), 以及混合方法 - 對任何推薦系統來說有兩個重要的事情: user和item的內容以及user和iterm的互動 - CBF 透過基於共享屬性空間的內容比較 user-profile 和 item-profile - 而CF 則與內容無關,物品的特徵通常事先未知,CF 是利用使用者在物品上的評分、歷史記錄和互動等行為 雖然這些傳統方法可以用在NRS上,但表現可能不會太好,主要是因為新聞環境的動態性、新聞和使用者興趣的相關性非常依賴在context上 - CF雖然可以解決動態性的問題,但它需要足夠充足的使用者互動才能,當 NRS 設法從使用者收集到足夠的消費資料時,新聞內容的價值就會衰減,使推薦過時 - CBF雖然可以透過持續更新使用者資料,提供使用者閱讀過的最新新聞,從而滿足使用者不斷改變的興趣。然而CBF無法處理NRS中常見的大量臨時和匿名用戶。 - 此外,用於計算CBF中user-item profiles之間相似度的統計方法可能無法捕捉新聞資料中的語義和上下文。為了彌補 CF 和 CBF 在 NRS 中的缺陷,研究人員和設計人員提出了將這兩類演算法結合的新聞推薦混合解決方案。過去幾年,研究人員也開始關注context(例如時間、地點、情緒等情況)作為附加資訊來提升新聞推薦的品質。 圖3展示了CBF是最常被用來解決新聞推薦問題的方法,因為CBF主要是基於內容的metadata來產生推薦,這對研究人員和開發者來說更容易去開發一個NRS,而混合系統則緊追其後,CF為最後 ![螢幕擷取畫面 2025-05-28 005154](https://hackmd.io/_uploads/rkD26wQMgg.png) ## 用來建立NRS的熱門模型 在深度學習系統廣為使用之前,最受歡迎的模型類別是潛在因子模型(latent factor model),尤其是因子分解(factorization)方法 ### Factorization Models 因子分解方法的主要原理是透過分解user-item互動的矩陣分解為多個低維矩陣的乘積 #### Matrix Factorization (MF) - MF是推薦演算法中其中一個最熱門的方法,首先出現於Netflix competition(Koren et al. 2009) - MF 可以被用於發現兩種不同的實體(也就是user跟item)之間在互動中所展現的潛在特徵(latent features) - 在最近的NRS研究(Raza and Ding 2019)中,MF被擴展到能夠涵蓋新聞相關資訊和能夠model讀者行為的時間動態。在這篇研究中引入了一個新的predictor來將各種時間效應納入到MF模型中,包含time bias, user bias 和 item bias。這些附加的偏差往往能夠捕捉到大部分觀察到的訊號,尤其是時間動態 #### Non-Negative Matrix Factorization (NMF) NMF類似於MF,也是一種將矩陣R分解為兩個矩陣U、V的乘積的分解方法,然而NMF有一個特性,也就是R, U, V三個矩陣都不含負元素。 - 通常NRS的user-item互動矩陣會是非常稀疏的,而在這種情況下,NMF模型通常會比原始的MF模型還表現更好,這是因為NMF擁有處理缺失值的預設功能(Gillis 2020),然而,如果評分矩陣不是太稀疏,基於奇異值分解(SVD)的MF可能會產生更好的結果 - 在Yan et al. 2012的NRS中,新聞相關資訊被納入NMF模型,其中 NMF用於新聞文檔聚類和主題發現。在另一篇論文(Shu 等人,2019)中,NMF 用於從新聞內容和使用者與新聞互動中學習潛在空間嵌入 #### Tensor Factorization (TF) TF透過引入有額外維度的latent vector擴展了MF模型。基於TF的推薦系統可以透過納入有關使用者和新聞的額外資訊來超越MF的限制,從而能夠提供更準確的推薦(Frolov and Oseledets 2017)。因此**TF在我們需要考慮更多上下文的推薦情境下會很有用**,像是時間、地點、社交互動。然而,引入過多的維度也可能會造成計算的負擔太大。 #### Probabilistic Matrix Factorization (PMF) PMF(Mnih and Salakhutdinov 2007)是一種具有高斯觀測雜訊的 MF 模型。 PMF 是 MF 方法的一種變體,其靈感源自貝葉斯學習的參數估計方法。該模型隨觀測數量線性擴大,並且在大型、稀疏且高度不平衡的資料集(例如新聞領域中的資料集)上表現良好。 在社交推薦系統中,PMF用於將社交網路結構與user-item rating matrix結合(Ma et al. 2008)。同樣的想法也應用於 NRS (Lin et al. 2012),它將新聞內容、使用者互動和社群網路資訊融入 PMF 模型中,以解決資料稀疏性問題。 #### Bayesian Personalized Ranking (BPR) 傳統item預測方法(例如MF方法)的一個普遍限制在於,它們並未針對item(例如新聞)的排序進行最佳化。BPR optimization使用pairs of item來為每個使用者產生更個人化的排序。 - MF模型也可以與 BPR 結合使用,為使用者提供個人化且經過排序的項目清單 (Rendle et al. 2012) - 在Xia et al. 2014所提出的基於貝葉斯模型的新聞推薦系統中,是透過計算新聞的聯合機率,向讀者推薦最新的新聞報導。 - 在另一個新聞推薦系統(Gharahighehi and Vens 2019)中,提出了基於貝葉斯模型的新聞推薦系統的擴展,利用用戶的消費水平向讀者推薦新聞主題。 #### Generalized Linear Modeling (GLM) CF 方法通常用於預測大型且幾乎為空的評分矩陣中未觀測到的評分。雖然嚴格來說,MF 和 GLM 並非一種 MF 方法,但它們都源自於潛在因子模型。 - GLM (McCullagh 2019) 也可以與 CF 結合使用,它可以使用其機率模型對高維度評分矩陣進行因式分解 - 在最近的 NRS (Raza and Ding 2020) 中,將使用 GLM 因式分解的高維度新聞領域知識遷移到 CF 模型中。然後,CF 模型用於預測和推薦新聞內容給使用者。 #### Neural Extensions 近期推薦系統領域的許多研究都基於對上述成功的latent factor方法進行神經擴展。 - 例如,神經網路矩陣分解 (NNMF) (Dziugaite and Roy 2015) 以神經網路取代了矩陣分解 (PMF) 公式中的內積,並能夠學習user和item latent variables的合適非線性函數。 - 神經協同過濾 (NCF) (He 等人 2017) 擴展了 CF 模型 - 而深度矩陣分解 (DFM) (Xue 等人 2017) 擴展了傳統的 MF 模型,將使用者和項目映射到具有非線性投影的公共低維空間。 - 這些模型持續啟發 NRS 研究人員,並催生出一些實用的新聞推薦模型。 ### 基於深度學習的解決方案 以深度學習為基礎的新聞推薦系統 (NRS) 在近幾年開始發展,例如自 2016 年以來(Karatzoglou 等人,2016)。 我們在調查中發現,自 2017 年以來,已有 30 多篇論文發表,使用深度神經網路解決新聞推薦問題。這些方法的日益普及表明深度學習將在不久的未來成為該領域最受歡迎的方法。 基於深度學習的新聞推薦系統的整體統計數據如圖4所示。 ![螢幕擷取畫面 2025-05-29 003406](https://hackmd.io/_uploads/Hk6Wo24zxg.png) - 2021 年的採用數量有所減少,主要是因為撰寫本文時才剛進入 2021 年中期,許多論文尚未發表或在線發布 ## 評估推薦系統的品質 我們將 NRS 中的評估指標分為兩類:客觀指標(accuracy和beyond-accuracy)以及主觀指標(透過使用者滿意度研究)。 下文我們將回顧每類指標及其在不同研究工作中的應用。表2列出了迄今為止 NRS 中使用的實際評估指標的定義及其所屬類別。 ![螢幕擷取畫面 2025-05-29 003719](https://hackmd.io/_uploads/B196j2NMll.png) ### Objective Measures – Accuracy and Beyond-Accuracy 推薦系統的目標是根據系統已知的訊息,預測使用者對未知商品的喜愛程度。因此,推薦系統早期的研究主要著重於根據使用者的偏好提供推薦。這些推薦系統通常透過準確率指標進行評估,該指標透過將演算法的預測結果與已知的使用者對商品的評分進行比較來衡量演算法的表現(Herlocker et al. 2004 年;Gunawardana and Shani 2009 年)。 但是,這種以準確度為中心的評估無法回答使用者是否對推薦感到滿意的問題。 - 例如,亞馬遜聲稱 2015 年透過銷售多樣化(非個人化)商品額外增加了 10% 到 30% 的收入(Srihari 2015)。這種不足之處已將一些研究人員的注意力轉移到推薦系統的不同目標上,推薦系統可以解決準確度以外的其他方面。 - 通常,推薦與使用者偏好相關的所有內容都會產生良好的準確度。但是,**對於新聞消費而言,雖然準確度很重要,但其他因素對於滿足用戶需求也同樣重要**。 以下我們將討論 NRS 中超越準確度的面向 #### Diversity 多樣性(Diversity)衡量推薦項目之間的「不相似」('dissimilarity')程度。它主要透過對推薦清單進行重新排序來實現。一些眾所周知的指標包括: - 清單內相似度 Intra-List Similarity (ILS): 任何兩個推薦item清單之間的相似度 - 時間或 Lathia 多樣性: 推薦清單隨時間變化的順序 - 歸一化多樣性(normalized diversity) - 以及 Kunaver 和 Porl 討論的其他指標(Kunaver and Porl 2017) 傳統的成對多樣性 ILS 仍是評估 NRS 中多樣性的常用指標(Li and Li 2013;Gu et al. 2014;Maksai et al. 2015;Raza and Ding 2020)。ILS可以在 NRS 中的item、topics、categories、tags甚至sentiments(tone)(Helberger 2019)之間計算 ILS。 - 由於典型的 ILS 方法是**針對每個使用者計算的**,因此對於擁有數百萬用戶和專案的 NRS 來說,這是一個計算成本高昂的過程。因此,需要進行更多研究來考慮各個方面,例如 NRS 中的多樣化程度、可擴展性問題 #### Coverage 覆蓋率(Coverage)表示推薦系統可以推薦的不同item/user/rating的百分比 - 覆蓋率的流行解釋包括item覆蓋率(item百分比)、使用者覆蓋率(使用者百分比)、目錄覆蓋率(recommended user-item pairs的百分比)和互動覆蓋率(rating預測),分別針對潛在item、使用者、user-item pairs或rating (Han and Yamana 2017)。 - NRS 中的覆蓋率與其他推薦領域的覆蓋率並無不同。它主要用於確定新聞領域中item的覆蓋率 (De Francisci Morales et al. 2012; Maksai et al. 2015)。 - 在某些情況下,覆蓋率被定義為衡量使用者在不同時間段造訪網站的次數,以確定主題覆蓋率。 關於 NRS 覆蓋率的研究仍然非常有限,主要討論item覆蓋率。對覆蓋率進行更多研究非常重要,因為這方面不僅與推薦商品相關,還與整個 NRS 相關。 #### Novelty 新穎性(Novelty)決定了新的推薦與先前推薦給使用者的內容的差異或未知程度 (Vargas and Castells 2011)。 - Silveira et al. 2019 將新穎性定義為三個層級:使用者一生中從未聽說過該item (life level)、對使用者每一個消費歷史而言未知的item (system level) 以及推薦清單中的非冗餘item(recommendation level)。**在 NRS 中引入新穎性更具挑戰性,因為新聞領域中發生的幾乎所有事情都是新穎的。** - 在最簡單的形式中,新穎性被定義為the inverse of popularity或新聞item前N個推薦列表中未知item的比例 (Garcin and Faltings 2013; Gu et al. 2014; Maksai et al. 2015; Saranya and Sudha Sadasivam 2017; Raza and Ding 2020)。 目前,NRS對新聞新穎性的納入考慮僅限於條目層面(item level only)。新聞新穎性也應涵蓋整體內容、事件本身以及新聞報導對用戶的獨特性。 #### Serendipity 意外發現 (Serendipity) 是一個複合概念,包含多個方面,例如相關度(usefulness)、新穎性(new)和意外性(surprise)(Kotkov 等,2016)。 - 意外發現不同於新穎性。如果使用者不熟悉、未消費或未忘記某項內容,則該內容為新穎內容。如果使用者未曾預料或未曾發現該內容,但幸運且有趣地收到推薦,則該內容為意外發現 (Serendipitous) - 例如,如果使用者收到一則他從未聽過的新聞,則該新聞對他而言為新穎內容;但如果使用者對該主題不感興趣,則該新聞不為意外發現 (Serendipitous)。相反,**如果使用者發現該新聞足夠有趣,從而改變了他對該新聞類別或主題的態度,則該新聞為意外發現 (Serendipitous)**(Asikin and Wörndl 2014)。 - 在一篇新參考文獻(Maksai et al. 2015)中,意外發現性 (serendipity) 被定義為由準確性、新穎性和多樣性構成。 - 在其他一些新參考文獻(Jenders et al. 2015; Cucchiarelli et al. 2018)中,意外發現性是指既語義相關又出乎意料的新聞主題。 文獻顯示,關於NRS中意外發現性的研究有限。其中一個原因可能是,意外發現性是一個複合性方面,包含許多組合定義,這使得研究人員難以評估。 ### 透過使用者研究對使用者滿意度進行主觀測量 (Subjective Measures through User Study on User Satisfaction) 使用者體驗是一個主觀術語,具有不同的含義和解讀。它在推薦的不同階段(即推薦生成前、生成中和生成後)受到許多因素的影響。 - 例如,在註冊過程中推薦一些熱門內容或與使用者背景(例如人口統計資料)相關的內容,可以提升使用者對系統的忠誠度。 - 同樣,在正常閱讀過程中主動在側邊欄推薦一些新聞報道,或許可以吸引用戶在系統中停留更長時間。如果推薦系統能夠包含這些功能,或許可以提升使用者對系統的信任度。 在推薦系統中,使用者體驗通常透過三種主要方式進行評估: (i)透過進行使用者研究,在推薦的不同階段向受試者提供某些問卷(Konstan and Riedl 2012) (ii)將縱向記錄資料(longitudinally logged data)的研究與基於問卷的使用者研究相結合(Nguyen et al. 2014) (iii)透過解決其他評估,例如以某種方式結合準確度和超越準確度的指標(Maksai et al. 2015). Knijnenburg 等人的使用者體驗框架。 (Knijnenburg et al. 2012)由六個部分組成: - 客觀系統方面(推薦系統的演算法、呈現、介面和附加功能) - 使用者體驗(使用者的選擇、對系統的評價) - 感知或主觀系統的面向(使用者對客觀面的評估) - 情境(不同背景,如社會、信任、選擇目標) - 個人特徵(如性別、位置)作為外部特徵 - 客觀互動(可觀察的行為,像是瀏覽、檢視、登入、評分、消費) 在先前的 NRS 研究中,研究人員已將使用者滿意度與客觀指標連結起來。他們認為使用者體驗是所有使用者的普遍現象,因此他們使用一個統一的衡量標準。 - 一些研究人員認為,使用者體驗可以透過準確度來衡量(Nguyen et al. 2014; Viana and Soares 2016; Su et al. 2016)。他們證明,更高的評分能為使用者帶來更愉悅、更滿意的體驗 - 另一些研究人員則認為使用者體驗與準確度以外的因素更相關。例如,一些作者(Asikin and Wörndl 2014; Jenders et al. 2015)聲稱,增加 NRS 中的意外發現 (serendipity) 會帶來更高的使用者滿意度 - 還有一些人將使用者體驗與更高程度的新穎性聯繫起來(Saranya and Sudha Sadasivam 2017) 圖 5 中的統計數據表明,**準確率是 NRS 中最廣泛使用的評估指標**。研究人員也致力於在新聞推薦中引入多樣性(diversity)。在新穎性、覆蓋率以及最重要的方面,即 NRS 的使用者體驗方面,研究工作非常有限。 整體而言,NRS 研究中使用的品質指標與一般推薦系統中使用的指標大致相同。然而,也有一些專門為 NRS 設計的評估指標,我們將在下文中討論。 ![螢幕擷取畫面 2025-05-29 014527](https://hackmd.io/_uploads/rJXpoT4flx.png) ### Evaluation Metrics Specific to News Recommender Systems #### Personalized Garcin et al. 2013 提出了一個個人化 @k 指標,該指標從推薦清單中移除 k 個熱門商品,從而產生一個較小的推薦集合。其目標是消除從自動推薦最熱門商品的網站收集資料時出現的受歡迎偏差(popularity bias)。 #### Saliency Cucchiarelli et al. 2018 提出了一種顯著性測量方法。實體(named entities)的顯著性是根據其在新聞文章中出現的頻率計算的,其衰減因子則基於文本中首次出現的位置索引的距離。此度量方法的靈感來自新聞特有的語篇結構,**這種結構傾向於在第一段中對最重要的事實和實體進行簡要概述。** 未來影響力:Chakraborty et al. 2019 提出了一個未來影響力指標,該指標在新近度(新聞報導發布後的時長)和重要性(相關性)之間進行權衡。未來影響力得分較高的新聞報導被認為是高影響力報道,反之亦然。**通常,最近發布的新聞報導會獲得最高的未來影響力得分。** #### Tradeoff Raza and Ding 2020 提出了一個權衡指標(tradeoff metric),用於平衡高準確度(precision, recall measures)和合理的多樣性(diversity and novelty aspects)兩者 其假設是,更高的準確度可以帶來更好的個人化,進而提升讀者使用 NRS 的體驗。另一方面,合理的多樣性可以幫助讀者獲取多樣化的新聞,避免他們一遍又一遍地閱讀相同的新聞報導而感到厭倦。該指標旨在保持讀者的閱讀興趣,同時向他們推薦多樣化的新聞。 #### Senti Wu et al. 2020a 提出了一個指標 Senti(from word sentiment)來評估新聞推薦的情緒多樣性。該指標對 MRR 和命中率得分進行了歸一化。如果排名靠前的新聞的情感傾向與整體情感傾向一致,則 Senti 為正;如果情感傾向較強,則 Senti 值較高。 ![螢幕擷取畫面 2025-05-29 020500](https://hackmd.io/_uploads/SkzDgANfgx.png) 在圖 6 中對評估指標的文獻進行分類時,我們也考慮了三種標準評估協議。這些評估協議指的是我們衡量建議品質的實驗設置,包括離線實驗/模擬、線上實驗(A/B 或即時測試)和使用者研究(Gunawardana 和 Shani 2009)。 從圖 6 可以看出,有 13 篇論文使用線上評估,58 篇使用離線評估,9 篇使用使用者研究。**離線評估協議是 NRS 研究中使用最廣泛的協議**。其中一個原因可能是,在 NRS 的即時設定中,線上評估和使用者研究通常被認為是一種昂貴的方法。 ## Research Datasets 由於在新聞領域中推薦的目標大部分都是文字文件,新聞資料大多也都是文字型資料,可分為以下幾種類型 (i) 非商業和研究目的公開資料集 (ii) 專有資料集 (iii) 爬來的資料集 (iv) 使用模擬(anonymized or hidden or added)值建立的合成資料集 ### Plista - 由廣告公司Plista和Technische Universität Berlin在2013年發布(Kille et al. 2013) - 由13個德文入口網站從2013年6月開始收集的log所組成,也包含了幾百萬次的曝光(文章觀看數)和一些時間相關資訊 - 此資料集可供研究用途申請存取 ### Adressa - Adressa(Gulla et al. 2017)是由一個挪威的地方新聞媒體Adressavisen和Norwegian University of Science and Technology (NTNU)所開發的公開benchmark dataset - 跟Plista一樣,Adressa沒有明確的評分,但與 Plista 不同的是,它除了文章觀看數以外還包括閱讀時間 ### Yahoo Webscope - Yahho Webscope是一個參考library,提供給非商業使用者如學術界和科學家,同時也提供新聞的benchmark dataset - 這些資料集包含: - R6A - Yahoo! Front Page Today Module User Click Log Dataset - R6B - Yahoo! Front Page Today Module User Click Log Dataset - R11 - Yahoo News Video dataset - L33 - Yahoo News Ranked Multi-label Corpus - L32 - The Yahoo News Annotated Comments Corpus. - 在這些資料集當中,R6A和R6B是有評分和新聞種類資訊的新聞資料集,由Yahoo!Front Page Today提供,對研究人員評估其推薦演算法至關重要 - 這兩個資料集包含時間戳記資訊和明確評分,使其成為開發和評估協同過濾(CF)解決方案的首選。然而,這些資料集的一個限制在於,新聞條目僅由其特徵表示,**新聞報導的實際內容是匿名的,沒有任何其他資訊**。在缺乏任何新聞資訊的情況下,提出推薦可能會很困難。 - 這些資料集也可根據研究目的提供。 ### Hacker News - Hacker news是一個熱門的IT產業面向的社交新聞網站,人們可以在這裡分享新聞、展示專案、提問、發布工作機會並作為一個社區對新聞報導進行評論 - Hacker News 自 2006 年上線以來,一直遵循 MIT License,提供[大量資料集](https://github.com/HackerNews/API)。此資料集也可透過 Google BigQuery 作為公開資料集使用。 - 該資料集包含來自不同來源的新聞報導,可能對從事新聞推薦工作的研究人員有所幫助。然而,這些新聞文本和評論未經審查,可能包含粗俗內容。 Hacker News 對作者的撰寫內容不負任何責任。 ### BuzzFeed News - BuzzFeed 是一家在數位媒體上提供新聞和娛樂內容的公司。他們發布與假新聞、社群媒體和各種新聞模式相關的數據。他們已經發布了一些資料集,並將其發佈在 [GitHub](https://github.com/BuzzFeedNews/everything) 上。 - 這些資料集對於從事虛假新聞調查、調查謠言、虛假資訊和識別事實性主張的研究人員非常有用。然而,這些資料集的一個限制在於,**它們專門用於虛假新聞檢測,可能不適合用於建立個人化的 NRS。** ### MIcrosoft News Dataset (MIND) - [MIND 資料集](https://msnews.github.io/)是一個用於新聞推薦研究的大規模benchmark dataset(Wu et al. 2020b)。 - MIND 資料集包含約 16 萬篇英文新聞文章,以及 100 萬用戶產生的超過 1500 萬條觀看logs。 - 每篇新聞文章都透過豐富的文本內容(包括標題、摘要、正文、類別和實體)進行標籤。 - 觀看logs包含使用者的點擊事件、非點擊事件和歷史新聞點擊行為。 - MIND-small 是原始 MIND 資料集的精簡版本,包含 5 萬名使用者及其行為日誌。這些用戶均已匿名。兩個版本的資料集均可在線上存取。 ### Fake News Datasets 假新聞已成為傳播謠言和虛假訊息的嚴重問題,並因此對政治、區域穩定,有時甚至影響人們的日常生活造成了負面影響,尤其是在美國大選和疫情期間。正因如此,近年來許多虛假新聞資料集被公開用於研究。雖然它們與NRS研究沒有直接關係,但它們對於假新聞檢測非常有用,這可能是提出建議之前的關鍵步驟。這裡列出了一些著名的:[BS Detector](https://github.com/thiagovas/bs-detector-dataset)、[Credbank-data](http://compsocial.github.io/CREDBANK-data/)、[BuzzFace](https://github.com/gsantia/BuzzFace)、[MisInfoText](https://github.com/sfu-discourse-lab/MisInfoText)、[NewsTrust](http://resources.mpi-inf.mpg.de/impact/credibilityanalysis/data.tar.gz)、[SFU Opinion and Comments Corpus](https://github.com/sfu-discourse-lab/SOCC)、NELA-GT-2018 (Nørregaard et al. 2019)、NELA-GT-2019 (Horne 2020)、NELA-GT-2020 (Gruppi et al. 2021)、Fakeddit (Nakamura et al. 2019)、FakeNewsNet (Shu et al. 2018)、[NYtimes covid-19-data](https://github.com/nytimes/covid-19-data) 和 LIAR (Wang 2017) 資料集。 ### Other Datasets - 有一些經典的新聞資料集,例如Reuters Corpora和20 Newsgroups,可用於新聞分類。 - 近期的一些資料集包括[Fast.ai](https://course.fast.ai/datasets)上的Amazon news datasets和[Global Database of Events, Language and Tone (GDELT)](https://www.gdeltproject.org/data.html),它們可用於文字分類以及對新聞和使用者資料的詳細分析。 Huggingface最近發布了一些與新聞相關的[資料集](https://huggingface.co/datasets?search=news)。 圖7中展示了過去NRS研究中所使用的資料集分布 ![螢幕擷取畫面 2025-05-29 123855](https://hackmd.io/_uploads/H16JBDBzgx.png) - 62篇論文用私人資料集(大多都是爬來的),16篇論文用公開資料集 - 大多數情況下,研究人員傾向於自行建立新聞推薦資料集,原因有兩個:一是缺乏公開可用的資料集,二是要做的研究對某些類型的資料有特殊要求。為此,他們會從不同的新聞出版商抓取新聞。這些資料集通常歸創建它們的機構所有。 - 此外,還有一些領域相關的合成數據集,它們從一些基準數據集中提取數據,並透過人工或半自動的方式添加相關資訊和互動來豐富數據集。 ### Open News Recommendation Platforms 在過去幾年,有一些libraries已經為了推薦系統而被建立,以下列出幾個較有名的 - [MIND(Wu et al. 2020b)](https://msnews.github.io/)是一個近期的新聞基準資料集。該資料集的貢獻者以競賽活動和排行榜的形式為研究人員提供了一個研究新聞推薦問題的環境。結合[2021年的網路會議](https://www2021.thewebconf.org/program/workshops/),貢獻者也舉辦了一次國際新聞推薦與智慧研討會。該研討會募集了關於新聞推薦諸多方面的研究和技術報告文章。 - Apache Mahout 是一個用 Java 實作的分散式機器學習函式庫,包含一些協同過濾 (CF) 演算法。該框架可供學術和商業使用,用於處理真實世界的新聞數據(Beck et al. 2017)。 - Idomaar(Scriminaci et al. 2016)是一個benchmark framework,能夠在真實環境中對推薦演算法進行高效、可重複的評估。與其他以 Java、Python 或 C++ 實現的框架不同,它以 Web 服務的形式實現,這為程式語言提供了靈活性。 - StreamingRec(Jugovac et al,2018)以 Java 編寫,提供多種預先建構的新聞推薦演算法,可供實作和比較評估。它模擬了現實世界中的新聞推薦場景。 - CLEF NEWSREEL 和 Open Recommendation Platform (ORP)。 - CLEF NEWSREEL 平台旨在鼓勵研究人員使用 Plista 資料集開發新型推薦系統,並透過 ORP 進行即時評估。 - ORP 由分散式系統組成,推薦提供者和消費者透過標準化協議互動以提供推薦。 - 研究人員使用 CLEF NEWSREEL 進行線上評估以及基於重播(模擬或離線)的評估(Domann 和 Lommatzsch 2017;Kumar 等人 2017)。它還包含 Idomaar 框架和 Plista 資料集,並提供一些線上演算法和資料分析技術。 在這些框架中,Idomaar 和 Apache Mahout 框架是為通用推薦系統開發的,而 CLEF NEWSREEL、streamingRec 和 MIND 則是專為 NRS 設計的。 CLEF NEWSREEL 現已過時。MIND 平台仍然活躍。 # 3. Major Challenges in News Recommender Systems and Conventional Solutions 這一節會討論NRS的主要挑戰及其解決方案。冷啟動(cold start)、資料稀疏性(data sparsity)等挑戰已在先前的調查(Karimi et al. 2018)中進行了探討。這些挑戰對於一般推薦系統來說也很常見。因此,**我們決定在本次調查中略去它們**。 我們納入了之前討論過的兩個挑戰(timeliness and user modeling),但我們嘗試在討論中提供一些新的見解和視角。我們也將新聞內容品質視為一個新興挑戰,這此前從未被討論過。 這一節會提供傳統方法(非NN)過去如何解決這些挑戰,然後下一節討論NN方法的解決方案 ## Challenge 1: Timeliness 事件報導越早,就越有報導價值。 - 根據 CLEF NEWSREEL 挑戰賽(Brodt and Hopfgartner 2014)的工作筆記,完善的推薦系統必須在給定的時間範圍內(100 ms)回應請求。它需要更快的即時處理能力和更強大的運算能力,才能為新聞領域中大量的新聞文章提供推薦。 - **熱門度、新近度、新鮮度、趨勢、獨特性和低延遲是 NRS 系統應考慮的特性**,以便提供及時的建議。 解決方案:一些用於通用推薦系統的常規技術已被用於解決 NRS 的時效性挑戰。下文將討論這些模型。 ### Time-decay Models 為了賦予近期新聞更高權重且對時間敏感的推薦演算法稱為時間衰減模型(Ding and Li 2005;Xia et al. 2010)。 - 「時間衰減」(time-decay) 指的是資料的價值隨時間推移而下降。為了能夠適應新聞事件的時間衰減效應,建立一個有效的短期偏好模型來預測讀者對近期新聞事件的偏好至關重要。 一個簡單且流行的時間衰減模型是使用滑動/計時視窗(sliding/timing windows)。 - 在時間衰減模型中,計時視窗僅考慮最近的新聞或評分資料,較舊的數據將被丟棄或賦予較低的權重(De Francisci Morales et al. 2012)。 - 文獻中,關於計時視窗的大小和權重存在著各種報告。一些作者指出,計時視窗的大小不應固定(大或小),而應具有自適應性。通常,較大的計時視窗會導致概念漂移(目標變數的值隨時間變化),而較小的計時視窗則沒有足夠的數據來建立短期偏好模型。 ### Graph-based Solutions 基於圖的解決方案(Graph-based Solutions)用於建模NRS中的順序閱讀過程(sequential reading process)。基於圖的推薦模型使用links (weighted or unweighted)來表示user與item之間的關係。這些模型也用於透過建模user-item互動的順序依賴關係來預測下一則新聞。 一些代表性模型包括: (i)Context Tree: 基於新聞瀏覽模式向匿名讀者提供新聞推薦的上下文樹(Garcin et,2013;Maksai et al. 2015) (ii)Browse-Graphs: 根據讀者消費歷史建模序列模式的瀏覽圖(Trevisiol et al. 2014) (iii)馬可夫決策過程(Markov decision process): 用於建模 NRS 中的序列模型 (Khattar et al. 2017) 這些傳統模型是建模user-item互動之間序列依賴關係的直覺解決方案。然而,由於狀態數量的增加,這些模型可能無法從大量資料中捕捉複雜的模式,就像在新聞領域一樣。 ### Popularity-based Solutions 基於流行度的模型(Popularity-based Solutions)是基於新聞item的點擊率或社交網站上的社交連結的受歡迎程度去推薦。 - 在 NRS 中包含流行度的傳統方法是簡單地計算新聞文章的總訪問次數 (Doychev et al. 2015)。然而,基於前 N 篇文章計算流行度容易出現放大效應(popularity bias or temporal bias),這是由於只選擇了前 N 篇文章而忽略了第 (N+1) 個好的候選文章。在這種情況下,一些好文章在硬切斷 (hard cut-off) 時會受到不公平的懲罰,儘管這些文章與前 N 個推薦之間的差異可以忽略不計。 - 如果以機率方式產生推薦,並帶有回饋循環(feedback loop),其中文章被選中的可能性與其當前的流行度(計數)成正比,則可以緩解此問題 (Prawesh and Padmanabhan 2012)。 - 新聞報導也可以根據其在 Twitter 等熱門微部落格(micro-blogging)網站上的受歡迎程度進行排名 (Jonnalagedda et al. 2016)。 - 在一些 NRS 中,趨勢也用於確定新聞項目的受歡迎程度 (Chakraborty et al. 2019)。 雖然基於流行度的模型易於實現,但**它並不能確保所有熱門新聞都是可信的、真正受歡迎的**。根據 [nbcnews 的報導](https://www.nbcnews.com/health/health-news/fake-news-lies-spread-faster-social-media-truth-doesn854896),假新聞更受歡迎,其轉發的可能性比真實新聞高出 70%。整體而言,**傳統的時效性模型(timeliness model)在處理 NRS 中的動態使用者行為方面可能有其限制**。 ## Challenge 2: User Modeling Knijnenburg et al. 2012 中提到,通常,使用者偏好建模的方式有兩種:明確回饋(explicit feedback)和隱式回饋(implicit feedback)。 - 明確回饋資料是可量化的,例如用戶在 Netflix 上對電影的評分、在 Amazon 上對產品的評分或在 Flipboard 上對新聞的評分。但是在NRS中,即使使用者閱讀完整篇新聞文章,也可能不會明確給予評分。在這種情況下,我們考慮使用隱式回饋來取代使用者的興趣。 - 隱式回饋資料的範例包括連結點擊次數、瀏覽記錄、閱讀時間以及新聞報導的滾動百分比(5%、50% 或 75%)。在NRS中,我們需要考慮使用者建模的幾個方面,例如匿名新聞讀者、註冊用戶的個人資料資訊、被動新聞消費、負面隱式回饋以及讀者意圖的相關性。 解決方案:我們查閱相關文獻,以找出NRS中使用的不同使用者建模技術。這些模型將在下文中討論。 ### Stereotypical User Modeling 刻板印象(Stereotypical)是人們經常同時出現的特徵的集合(Rich 1979)。在這種方法中,每一個使用者會被指派到一個使用者類別中,並根據有關該類別的先前資訊推斷出有關這群使用者偏好的預測。當我們沒有關於用戶的完整背景知識時,我們可以使用這種建模技術。 - NRS 中眾所周知的刻板印象是基於地理位置(Asikin and Wörndl 2014;Garrido et al. 2015;Robindro et al. 2017)和使用者習慣(Constantinides and Dowell 2018)。 雖然刻板印象允許將使用者分為不同的群組,但 NRS 中的刻板印象存在兩個問題:(i)無法學習到全新的刻板印象,以及(ii)過多的刻板印象可能會導致用戶群組隔離或想法相似的用戶之間出現過濾泡沫(filter bubbles)或所謂的同溫層。 ### Feature-based User Modeling 新聞文章的內容通常包含類別、標題、來源和主題等特徵。這些特徵是使用統計文本表示方法提取的,例如詞袋模型 (BoW)、TF-IDF、雜湊 (Hashing) 和 Word2vec。如果一篇新聞報導的內容與用戶先前閱讀過的內容相似,那麼它就會被推薦給該用戶。**這些傳統方法的一個普遍限制是,它們在進行新聞推薦時,沒有考慮到語義 (文本中的含義) 和上下文 (讀者與新聞互動的情境)**。 使用者興趣檔案 (user interest profile) 通常包含長期興趣,這些興趣可以從用戶先前閱讀內容中提取的關鍵詞 (Oh et al. 2014) 或其隱性回饋資訊 (Muralidhar et al. 2015) 中捕捉。由於新聞領域中用戶的偏好非常易變 (volatile),且許多用戶是匿名的,因此**使用這些統計方法很難獲得完整的使用者興趣檔案資訊**。這些傳統方法在捕捉讀者偏好中按時間順序的依賴關係 (time-ordered dependencies) 方面也存在局限。 ### Collaborative Filtering 基於使用者互動的使用者建模,即協同過濾方法,用於進行推薦,**無需分析item特徵**。這些方法收集相似用戶的興趣並將其儲存為歷史記錄。然而,如果使用者偏好的時間差異沒有保留下來,協同過濾推薦系統可能無法根據相似使用者的偏好有效地預測下一篇新聞文章。這就需要協同過濾推薦系統將使用者行為的時間序列納入傳統的協同過濾方法中(Xiao et al. 2015; Khattar et al. 2017; Raza and Ding 2019)。 ### Knowledge-based User Modeling 基於知識的使用者建模方法通常用於應用在語義(semantics, from Khattar et al. 2017)、本體(ontologies, from Agarwal et al. 2013)或其他上下文(situation in which a user is currently in)來建模使用者偏好(Wang et al. 2018b)。 在一些 NRS 中,使用過基於 IPTC (International Press Telecommunication Council)標準的 OWL ontologies(Agarwal et al. 2013)以及維基百科或微軟 Satori 等免費知識庫(Wang et al. 2018a)用於建立豐富的內容檔案。這些模型允許重複使用領域知識,但創建新的知識庫可能成本高昂。 ### Microblogging-based User Modeling 利用社群媒體平台(例如 Twitter)來建模用戶偏好,並為他們提供個人化和趨勢化的新聞服務。 - 文獻中有很多從微部落格推斷使用者興趣檔案的案例(De Francisci Morales et al. 2012; Gu et al. 2014; Jonnalagedda et al. 2016)。**儘管微部落格提供了豐富的使用者互動數據,但仍需要額外的指標來評估此類內容的品質**(Kang et al. 2015)。例如,與精選新聞相比,微部落格中的交流和討論通常不太可信(Kang et al. 2015; Cucchiarelli et al. 2018)。 整體而言,**傳統的NRS中的使用者建模方法效果不佳**。在NRS中,使用者建模不僅應包括使用者的歷史興趣,還應包括他們的短期興趣、季節性興趣、多樣化興趣和連續性興趣(sequential interests)。 ## Challenge 3: Quality Control of the News Content 隨著大多數新聞媒體轉向線上,學界最初面臨的困難是如何有效率地即時處理和評估大量非結構化資訊(大多數網路新聞都是文字格式)。大數據技術(例如 Spark、Hadoop 和雲端技術)部分解決了效率和可擴展性問題,而 NLP 領域的最新發展(例如基於嵌入和深度學習模型)部分解決了特徵工程問題。 新的未解決的挑戰是**新聞內容的品質控制** - 社會科學研究人員通常在新聞領域進行兩種類型的內容分析:定量和定性(Hamborg 等人,2019)。 - 為了評估新聞內容的質量,定性分析通常需要黃金標準測試(人工解讀),這是一項耗時的任務。定量分析可以確定新聞文章中特定詞語或短語的出現頻率,以及新聞的其他統計特徵,例如某個新聞主題的已發表文章數量、每篇報道的字數、新聞報道在網站上的排名等等。 - 與社會科學相比,新聞領域的品質控制是電腦科學領域一個新興且研究不足的研究主題 在有限的研究中跟內容品質相關的議題可以被概括為: 新聞內容重複、缺乏語意的新聞、垃圾新聞和有偏見的新聞 - 重複(Duplication):類似的內容出現在不同新聞來源的多個位置(URL)上。這會影響新聞文章的排名,而重複的推薦可能會讓讀者感到厭倦。(Doychev et al. 2015; Okura et al. 2017; Robindro et al. 2017) - 缺乏語意(Lack of semantics):新聞報導中常會出現許多缺乏語意的術語和俚語(jargons and slangs)。它們很難用現有的 NLP libraries 來解釋。(Mohallick and Özgöbek 2017) - 垃圾(Spamming): 點擊誘餌(吸引人的新聞標題)被用來欺騙新聞讀者,讓他們大量點擊新聞網站。很難從用於操縱讀者的點擊誘餌中提取隱藏的含義。即使捕獲了這些語義,所使用的垃圾郵件技術的策略也可能會在之後被修改。(Chakraborty et al. 2016) - 偏見:新聞報導的寫作風格和呈現方式反映了出版商、作者和媒體群體的偏見。極端黨派偏見(來自出版商的偏見)是當今新聞中的一個主要問題。(Kang et al. 2015) 解決方案:我們查閱了相關文獻,以了解不同作者如何處理NRS中的品質控制問題。這些方法將在下文中討論。 ### Duplication Detection Methods - 傳統統計方法(如基於內容特徵的 TF-IDF 或 BoW 技術)用於向目標使用者推薦相似的新聞文章(Doychev et al. 2015)。 - 但類似的新聞文章經常重複出現,因為它們指的是來自不同出版商但方式不同的相同新聞故事。先前的 NRS 研究中討論了一些重複檢測方法。例如,在一個 NRS(Okura et al. 2016)中,使用閾值過濾掉重複的新聞文章(相似度大於預先定義的最大值)。 - 另一個 NRS(Robindro et al. 2017)透過對相似文章進行聚類(使用 k-means),然後從每個聚類中選擇一個代表來解決重複推薦問題。這些傳統的基於聚類的方法無法為大量新聞文章產生內容嵌入並檢測重複 ### Semantics-based Methods 為了提高新聞推薦的質量,一些作者解決了 NRS 中語義的缺失問題。 - 例如,在一個 NRS 中,新聞報導的語義是從新聞結構metadata(分類法)中捕獲的(Ilievski and Roy 2013)。雖然這種方法側重於高階語義(higher-level semantics),但我們發現它無法提供新聞正文、標題等語義的完整表示。 - 在另一個 NRS(Khattar et al. 2017)中,本體(ontology)用於引入新聞文章之間的語義相似性。 - 還有一個 NRS 使用來自維基百科頁面的概念和命名實體來捕獲新聞文章的語義(Cucchiarelli et al. 2018)。 這些方法未解決的其他問題包括本體的變化(changin ontologies)、可擴展性和多語言性 ### 偏見檢測方法 這些方法可以檢測新聞文章中的偏見 - 一些NRS已使用情緒分析技術來檢測新聞文本中的情緒詞彙(Ilievski and Roy 2013;Wang and Wu 2015;Khattar et al. 2017;Cucchiarelli et al.2018)。 - 另一種網路參考系統(NRS)則使用探索-利用(exploration-exploitation)原則來減少新聞文章中的偏見(Boutet et al. 2013) 這些偏見檢測方法有其局限性,需要更多研究來檢測偏見的程度,並透過在數據中引入偏見的新策略來緩解偏見。 ### Clickbait Detection Methods NRS 在解決點擊誘餌(引人注目的欺騙性標題)問題方面所做的工作有限 - 在一項 NRS 研究中,可以透過分類方法將點擊誘餌與常規新聞標題區分開來(Chakraborty et al. 2016)。該方法是基於從發布大量點擊誘餌文章的幾個網域收集的點擊誘餌資料集進行訓練:「BuzzFeed」、「Upworthy」、「ViralNova」、「Scoopwhoop」和「ViralStories」。提出的分類器會根據點擊誘餌標題中出現頻率較高的語言和句法細微差別來識別點擊誘餌標題。 - 由於點擊誘餌製造者的策略會隨著時間推移而變化,基於特定時間的特定資料集訓練的典型分類模型可能會受到資料和概念漂移的影響。因此,為了跟上不斷變化的策略,分類模型可能需要定期進行訓練。此外,點擊誘餌資料中的語意和隱藏模式也應納入分類模型中。 表 3 總結了這些論文和傳統解決方案。從表 3 可以看出,NRS 中面臨的最大挑戰是使用者建模,其次是時效性。內容品質的工作相對較少,需要在 NRS 中得到更多關注。 ![螢幕擷取畫面 2025-05-29 203238](https://hackmd.io/_uploads/B1QxEArGeg.png) ![螢幕擷取畫面 2025-05-29 203251](https://hackmd.io/_uploads/HkAx4ArMgl.png) ![螢幕擷取畫面 2025-05-29 203302](https://hackmd.io/_uploads/rJY-ECHfex.png) # 4. Deep Learning Models for News Recommender Systems 在解決某些問題上,使用DL比傳統方法更有優勢,以下列出四個優勢 - 優勢一: 在處理基於內容推薦時的優勢 - 典型的 CBF 方法不可避免地需要處理大量的多模態資料(文字/聲音/影片)。例如,在處理文字資料(新聞報導、評論、推文等)、圖像或影片時,CNN/RNN(An et al. 2019)等深度神經方法或 BERT(Devlin et al. 2018)等語言模型在表徵學習(特徵學習)任務中不可或缺。 - 優勢二: 在學習使用者和物品之間的多種互動的能力上有顯著優勢 - DL-based NRS (de Souza Pereira Moreira 2018) 在從新聞資料中學習豐富的使用者-物品互動方面,展現出比傳統協同過濾方法 (Xiao et al. 2015) 更好的表現提升 - 優勢三: 序列建模能力(sequential modeling) - 序列建模任務是挖掘時間動態(使用者行為隨時間變化)和基於會話的新聞推薦任務的重點方法。相較之下,傳統的 CBF 或 CF 通常建立在靜態資料集上,沒有考慮時間或序列因素 - 優勢四: 能夠處理傳統推薦方法的冷啟動和資料稀疏問題 - 傳統 NRS 中的冷啟動和資料稀疏問題是由於評分資訊不足造成的。深度學習可以從新聞和使用者資料中提取有用的特徵,從而改進對使用者和物品檔案的估計,最終提高推薦準確率。 接下來,我們討論基於 DL 的新聞推薦模型 ## MLP MLP 是一種前饋神經網絡,其輸入層和輸出層之間有多個隱藏層。在推薦系統中,MLP 可用於在典型的 MF 之上添加非線性變換,以學習豐富的使用者-物品互動。 - 例如,NCF(He et al. 2017)利用 MLP 的非線性特性在 CF 模型中學習使用者-物品交互作用。 - MLP 也用於一些 NRS(Song et al. 2016;Yu et al. 2018)中,以從資料中學習有用的表示。 總而言之,MLP 是一個簡單且有效率的模型,可用於建立基於 MF 模型的神經擴充 ## Autoencoder (AE) AE 是一種神經網絡,它以無監督的方式學習將輸入複製到輸出。它有一個內部(隱藏)層,用於描述表示輸入的代碼,並由兩個主要組件組成:一個編碼器,用於將輸入映射到代碼中;一個解碼器,用於將代碼映射到重構輸入中。 - 在推薦系統中,AE 及其變體通常用於**學習隱藏模式**,好根據使用者的歷史互動重建使用者的評分 (Wu et al. 2016)。 - AE 方法也用於將資料集壓縮到低維特徵子空間,同時保留大部分相關資訊。降噪自編碼器(Denosing auto-encoders)用於在 NRS 中建立新聞文章表徵(Okura et al. 2017)。 - 在另一個 NRS (Cao et al. 2017) 中,stacked AE 用於從稀疏評分矩陣中提取低維特徵。 總體而言,AE 能夠有效地從低維空間中的新聞數據(新聞內容和用戶回饋)中學習有用的表示 ## CNN CNN 是一種具有卷積層和池化操作的前饋神經網絡,在電腦視覺領域取得了巨大成功,尤其是在醫學自動診斷方面(Göçeri 2020a, b)。 NN 通常包含兩組層:(i) 卷積層,用於從資料中產生局部特徵;(ii) 池化(或子採樣)層,用於從前一個(卷積)層中僅選擇具有代表性的局部特徵(即透過激活函數得分最高的特徵)。與 MLP 網路相比,CNN 的參數更少,運行速度更快(He 等人,2018 年)。 - CNN 可以透過使用不同粒度的卷積操作(kernel or filters)從新聞資料中提取有用的特徵,從而無需手動進行特徵工程(Yu 等人,2018 年)。 - 它們常用於從新聞標題(Wang et al. 2018a;An et al. 2019;Wu et al. 2019a)或整篇新聞(Zhu et al. 2019)中提取局部文本特徵。然後,**利用從這些新聞表徵中獲得的知識,透過計算候選新聞與被點擊新聞之間的相似度來進行推薦**(Wang et al. 2018a;Zhu et al. 2019)。 總而言之,CNN 是從新聞資料中表示多模態(文字、音訊、視訊)特徵的有效方法 ## RNN RNN 用於建模變長序列資料。在推薦系統中,RNN 通常用於建模評分資料中的序列依賴關係,並用於基於會話的建議任務 (Hidasi et al. 2016)。 - RNN 的兩個常見變體是長短期記憶網絡 (LSTM) 和門控循環單元 (GRU)。兩者之間的關鍵差異在於,GRU 不像 LSTM 那樣需要記憶單元,因此訓練速度更快。然而,使用 LSTM 更容易學習更長的序列 - 一些 NRS 系統已使用 GRU 從互動歷史中學習使用者的短期偏好(Okura et al. 2017;An et al. 2019;Zhang et al. 2019 年)。結果表明,與傳統時間模型相比,GRU 的性能有了顯著改進,並且略優於 LSTM。 - Song et al. 2016提出使用單向 LSTM 學習使用者的短期偏好。單向 LSTM 僅保留過去的資訊。 - Kumar et al. 2017提出將單向 LSTM 替換為雙向 LSTM 來改善。雙向 LSTM 以兩種方式運行使用者輸入序列,一種是從過去到未來(前向傳遞),另一種是從未來到過去(後向傳遞)。 - 在一些近期的 NRS(de Souza Pereira Moreira 2018;An et al. 2019;Wu et al.)中,GRU 被成功用於學習使用者的短期偏好。 - Zhu et al. 2019的 NRS 也使用 LSTM 來識別使用者在較短時間內的偏好,Wu et al. 2019a 還在 RNN 的每個狀態上添加了神經注意力機制(Vaswani et al. 2017),以便在不同的點擊時間內獲得豐富的序列特徵 總而言之,RNN 可用於建模基於會話和基於序列的建議任務。這些模型也可用於在不同的時間步驟中合併其他新聞相關資訊(An et al. 2019)。 ### Neural Attention 神經注意力機制(Vaswani et al. 2017)基於這樣的想法:模型在處理大量資訊時會專注於特定部分。神經注意力機制在各種機器學習應用中取得了顯著成功,包括語言建模、圖像字幕生成和文字分類。推薦系統也使用注意力機制來過濾噪音內容,並篩選出最具代表性的內容。 在一些 NRS(Wang et al. 2018a;An et al. 2019;Wu et al. 2019a)中,注意力機制在詞語層級(word-level)用於從新聞內容中學習資訊詞彙。注意力機制也應用於新聞級別(news-level),對不同類型新聞資訊的資訊量進行建模,以學習有用的新聞表示 (Wu et al. 2019b)。 - 例如,如果新聞標題比新聞的其他部分(新聞正文、主題、分類)更重要,那麼它就應該被賦予更大的權重。 - 由於相同詞彙和新聞的資訊量在不同使用者之間可能存在差異,個人化注意力網絡的想法被應用於另一個NRS (Wu et al. 2019a)。個人化注意力網絡使用使用者資訊的嵌入作為詞彙和新聞級注意力網絡的查詢向量(query vector),並根據使用者偏好以不同的方式關注重要詞彙和新聞。 注意力機制有助於從神經網路中學習新聞和使用者表徵,也是 Transformer 模型的支柱(Devlin et al. 2018) ### GNN 最近,GNN 模型(Scarselli et al. 2008)在社群網路、推薦系統、搜尋引擎等各個領域越來越受歡迎。GNN 是一種直接作用於圖結構的神經網路。本質上,圖中的每個節點都連結到一個標籤(label),其任務是預測該標籤。 - GNN 用於分類任務,例如文字分類、序列標註、機器翻譯,也用於預測任務。 - GNewsRec (Ge et al. 2020)建立了一個讀者-新聞主題圖(reader-news topic graph),以從新聞特徵和讀者點擊中學習嵌入。然後,兩種表徵(新聞和讀者)都會被用來確定接下來要推薦的候選新聞的點擊機率。 - 除此之外也有許多其他利用 GNN 建立推薦系統的 NRS (Wu et al. 2019c; Lee et al. 2020; Sheu and Li 2020; Yang et al. 2020; Ge et al. 2020) 整體而言,GNN 是很有前景的模型,與注意力機制結合使用時能夠產生出色的效果。(Wu et al. 2020c) ### Transformers Transformer 模型是在神經注意力模型 (Vaswani et al. 2017) 中提出的,它在 NLP 任務中取得了最佳表現。Transformer 旨在以與 RNN 相同的方式處理序列資料。然而,與 RNN 不同的是,**Transformer 不需要按順序(一個接一個)處理序列資料。相反,Transformer 並行處理序列資料**。Transformer 的核心是self-attention layer。self-attention layer 會查看輸入序列,並在每一步中決定序列中哪些其他部分是重要的。 - Transformer 的想法源自於遷移學習,大型語言模型通常需要數十億個單字進行訓練,然後將來自大型模型的知識遷移到類似的小型 NLP 任務中。 - 例如,Google BERT(Devlin et al. 2018)模型在包括整個維基百科和多倫多圖書語料庫在內的大量未標記文本上進行了預訓練,並用於在下游 NLP 任務中訓練其他模型,以做出更準確的預測。 - 著名的 Transformer 模型有 BERT、BART、ALBERT、GPT-2、RoBERTa 以及[此處列出的其他模型](https://huggingface.co/transformers/)。 - The deep bidirectional self-attention BERT 用於在推薦系統中為點擊預測任務建模使用者行為序列(Sun et al. 2019)。最近的 NRS(Wu 等人,2021)也基於相同思想構建,將 BERT 用於新聞推薦任務。 ### Reinforcement Learning (RL) 深度強化學習 (RL) 方法是基於反覆試驗範式(trial-and-error paradigm),已在遊戲、機器人、金融甚至推薦系統 (Francois-Lavet et al. 2018) 等多個領域展現出與人類水平相當的性能。RL 由五個元件(代理、環境、狀態、動作和獎勵)組成,用於從原始資料中獲取知識。 - DQN 是一種 RL 策略,它在給定當前狀態的情況下,幫助找到某個動作的最大預期未來獎勵。 DQN 結構已應用於 NRS (Zheng et al. 2018),以模擬使用者偏好和新聞內容的動態變化。 - RL 模型還可用於透過與新聞環境的互動和對獎勵(點擊)的觀察來確定最佳決策序列。 ### Summary 深度學習方法已被證明在建構NRS方面非常成功,並且在未來似乎具有巨大的應用潛力。儘管這些方法取得了成功,但也存在著一個限制。 **那就是目前的NRS研究(包括基於深度學習的模型)過於注重模型的準確性,而無法為使用者提供建議**。這些方法對準確性之外的方面,例如新穎性、意外發現性、多樣性和複合用戶模型,並沒有進行深入的探討。 表4總結了這些深度學習解決方案及其為NRS解決的挑戰。 ![螢幕擷取畫面 2025-05-29 215800](https://hackmd.io/_uploads/BkKl_18Glx.png) ![螢幕擷取畫面 2025-05-29 215804](https://hackmd.io/_uploads/SJixOyIMee.png) - 如表 4 所示,**使用者建模是DL-based NRS中最廣泛解決的挑戰**。這些模型也解決了時效性問題。通常,基於會話的建議任務用於對使用者短期偏好的時效性進行建模。這些會話會依商品點擊事件或新聞發佈時間的順序建立。在這些方法中,在解決內容品質挑戰方面,目前尚無太多研究成果。 - 在所有深度學習方法中,CNN 和 RNN 是文章和使用者表示的熱門選擇。注意力機制可以在最新的深度學習論文中找到。 - GNN(加入了注意力機制)和 Transformer(主要基於神經注意力機制)也在最近的一些論文中使用。 - 準確率和離線協議仍然是DL-based NRS中常用的評估方法。 - 此外,還有一些其他有用的深度學習模型在最近的NRS中尚未出現,我們將在Discussion on Research Implications and Future Work 中討論。 # 5. Effects of News Recommendation Algorithms on Readers’ Behavior BBC、《紐約時報》、《衛報》等新聞機構一直致力於透過其網站和應用程式向讀者提供更個人化的新聞報導。這些推薦是根據讀者在個人資料中填寫的興趣主題,或在某些情況下,根據他們最近閱讀的內容、根據他們的偏好量身定制的。能夠為讀者提供真正反映他們興趣的所有內容,無疑是一項偉大的成就。然而,**僅依靠機器學習演算法(例如推薦系統)並非沒有風險**。它們被認為會對新聞製作(假新聞、誇大新聞、種族主義、迫害、刻板印象等等)、讀者心理、消費行為以及NRS的整體使用者體驗產生負面影響。 儘管電腦科學文獻中已經認識到這些負面影響,但只有有限的研究(Nguyen et al. 2014; Allcott and Gentzkow 2017; Möller et al. 2018; Helberger 2019)簡要觸及該問題(新聞推薦對讀者行為的後演算法影響)。這個問題已在資訊科學和大眾傳播等其他學科中廣泛討論,他們指責新聞推薦演算法開發人員做出了糟糕的設計選擇。社群媒體、假新聞和兩極化的政治媒體團體的誕生被歸咎於新聞推薦對使用者行為的影響(Allcott and Gentzkow 2017). Some authors (Beam 2014; Quattrociocchi et al. 2016; Anspach 2017)將社群媒體對新聞媒體的干擾視為對民主的威脅。 - 例如,Quattrociocchi et al. 2016 對 Facebook 群組使用者參與度資料進行了研究,以確定社群媒體上是否存在回音室現象(echo chambers)。根據他們的研究結果,社群網路使用者會在某些議題上形成志同道合的回音室,從而限制自己接觸相反態度的行為。 - 根據我們的研究結果,該主題在電腦科學、新聞學、政治學和經濟學等多個學科中都具有很高的社會相關性。我們從[Pew Research Center](http://www.pewresearch.org/)的報告中收集了一些統計數據,該中心對這些問題進行了廣泛的調查。按照這些步驟,我們確定了對使用者行為的主要影響。我們也在本節中討論了可能的緩解策略。 ## Post-Algorithmic News Recommendation Effects - 過濾泡沫(Filter bubble)指的是由於個人化搜尋或演算法選擇性地預設個人想要看到的資訊而造成的智力隔離(Pariser 2011)。 - 回音室(Echo chamber)指的是使用者周圍資訊的泡沫,使用者只會接觸到那些強化其既有信念的文章(Flaxman et al. 2016)。也被稱作同溫層。 - 兩極化(Polarization)指的是對政策(政治、宗教、信仰)的不同看法,最終導致意識形態的極端化(Dandekar et al. 2013)。志同道合的人之間的頻繁互動導致了兩極化。 - 公共領域碎片化(Fragmentation of the public sphere)是指共享的公共領域被瓦解為較小的公共空間,這些空間的公民對外部問題的關注度降低(Helberger 2019)。 - 非人化(Dehumanization)是指透過預測模型控制人類判斷,而讀者卻渾然不知。所有人類決策都被人為生成的邏輯所取代(Page et al.,2018)。 - 偏見同化(Biased assimilation)是指演算法導致讀者產生偏見。使得讀者開始以帶有偏見的方式處理新資訊,這最終會使他們更傾向於對那些否定其既有信念的證據 (disconfirming evidences) 進行批判性審查。(Dandekar et al. 2013) - 對反態度行為的抗拒 (Denial to Counter-attitudinal behavior)。所謂反態度行為 (Counter-attitudinal behavior),是指一種雖然與個人觀點不符,但卻被認為有價值,且被視為能高度接觸不同觀點的行為 (Beam 2014)。而對這種反態度行為的抗拒,是由過濾氣泡或回音室所引起的一個問題。 - 強化數位守門(Reinforced digital gate-keeping)是指透過數位門(recommenders)篩選和提取所有新聞,無需人工判斷(Möller et al. 2018)。 - 深度偽造(Deep Fakes)是指由人工神經網路產生的媒體,它會將現有圖像/影片中的人物替換成其他人,例如,奧巴馬公開聲明的深度偽造,以及唐納德·川普的非正式講話。深度偽造利用社交媒體製作,這導致了假新聞和其他陰謀論的出現。 ## Mitigating Effects of News Recommendations on User Behavior 我們回顧了減輕新聞演算法對讀者行為影響的先進解決方案。首先,我們討論來自最新NRS論文的解決方案,然後在下一節 Discussion on Research Implications and Future Work 中討論其他解決方案。 ### 選擇性曝光 Selective Exposure 選擇性曝光研究源自Festinger’s cognitive dissonance theory(Festinger,1962)。該理論是一門心理學學科,指出人們傾向於查看支持自身觀點的資訊(Hart et al.,2009)。根據該理論,失調資訊(與使用者態度不一致的資訊)會增加使用者的不確定性和不適感。因此,**使用者可能會閱讀有利於自身態度(與使用者行為一致)的訊息,並盡量避免不利於自身態度(與自身觀點相衝突)的訊息**。然而,選擇性曝光的實證研究(Brundidge 2010)表明,讀者可能也會選擇和閱讀不同的新聞報道,以獲取有利於和不利於自身態度的資訊。 - 例如,Garret (Garrett 2009) 透過一項使用者研究表明,在選舉日,人們傾向於在線搜尋關於他們支持候選人的新聞。此外,同樣的參與者也會繼續在網路上搜尋反對候選人的新聞,並閱讀他們的觀點。這項發現與支持態度的使用者行為相矛盾。 - Beam (Beam 2014) 透過一項使用者研究表明,在選擇性曝光過程中,使用者只會選擇符合自己偏好的新聞報導。在這樣做的同時,他們可能會看到與自己觀點相矛盾的新聞報道;在這種情況下,他們可能仍然想閱讀這些報道,以便對某個問題形成自己的看法。Flaxman et al. 2016 也支持這一觀點,他們透過一項大規模用戶研究表明,**線上新聞消費中的選擇性曝光會讓讀者接觸到並不總是與他們的政治信念相符的訊息**。 - 另一組研究人員(Flaxman et al. 2016; Newman et al. 2018)認為,社群媒體使用者更有可能接觸到他們通常不會接觸到的資訊來源,從而使他們接觸到相反的觀點。Flaxman et al. 2016 進行了一項用戶研究,分析了 50,000 名經常閱讀線上新聞的美國公民的網路瀏覽歷史記錄。結果表明,使用社交網路和搜尋引擎會讓用戶接觸到反態度的資訊。路透社 2018 年報告(Newman et al. 2018)也提出了用戶研究,並肯定了先前的研究,即**社群媒體在增加用戶接觸新聞方面發揮作用**。 - Dandekar et al. 2013使用 DeGroot 的意見圖模型(DeGroot's graphical model of opinion)來解決新聞領域的兩極化問題,在該模型中,個人會根據自身當前觀點及其鄰居觀點的加權平均來更新自己的觀點。 Helberger 2019也提出了一個民主推薦系統,為新聞讀者提供多樣化的新聞推薦。 總而言之,需要更多研究將選擇性曝光納入 NRS 的設計中。 ### Diversity-Aware Algorithms 這些演算法在推薦過程的各個階段都考慮了多樣性,例如在重新排名過程(生成推薦之後)或最佳化階段(推薦過程)。 - 推薦演算法通常被設計為在重新排名過程中鼓勵不受歡迎的項目(長尾項目)的曝光。 - 在最佳化階段,推薦演算法經過定制,以便將多樣性以及(內建的)準確性目標納入推薦過程。新聞主題、寫作風格、標籤、觀點、背景和意識形態是 NRS 中被視為多樣化的一些因素(Resnick et al. 2013; DiFranzo and Gloria-Garcia 2017; Möller et al. 2018; Helberger 2019)。 - Möller et al. 2018也提議將 NRS 的多樣性作為一項民主功能,可在新聞文章、主題、語氣、寫作風格和政治內容中識別。 在早期的新聞推薦系統 (Rao et al. 2013) 中,新聞推薦清單的擴展是透過利用新聞分類資訊從百科全書網站中尋找相關新聞條目來實現的。在另一個新聞推薦系統 (Zheng et al. 2018) 中,我們利用具有exploration-exploitation優化的多臂老虎機方法來權衡準確率和多樣性。在最近的一個新聞推薦系統 (Raza and Ding 2020a) 中,透過在最佳化階段使用正規化(Ridge regression for accuracy and Lasso regression for diversity)來增加多樣性。最終,模型在多樣性和高精度之間取得了平衡。 **方面(Aspect)**:方面是一系列屬性、組件或服務的集合,可用於對資訊進行分類。這些方面可以透過為讀者提供關於新聞主題的不同視角,使新聞推薦更加多樣化。 - 在一個新聞推薦系統 (Park et al. 2009) 中,新聞事件根據不同的面向(主題)進行分類,然後為使用者提供不同的新聞視角。雖然在新聞推薦系統中,面向層級呈現的研究很少,但根據其他方面(風格、標籤、類別、情緒)對新聞文章進行分類或聚類以進行推薦仍然非常有用。 ### 助推理論 Nudge theory 這指的是透過細微的設計變化給予微妙的推動(觸碰或推動),鼓勵使用者做出符合其普遍興趣的選擇(van der Heijden and Kosters 2015)。 - 助推是一種行為改變策略,旨在激勵人們實現目標,並能夠影響新聞讀者的行為。現實世界中確實存在一些演算法被操縱,引導讀者閱讀假新聞的案例。例如,在2016年美國大選期間,YouTube與《衛報》新聞一起被持續操縱,引導讀者閱讀聳人聽聞的假新聞(DiFranzo and Gloria-Garcia 2017)。 - 最近,新聞網站與社群媒體外掛程式結合使用,散播反疫苗接種的錯誤訊息和謠言,[錯誤地將 2018 年登記選民人數與 2020 年美國大選的投票數進行比較](https://archive.is/OXJ60)。此類新聞的影響體現在反疫苗運動阻礙了全球對抗 COVID19 的鬥爭,以及選舉後的動盪。**儘管有這些負面例子,但如果以透明和合乎道德的方式使用助推功能,則可能極為有益。可以對演算法進行編程,以引導用戶進行政治上更平衡的新聞消費和曝光**。 - Resnick et al. 2013 設計了一個介面(一個瀏覽器外掛程式),可以助推使用者選擇更多新聞,而不是只依賴演算法推薦。還有一些工作展示了推薦系統中智慧助推的整體設計和架構(Karlsen and Andersen 2019)。 - [Algotransparency](https://algotransparency.org/) 也是一個資訊小組,它向公民介紹人們如何從最初在 YouTube 上進行中立搜索,轉變為 ### 各種評估指標之間的trade-off(權衡) Maksai et al. 2015 量化了準確率-覆蓋率、準確率-多樣性、準確率-意外發現率、多樣性-意外發現率等不同指標之間的權衡,以測試其推薦演算法的性能。結果表明,準確率與超越準確率的指標相結合,可以改善網路推薦系統中的使用者行為。 - 近年來,人們越來越擔心網路推薦系統中個人化的潛在負面影響 (Haim et al. 2018)。個人化通常是與使用者偏好高度契合的推薦的結果。通常,推薦系統的準確率越高,個人化程度也越高。然而,我們認為不應完全忽視個人化;否則,**使用者可能會對推薦內容各不相同或內容多樣化的網路推薦系統失去興趣**。事實上,正如最近的一項研究表明,在網路推薦系統中,個人化可以與合理的多樣性相平衡 (Raza and Ding 2020a)。 - Chakraborty et al. 2019也對如何平衡新近推薦系統中的三個指標進行了更深入的研究:時效性、重要性(或流行度)和多樣性。他們提出了一個未來影響力指標,該指標利用眾包資訊中的流行度訊號和過去新聞數據中的個人化資訊來預測新聞報導對新聞讀者的影響。 整體而言,最近的NRS中,很少有研究平衡其內在準確性(built-in accuracy)與各種品質評估以及超越準確性的面向。 ![螢幕擷取畫面 2025-05-29 230601](https://hackmd.io/_uploads/Sk8kugIGle.png) **Summary**: 在NRS中,只有少量研究在設計時考慮了這些因素(例如多樣性、選擇性曝光、助推和麵向)。**缺乏此類方法會導致新聞推薦完全由推薦模型的演算法邏輯或利害關係人的動機(政治人物、交易因素等)所驅動**。表 5 總結了針對這些問題的有限研究。此外,我們也提出了一些建議,我們將下一節中進一步討論。 # 6. Discussion on Research Implications and Future Work ## NRS 中的演算法解決方案和主要挑戰 從我們選出的出版論文得知,NRS 研究正隨著時間的推移逐漸受到關注。這種成長的原因之一是傳統新聞媒體用戶轉換成網路新聞讀者的比例很高。這種成長為研究人員提供了大量的研究機會來開發解決新聞領域獨特挑戰的解決方案。 由於各種深度學習方法的快速發展,NRS 研究最近有了新的進展。如第 4 節Major Challenges in News Recommender Systems and Conventional Solutions 所述,傳統的推薦演算法不足以建構 NRS,並且只能部分解決 NRS 中的挑戰。它需要對標準推薦方法進行大量修改、擴展和變化才能滿足新聞讀者的需求。 在第 3.2 節Popular Models for Building News Recommender Systems中討論的潛在因子(latent factor)模型和第 5 節中的深度學習模型是解決 NRS 所面臨挑戰的兩大類成功模型。尤其是深度學習模型,在最近的研究中繼續被使用。 ## Deep Neural Recommenders 我們在第 5 節中對 NRS 中使用的成功模型進行了分類。這些資訊有助於該領域的研究人員,尤其是新研究人員獲取一些知識並理解如何選擇合適的模型或框架來建立 NRS。例如,只有兩層的受限玻爾茲曼機 (RBM) (Salakhutdinov et al. 2007) 可用於使用低秩表示從大型新聞資料集中提取特徵。深度信念網路 (Hu et al. 2014) 是一種具有 RBM 堆疊的多層學習架構,可用於從新聞內容中提取有用的特徵。 還有其他可應用於 NRS 的 DL 模型。例如,生成對抗網路 (GAN) (Goodfellow et al. 2014) 由兩個競爭(對抗)神經網路(一個鑑別器和一個生成器)組成,它們相互競爭以產生可以作為真實資料的新合成資料樣本。 - 例如,GANS 可用於為 NRS 產生與訓練集具有相同統計資料的新資料。 - 例如,CNN 可用於從新聞內容中學習特徵表示,而 RNN 可用於進行序列使用者建模。 - 結合 AE 和 RNN 可以從項目內容中捕獲序列資訊(透過 RNN),同時使用低維特徵表示(透過 AE)。這些模型還可以與神經注意力機制結合,以挑選有用的新聞推薦。 遷移學習還可以透過將大型預訓練模型中的知識遷移到新聞推薦問題來解決新聞推薦系統 (NRS) 的資料稀疏問題。然而,**這裡的挑戰在於預訓練模型應該基於新聞資料集。否則,來自其他不相關資料集的雜訊和異常值可能會遷移到新聞推薦中**。 儘管深度學習理論取得了重大進展,但這些方法並非沒有缺陷。例如,與標準方法相比,深度學習方法需要更多的數據和更多的參數調整。此外,這些模型的行為類似於 blackboxes,在推薦任務中提供有限的可解釋性(由於隱藏層、權重和激活函數)和很少的可解釋性(對內部工作原理的解釋)。 ## Accuracy and Beyond-Accuracy Aspects, and Evaluation Protocols 在本次調查中,我們對準確性和超越準確性方面進行了一些闡述。準確性很重要,但如果不考慮超越準確性方面,新聞推薦的品質就無法提高。如圖 5 和表 3 和表 4 所示,NRS 中超越準確性方面的研究有限,而且近年來似乎很少出現。在 NRS 中,有一些有限的工作使用線上評估和使用者研究技術進行測試。但是,如表 3 和表 4 以及圖 6 所示,離線選項是最受歡迎的模型評估協議。通常,對於大規模新聞數據,在線評估成本高可能是造成這種情況的原因之一。 未來的一個研究方向是在實際環境中測試這些 NRS 模型,方法是透過量化、壓縮和修剪方法等技術來降低這些方法的計算成本(Kitaev et al. 2020 年);或努力為即時實驗設置管理更多的計算資源。 ## 多樣性是NRS設計的關鍵原則 在最新的NRS研究中,關於多樣性的研究很少。 NRS的多樣性至關重要,這不僅是為了保持讀者在閱讀過程中的參與度,也是為了防止讀者陷入過濾泡沫。為了理解NRS為何以及如何在多大程度上融入多樣性,學者和設計師應該與新聞機構和社群媒體平台合作。新聞或社群媒體網站的架構、助推理論的運用、選擇性曝光、假新聞的偵測都是開發NRS時需要考慮的關鍵因素。 ## 透過神經注意力機制引入多樣性 神經注意力機制可成功用於在基於會話的推薦系統中引入多樣性 (Nema et al. 2018)。通常,多樣性本質上反映在使用者的短期興趣中 (Wang et al. 2018a)。在正常情況下,注意力機制可用於對隱藏層的權重求和以產生表示向量。這種方法的問題在於,如果會話中存在重複操作,則針對這些會話產生的推薦也會相似。因此,響應用戶在不同時間間隔內的特殊點擊以包含多樣性至關重要。可以在註意力機制中為查詢向量分配一個縮放權重。其想法是降低重複點擊的重要性,並使用注意力機制賦予非重複使用者操作一定的權重。到目前為止,在神經推薦系統中,考慮在基於注意力機制的模型中包含多樣性的研究並不多。 ## Multi-Criteria Evaluation NRS 中還存在一些尚未探索的評估方面,例如可信度(trustworthiness, 使用者對系統的信任程度)、隱私保護、效率(搜尋的便利性和資訊的可訪問性)、穩健性(在存在噪音資料的情況下做出相關預測的能力),以及各個方面之間的權衡。將這些面向納入 NRS 可以提升使用者體驗。 ## User Experience Model 推薦系統中缺乏評估使用者體驗的基準。此外,其他推薦領域的現有使用者建模評估框架(Konstan and Riedl 2012;Knijnenburg et al. 2012)對於新聞推薦系統 (NRS) 而言過於昂貴。這些框架的評估僅基於使用者研究或實驗,這在具有即時約束的 NRS 中並不實用。將這些模型應用於新聞領域也是一項艱鉅的任務。 這些框架的另一個問題是,它們僅依賴使用者研究,並未考慮任何準確性和超越準確性的因素。然而,如果沒有這些基本指標,它就無法提供完整的使用者體驗圖景。 NRS 需要一個基準使用者建模框架來評估新聞讀者的體驗。這樣的框架不僅需要為讀者提供更好或更愉悅的體驗(就像在其他推薦領域一樣),而且對於 NRS 在社區中發揮其民主、自由和協商作用也至關重要。 ## News Dataset 我們從第四節的發現可以看出,NRS 中的資料集非常少。表 2、表 3 和圖 7 中顯示的許多資料集都是私有的,是為了滿足待解決問題的迫切研究需求而創建的。應該設立更多挑戰賽,例如 CLEF NEWSREEL 或 MIND Leaderboard,以鼓勵研究人員在即時約束條件下設計更優的 NRS。 ## Implicit User Feedback 在 NRS 中,我們經常需要隱式評級(implicit ratings)來從豐富的使用者互動中推斷潛在資訊。然而,有時很難判斷隱式回饋是正面的還是負面的。例如,使用者在新聞文章上花費的時間不應被視為使用者在新聞閱讀過程中的參與度,因為它可能是使用者的空閒時間 (Agarwal and Singhal 2014)。 讀者的跳過行為通常被認為是使用者對不同主題感興趣的指標,但這可能是因為重複的新聞報導迫使使用者跳過這些報道去尋找新的新聞 (Ma et al. 2016)。 文獻中並沒有明確提到如何找出系統的哪些特定屬性導致使用者對推薦內容不感興趣。如果我們能夠設計出某種方法來區分正面和負面偏好,我們就可以提高基於正面偏好的推薦質量,並避免向用戶推薦導致負面或中性偏好的新聞。 ## 遊戲化 遊戲化(Gamification)是指在其他沒有遊戲情境的應用中運用遊戲設計元素(Chou 2019)。遊戲化的目的是激勵和促進用戶活動。遊戲化的理念尚未在NRS中使用。但它可以類似於谷歌地圖中的谷歌指南。 NRS可以根據讀者與系統的明確交互,以積分、徽章、頭像、排行榜等形式分配獎勵給他們。這可以成為提高用戶參與度和克服NRS冷啟動問題的有用工具。 ## Mitigating Effects of News Recommendations on Readers’ Behavior 新聞推薦對使用者行為的影響是推薦系統研究中最容易被忽略的領域之一。在媒體戰引發諸如假新聞、深度偽造、黃色新聞(誇大事實或散佈謠言)、意識形態隔離和極端主義等嚴重問題之前,這一主題在電腦科學領域並未引起足夠的關注。 透過在第6節中重點介紹這些與新聞推薦對讀者行為影響相關的問題,我們為學術界學者提供了新的研究方向。**迄今為止,基於選擇性曝光、多樣性感知演算法和禁止操縱行為的建議的解決方案尚不夠完善,原因有二:(i) 這些解決方案僅在小規模實驗中得到驗證;(ii) 這些解決方案基於對這些技術的規避,不足以檢測和預防系統產生的此類影響**。如果這些影響(過濾氣泡、回音室效應)普遍存在,該領域的研究人員需要找到其他方法(演算法或啟發式方法)來預防、檢測和消除它們。有一些建議可能有助於減輕新聞推薦的影響。具體如下: - 透明度(Transparency):新聞推薦演算法的設計應該更清楚地展現世界的本來面目,而不是使用者所期望的樣子。谷歌等搜尋引擎會利用我們線上線下行為的多個維度來確定我們在特定搜尋中最有可能點擊的鏈接,這已不再是一個秘密。為了持續吸引新聞讀者,新聞推薦演算法的設計方式與這些搜尋引擎類似。然而,我們認為,為了減少後演算法效應,我們應該重新設計這些演算法,讓使用者能夠表明自己的興趣,然後相應地從多樣化的來源中找到相關(新穎、最新、重要)的內容。這與在新參考文獻(NRS)中引入選擇性曝光和有動機的資訊處理非常相似。 - 隱身(Going incognito):在瀏覽器中使用隱身模式(無痕模式)會關閉歷史記錄追蹤、隱藏 Cookie,並登出使用者在 Google 和 Facebook 等社群媒體網站上的帳號。這些社群網站會將使用者資訊傳輸到其他網站,並在使用者周圍形成回音室效應。透過這種方式,新聞瀏覽器變得非個人化,新聞讀者會收到來自不同網站和視角的新聞報道,而這些報道如果沒有隱身模式是無法看到的。 - 推薦系統客觀性的規章制度(Rules and regulations of recommender system’s objectivity):在推薦系統的分析階段,使用者資訊高度曝光。儘管存在諸如《一般資料保護規範》(GDPR)之類的規章制度,以保護公司和公共機構的個人資訊免遭濫用。但就推薦系統而言,沒有任何解決方案符合這些規定。 NRS 的研究人員和設計人員需要遵守這些規章制度,這不僅是為了保護隱私,也是為了確保 NRS 成為一個可靠的系統。 ## 跨學科研究 跨學科研究亟需融合社會科學和電腦科學的專業知識。研究人員可以利用文本分析、表徵學習和基於注意力機制的模型的最新進展,應對新聞領域特有的挑戰。本節僅列舉了新聞參考文獻(NRS)面臨的部分挑戰、研究方向、未來機會和問題。我們希望本次調查能成為通往豐富開放研究問題的門戶,使NRS成為一個富有成效且引人入勝的研究領域。 # 7. Conclusion 近年來,新聞推薦系統 (NRS) 已被越來越多地用於為終端用戶提供更好的建議,使他們能夠獲取來自各種來源的線上新聞。新聞推薦系統面臨許多獨特的挑戰,其中大部分源於新聞領域本身的特性。在這些挑戰中,與時效性、讀者對動態產生新聞的不斷演變的偏好、新聞內容的品質以及新聞推薦對用戶行為的影響等相關的問題尤為突出。通用的推薦演算法不足以直接用於新聞推薦,因為它們需要在很大程度上被修改、調整或擴展。 近來,基於深度學習 (DL) 的解決方案已經在很大程度上解決了傳統推薦系統的這些局限性。準確性被視為評估推薦系統品質的標準衡量指標。然而,除了準確性之外,諸如多樣性 (diversity)、覆蓋率 (coverage)、新穎性 (novelty)、意外發現/驚喜度 (serendipity) 等其他方面,對於在新聞推薦系統中提供更好的用戶體驗也同樣重要。 數據集、開放推薦平台和評估協議共同在新聞領域推薦解決方案的開發中扮演著重要角色。我們在本綜述中對這些方面進行了闡述,以便讀者能夠洞察當前的研究實踐,並有助於推動其發展。與其他綜述論文不同的是,我們在本綜述中還討論了新聞推薦對讀者行為的影響。 最後,儘管本綜述主要圍繞新聞推薦系統展開,但從本綜述的發現中獲得的知識和見解同樣可用於為其他應用領域構建推薦解決方案。