Predicting Depression in Screening Interviews from Latent Categorization of Interview Prompts 閱讀筆記 大綱 === ###### tags: `paper`,`public` [原始論文](https://aclanthology.org/2020.acl-main.2.pdf) # **abstract** For diagnose depression, they make a JLPC model to analyzes interview transcripts, ==join categorizing interview prompts(questions made by interviewer) into latentf潛在 categories==, which can make it proform better. # **introduce** introduce the danger of depression, (maybe there will be some sentence I can use in other SOP) there is some pattern of language for people who depression recent work: use deep learning models that use linguistic(語言學的) features to identify depressed individuals, but it is ==unobservable(透明度被犧牲了)==,we should know how the diagnos tool work. the context should be anlysis consider what question thet be ask JLPC is depend on the prmpts category, which is also more insight(透明度) their contribution - JLPC can anlysis the transcrips better than baseline - interpretability(可解釋性) # 2 Joint Latent Prompt Categorization - 這段的流程 1. Xi : prompts和resposes 經過M回的結果集合 2. 使用嵌入(embedding)技術將prompt轉換為嵌入向量Pi,將response轉換為嵌入向量Ri。 3. Category Inference Layer : 將Pi作為input, 經過feed-forward layer(PiWCI + BCI = h)轉換成category membership vector hij = [h1ij, …,hKij] - WCI和BCI是可學習的參數,可以透過訓練適當的模型來學習, 4. 為了消除潛在的信號強度偏差,從而提高對每個latent category的估計的準確性,使用Zki將category membership vector hijk(第k個hij)轉換為response aggregations Rik (包含了prompt和response) $\overline{R} = \frac{1}{Z_i^k}\sum_{j=1}^{M_i}h_{ij}^k \times R_{ij}$ - Rik的意義是在第i個interview的第j個turn中得到的hij的第k個latent category的強度信號 - Zki是從所有的interview和turn中得到的信號強度的統計特性計算出來的常數。 5. The Decision Layer : 將response aggregation(R¯ i)作為input,經過feed-forward layer (R¯ Ti WD + BD)轉換為屬於depressed和not-depressed兩個類別的概率(Yhat)。 R¯ Ti WD + BD再通過softmax函數進行歸一化,可以得到對於每個類別的概率預測(yi)。最終的目標是通過最小化ground truth labels(Y)和預測概率(yi)之間的交叉熵損失(L)來訓練模型,從而使得模型能夠對新的未見過的樣本進行準確的預測。 - R¯ i = [Ri1, Ri2, ..., Rik] - 其中WD和BD是可學習的參數 6. 使用Entropy regularization懲罰prompt同時滿足過多categories - 针对category membership vector hij = [h1ij, …,hKij] 7. make the model can directly leverage prompt in final classification - JLPCPre - step 4 將category membership vector hijk(第k個hij)轉換為Rik $\overline{R_i^k} = \frac{1}{Z_i^k}\sum_{j=1}^{M_i}[P_{ij},R_{ij}]$ - JLPCPost - step 5 the Decision Layer ![](https://i.imgur.com/eHSpYZ9.png) ![](https://i.imgur.com/w5SXikw.png) - group interview promp and interview transcripts into laten categories - ==X = {(Pij, Rij) for j = {1…Mi}}== - Xi : N interview transcripts - j : j conversational turns - Mi : number of turns in Xi - Pij : the j th prompt in the i th interview - Rij is the participant’s response to Pij - each Xi has a Yi label depressed or not depressed - Xi → Yi - assume Pij和Rij會分別被embedding - assume ==prompts== can be categorized into latent categories 這些問題可以被分成K個潛在的類別,每個類別中的問題都會引起受訪者特定的回應模式。 這些分組是由模型自行學習得來的,因此這些組別不一定是人類直覺所能理解的,而是一些潛在的組別(latent categories)。 ### Category Inference Layer - ==Hij = φ(Pij , θCI )== - category membership vector **hij** = [h1ij, …,hKij] : a vector show ==the distribution of the probability prompt beloning to each of the latent categories.== - θCI: trainable parameters - 為了消除潛在的信號強度偏差,從而提高對每個latent category的估計的準確性,使用Zki將category membership vector hijk(第k個hij)轉換為Rik ![](https://i.imgur.com/UTgQIGQ.png) - Zki : 是一個常數,用於使得不同的類別之間信號強度一致,避免對模型訓練造成干擾。 ### Decision Layer - 模型通過將 K 個Rki聚合起來來預測情感狀態,得到一個類別概率向量 y i。每個聚合 R¯ k i 是訪談 i 所有回應的第 k 類別感知的表示。最後,模型通過可學習的參數 θD (決策層)將這些聚合輸入函數 ψ,得到預測結果。 ![](https://i.imgur.com/AsZHDS0.png) ## 2.1 The Category Inference Layer - using ==feed-forward layer(就是一般的dense layer)== with K output and ==softmax activate==. - ==Hij = φ(Pij , θCI )== - Pi : 一個 M×E 的矩陣,[Pi1,…PiM]’s transpose matrix - WCI : 一個 E×K 的矩陣,代表了這個 feed-forward layer 中的權重 - BCI : 一個 K 維的向量,代表了這個 feed-forward layer 中的偏差 - θCI = {WCI, BCI} : trainable parameters - ==hij== 表示第i個interview的第j個==prompt==在可能是各個 latent categories的可能性 ==hij是在幫prompt分類喔!!!!== ## 2.2 The Decision Layer ![](https://i.imgur.com/EGSWJL9.png) - 將R¯ ik(R¯ k i 代表第 i 個訪談中屬於類別 k 的所有回答的嵌入向量的平均值)作為input,經過feed-forward layer 調整R¯ Ti WD + BD中的WD和BD得到結果Y顯示depression or not ![](https://i.imgur.com/aceLbsu.png) ## 2.3 Entropy regularization - the above only use prediction error to guide 如何劃分prompt,也就是將相似的prompt分到同一類,僅僅使用prediction error可能會無法讓模型學習到獨立的、不同的特徵類別,因為有些類別之間可能存在重疊。(所以當transcript滿足兩者以上特徵時,model可能就會隨機選擇一個類別) - 為了鼓勵模型學習區分不同的類別,我們採用熵正則化方法,通過懲罰提示的潛在類別分佈中的重疊來實現。(因此如果model一值在隨機選擇,變動量就會很大,然後商就會很大,因此模型就會被懲罰,進而去將模型參數調整成比較不會出現滿足兩者以上特徵的結果) - calculate entropy ![](https://i.imgur.com/QXZH9Fj.png) - E(Xi)可以被看作是衡量模型对于输入的相同的Xi,输出的类别(hij)分布变动的程度或者不确定性程度 - 熵(Entropy) 熵是一個測量隨機變量不確定性的指標,對於機器學習中的正則化(Regularization)技術,可以用來控制模型的複雜度和防止過擬合。 在分类问题中,我们希望模型可以将不同的样本分到不同的类别中,而不是把所有样本都归为同一类别。因此,我们可以引入熵的概念,通过惩罚模型输出的概率分布的不确定性来鼓励模型学习到更加明显的类别。 - to minimize entropy ![](https://i.imgur.com/J4K4R2T.png) - L(Y, Yˆ)是模型的交叉熵損失,Y是實際的標籤,Yˆ是模型的預測結果 - λ是一個超參數,用於控制熵正則化項的強度 ## **2.4 Leveraging Prompt Representations in the Decision Layer** - JLPC cannot directly leverage prompt features in the final classification. ![](https://i.imgur.com/C93tRhx.png) ![](https://i.imgur.com/xxXXCFz.png) - JLPCPre - pre-aggregation prompt injection ![](https://i.imgur.com/IFQrOzy.png) - JLPCPost - post-aggregation prompt injection ![](https://i.imgur.com/oDdhJDi.png) # 3 Dataset - Distress Analysis Interview Corpus (DAIC) ## 3.1 Preprocessing and Representation - We experiment with two types of continuous representations for prompts and responses: - averaged word embeddings from the pretrained GloVe model (Pennington et al., 2014) - sentence embeddings from the pretrained BERT model (Devlin et al., 2019). - 最終選擇使用GloVe模型的詞向量平均值,因為在驗證集上得分更好 # 4 Experiments ## 4.1 Baselines - RO模型只能使用回答(responses)的表示來預測結果。它將回答表示的平均值作為輸入,並通過一個全連接層進行預測。 - PO模型只能使用提示文本(prompts)的表示。它與RO模型使用相同的架構,只是改為使用提示文本的表示進行預測。 - PR模型能夠使用提示文本和回答的表示。它將提示文本和回答的表示串接在一起,然後將其平均值作為輸入,並通過一個全連接層進行預測。 - BERT模型是一種預訓練語言模型(pretrained language model),它在這個實驗中被微調(fine-tuned)以適應這個特定的資料集。詳細內容請參見附錄A.2 ## 4.3 Quantitative Results - 使用F1作為指標 - JLPCPost good good ## 4.4 Ablation study - prompt categorization and entropy regularization both important, but prompt categorization is more important ## 4.5 Analyzing Prompt Categories - “Tell me more about that”、“When was the last time you had an argument?”等問題的提示都被歸入一個名為“Starters”的類別中。研究已經證明這些問題提示在開啟對話方面是有用的 - backchannels : 模型將“mhm”、“mm”、“nice”和“awesome”等後援語分配給不同的類別。研究表明,確實有必要單獨考慮不同類型的後援語的影響。例如,Bavelas等人(2000)提出了具體後援語(如“nice”和“awesome”)和通用後援語(如“mm”和“mhm”)之間的區別,Tolins和Fox Tree(2014)則證明每種後援語在對話中發揮不同的作用。 - 模型還分離出一個特定的提示詞-“您是否被診斷出患有抑鬱症?”並將其分配到一個單獨的類別中。顯然,這是一個重要的提示詞,令人鼓舞的是,模型將其視為有用的提示詞。有趣的是,模型將反應“aw”分配到與“您是否被診斷出患有抑鬱症?”相同的類別中,這表明對這兩個提示詞的回應產生了類似的憂鬱信號。 - - 空類別 - 他們的模型中,每個類別都對應著一組提示詞,而他們的目標是找出哪些提示詞對於區分憂鬱症患者和非患者最有用 - 他們使用了一個方程式來計算每個提示詞對於每個類別的“凸出度”,這個凸出度越高表示這個提示詞和這個類別的相關性越強 - 這些空類別可以被視為平均反應嵌入的“集成模型”,這意味著這些空類別的組合可以用來捕捉通用的語言模式和情感,因此有可能提高模型的預測性能。這種集成模型的作用類似於正則化,可以幫助防止過擬合和提高模型的魯棒性。 - 鲁棒性(Robustness)是指系统或模型在面对异常、噪声、干扰或意外情况下的表现稳定性和可靠性。在机器学习和人工智能领域,鲁棒性通常是指模型对于数据中包含的噪声、离群点、错误标签等不良影响的抵抗力。一个鲁棒性好的模型能够更好地应对现实中的复杂情况,而不会因为一些异常情况而失效。 - Lastly, the remaining five categories are empty - no prompt in the corpus has maximum salience with any of them. A likely explanation for this observation stems from the choice of normalizing factor Z k i in Equation 3: it causes R¯ k i to regress to the unweighted average of response embeddings when all prompts in an interview have low salience with category k. Repeated empty categories then function as an “ensemble model” for the average response embeddings, potentially improving predictive performance. - 如果一個類別在所有prompt中的顯著性都較低,代表這個類別與這些prompt的關聯性較弱,因此對應的平均回應向量 R¯ k i 也會趨近於整個資料集的平均回應向量,也就是 unweighted average of response embeddings。在這種情況下,可以認為這個類別對於該資料集的區分貢獻有限 - 所以將這個類別的所有 prompt 分到一個空的類別中,可以避免對模型訓練產生負面影響,避免將與某個類別相關性較低的 prompt 分到錯誤的類別中 - 同時,這些空的類別的平均回應向量也可以被視為整個資料集的平均回應向量的近似值 - ==prompt是基於response去做分類的!== ## 4.6 Category-based Analysis of Responses - 作者進行了針對性的心理語言學分析,檢驗了與抑鬱症相關的三個心理語言學假設。 - 第一個假設是抑鬱症與社交技能缺陷有關,作者通過分析回答不同問題時的平均長度和使用的填充語和話語標記等指標,發現患抑鬱症的病人的回答長度和社交技能指標較差。 - 第二個假設是抑鬱症語言的特點是含糊和缺乏確定性,作者通過找到能夠預測患抑鬱症的語句中的關鍵詞,發現這些語句更傾向於使用含糊和不確定性的詞彙。 - 第三個假設是抑鬱症語言是自我中心且與社區脫離的,作者通過找到能夠預測患抑鬱症的語句中的關鍵詞,發現這些語句更傾向於與社區有關的詞彙的使用較少。作者的研究發現,對於不同的問題,病人的語言存在差異,表明了作者所建立的模型具有較好的可解釋性。作者的研究結論有助於醫生更好地診斷和治療抑鬱症。 ## 4.7 Sources of Error - the categories corresponding to starters - the “mhm” backchannel - the prompt “Have you been diagnosed with depression?”. 在啟動器類別中,假陽性的響應往往包含填充詞和話語標記,例如“uh”,“huh”,“post mm創傷性壓力uh no uh uh”,“hmm”。作者認為這是因為模型學習到了關注短小的、低語義內容的回答,它將填充詞和話語標記的存在與抑鬱症錯誤地相關聯。 在“mhm”類別中,作者鑒定出了幾個假陰性的響應,這些響應包括“uh nice environment”,“I love the landscape”,和“I love the waters”等具體的詞語。由於“mhm”類別依靠含糊、合格的語言來預測抑鬱症(參見圖3),這些響應中具體的詞語的存在可能會誤導模型。 在“您是否被診斷出患有抑鬱症?”類別中,被錯誤分類的訪談包含對此提示的簡短回答,例如“so”、“never”、“yes”、“yeah”和“no”,以及包含“depression”詞語的陳述。對於這個類別,模型似乎錯誤地將簡短的回答和直接提到抑鬱症的陳述與抑鬱類別相關聯。 # 5 Related Work 這段內容主要講述了自然語言處理、心理語言學和臨床心理學的交集,以及在這個領域中的相關研究。這些研究涉及到從言語交互中預測諮詢結果、研究心理保健顧問的語言發展、探討不同性別和文化背景下人們揭露心理疾病的方式等等。此外,還有許多研究針對社交媒體上的帖子、學生文章等不同的文本資料,==使用自然語言處理的方法來預測抑鬱症等精神疾病的發生。其中,也有許多深度學習的方法被應用,比如使用卷積神經網絡、長短期記憶模型等進行預測==。這些方法與本研究相似,但是本研究在對面試題目進行自動學習分類的基礎上,利用深度學習的神經網絡結構更好地解釋了模型的預測結果。此外,本研究也提供了更自動化的方法,不需要手動指定每個面試題目的分類。 # **conclusion** - interpretability - show how language of depressed individuals changes when interviewers use backchannels(簡單的回應詞) - **future work**: how language used by depressed people evolves(演變) over the interaction.