:dart: W2 - Zip's Law and Keyness

:dart: W2 - Zip's Law and Keyness ===  ## 名字：靖涵 ### **Zipf's law (齊夫定律)** * **意思：** 由語言學家 George Kingsley Zipf 提出的詞彙分佈規律。「在語言中，僅有幾個字使用頻率會非常高，其他大多數的字其實都很少被使用。」每個字使用的頻率和排名會呈現 **冪律(Power law)**。 * **舉例（如下圖）：** 在一英文文本中使用頻率排名第一的字是 'the'、第三是 'and'，即 'and' 的使用頻率為 'the' 的三分之一。另外，使用排序較高的單詞常為功能詞(function word)。 ![截圖 2024-02-27 下午8.15.00](https://hackmd.io/_uploads/BylX7_j2a.png) * **應用：** Zipf's law 該「普遍不均等規律」不只單出現在英文中，也出現在其他的自然語言。甚至也可以適用於社會其他現象，例如：收入排名、公司規模分佈等。 * **公式：** ![{\displaystyle P_{n}\sim 1/n^{a}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9fa76f350fe93da686890acfb9b8e3b1151b85bc) * n 為一單詞的排名，$P_n$ 為其概率。即 $P_n$ 隨著 $1/n^{a}$ 變化，當n越大，$Pn$則會隨之冪次下降。a 則為冪律指數，會影響冪律分佈的形狀。 * **log-log graph：** 若要觀察一文本中單詞是否有符合Zipf' law，可以對其頻率和排名取log，視其點狀分佈是否可為一直線。若可成一直線，則可視該文本有符合 Zipf' law（如下圖）。 ![截圖 2024-02-27 下午10.46.51](https://hackmd.io/_uploads/Hkt4LOsnT.png) [pic_reference](https://www.intmath.com/blog/mathematics/zipf-distributions-log-log-graphs-and-site-statistics-702) [Reference_1](https://phys.org/news/2017-08-unzipping-zipf-law-solution-century-old.html) [Reference_2](https://www.youtube.com/watch?v=4dofBw9r0P4) [Reference_3](https://en.wikipedia.org/wiki/George_Kingsley_Zipf) [Reference_4](https://en.wikipedia.org/wiki/Zipf%27s_law) ### **Keyness** * 藉由比較單詞在 target corpus 和 reference corpus 中的頻率（兩者為獨立的corpus），以計算keywords。如果一詞比起在 reference corpus 更常在 target corpus中出現，即有可能為 target corpus 的 keyword。統計上計算 keyness的方法有許多種，例如：Log-likelihood Ratio ($G^2$) 或 Chi-square。 [Reference_1](https://alvinntnu.github.io/NTNU_ENC2036_LECTURES/keyword-analysis.html) [Reference_2](https://lexically.net/downloads/version7/HTML/keyness_definition.html) * **Log-Likelihood (LL)** **likelihood vs. probability:** likelihood (概似性)：在已知所得的觀測結果上，推估其相關母數。 probability (機率)：在已知母數情況下，預測接下來觀測上的結果。 log-likelihood 即對 likelihood 取log，可讓計算更為簡單，也避免小數不斷相乘後下溢 (underflow)。 [Reference_1](https://www.simplilearn.com/tutorials/statistics-tutorial/difference-between-probability-and-likelihood) * **Odd Ratio (OR) 勝算比** 兩互斥事件的概率比值。常用於logistic 二元分類的回歸模型中。 * 舉例：以下圖實驗組 vs. 對照組為例實驗組中發生結果的勝算= A/B 對照組中發生結果的勝算= C/D 勝算比= (A/B) / (C/D) = AD/BC 即如果勝算比 AD/BC >1：這表示實驗組中發生該事件的勝算較對照組更大，即實驗組相對於對照組更有可能發生。 ![截圖 2024-02-27 下午10.06.50](https://hackmd.io/_uploads/SJhQB_sh6.png) [Reference_1](https://www.yongxi-stat.com/odds-ratio-or-r/) --- ## 名字：予茜 ### Zipf's Law 齊夫定律由美國語言學家齊夫(George Zipf) 所提出的定律，他認為在一個固定的文本資料庫中，如果將每個詞彙出現的頻率進行排序，則會發現一個詞彙出現的頻率和它的排序呈**反比**。也就是最常出現的詞彙，出現的頻率比排序第二的詞彙多出兩倍，以此類推下去，排序第n類的詞出現的頻率是排序第一的詞的1/n。因此可推導出，在一個固定的語料庫中，頻率(Frequency)x排序(Rank)= 常數(Constant)。 ### Effect size 效應量兩個變數之間，到底「差了多少」。效應量是真實的差異，或者說兩個變數「關聯的程度」。絕對值若越大，則表示兩者相差的越多。 ![Effect_size](https://hackmd.io/_uploads/SJlamu2hT.png) [pic_reference](https://https://zh.wikipedia.org/zh-tw/%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90) 紅色和藍色分別表示兩個不同的變異數，中間重疊的部分為效應量。效應量較小，即重疊部分多；效應量較大，即重疊部分少。通常效應量要大才帶有實際意義。 [reference1](https://www.iikx.com/news/statistics/1827.html) ### Keyness 一個固定語言文本中的「特徵」。原理是是比較兩組不同的語料庫，一組為參考用，一組為實際要用的語料庫。實際要用的是欲歸納特徵的對象。計算兩組語料庫每個詞語的出現頻次，並且以參考語料庫的為基準，去觀察實際要用的語料庫中，哪些詞語的使用率是比預期的出現率高或低，用這個方式來歸納屬於該語料庫的詞彙特徵。某個詞keyness值越高，表示在該語料庫中是較顯著的。 [reference1](https://epaper.naer.edu.tw/upfiles/edm_222_3834_pdf_0.pdf) ### log-likelihood(LL) 是 probability statistic的一種。也就是將母數取對數。通常用來最大化參數的估計，使預測正確的可能性最大化。 * probability statistic : 事件可能發生的程度。(已知母數) * likelihood statistic : 某個解釋的合理程度。(倒推回去計算母數) 若該詞彙的LL值越高，表示在該文本中正確的預測率越高，越有可能是重要的詞。 [reference](https://ithelp.ithome.com.tw/articles/10299617?sc=rss.iron) ### odds ratio (OR) 勝算比衡量兩個不同結果之間的比較的一種方法。假設有「得流感」和「未得流感」兩個結果，然後有一個可能影響的因素是「沒施打疫苗」和「有施打疫苗」。OR值就是用來比較在兩個不同組別（沒施打疫苗組 vs. 有施打疫苗組）中觀察到是否有得流感的機率。 OR值的計算方式為: 事件發生在第一組的機率/事件發生在第二組的機率 OR值若大於1，表示第一組事件的機率大於第二組，因素可能影響；OR值若等於1，表示兩組發生的機率相等，是否影響仍待保留；OR值若小於1，表示第一組事件的機率小於第二組，因素可能不影響。 [reference1](https://www.yongxi-stat.com/odds-ratio-or-r/) [reference2](https://baike.baidu.com/item/OR值/7317871?fromtitle=OR&fromid=9918916) --- ## 名字：植棻 ### Keywords Analysis — Keyness 要找出一個文本中的關鍵字，需要有一個基準來做比較，也就是要有 target corpus and reference corpus 而 reference corpus 通常是相對大而且不會是只有特定領域的內容，在跟reference比較後，才能知道target corpus 中哪些字算是比較關鍵跟特別的。另外關鍵字不能只看出現的頻率，因為高頻詞不一定很特別，可能其他的語料中這些詞也會常常出現（爛大街）例如：function words，而是要同時注重該詞是否僅在 target corpus 比較常見。經過計算後，keyness 越高代表該詞在 target corpus 中越關鍵～而統計上，計算 keyness 的方法常見的有 Log-likelihood, Odds Ratio, Chi-squared Test 等等，依照研究者的不同需求可以選擇使用不同的計算方式。 ### Log-likelihood (LL) ### What is likelihood? likelihood （似然性）可以跟probability（概率）放在一起討論～ - **Probability 概率** 在講一件事情發生的機率。例如：擲硬幣10次，正面跟反面會是各幾次呢？假設硬幣是公正的，理論上正反面的概率應該都是0.5，所以經過計算應該要是正反面各5次。 <font color=cake>**知道樣本數，進行機率的預測**</font> - **Likelihood 似然性** 似然性則是像反過來的計算。先不假設正反面的概率，實際去擲硬幣，我們可能會觀察到10次中有7次是正面，3次是反面（很明顯這樣的結果概率就不是0.5）所以我們就可以從實驗中觀察到的結果去回推最有可能導致該結果出現的概率是多少。 <font color=cake>**不知道樣本數，自己觀察得出結果**</font> ⇒ Log-likelihood 是 likelihood 取對數，在計算上會比較方便～ [Reference](https://bookdown.org/ccwang/medical_statistics6/llr.html) ### Odds ratio (OR) odds ratio 中文可稱勝算比 or 賠率比，通常會有兩組，在同一個事件是否發生的數量來互相比較 - **Odds 勝算** — 指某一事件 **發生的比率/不發生的比率** 而將兩組的勝算相除，可以看出哪一組的勝算較大舉例：以中年人糖尿病舉例：有得糖尿病 / 沒得糖尿病 ⇒ 中年人得糖尿病的odds 中年人得糖尿病的odds / 老年人得糖尿病的odds ⇒ odds ratio **odds ratio>1 ⇒ 中年人容易得糖尿病哦**（vice versa） --- ## 名字：瓈萱 ### 1.keyness analysis 關鍵字分析主要是透過對比兩個文本找出關鍵詞，要知道某個詞是否在文本（或corpus)a中是屬於關鍵詞就必須要有一個參照的文本b 一起比對，假設對比之下 a文本中的某個字出現的頻率高於b文本，那個詞對於a文本來說可能就是關鍵詞。ex. happy 這個字在a文本中出現的次數為30，而b 文本出現的次數只有10次，happy可能就是文本a的關鍵詞。計算keyness值有很多方法，LL（對數似然比）和OR（勝算比、發生率）都是用來計算的方法之一，算出來的值越大代表該詞對文本或語料庫更顯著或重要。 ### 2. 齊夫定律：齊夫這位語言學家在整理語料庫的詞出現的頻率和排名的時候發現，每個字出現的頻率和他的排名成反比，排名第n的字出現的頻率會是排名第一的1/n （1/rank） ex, 某料庫a中，happy 出現的頻率排名一出現的頻率是100, puppy 的出現頻率排名2, 出現的頻率就會是 100*1/2=50 （或接近），以此類推。如果把排名跟頻率轉乘log 值畫成圖，越接近一條直線就代表他越遵守齊夫定律。 --- ## 名字：俞辰 ### 齊夫定律（Zipf’s Law）根據美國哈佛大學語言學家·齊夫（George Zipf）的觀察結果，若是在自然語言的語料庫中，將每個字詞所出現的頻率整理排名，會發現該字詞的出現頻率與它的排名成反比。按照從最常見到非常見排列，第二常見的頻率是最常見頻率的出現次數的½，第三常見的頻率是最常見的頻率的1/3，第n常見的頻率是最常見頻率出現次數的1/n。齊夫定律的應用並不限於語言學，也可以在很多非語言學排名中被觀察到，例如不同國家中城市的數量、公司的規模、收入排名等。 [Reference 1](https://www.techtarget.com/whatis/definition/Zipfs-Law) [Reference 2](https://medium.com/andreas-discovery/%E5%B9%B4%E5%BA%A6%E9%97%9C%E9%8D%B5%E5%AD%97%E5%9B%9E%E9%A1%A7-%E8%AB%87%E9%BD%8A%E5%A4%AB%E5%AE%9A%E5%BE%8B-zipfs-law-e25534356089) ### Log Likelihood 最大概似估計是一種估計模型參數的方法。適用時機在於手邊有模型，但是模型參數有無限多種，透過真實觀察到的樣本資訊，想辦法導出最有可能產生這些樣本結果的模型參數，也就是挑選使其概似性( Likelihood)最高的一組模型參數，這系列找參數的過程稱為最大概似估計法。概似性(likelihood)，則是已知某些觀測所得到的結果，對統計模型的可能性進行估計。比方實際觀察到路人的身高為170，透過機率密度函數計算出在這個統計模型下發生的可能性有多大。 [Reference 1](https://www.statlect.com/glossary/log-likelihood) [Reference 2](https://medium.com/qiubingcheng/%E6%9C%80%E5%A4%A7%E6%A6%82%E4%BC%BC%E4%BC%B0%E8%A8%88-maximum-likelihood-estimation-mle-78a281d5f1d) ### Odds Ratio 勝算比為實驗組中發生結果的勝算（Odds）與對照組中發生結果的勝算，此兩者間的比值就稱為勝算比（OR）。勝算比也可用於確定特定事件是否為特定結果的風險因素，並比較該結果的各種風險因素的大小。當OR=1 特地事件不會影響結果發生的幾率當OR>1 特地事件與結果發生的機率關連性較高當OR<1 特地事件與結果發生的機率關連性較低 [Reference 1](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2938757/) [Reference 2](https://www.yongxi-stat.com/odds-ratio-or-r/) ### Keyness 透過將目標語料庫中出現的單字的頻率與參考語料庫中的頻率進行比較，可以計算目標語料庫中特定單詞出現的Keyness。換句話說，Keyness的概念是用於評估某一特定單詞在目標語料庫中出現的頻率是否比在參考語料庫中出現的頻率更高。如果是，則該詞可能是目標語料庫的關鍵術語。 [Reference 1](https://alvinntnu.github.io/NTNU_ENC2036_LECTURES/keyword-analysis.html) --- ## 名字：喻璞 ### Zipf's Law #### 定義 - 起源，long story short... - 語言學家 George Kingsley Zipf 發現這種定律：在自然語言中，詞彙的出現次數與排序之間的乘績會等於常數。[source](http://joemls.dils.tku.edu.tw/fulltext/37/37-2/165-183.pdf) - $r\times f=c$ (r=rank; f=freq.; c=constant) - 簡單來說，詞頻與詞頻的排序**成反比** - log-log rank-frequency distribution - 若一數據符合Zipf's Law，將其詞頻與排序分別會至於x軸、y軸，其圖形大致符合雙對數(log-log plot)，此時的數值也呈現冪律分佈 (power law distribution) [source](https://link.springer.com/article/10.3758/s13423-014-0585-6) - Zipfian - 當觀察的現象、語料中遵守Zipf's Law，通常稱之為 Zipfian (distribution) #### Zipf's Law 研究的優點 - Principle of Least Effort 最省力原則 - 人們在溝通時傾向於以最小的努力進行有效溝通。 - Zipf's Law：人們更長使用常見的詞彙，因為這些詞彙更容易被理解和記憶。 #### Zipf's Law 研究的缺點 - 過去研究過於宏觀：忽略語言的**線性結構**，故 Cong (2022) 將 context 納入討論，試圖擺脫過去研究經常出現的問題(isolating linguistic units)。 ### Keyness ### 定義 - Keyness 是分析詞彙的術一種方式，通常指一個詞彙在一個特定文本或語料庫中的**重要性**或**突出性**。 - 他有自己的計算方式，與詞頻不同。 - 如果一詞彙在特定文本中的出現頻率顯著高於在參考語料庫中的出現頻率，則該詞彙被認為具有高的keyness，表示它在該文本中具有重要性或突出性。 - 缺點：關鍵詞分析方法可能因為耗時而不太實用。 #### positive and negative keyness [source](https://lexically.net/downloads/version7/HTML/keyness_definition.html) - positive keyness：與參考的語料庫相比，比預期的更常見 - negative keyness:：與參考的語料庫相比，比預期的更少見 #### Log-Likelihood [source](http://crs2.kmutt.ac.th/Key-BNC/) - keyness分析中常見的統計方法。 - 比較兩個語料庫之間詞彙的出現頻率。 - LL高，代表兩個語料庫存在差異 - #### Odd Ratio 賠率比 [source](https://www.degruyter.com/document/doi/10.1515/cllt-2015-0030/html?casa_token=pUztBGurdQwAAAAA:CisE4E-QPcLq7XdVJ4wLaROEk3jfiS-d5DBMfrxmIgyUkMb9J22--U_28Zf6qQwZiXz6wM3xpnBL) - keyness分析中常見的統計方法。 - OR 表達目標語料庫和參考語料庫中詞彙出現之間的關係，是一種effect size（兩組數據之間差異的大小）。 - 與LL相比，OR會更強調兩個語料庫中特定詞彙的絕對頻率 - OR 接近零或無窮，表示目標語料庫和參考語料庫中某個詞彙的比例頻率之間有差異。 --- ## 名字：蔡孟桁 ### Odds ratio The odds of an occurrence in the presence of a particular factor(exposure) compared to that when the factor is absent. Usage: Most commonly, but not limited to case-control studies. ### Log-likelihood “The probability of observing a value when said value is extracted from its probability distribution.” -> in the presence of multiple factors, the probability of the occurrence of a value. Usage: find the factor that has the highest occurrence of a value ### Absolute frequency A pure observation of the number a times a value occurs. The most basic way to express frequency, and acts as a baseline in Hsin-Yi Lien (2022). Why mixed methods? What does LL and OR not cover in this case? ---  ###### tags: `QL2024`