:dart: W4 - Dispersion, Principal Component Analysis
===
<!-- ## Table of Content
[Toc] -->
## 名字:予茜
### Dispersion (離散度)
定義:用來描述數據的分布程度。指各變量與集中趨勢的偏離程度。常見的表徵數有**全距**、**四分位距**、**變異數**、**標準差**。
1.全距(Range):一組數據中最大值與最小值之差。
全距 = 極大值-極小值
2.四分位距(IQR- Inter-quartile range):第三四分位數(Q3)與第一四分位數(Q1)的差。先將各個變數值按大小順序排列,然後將變數分成四等份,四分位距為所得之Q3的值與Q1的值的差。
3.變異數(Variance) :指每一個變數和平均值之間的偏差值的平方值的**平均**。常用來量測資料分散程度之指標值。
公式:
4.標準差 (Standard Deviation,SD) : 將變異數開根號,即得到標準差。
公式:
離散值:0~1,越接近0表示數據越不離散,分布很平均
[reference& pictures](https://sabrina0823.pixnet.net/blog/post/173285012-基礎統計學_3:離中趨勢量數)
### Principal Component Analysis (主成分分析)
是一種降維的分析方式。(為何需要降維?因為維度太多,不易觀察資料。)降維之後,會依據變數的進行**重要性**排序,變數因此會分成第一主成分、第二主成分,以此類推。如果變數中每個資料的值都很接近,表示此變量較不重要;如果此變數中每個資料都不太一樣,表示此是重要的。
*決定變數的重要性的為**貢獻率**
計算方式:特徵值(eigenvalue)除以全部變數特徵值之總和,每個變數從第一個主成分累加的貢獻率稱為**累積貢獻率**。
### Eigenvalue (特徵值)
在做因數分析的時候,每一個因子都會得到一個特徵值,而這個值表示在所有的變數裡面,這個變數可以**解釋**多少個變異數。所以如果你有十個變數,所有因素的特徵值加總應該等於十。
如果特徵值太小,表示這個因子只能解釋少部分的變數,這對減少變數並沒有什麼幫助。
[reference1](https://researcher20.com/2010/11/01/因素負荷量-factor-loadings-與特徵值-eigenvalues/)
[reference2](https://ithelp.ithome.com.tw/articles/10298965?sc=rss.iron)
### MANOVA (多因子變異數分析)
同時檢驗多個依變項在各組平均數的差異。
使用時機:研究者對於考驗數個依變項的**平均差異**有興趣。
其顯著檢定有**四種**:Pillai's Trace(論文所使用的)、Wilks' Lambda (λ) 值、Hotelling's Trace 及 Roy's greatest root
其中Wilks' Lambda (λ) 若值越小,表示越顯著。
例如:接受三種不同教法的學生,其學習表現在國、英、數上有何不同?
[reference](https://www.slideserve.com/sanaa/manova)
### ANOVA (單因子變異數分析)
變異數分析中,依變項為連續變數,自變數為類別變數。
one-way ANOVA:只有一個依變項。比較組間(相對於組內)是否有顯著差異。
例如:性別不同,身高是否有差異?
two-way ANOVA:有兩個自變項。比較多組(兩組以上)樣本平均數是否相等。
例如:性別與教學方法對學業成績是否有影響?(性別和教學方法為類別變數,學業成績為連續變數)
[reference](https://qheroq.blogspot.com/2010/10/analysis-of-variance-anova.htm)
### Post hoc Comparison (事後比較)
在進行ANOVA之後,若**F值**顯著之後,才進行所有成對平均數(P(P-1)/2對) 之間差異的比較,必須透過事後比較才可以決定到底是哪些平均數不一樣。
會因比較次數變多而膨脹,需校正。
事後比較有很多種,一般而言Scheffe’比較嚴格,LSD比較不嚴格,本次論文採用的是Bonferroni & Tukey,屬於適中的嚴格程度。
[reference](https://www.yongxi-stat.com/one-way-anova-indenpedent/)
### N-gram
可用來判斷該句子合不合理的模型。
將文本中的內容取最靠近的N個字當作條件機率計算的先驗條件,形成長度是N的字詞片段的序列。每個片段及稱為一個gram。
常見的有:Unigram(1-gram),Bigram(2-gram),Trigram(3-gram)
例如:語言學
Unigram(n=1):語,言,學
Bigram(n=2):語語,語言,語學,言言,言學,言語,學學,學言,學語...
當N值越**大**:對字詞的約束性更高,具有更高的**辨識力**,複雜度較高(較易形成一個詞)
當N值越**小**:字詞在文本出現的次數較多,有更可靠的統計結果,但對字詞的約束性較小
適用:推薦字詞、錯字勘正、分詞系統
[reference](https://medium.com/programming-with-data/7-基礎語言模型-n-gram-40f91a464ad1)
---
## 名字:俞辰
### Event-Related Potentials (ERP)
事件相關電位(ERP)技術已被證明對於測試感知和注意力理論特別有價值。他是一種用非侵入性測量人類受試者大腦活動的方法。ERP具有時間分辨率,可以測量從一毫秒到下一毫秒的大腦活動,而注意力和感知的許多方面似乎都在數十毫秒的範圍內運行,使我們能夠觀察從感覺訊息傳遞到周圍神經系統之前直到做出行為反應之後發生的一系列認知操作。因此在語言的領域中,此技術有助於感知和注意力的研究。
[Reference](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3816929/)
### Principal Component Analysis
主成分分析 (PCA) 是一種降維和機器學習方法,用於將大型資料集簡化為較小的資料集,同時仍保持重要的模式和趨勢。
減少資料集的變數數量自然會以犧牲準確性為代價,但降維的技巧是犧牲一點準確性來換取簡單性。因為較小的資料集更容易探索和視覺化,從而使 機器學習演算法分析資料點變得更加容易和更快,而無需處理無關變數。PCA的想法很簡單:減少資料集的變數數量,同時保留盡可能多的信息
主成分是線性組合的新變數或由最初的變數混合而成的新變數。初始變數內的大部分資訊被擠壓或壓縮到第一成分中。因此,10維資料的想法是為您提供10個主成分,但PCA嘗試將最大可能的資訊放入第一個成分中,然後將最大剩餘資訊放入第二個成分中。以這種方式組織主成分中的信息將允許您在不丟失太多信息的情況下降低維度,這是通過丟棄信息量低的成分並將剩餘成分視為新變量來實現的。
[Reference](https://builtin.com/data-science/step-step-explanation-principal-component-analysis)
### Scree plot (碎石圖)
碎石圖通常縱軸是每個主成分能夠解釋的數據總體方差的百分比,然後橫軸是主成分的個數。所以我們會期待出現一個像手肘一樣的形狀提示應該在第幾個主成分的地方停下。通常在統計分析中,我們默認的準則是,至少保留的主成分個數要能夠解釋總體方差的 70%/80%以上才較爲理想。Kaiser準則建議的是,最好保留下特徵值大於等於1(也就是標準化數據之後獲得的主成分變量方差大於等於1)的主成分變量。

[Reference](https://wangcc.me/LSHTMlearningnote/PCA.html)
---
## 名字:喻璞
### lexical sophistication (詞彙複雜度)
> sophistication的中文為「高雅」、「精煉」,而 lexical sophistication 可譯作詞彙複雜度,表示一個人對於詞彙知識理解的深度與廣度。
在二語習得的領域,lexical sophistication 經常作為測量學習者第二語言的詞彙習得、寫作品質、口語熟練程度等能力相關;在教學上,lexical sophistication 可作為判斷文本難易度的衡量方法。
通常測量lexical sophistication的指標有:
1. conventional formulae: *e.g. frequency and word length*
2. covariance-based analyses: *e.g. type-token ratio, word concreteness and content word overlap/information density*
3. statistical models: *e.g. n-gram frequency*
4. others: *e.g. academic lists*
[Ref1](https://onlinelibrary.wiley.com/doi/full/10.1002/tesq.194?casa_token=6NuJvZHJT3UAAAAA%3A4Ak7X5StyKxQPHFaeGkCNzFykf4Wt8cNzoSJNk-DdDjS-DUdTlYp5JQG7z1LR2oMysl0F2S6kPmJNzI)
### dispersion (range; 離散度)
dispersion告訴我們整個語料庫中,某個詞彙或片語的分佈。常用來衡量一個詞被使用的廣泛程度。
#### ==$Range_2$==
$Range_2$ 是計算 dispersion 的最基本方式,公式如下:
> $range_{2} = no. \ of \ parts \ with \ word \ w \ (or \ phrase \ p)$
$range_2$ 百分比的算法:
> $range_{2} % = \frac{no.\of\parts\with\word\w\(or\phrase\p\)}{total\no.\of\parts\in\the\corpus}$
計算出的百分表示該字在語料庫中包含多少百分比。
$Range_2$ 會受到實際詞頻的影響,所以還有其他算法!
#### ==Standard deviation==
計算的是「相對頻率值」,公式:
> $standard deviation_{population} = \sqrt{\frac{sum of squared distances from the mean}{total no. of corpus parts}}$
#### ==sample standard deviation (SD)==
公式:
> $standard deviation_{sample} = \sqrt{\frac{sum of squared distances from the mean}{total no. of corpus parts -1}}$
#### ==coefficient of variation (CV; 變異係數)==
變異係數在計算相對於語料庫中單字或片語的平均相對頻率的變異量。各部分中單字/片語的頻率變化越大,分散就越不均勻。公式:
> $Coefficient of variation = \frac{standard deviation}{mean}$
百分比的算法:
> CV% = \frac{Coefficient of variation}{\sqrt{no. of corpus parts -1}}
> p.s. 因為直接 x100% 可能會 >1
#### ==Juilland's D==
是建立在變異係數基礎上的離散度量,是CV的倒數。介於 0 和 1 之間的數字,0 表示分佈極不均勻,1 表示分佈完全均勻。公式:
> $Juilland's D = 1- \frac{Coefficient of variation}{\sqrt{no. of corpus parts -1}}$
#### ==Deviation of Proportions (DP)==
作為 Juilland's D的替代方案 (Gries, 2008),與Juilland's D的值相反。將不同語料庫部分中單字或短語的**預期分佈**與**實際分佈**進行比較。它是介於 0 和 1 之間的數字,0 表示完全均勻分佈,1 表示極不均勻分佈。
> $DP = \frac{Sum of absolute values of (observed - expected proportions)}{2}$
[Ref](https://www-cambridge-org.proxyone.lib.nccu.edu.tw:8443/core/books/statistics-in-corpus-linguistics/vocabulary/46A19D63BB2448DEAE460C2ADB8ED09B#EQN-df-10)
### Term Frequency/Inverse Document Frequency (TF-IDF)
公式:
> $TF-IDF = TF x IDF$
- **詞頻(Term Frequency,TF)**:表示詞在文檔中出現的頻率
- **逆文檔頻率(Inverse Document Frequency,IDF)**:衡量一個詞語對整個文檔集合的重要性,在整個文檔集合中常見的詞語具有較低的IDF值,反之。
> IDF = log((N(文檔總數) + 1) / (df(包含「詞」的文檔數量) + 1)) + 1
p.s. IDF在概念上與分散度相關
[Ref](https://vocus.cc/article/647dcbf7fd89780001afdb56)
### type-token ratio (TTR)
公式:
> $type/token ratio = \frac{no. of types in text or corpus}{no. of token in text or corpus}$
- tokens: 文本中所有的單字數量
- types: 文本中所有單字類型的數量(不計算重覆)
TTR 是衡量文本中詞彙多樣性的一種指標,但TTR會受到文本長度變化很大,因此又多了Standardised TTR (STTR) 的計算方式,以每n個字為單位進行TTR計算。
[Ref1](https://www-cambridge-org.proxyone.lib.nccu.edu.tw:8443/core/books/statistics-in-corpus-linguistics/vocabulary/46A19D63BB2448DEAE460C2ADB8ED09B#EQN-df-10) / [Ref2](https://lexically.net/downloads/version7/HTML/type_token_ratio_proc.html)
---
## 名字:靖涵
### **Principal Component Analysis (PCA) 主成份分析**
- 主要為降維投影作用,降維可以有助於高維資料視覺化以及減少計算量。讓資料量變小的同時仍可維持顯著的趨勢,投影過後還仍可以符合最大可分性和最小重構性。
1. **最大可分性**:點在投影後不可以全部都太集中,才可以保有區別性。即 **variance(方差、變異數)** 越大,沿該線的資料點的離散度就越大。
2. **最小重構性:** 可以讓原本點到投影點之間的距離盡量小一些,以減少降維之後的差異。
- PCA會想要去找到一條盡可能最擬合每個點的線,即每一個點到投影在此條線上的點距離必須最小化。

- 算點到直線距離時可以採用 **勾股定理 $a^2$ = $b^2$ + $c^2$** 的概念,因為點不動,所以點到原點的距離固定(即 $a^2$ 數值固定)。因此想要 $b^2$ 總合最小化,可以從計算 $c^2$ 下手,算出 $c^2$ 最大的值即為 $b^2$ 最小的值。

這時候每一個點在找出直線上的投影點到原點的距離則可以 $Cn^2$ 表示,即要最大化 $C1^2$ + $C2^2$+ $C3^2$..+ $Cn^2$。此時這條直線就叫做「主成分1」,即PC1。
- 假設現在樣本只有兩個特徵,PC1斜率為 1/4,則代表樣本依照特徵 $x1$ 在x軸移動四個單位時,會在y軸特徵 $x2$ 會移動一個單位,即代表 $x1$ 比 $x2$ 更影響特徵分佈。
- 完成PC1之後就可以接著進行PC2,PC2會是描述樣本分佈的另一個維度,需要在這個平面上取出和PC1相差最大的PC2,以去抓去盡可能多的訊息。因此選定和PC1線**垂直正交(orthogonal)** 的線。
- 最後再把PC1和PC2轉成新的X,Y軸為新的座標系統再重新表示樣本的分佈(如下面動態影片呈現)。

- 如果此時有n維的空間,則可以分出n個樣本,以此類推PC3需要跟PC1和PC2都正交,確保提取出的主成分之間是獨立的,每個主成分都捕捉到數據中的新變異性。
- PC1會保留有最大的特徵值,依序PC2, PC3...會帶有越來越小的特徵值。每個主成分都是由原始數據的線性組合組成的,而這些線性組合是通過 **特徵值(eigenvalue)** 和 **特徵向量(eigenvector)** 來確定的。特徵值表示每個主成分所解釋的變異性的量,而特徵向量則表示主成分的方向(詳細計算和線性代數的概念有關)。
- 因此可以用**碎石圖(scree plot)** 去表示「先陡後緩」的訊息量。碎石圖因為看起來像是碎石坡,而岩石掉落並堆積在山坡上所以先有一個急降,然後接著會比較平緩。也會選擇一條"elbow"線,並選擇此條線以上的所有資訊。

[Reference_PCA1](https://www.youtube.com/watch?v=WquvZBWzI5Q)
[Reference_PCA2](https://www.youtube.com/watch?v=FgakZw6K1QQ)
[Reference_PCA3](https://leemeng.tw/essence-of-principal-component-analysis.html)
[Reference_ScreePlot](https://sanchitamangale12.medium.com/scree-plot-733ed72c8608)
### **Dispersion 離散分佈**
- 可用來計算一個字被使用得多廣,多計算該字詞出現在多少個文本之中。
- 計算離散度的方式有很多種,假設以chi-square的方式計算,可以假設一詞在文本中的分散程度為平均,再計算chi-square視是否計算出的數值與期望值相差很大,即可知某一詞在文本之間分佈是否平均、離散程度為何。在訊息檢索上,TF-IDF一樣含有dispersion的概念。
- **Term Frequency - Inverse Document Frequency (TF-IDF):**$$TF-IDF(t, d) = TF(t, d) × IDF(t)$$
- **TF即詞頻(term frequency)**:看一個字在一篇文章中出現幾次,即在總字數中所出現過的次數。
- **IDF即逆文件頻率(Inverse Document Frequency)**:考慮一個字在語料庫中多少個文章中出現過。
公式中N為文章總數,df(t)為一單詞t出現的文章數。為了避免單詞完全沒有出現分母會為0,所以在分母加上1。但實際上TF-IDF的計算有許多變體,有考慮不同加權的計算。為方便計算IDF也取log,因大多時候文本數量很大。
$$ IDF(t) = log(N / (1 + df(t))) $$
- IDF出現在多少不同的文章。舉例一些常出現的stopwords,例如:the, a/an,高頻率出現在每一個文章中,但卻沒有帶有訊息量、不具區辨性。因此如果一個詞在語料庫中的每一個文章都很常出現,則會有很低的IDF,相反而言如果只有在幾個文章中出現,就會獲得較大的IDF值。考慮IDF才可以知道某些詞是不是只有出現在單幾個文章中,詞頻很低,但是可以有效地區分某些文章、帶有區辨的訊息。
[Reference_TFIDF_1](https://www.cc.ntu.edu.tw/chinese/epaper/0031/20141220_3103.html)
[Reference_Dispersion_1](https://www.tandfonline.com/doi/abs/10.1080/09296174.2020.1782716)
---
## 名字:植棻
**步驟**
> 先檢驗資料是否適合做因素分析(KMO, Bertlett's test)-> 將資料進行降維(PCA)-> 因素分析 Factor Analysis
### Principle Component Analysis (PCA) 主成分分析
該方法被廣泛用來**分析資料**、**降低數據維度**以及**去關聯**的線性降維(dimention reduction)方法。
將高維度的數據中,找一個投影向量,將數據投影在該向量上,找尋一個可以得出這組資料最大的變異量(見下圖)的投影向量,而結果這些不相關變量稱為主成分(Principal Components)

上圖呈現變異量大小的差異
[Reference](https://chih-sheng-huang821.medium.com/機器-統計學習-主成分分析-principle-component-analysis-pca-58229cd26e71)
### Kaiser-Meyer-Olkin adequacy (KMO)
**Measure of sampling 樣本適切性指標**
用於檢驗變數之間的相關性強弱。KMO統計量是取值在0和1之間。
其計算變數間**簡單相關係數**和**偏相關係數**
- 所有變數間的簡單相關係數平方和 > 偏相關係數平方和⇒ KMO值靠近1
- 所有變數間的簡單相關係數平方和接近0 ⇒ KMO值靠近1
**常用的KMO度量標準(是否適合做 factor analysis)**
- KMO值越接近於1 ⇒ 變數間的**相關性越強**
- KMO值越接近於0 ⇒ 變數間的**相關性越弱**
| 0.9以上 | 非常適合 |
| --- | --- |
| 0.8 | 適合 |
| 0.7 | 一般 |
| 0.6 | 不太適合 |
| 0.5以下 | 極不適合 |
### Bartlette’s Test of sphericity 巴特雷球型檢定
為一種卡方檢定,用於檢驗相關陣(correlation matrix)中各變量間的相關性。
若檢驗結果為單位陣(identity matrix),表示各個變量各自獨立 ⇒ 不適合進行factor analysis
- **相關陣 correlation matrix**
相關係數在 **-1 - 1之間**,各個變數有相關性

- **單位陣 identity matrix**
除了對角線,自己跟自己呈現1,其他相關係數皆為0

[Reference](https://www.statology.org/bartletts-test-of-sphericity/)
## 名字:瓈萱
### TF-IDF詞頻-倒文件頻
假設我們現在有一部沙丘的小說,他裡面共有12個章節
我們想知道第一章有哪些特別的關鍵詞,這時候如果單存算這一章節所有詞的頻率的話,很有可能「保羅」、「奎尼」、「亞崔迪家族」、「香料」、「沙蟲」 在這一章中都屬於高頻詞,所以這時候到底哪一些詞在這一章中扮演比較重要的角色呢?
這時候就必須要用到tf-idf的計算
他的概念就是把這一章的某個詞在一個章節(文集)出現的頻率跟其他章節(文集)他出現的頻率去做比較、計算。
上面說到的例子中,有可能「保羅」、「奎尼」、「亞崔迪家族」、「香料」、「沙蟲」都在其他章節中也大量出現,那知道他們很常出現在第一章也沒什麼好稀奇的了,但如果「沙蟲」在這個章節中頻繁出現,但在其他章節出現的頻率很低,我們就可以判定他是這個章節中是屬於重要的關鍵詞。這個統計結果可以很好的反應出某個詞在特定的文本或語料庫中是否有很大的重要性,像是一些功能字(function word) 可能在小說中都很大量的出現,如果是使用tf-idf 去計算,就可以避免這些字被選為代表的關鍵詞。
計算公式:
tf(詞頻)特定字出現在文章的次數/文章總長
idf(到詞頻):文章總數和/該字詞出現的文章篇數 取log 值
兩個相乘就會是tf-idf 的值,值越大越好。
### factor analysis 因素分析
* 主要目的: 將資料進行縮減、整合,希望將ㄧ群互有關聯的變數 簡化成比個少且句有帶表性的因素,藉此可以用很少的因素去代表一群變數。

[reference](https://medium.com/marketingdatascience/%E5%8D%80%E5%88%A5%E5%88%86%E6%9E%90-%E5%9B%A0%E7%B4%A0%E5%88%86%E6%9E%90-%E9%9B%86%E7%BE%A4%E5%88%86%E6%9E%90-d2441dcdd3d5)
---
## 名字:孟桁
### Direct Oblimin Rotation
Basically, it is a method to simplify variables while allowing correlation.
In a factor analysis, correlations between dependent variables and the independent variable are visualized as axes. Rotating the axes make for easier and more accurate interpretation since analysis programs sometimes produce a strong correlation of a dependent variable to either multiple independent variables or none.
Rotation methods are either orthogonal or oblique. The former requires the axes to be orthogonal to each other, which does not allow factors to be correlated. The direct oblimin rotation method belongs to the latter, meaning the axes do not have to be orthogonal and allows correlation between factors. The resulting factors/variables are similar to that of a varimax, an orthogonal rotation method, but with ideally more realistic relationship among factors.
[reference1](https://www.theanalysisfactor.com/rotations-factor-analysis/)
[reference2](https://www.ibm.com/docs/en/spss-statistics/beta?topic=analysis-exploratory-factor-rotation)
### Pillai’s Trace
Pillai’s trace is one of the test statistics usually produced by statistical software when running a MANOVA that can determine the significance of an independent variable to a dependent variable. The value ranges from 0 to 1, the closer to 1 the more significant the independent variable.
[reference](https://www.statology.org/pillais-trace/)
<!-- ## tags, 拜託不要刪除以下 -->
###### tags: `QL2024`
<!-- ---
## 名字:
### 以下如果要用到標題請打三個以上的井字號 -->