# TASLP 結果呈現筆記
---
我們提出從articulation related acoustic parameters 可以幫助infer autistic trait
這些LOC features 可以輔助其他發聲機制的feature對autistic trait的inference
算在vowel unit 的feature有:
1. articulation related acoustics: LOC feautre + DEP feauture
2. phonetic feautre: ['intensity_mean', 'meanF0', 'stdevF0', 'hnr', 'localJitter', 'localabsoluteJitter', 'rapJitter', 'ddpJitter', 'localShimmer', 'localdbShimmer']
phonetic feautre 選用原因來自 laryngeal (fundamental frequency) 與 respiratory (intensity)(來自:[Assessment of Speech and Fine Motor Coordination in Children With Autism Spectrum Disorder](https://ieeexplore.ieee.org/abstract/document/9138405))的發聲部位我們取vowel 區間的平均值(as a feature)以及擾動(their coordination)
LOC & DEP feature 經過實驗可以幫助已經熟知算在utterance level的prosodic, voice quality, energy feature上

另外我們導入互動分析,藉由算proximity, syncrony, convergence 的feautre可以拿來infer ASD/TD (ASD的部份我們以ADOS 的social 跟communication score分成Autism與Mild autism ,這兩群去與TD比較)
[備註1]
Static feautres:
---
其實只有兩個概念: inter-vowel dispersion跟intra-vowel dispersion
先within 再between
開頭句:within intended to measure, it was applied on ... , the concept of XXX is
切兩個item
Intra-vowel dispersion:
within intended to measure XXX, 我們先求出三個vowel cluster的within class covariance matrix,defined as XXX,然後我們對這個matrix 取det和trace分別導出indices WCC, WCV respectively
Inter-vowel dispersion:
我們用三種types of indices來quantify Inter-vowel dispersion,分別是 Between class covariance, Total class covariance, between within covariance ratio。
Between class covariance model the inter-vowel dispersion by 計算weighted 群中心跟總中心的距離,derive 方法是先求出三個vowel cluster的between class covariance matrix,defined as XXX, 取det和trace分別導出indices BCC, BCV。
Total class covariance model the inter-vowel dispersion by 計算整體的vowel dispersion,derive 方法是先求出三個vowel cluster的Total class covariance matrix,defined as XXX,也是取det和trace分別導出indices TC, TV。
最後ratio of Between class covariance to within class valiance model the inter-vowel dispersion by 計算between 跟 within 的比例,我們用常見的MANOVA方法去quantify XX (想想四個常見的MANOVA statistics再量化什麼。),另外,我們也計算直接between 跟within的determinate ratio 和 trace ratio,分別define as XXX 和XXX
Between class covariance:
Total class covariance:
ratio of Between class covariance to within class valiance:
<!-- within intended to measure XXX, 我們先求出三個vowel cluster的within class covariance matrix,defined as XXX,然後我們對這個matrix 取det和trace分別導出indices WCC, WCV respectively -->
LOC feautres: [vowel dispersion (BCC, ratio between BW), vowel variebility (WCC)]
LOC_columns=[ 'between_covariance_norm(A:,i:,u:)',
'between_variance_norm(A:,i:,u:)',
'total_covariance_norm(A:,i:,u:)',
'total_variance_norm(A:,i:,u:)',
'sam_wilks_lin_norm(A:,i:,u:)',
'pillai_lin_norm(A:,i:,u:)',
'hotelling_lin_norm(A:,i:,u:)',
'roys_root_lin_norm(A:,i:,u:)',
'Between_Within_Det_ratio_norm(A:,i:,u:)',
'Between_Within_Tr_ratio_norm(A:,i:,u:)',
]
Vowel formant dependency feautres: [correlation coefficient between F1 F2(phonetic level)]
DEP_columns=[
'pear_12',
'spear_12',
'kendall_12',
'dcorr_12'
]
Dynamic feautres:
---
Dynamic respireational, laryneal 類型feature[intensity, F0, hnr, jitter, shimmer ]
laryneal-respireational_cols=[
'Modulation_d[laryneal-respireational related acoustics]',
'Modulation_k[laryneal-respireational related acoustics]',
'Convergence[laryneal-respireational related acoustics]',
'Syncrony[laryneal-respireational related acoustics]',
'Proximity[laryneal-respireational related acoustics]',
]
Dynamic articulation related acoustics [LOC DEP]
LOCDEP_Proximity_cols=[
'Modulation_d[LOCDEP]',
'Modulation_k[LOCDEP]',
'Convergence[LOCDEP]',
'Syncrony[LOCDEP]',
'Proximity[LOCDEP]',
]
輔助的feature
Traditional prosodic, energy, voice quality Utterance level features
Utt_prosodyF0=[
'F0avg',
'F0std',
'F0max',
'F0min',
'F0skew',
'F0kurt',
'F0tiltavg',
'F0mseavg',
'F0tiltstd',
'F0msestd',
'F0tiltmax',
'F0msemax',
'F0tiltmin',
'F0msemin',
'F0tiltskw',
'F0mseskw',
'F0tiltku',
'F0mseku',
]
Utt_VoiceQuality = ['avg Jitter',
'avg Shimmer',
'std Jitter',
'std Shimmer',
'skewness Jitter',
'skewness Shimmer',
'kurtosis Jitter',
'kurtosis Shimmer',
]
Utt_energy = [
'avgEvoiced', 'stdEvoiced', 'skwEvoiced', 'kurtosisEvoiced',
'avgtiltEvoiced', 'stdtiltEvoiced', 'skwtiltEvoiced',
'kurtosistiltEvoiced', 'avgmseEvoiced', 'stdmseEvoiced',
'skwmseEvoiced', 'kurtosismseEvoiced',
]
---
自閉症行為面有什麼病徵
1.
在spontaneous之下自閉症的說話方式有什麼特色
1.articulation上有什麼特色
People with autism present with higher rates of speech sound errors (SSEs) than their peers (Aetiology of SSE, McKeever) -> 哪一種SSE ? 找跟dependency有關找跟vowel space charactistic有關
文獻沒有直接連結ASD 在spontaneous 情況下的vowel dispersion measure,因此拆成四個概念
1. ASD 有SSE (Aetiology of SSE, McKeever)
2. Autistic trait 跟vowel intelligibility有關 (Brief report: Bishop)
3. spontaneous 下重要因為比較complex的speech assessment 比較能reveal motor constraints and increase the likelihood of
an SSE occurring (Aetiology of SSE, McKeever)
4. acoustic F1-F2 space 常用來infer articulatory working space, 研究常用corner phone /a/ /u/ /i/ 之間的距離關係來infer relationship 可以切成兩個概念:
a. vowel dispersion range(像是VSA, vowel space dispersion, FCR)常用來衡量
常用來當成指標來評估acoustic vowel separation and improved speech intelligibility (Speech treatment for Hebrew‐speaking adolescent, Carl)
a. formant varibility as a measure of articulatory stability (or overly regular phonation) (Brief Report: Acoustic Evidence for Increased, Kissine)
a. vowel space越小ASD嚴重度越嚴重
b. Formant frequency dependancy越大嚴重度越嚴重
1.以TC來看,TD和嚴重自閉症在vowel dispersion上類似,輕微自閉症的vowel dispersion會比較大。Vowel dispersion可以視作觀察autistic trait的一個面向,它加上別種acoustic feature(phonation)可以更好辨識ASD/TD,但是單從vowel dispersion指標無法區分ASD/TD,因為他們發音centralize的理由不一樣
2.F1 F2的correlation上如果們假設的,自閉症的人這兩個之間的Dependency會比較大
a.[dependency] 上
b.[vowel intelligibility]上
2.Interaction上有什麼特色
1. Phonation 的Proximity 的話ASD都比TD小
2. LOCDEP 的Proximity 的話ASD都比TD小
3. LOCDEP 的Convergence 的話ASD會比TD大
4.
# Research question
在spontaneous interaction的情況下的比較容易看到ASD 跟一般人不一樣的地方(autistic trait),
* 1. 在真實對談(看Aetiology of Speech Sound Errors 有什麼敘述用詞)的環境下speech sound error比較容易被測出來,
* 2. 在聊天互動的interaction pattern上面 XXX 也曾說autism有什麼不一樣的地方[cite]()
基於以上兩種假設,我們透過量化ASD的articulation related acoustics 來做實驗觀察這些autistic trait
* 量化articulation related acoustics 的方式我們選用兩種approach:
* 1. 算三個vowel之間的關係
* 2. vowel cluster組間的離散量化vowel dispersion (假設language impariment 的人vowel dispersion 會比較小([cite](Brief Report: Autistic Traits Predict Spectral Correlates of Vowel Intelligibility for Female Speakers)))
* 3. vowel cluster組內離散量化vowel variebility (假設自閉症 的人 vowel variebility 比較小([cite](phonetic inflexibility (Phonetic Inflexibility in Autistic Adults)))
* 2. 算F1 F2 之間的關係
* 4. formant correlation來量化dependency of vowel production(假設language impairment的人在vowel production的時候tongue, jaw, larneal 之間的coordination會有不一樣,因此在vowel production的時候可能無法精準掌握target phone position,所以希望藉由Formant frequency的dependency 來量化他[cite])
* 量化dyadic spoken interaction的方式我們選用 過去的work的實驗:
* 1) 決定IPU 的方式 2) 用KNN 內插補值 3) 計算proximity, convergence, syncrony 在傳統會用的respireation, laryneal 類型feature[intensity, F0, hnr, jitter, shimmer ]上面,並且嘗試計算在我們的LOC DEP feature上。
# Method
## database
我們蒐集了ADOS 交談資料庫,資料的形式用什麼收,autistic trait會用什麼形式被elicit出來
## Autistic trait 的測量方法
1. 我們用ADOS 裡面的communication 評分來衡量autism participant 的communication deficit severity
2. 我們藉由觀察ASD 跟 TD的不同來觀察描述autistic trait 的樣態
## Acoustic algorithm
### Static acoustic measurements
#### 前處理 (alignment, 算vowel level formant, IQR filtering)
#### Level of clustering 設計
#### Formant dependency 設計
### *Dynamic acoustic measurements*
#### 前處理 (每蒐集3個corner phone就算一個IPU, 計算dyadic (investigator vs participant)的*behavior timeseries*)
#### proximity, convergence, syncrony 設計
#### 做個feature summarization
# 實驗
我們做了兩個實驗: ASD/TD prediction task experiment 和 ADOS communication regression task experiment. 這兩個實驗中我們會做以下實驗步驟 1) single feature set model prediction : utterance 和 conversation-level 的pitch, intensity, voice quality的實驗 2) fusion of feature sets model prediction: 將acoustic feature sets 做 feature level fusion 實驗 3) KernalSHAP model interpretation: 使用KernalSHAP model來分析additional added feautres 對model的幫助 4) statistical analysis: 用statistical analysis 來看single articulation related acoustics 在我們participants cohort上的分佈。
在 ASD/TD prediction task 的情境中,試想當我們有一批不確定是ASD/TD的participants,需要roughly辨認ASD/TD的情況。我們想知道articulation set 的加入能夠提供額外的觀察層面來描述自閉症在conversation的speech,進而提昇machine learning model區辨ASD與non-ASD的能力。這邊我們比較沒有articulation set features跟有articulation set features的optimal model 並且針對feature和model在整體和個體兩種層次的分析
在ADOS communication regression task中比起ASD和non-ASD的區別還要難有兩個原因: 1) 不同於ASD 與 non-ASD 本身就有區別(development delay 和 typical development的人)。ASD族群內的差異更是細微。因此要做ASD severity的assessment 通常需要trained practitionor,才評出得出他們的嚴重程度。2) 在醫療的場所需要比較精確且連續性的分數來描述ASD participant的嚴重程度。因此我們使用了疊加articulation and other acoustic parameters的fusion 策略。
## 實驗1-1: LowMinimal ASD vs TD prediction task experiment
在ASD/TD prediction task experiment 我們拿這些sets of features 來訓練SVC classifier並且拿來預測between ASD/TD 。這個實驗模擬真實狀況我們利用這些sets of features去判斷一個人是不是自閉症。
**由於我們的participant 的分佈從輕症到重症都有,不同severity的participant代表不同severity的ASD symptoms, 也代表impairments in social communication and 存在 repetitive behavior。 這三個factor關係到communication中的表現,像是講話方式,講話策略,和應對方式,因此我們大略將不同severity的ASD分群做比較。**
behavior有關,specifically speaking,communication relys on language processing and social processing,所以正常人在溝通中會根據社會情境改變他的講話方式,講話策略,和應對方式,我們認為
,因此我們由這些ASD的嚴重程度將ASD cohort分成輕、中、重三個族群(CSS score 裡面定義的minimal+low, moderate, high),
。ASD的嚴重程度由這些participant 接受ADOS訪談後被評分的CSS score(calibrated ADOS assessment)來判定。
對於SVC參數我們僅調變SVC裡面的regularization parameter C: C \in {0.001,0.01,0.1,1,5,10.0,25,50,75,100} 我們用validation set來決定最合適的C並且回報test set 的結果。我們選用UAR當我們衡量model performance的 metric.
## 結果1-1 各類別feature set的預測結果:
如預期的一樣,嚴重程度不同自閉症的族群,表現在講話和互動上的方式也不一樣。這分別反應在static and dynamic的articulation related features上面。使用這些sets的feature,在預測ASD/TD的task上可以有將近0.78以上的UAR,另外, 在預測low & minimal ASD vs TD的task上,feature sets Mod[P]_{d}比較有鑑別性,UAR 為0.782 。然而在moderate ASD vs TD 和 high severity ASD vs TD的task上,Proximity[phonation]有比較好的辨識力,UAR 分數分別為0.81 和0.844。
與過去的entrainment文獻相似,dynamic的feature中確實可以分出ASD跟TD的差異,In addition,這個差異分成嚴重的(moderate to high)跟輕微的(low and minimal)兩種區別,分別顯現在feature sets: Proximity[phonation]和 Mod[P]_{d} `(這邊要補上原因)`。
然而articulation releted feature sets不管是static 的還是dynamic的過去文獻中都還沒被提到過,因此我們想再測試articulation releted feature sets跟Proximity[phonation] , fusion過後的結果

## 結果1-2 feature set fusion的預測結果:
| | UAR|
|--- | ---|
|Phonation_Trend_K_cols+Phonation_Syncrony_cols+ Phonation_Trend_D_cols + LOC_columns | 0.904|
|Phonation_Trend_K_cols+Phonation_Syncrony_cols+ LOC_columns | 0.843|
|Phonation_Trend_K_cols+Phonation_Syncrony_cols+ Phonation_Trend_D_cols | 0.771|
|Phonation_Trend_K_cols+Phonation_Syncrony_cols | 0.843|
|Phonation_Trend_D_cols | 0.782|
沒有articulation feature最好的模型是Phonation_Trend_K_cols+Phonation_Syncrony_cols,準確率是0.843,但是加入articulation feature最好的模型是Phonation_Trend_K_cols+Phonation_Syncrony_cols+ Phonation_Trend_D_cols + LOC_columns,準確率是0.904。在新的模型的feature set上除了LOC_columns set以外還多了Phonation_Trend_D_cols,但是如果純粹加入Phonation_Trend_D_cols進入Phonation_Trend_K_cols+Phonation_Syncrony_cols反而準確率會下降。這個原因是因為,我們發現的其實是加入articulation與純粹phonation的差別,新加的articulation會有兩種功用:
1) 直接幫助某些人從錯變對 (quadrant 2,4)
2) 間接修正phonation從對變錯的人 (quadrant 1,3)
a. 在某些特定族群的人中(LowMinimal)不一定feature加得多就會增加或維持準確率, (換句話說)多加的feature 可能會惡化原本的準確率
## 分析1-1-1 錯誤型態分析


總共有多對了2個人
| | Correct -> Incorrect | Incorrect → Correct|
|--- | --- | ---|
|ASD → TD | [1,15] | [21]|
|TD → ASD | [] | [4]|
小討論:
1. 我們的研究問題是:「有artiuculation 與沒有articulation」在訓練model,或是當醫生在診斷的時候的差別。
2. 沒有articulation model在診斷的時候最高只能達到.84準確率使用的model不會用到所有的phonation feature sets,因為有些**非典型**的個案在這些measure上會混淆最後的診斷
3. 有articulation情況下的model有機會增加這些LowMinimal的準確率,model變好有條件就是要連一些本來沒有的phonation feature sets一起看,作用原理是,articulation 跟原本會混淆phonation feature sets的搭配可以作到以下兩點:1) articulation 把某些人變對,同時phonation feature sets把某些人articulation會變錯的人修正回來 2) phonation feature sets 把某些人變對,articulation同時把某些人phonation會變錯的人修正回來 (找supportive idea from: 1. shapvalue, 2. 過去文獻)
(Machine learning型解釋: 在task不明確的情況下feature的作用不是疊加型(疊加feature不會大於等於原本)而是是事件型(不同set的feature就得看成完全新的一個feature set); domain型解釋: 這些非典型的人因為變異性太大,有些phonation feature可以判斷到A但是就會把B判斷錯,反之亦然,所以單看phonation的資料往往只能找到局部最佳解,甚至會捨棄某些phonation的資料。如果有articulation的資料一起下去判斷的話,不但可以判斷A,B因為articulation的deficit很明顯所以B也不會被判斷錯。

## 分析1-1-2-1 Shapley value 總體model 分析
我們計算這個task所有人的shap value的feature importance,發現前五名的feature是這五個。

| | %|
|--- | ---|
|Syncrony[intensity_mean_mean(A:,i:,u:)] | 4.049079|
|FCR | 3.892892|
|Trend[stdevF0_mean(A:,i:,u:)]_d | 3.056164|
|Trend[intensity_mean_mean(A:,i:,u:)]_d | 2.882679|
|Trend[localabsoluteJitter_mean(A:,i:,u:)]_k | 2.662766|
最好的兩個feature主要佔了4.04 % 和3.89% 我們覺得沒有一個主流的feature。
## 分析1-1-2-1 Shapley value 個體model 分析
接著我們觀察這兩個變好的個體的shapvalue,

得出的結論是,每個feature
這兩個因為articulation feature而不一樣的人,有些是因為整體因素(FCR)有些是因為個體因素(trend(hnrmean(A:,u:,i:))_d)‧
<!-- 這意味著ensemble of weak feature其實可以抓到個體的特異性 -->
## 分析1-1-3 Statistical test分析
|FCR | ASD $<$ TD | 0.018|
|--- | --- | ---|
|Trend[intensity_mean_mean(A:,i:,u:)]_d | ASD $<$ TD | 0.008|
|Trend[localShimmer_mean(A:,i:,u:)]_d | ASD $>$ TD | 0.02|
|Trend[localdbShimmer_mean(A:,i:,u:)]_d | ASD $>$ TD | 0.019|
首先,我們分析articulation類的feature,FCR(vowel centralization) 的量測在TD上是大於Low minimal的ASD的。接著,在phonation方面的feature,可以看到Trend[intensity_mean_mean(A:,i:,u:)]_d 在TD上比較大,Trend[localShimmer_mean(A:,i:,u:)]_d、Trend[localdbShimmer_mean(A:,i:,u:)]_d在TD上比較小。
另外,綜合1-1-2的結果,有幾個feature在統計上顯著,也是造成model整體上能夠判斷好的原因(跟shap value overlap),不過除了本身顯著的feature之外,其他不顯著的feature仍然有幫助幾個特例的個體判斷正確的功用,比如14,21這兩個個體。
## 分析1-2 Moderate ASD vs TD
## 分析1-2-1 feature fusion experiment
|TD vs df_feature_moderate_CSS >> LOCDEP_Trend_D_cols+Phonation_Proximity_cols | 0.824|
|--- | ---|
|TD vs df_feature_moderate_CSS >> Phonation_Proximity_cols | 0.81|
不加articulation的feature最高是Phonation_Proximity_cols(0.81),可是加了LOCDEP_Trend_D_cols之後可以變成0.824
## 分析1-2-2 錯誤型態分析

總共有多對了7個人但是也多錯了5個人
## 分析1-2-3-1 Feature總體影響分析

$Mod(FCR)_{inv}$ 和 Proximity[meanF0_max(A:,i:,u:)]分別為兩大影響力強的feature,feature importance為11.37%,和8.05%
## 分析1-2-3-2 Feature個體影響分析
quadrant1_indexes: [22, 23] : 純粹加articulation多判斷錯,22在boundary上,沒什麼好講
quadrant3_indexes: [27, 47, 58]: 純粹加articulation多判斷錯 ,沒什麼好講
quadrant2_indexes: [41, 45]
quadrant4_indexes: [24, 28, 30, 31, 39]: 24, 28, 30, 31 是同一類人,他們會被判斷成自閉症(從shap value來看)是因為Trend[FCR]_d的緣故,Trend[FCR]_d跟logit1呈現負相關,所以這個值越大越不容易被判斷成TD,所以這四個ASD的Trend[FCR]_d都很大,代表醫生跟他們說話的時候vowel space越來越集中。 同樣看Trend[FCR]_d 41也是因為這個值比較小所以被判成TD。

結論:LOCDEP_Trend_D_cols的加入使得quadrant2和quadrant4有7個人被多判斷對,不過也造成5個人被多判斷錯,造成準確率小幅度上升。對於被多判斷對的TD而言,我們發現是Trend[FCR]_d讓model把他們判斷成TD,其代表的意義是:醫生跟TD的他們說話的時候vowel space越來越集中。
## 分析1-2-3 Statistical test總體分析
增加的LOCDEP_Trend_D_cols 沒有一項feature是顯著的,
## 1-2-4 Moderate ASD vs TD 分析小結
綜合1-2-2, 1-2-3的分析,多了LOCDEP_Trend_D_cols對model有幫助,可以多代表這一個set 的features幫助比較多quadrant4的個案預測,但是群體之間在這個測量的差異不明顯。我們猜測有些特殊的個案會因為這個articulation上的測量被修正對,像是
<!-- 這邊舉一個高的(24)跟一個低的(41)為例子 -->
24: 2017_03_05_01_365_1

醫生在跟這個ASD互動的時候,到結尾會有vowel centralization提高的趨勢,另外就是TD的個案
41: 2018_05_19_5593_1_emotion

醫生在跟這個TD互動的時候就不會有這種趨勢。 這個現象不會在整體moderate ASD 跟 TD上顯著出現,但是對於某些特定種類的病人就有用。
另外,DEP feature的加入也有一些貢獻,我們來觀察一下他們的vowel space
舉一個高的(24)跟一個低的(41)為例子
24: 2017_11_18_01_371

44: 2021_01_25_5833_1(醫生鏡頭模糊)_emotion

就是因為他vowel space分佈還算均勻,所以被修正回TD
## 分析1-3 high ASD vs TD feature fusion結果
---
| | HIGH|
|--- | ---|
|TD vs df_feature_high_CSS >> DEP_columns+Phonation_Trend_D_cols+Phonation_Proximity_cols | **0.845**|
|TD vs df_feature_high_CSS >> Phonation_Trend_D_cols+Phonation_Proximity_cols | 0.759|
|TD vs df_feature_high_CSS >> DEP_columns+Phonation_Proximity_cols | 0.769|
|TD vs df_feature_high_CSS >> Phonation_Proximity_cols | 0.844|
沒有加articulation的最高分是0.844, 有加入articulation的分數是0.845。
## 分析1-3-1 錯誤型態分析

這個model主要變好了6個人但是也讓4個人誤判
## 分析1-3-3-1 Feature總體影響分析

沒有一個feature有超過10%的feature importance,最好的feature是Trend[hnr_max(A:,i:,u:)]_d ,但是只有7%
## 分析1-3-3-2 Feature個體影響分析
quadrant1_indexes: [], [2, 3, 29]: 2, 3, 29 變對是因為articulation同時把某些人phonation會變錯的人修正回來,他們的dependency這種feautre比較大而都被判回自閉症其中Dcorr的影響力最大
quadrant3_indexes: [28, 35, 38, 45], [36,44] : 28, 35, 38 是加Trend[P]_d 而多判斷錯的, 45是加articulation而多判錯的。 36,44 變對是因為articulation同時把某些人phonation會變錯的人修正回來,36 狀況比較特殊,雖然DEP feature都把他推向ASD,但是原本其他feature的貢獻度變了,像是Trend[stdevF0_max(A:,i:,u:)]_d由負翻正,這也有可能是在不同feautre組合在nested-CV用了不同參數所導致(這個案例可以不用呈現),,44 的dependency這種feautre比較大而都被判回正常人其中Dcorr的影響力最大
quadrant2_indexes: [25] : 加Trend[P]_d 而多判斷對
quadrant4_indexes: [6, 13, 19, 23, 24] : 6 變對主要是因為articulation的加入(主要由phonation但articulation推了一把),13, 19, 23, 24 主要是因為加Trend[P]_d 而多判斷對
## 分析1-3-3 Statistical test總體分析
| | high_CSS | high_CSS_p|
|--- | --- | ---|
|$PearF1F2$ | ASD $>$ TD | 0.02|
|$KendallF1F2$ | ASD $>$ TD | 0.033|
|$DCorrF1F2$ | ASD $>$ TD | 0.008|
|Trend[stdevF0_mean(A:,i:,u:)]_d | ASD $>$ TD | 0.016|
|Trend[localJitter_mean(A:,i:,u:)]_d | ASD $>$ TD | 0.034|
|Trend[localShimmer_mean(A:,i:,u:)]_d | ASD $>$ TD | 0.017|
|Trend[localdbShimmer_mean(A:,i:,u:)]_d | ASD $>$ TD | 0.011|
|Trend[hnr_max(A:,i:,u:)]_d | ASD $<$ TD | 0.033|
對於vowel formant dependency來說,ASD族群是顯著大於TD的。對於醫生的phonation acoustic feature的趨勢,有關voice quality和pitch的deviation,在跟ASD講話的時候都有上升的趨勢,唯獨harmonic to noise ratio是下降的(voice quality越來越低)
## 1-3-4 high ASD vs TD 分析小結
---
綜合1-3-2, 1-3-3的分析,DEP_columns+Phonation_Trend_D_cols合在一起對整體model有幫助(多修正了2個人),雖然在shapley分析上多對的人大多數是因為Phonation_Trend_D_cols的緣故,可是由於DEP_columns的加入可以避免掉Phonation_Trend_D_cols多辨識錯的人,所以DEP_columns+Phonation_Trend_D_cols整體的加入才會增進model的辨識率
# 實驗2
---
在 ADOS communication regression task experiment我們同樣看看這些sets of features能不能預測醫生所評比的communication分數。這個實驗透過這些sets of features來訓練SVR並且拿來預測communication分數。Both tasks will be followed by feature fusion experiments, in which we train SVC or SVR model with fustion of different sets of features.
## 結果2-1 各類別feature set的預測結果:
在這個實驗裡面我們發現formant frequency跟Trend[phonation]_k分別在StaticArticulation跟DynamicPhonation之中有比較好的準確率

## 結果2-2 feature set fusion的預測結果:
我們把single set features 做fusion,發現phonation最好的combination是Phonation_Trend_K_cols,articulation最好的combination是LOC_columns+DEP_columns+LOCDEP_Trend_D_cols+LOCDEP_Syncrony_cols
| | MSE | pear | spear|
|--- | --- | --- | ---|
|LOC_columns+DEP_columns+LOCDEP_Trend_D_cols+LOCDEP_Syncrony_cols | 3.002 | 0.532 | 0.548|
|Phonation_Trend_K_cols | 3.349 | 0.398 | 0.352|
feature fusion 結論:articulation 本來就跟communication有關系所以自己就能predict得好。經過fusion過後可以到0.532,
## 分析2-2-1 錯誤型態分析
沒辦法做像classification的錯誤型態分析

根據feature fusion 的結果,新的model預測的value整體來說平均的MSE比較小(3.0),correlation 和 monotonic correlation都比較好(pearson: 0.532 spearman: 0.54)。 我們一樣把有改變的人區分成quadrant1 ~ quadrant4
| | Degraded | Improved|
|--- | --- | ---|
|Low → high | 12 | 29|
|High → low | 17 | 28|
就幫助的人數量來說,Improved 比degraded還大。
## 分析2-2-2 Shapley value 的model 分析
我們列出feautre 的importance,發現主要對model有貢獻的是formant dependency features 以及 Inter-vowel dispersion (或反過來說:Inter-vowel centralization)。 從shap value的分佈可以看出,Inter-vowel dispersion 越大(或Inter-vowel centralization越小)自閉症的預測就會越輕微,formant dependency features越大,自閉症的預測就會越嚴重。
另外,還有一些feature值得注意,就是Syncrony[]的feature,雖然effect沒有Inter-vowel dispersion和formant dependency features那麼大但是還是會影響model的決策。首先,Syncrony[Inter-vowel dispersion]與model output是負相關,代表syncrony值越大的話容易降低ASD severity的prediction,另外Syncrony[Intra-vowel dispersion]也有相同的結論。 雖然影響較小不過與前兩種feature結論相反的是,Syncrony[formant dependency] 如果越大越容易預測成嚴重的ASD,這是比較需要注意的點。

## 分析2-2-2 Shapley value 的model 個體分析
我們另外發現有一些Degraded的個案,主要造成他們degrade的feature是像Syncrony[]和Mod[]_d的feature,例如:
1) Trend[Vowel centralization]_d: 0.921198479025672 表示醫生的LOC趨勢變小的話,越容易預測為嚴重自閉症,這個結論跟Moderate ASD vs TD 一樣 -> (69, 39)
舉一個例子(2017_08_15_01_413)

2) Trend[formant dependency]_d 0.792557129284035 表示醫生的DEP趨勢變大的話,越容易預測為嚴重自閉症 -> (77)
但是這些沒有必要講
我們另外發現有一些Improved的個案,主要造成他們Improved的feature是像Syncrony[]和Mod[]_d的feature,例如:
Syncrony[Intra Vowel dispersion] 一致的都認為syncrony越高,自閉症程度越低,
舉一個例子(2017_10_18_01_309_4)


measure在Intra-vowel dispersion的syncrony 在像2017_10_18_01_309_4 這類的ASD上面可以看到醫生會隨著ASD 個案的行為而有所配合(醫生的動作會延遲ASD)。 Intra-vowel dispersion 比較像是在speaking style上的變化,越是緩慢而清楚的speaking style,Intra-vowel variability會越高,這邊我們似乎看到了speaking style上的配合。

在Syncrony[Inter Vowel dispersion]上面也有看到這個現象,在Det(W^{-1}_B)這個feature上幫助了2017_12_20_01_510_1這個類型的ASD的判斷

醫生同樣會在口語上配合小孩
## 分析2-2-3 Statistical test分析

在這個分析我們demonstrate pval小於0.05 的features,我們發現inter vowel centralization 的features與ADOS communication的相關姓是positive,inter vowel dispersion 的相關性是負的,formant dependency feature與ADOS communication相關性是正的。
首先對於formant dependency features 以及 Inter-vowel dispersion features,Correlation分析的結論就如shap value的結論,越嚴重的ASD傾向於有比較overlap的vowel dispersion ,vowel space上F1 F2的關係之間也比較dependent,與假設的一樣,這些溝通嚴重的participant在articulation的時候有比較低的vowel intelligibility。 不過也發現Proximity[DcorrF1F2], Convergence[PearF1F2], Convergence[SpearF1F2]在feature值上都有顯著相關,而且顯示如果proximity值越高,Convergence的值越低,都容易出現在比較低severity的自閉症上。
## 討論
---
目前找不到一組optimal feature可以cover到所有的ASD族群, 因為ASD的族群個體變異太大了。 heterogenity會導致有些feautre會無法cover到一些specific type的sample,所以有些feature set加進來會錯(我們實驗看到的)。heterogenity問題的解是要找到更好的representation,這種representation有兩種方法可以做: 1) 找到區別ASD/TD的關鍵measurement (但顯然還沒有) 2)可以權衡多一點比較弱measurement,這些measurement互相的協作關係在區別ASD/TD會有更準的結果(我們的case: 0.843 -> 0.904),feature跟feature間會互相cover個別的弱項。 這篇propose的是第二種作法,但第二種作法的前提是新加入的measurement要可以量完全不同的attribute,在這篇的例子是我們加入articulation 在utterance level和conversation level的measurement,這類的measurement(LOC_columns)可以提昇原本沒作用的Phonation_Trend_D_cols的辨別力,使得新的組合set LOC_columns+Phonation_Trend_D_cols能夠涵蓋14 與21這兩種type的人
---
Speech acoustics 的角度上我們從兩個層面量化自閉症的speech sound error
Speech interaction 的角度上從dialogue的time correlation量化兩者的spoken interaction 使用
自閉症在dialogue之中比較容易展現出speech sound error, 自閉症的social deficit 也是會跟一般人不同的地方,所以我們從vowel space的角度上設計indices來量化這種speech sound error, 我們也分析他們在語音上的spoken interaction,透過從計算語音聲學特徵來量化communication 和 social 相關的autistic trait。
* 自閉症的 speech sound error 有哪些
* Aetiology of Speech Sound Errors in Autism (說自閉症因為無法從環境中去學習正確的方式發音所以speech sound error會留到adult)
* Bishop 藉由發現自閉症的VSA跟autistic trait 有關聯 (Brief Report: Autistic Traits Predict Spectral Correlates of Vowel Intelligibility for Female Speakers)
* Kissine 也發現自閉症有特殊的phonetic inflexibility (Phonetic Inflexibility in Autistic Adults)
*
* 我們藉由計算
### 用詞問題集錦
---
##
Vowel space 在我們實驗的物理意義
---
1. Vowel space size -> intelligibility ,就聽者的角度來看,within越小,between越大其實是增加聽者的辨識程度(McCloy 等。, 2014, p. 15)
2. vowel overlap 和 larger within class variation代表發音的時候不precise,接近小孩講話而非大人講話也可以說是比較低的intelligibility。(Acoustic development of vowel production in American English children)
就speaking style而言,between category distance在clear speech會增加,clear speech會因為speaker的adaptation而出現
| | pearsonr | pearson_p|
|--- | --- | ---|
|VSA | -0.27 | 1.30E-02|
|FCR | 0.34 | 1.31E-03|
|$BCC$ | -0.37 | 4.80E-04|
|$BCV$ | -0.25 | 1.89E-02|
|$Wilks$ | 0.22 | 4.32E-02|
|$Pillai$ | -0.30 | 5.25E-03|
|$Hotel$ | -0.29 | 7.55E-03|
|$Roys$ | -0.24 | 2.76E-02|
|$Det(W^{-1}B)$ | -0.33 | 2.14E-03|
|$Tr(W^{-1}B)$ | -0.23 | 3.37E-02|
|$PearF1F2$ | 0.24 | 2.56E-02|
|$SpearF1F2$ | 0.27 | 1.12E-02|
|$KendallF1F2$ | 0.35 | 1.04E-03|
|$DCorrF1F2$ | 0.44 | 2.06E-05|
|$Mod(Wilks)_{inv}$ | 0.24 | 2.77E-02|
|$Mod(Hotel)_{inv}$ | -0.22 | 4.47E-02|
|Proximity[$DCorrF1F2$] | -0.22 | 4.07E-02|
|Proximity[localJitter_mean(A:,i:,u:)] | -0.28 | 9.75E-03|
|Proximity[localabsoluteJitter_mean(A:,i:,u:)] | -0.32 | 2.36E-03|
|Proximity[localabsoluteJitter_max(A:,i:,u:)] | -0.30 | 5.63E-03|
|Convergence[hnr_max(A:,i:,u:)] | -0.28 | 1.03E-02|
|Syncrony[intensity_mean_mean(A:,i:,u:)] | -0.23 | 3.56E-02|
### TASLP背後的邏輯樹
---
CSS 分ASD的名詞要對
ASD分三類: mild, moderate, or severe
### ASD 的定義越來越多了ㄎㄎ
---
ASD:
1. complex, neurodevelopmental disorder affecting whole brain connectivity and multiple brain networks leading to various social communication, perceptuo-motor, and cognitive/behavioral impairments
2. Sensory-perceptual atypicalities and cognitive/behavioral impairments
來自 Motor Impairment Increases in Children With Autism Spectrum
Disorder as a Function of Social Communication, Cognitive and
Functional Impairment, Repetitive Behavior Severity, and Comorbid
Diagnoses: A SPARK Study Report
### 比較大的問題
---
#### 為什麼ASD跟TD比較要分成三種嚴重程度:
Ans: CSS分mild, moderate, high 是根據ASD 的severity of ASD symptoms而分的 ->
也就是severity of social communication and repetitive behavior -> 這些跟speech production skills 有關因為normal communication relys on language processing and social processing, 這兩個factor 關係到一個人在互動中的講話方式,講話策略,和應對方式
#### feature 設計跟他們的命名方式
feature的名稱
###### tags: `TASLP`s