<style>body {text-align: justify;}</style>
# 利用多模態行為描述因子與行為功能測量來幫助預測自閉症臨床診斷
> [time=Thu, Jan 19, 2019]
> [name=Chin-Po, Chen, Susan Shur-Fen Gau, Chi-Chun Lee]
> ###### tags: `Behaviroal signal processing` `Autism spectrum disorder` `Multimodal descriptors` `Executive functions` `Differential diagnosis`
> [reference](https://biic.ee.nthu.edu.tw/ "title")
> [color=#f45b46]
## 大綱:
眾所皆知,自閉症類群(Autism Spectrum Disorder 簡稱:ASD)有一些很明顯的徵狀,如社交困難、不正常發音、侷限興趣和重複行為,但因為ASD的異質性高(發生在每個人的徵狀都差很多)且又十分氾濫,使得自閉症變成一個越來越受重視的跨領域研究。目前ASD在精神疾病診斷準則手冊(Diagnostic andStatistical Manual of Mental Disorders 簡稱:DSM)的定義中被換了好幾個版本,像是:ASD之中的分類亞群低功能自閉症(Autism Disorder 簡稱:AD)、亞斯伯格症(Asperger 簡稱:AS)、高功能性自閉症(High-Functional Autism 簡稱:HFA) 在往年的版本都有諾大的變動,目的就是要讓自閉症能更完整地被定義。為了解決上述的異質問題,使用計量方法來衡量自閉症的意義變得更重要,因為它能比較客觀穩定得衡量行為,並能衍生出很多潛在的應用。因此在這個研究中我們使用了計量方法,在自閉症診斷性觀察(Autism Diagnostic Observation Schedule 簡稱:ADOS)的訪談過程中計算雙人互動的行為描述因子,並且將這些因子可以用來預測AD、AS、HFA。另外,我們加入了行為功能的測量指標:CANTAB並且發現這個指標可以有效幫助AD VS AS 的預測
## Introduction:
ASD是個神經發展疾病,症狀通常以不善社交溝通,和侷限、重複性的行為為主。要怎麼確切定義自閉症就顯得越來越重要,因為它的異質性使得它非常難定義,而且又十分普遍。據2014年的報告,每六十八個孩童就有一個人有自閉症^[] ,另外8歲孩童被診斷為自閉症的比率從1996年的4.2%上升到2010年的15.5%。自閉症的異質性在於每個個體的的徵狀可以大相逕庭,但是可以歸納出兩種現象:社交障礙,和侷限、重複性的興趣^[]。
通常自閉症的發現是因為父母發現孩子在溝通或是相處時的行為上有異常才會從醫診斷的,大多都發生在嬰孩時期(雖然報告顯示每個個案發現的時間也都差很多)過去的研究顯示自閉症的人跟同期正常發展的人相比有語言上的障礙^[] 自閉症的人往往不跟他人互動,相較之下,正常的小孩會希望交朋友、或是黏著家長之類的需要人的陪伴,因此這個現象就被稱作社交障礙。另外、自閉症的另一項特徵就是重複性的行為,例如:重複做一些特定的動作,或是只注意一些瑣碎的細節(像是看照片不會注意人,反倒是注意一些車子的輪子、或是邊邊角角的地方)。現今有很多普遍的疾病的標準定義,如:ICD-10 ^[] DSM-5^[] Gillberg and Fillberg Criteria 都有提到與自閉症相關的定義,同時也有很多通過臨床驗證的測驗來量化這些社交行為和溝通不正常的徵狀,這些測驗主要分為兩大方式: (1)自評/家長描述 (2)行為觀察訪談。ADOS就是利用行為觀察訪談來測量自閉症嚴重程度的一套方式。ADOS是個半結構化(只定義幾個大方向,但提供施測者能夠自由的發揮要怎麼進行訪談)自發性的面對面互動,由合格的施測者進行,會進行標準化的活動來確認受測者在各個面向的社交行為表現能夠顯現出來,好讓施測者評分。ADOS的評分結果在ASD和正常人之間有顯著的差異,而且ADOS評分可以代表ASD受測者各項社交能力的嚴重程度。
由於自閉症是一個神經發展的疾病,許多研究都朝著了解自閉症個案的認知能力切入,尤其是測量他們的Executive function(EF)。EF在腦神經科學上是腦前額葉負責的功能,Executive function的測量通常可以用來分析神經發展類型的疾病,特別是可以拿來分析自閉症^[]。Hill等人的研究曾說,藉由測量ASD的認知相關能力和Executive function能夠更深入了解自閉症。其中一個典型的例子就是 Cambridge Neuropsychological Test Automated Battery(CANTAB),它是一個電腦輔助的測量軟體,可以測試受測者的空間記憶、專注力、規劃能力。舉個例子:兩個CANTAB的測試項目裡面的Stocking of Cambridge (SOC)和 Intradimentional/Extradimentional shift 測驗(ID/ED)就曾被拿來分析自閉症的個案。就SOC來說,有文獻證明自閉症的個案比起智能障礙的個案花了更多動作來完成測驗^[] ,但是當時的測驗在ID/ED上沒有什麼顯著的效果。另外,Ononoff等人在比較新的論文中提到他們發現SOC和IE/ED上面的測量是有顯著的不同的,只是兩個測驗需要被測量在不同的年齡階段^[]。並更正了他們更早的結論^[] 最後就是Steel等人主張CANTAB裡面的Spatial Working Memory的測試項目可以有效分析出自閉症的個案在working memory上
![](https://i.imgur.com/fH5GS7g.jpg)
醫療上對於ASD的定義不斷地改變,為的是要準確地定義自閉症,但儘管有很多研究已經指出幾個自閉症以群的特徵障礙有哪些,如:社交、溝通、executive function上的缺陷,依目前的發現還是無法準確地定義一套標準供醫療上診斷方便。自閉症定義在歷史的發展上,DSM-3(第三版DSM)將自閉症大略地區分成以下三類:AD、AS、PDD-NOS,但卻在下個版本DSM-4的時候用一個統稱:ASD來概括這些疾病^[]。雖然DSM-4將上述的疾病都歸一而論,但是現今的醫療療程還是會將患者診斷成AD(classical autism)、AS、HFA三種疾病,這三種疾病的關係如上圖:AD、AS、HFA各據一方,代表各自有獨立的徵狀,像是AD很明顯的智能就不足;HFA相較於AD智能表現上就正常許多,可是跟正常人相比卻有嚴重的語言障礙;反而AS沒有以上的缺陷,但是他們雖然沒有行為或語言失調的症狀,在社交表現上卻還顯得不佳^[] ,因此大致上可以這樣分這三個族群。PDD-NOS在這之中就比較沒有明顯的劃分,可能以上的徵狀會偶爾出現一兩項,而且有可能又不太嚴重,因此才將它歸類為「不額外論述的發展疾病」,但他們的行為表現還是會不同於正常發展的人類。然而到了目前為止最新的版本DSM-5,AS(還有PDD-NOS)的定義消失了^[] ,主因是因為在DSM-4的定義上有很多個案根本就很難確認他是AS還是HFA。儘管DSM-5如此定義,已經有很多研究證實AS與HFA的差異了,AS與HFA同時都有社交問題,但問題是來自不一樣的根源^[] ,AS會表現出跟人互動的意願,只是AS在分享或是表達自己的方式會讓人不喜歡^[](太過強硬,或是只愛講他們感興趣的話題),但HFA就本身就沒有主動跟他人互動的舉動。
目前自閉症的診斷面臨許多問題,由於幾乎大部份的ASD臨床診斷依據是來自家長或照護者敘述(ADIR)和觀察量表出來的分數(ADOS)對他們行為上的描述。這種用人工打分測量自閉症的方法會受限於人的主觀性(目前消除主觀判斷的方法是讓不只一個人決定一個個案的分數)以及侷限性(一次最多只能評定一人)^[] 。因此利用數據化資料來分析自閉症就能像分析大量圖片一樣,延伸診斷的效率及診斷規模,這也伴隨著需要醫療與工程兩種領域的結合。利用訊號處理、機器學習等演算法會是個有潛力的方式,直接從影音資料中分析自閉症的行為,能改變目前自閉症診斷需要大量人力的困境,且能將各項判斷變得更客觀^[]。
使用數據方法分析自閉症還有一個優點就是,能夠同時對於施測者與受測者的動作行為進行評分,這點是目前被視為公認標準的ADOS無法做到的事。理由是:施測者在施測時需要配合受測者的舉動來引導他完成整個訪談,因此會要求施測者同時扮演互動的角色,也要同時評分受測著的行為。因此其實ADOS的評分往往受限於受測者本身的行為表現,但其實在施測者與受測者的互動過程也能透露出一些訊息幫助我們診斷受測者,例如:施測者為了讓受測者完成測試使用的策略。因為如此,近期有很多研究也是在相同的邏輯之下,用行為資料處理的相關演算法來計算輔助行為訪談量表,並能測量到量表無法測量的部分。舉個例子:曾有研究就是用數據處理的方式介入婚姻治療,以及動機式晤談。以數據的角度出發,我們可以將ADOS視為兩個部分:(1)會談設計:一些社交模擬情境來引發出受測者的自然表現,但ADOS強調「半結構」設計,也就是雖然有主要流程要跑,可是如何執行這個流程能夠很有彈性的讓施測者應變。(2)ADOS評分:施測者對於各大重點項目的評估。我們先前同樣使用影音數據分析自閉症在ADOS訪談中的行為有了初期的成果,基於影音資料計算出的行為計算因子能預測三個自閉症的子群:AD、AS、HFA^[]。在這份研究中我們擴增了受測者的人數(總共60人),並應用行為計算和機器學習演算法來預測AD、AS、HFA,並且我們列出以下三點貢獻:
1. 從蒐集來擴增之ADOS訪談中的影音資料,計算多模態行為描述因子。
2. 利用多模態行為描述因子結合CANTAB的行為能力測量來預測自閉症亞群。
3. 計算來自影音資料的行為描述因子與CANTAB測量的相關性。
我們蒐集了60個ADOS訪談中的影音,來模擬大規模收集的資料,這些影音資料我們拿來計算多模態行為描述因子,裡面包括了:身體動作、語調、以及turn-taking時長相關的資訊,我們不只導出受測者的行為描述因子,我們另外也將施測者、以及施測受測人的交互行為描述因子都考慮進來。我們另外加入CANTAB 對於Executive function的測量數值,這些資料會被拿來加強我們的系統,同時也用來與行為描述因子一起分析就我們所知,這是目前為止第一個使用大量資料,在嚴格執行ADOS之下蒐集而來的影音資訊,並且用機器學習的演算法,來針對ASD三個類別子群做自動分群,並且加入executive function 數據分析。
## 文獻探索
過去也有很多人使用互動影音數據化方法來研究自閉症,比如:Bone 等人示範在ADOS下用了施測和受測者的聲調特性來加強他們的系統自動化的預測ASD的嚴重性^[] 。Li等人用ASD在診察時的聲音與臉部表情來自動辨識自閉症^[] Leclre等人分析較小年紀的ASD受測者,用microsoft kinect 蒐集小孩子在跟家長玩遊戲的時候的3D影像,來預測CIB的分數Shuller 等人推出了一個能夠輔助教導自閉症小孩與人互動技巧的電腦產品^[] 。最後,Ringerval等人釋出了一個有關語言障礙孩童的語音資料庫提供給研究者研究幼年語音障礙,自閉症幼童也被包含在內。這份資料後來也被用在INTERSPEECH的Challenge ^[]。
## 使用之自閉症影音資料庫
我們資料庫使用了兩種ADOS和CANTAB兩種量表來衡量自閉症的嚴重程度和個案能力
### Autism Diagnostic Observation Schedule(ADOS)
ADOS是現任評估ASD嚴重性的黃金標準,大致上ADOS依照語言年齡簡單分成四個模組:M1到M4。M1是給最低語言等級的,M4為最高。評分的方式是來自專家觀察並且用半結構化訪談設計來進行的,執行的時候會有一施測者與一個受測者進行一對一面對面的互動,施測者在邊扮演互動的角色的時候也同時扮演評分的角色,為受測者的各項活動能力(各項社交缺陷嚴重性)評分,在我們的資料中,受測者大部份是青年人(12-18)
表二的左半部是ADOS裡面的活動項目,主要有四大類別:語言溝通,社交互動,遊戲、想像力、侷限興趣。
* 語言溝通單元用來測驗受測者的表達能力,像是指向物品(PNT)、報告事件(REPT)
* 社交互動測量測受測者在和施測者互動的時候的反應,像是「相互性注意力」(IJA)
* 遊戲、想像力是測驗受測者如何發揮想像力從一本只有圖畫的繪本裡講出一個故事。
* 侷限興趣是在詢問受測者問題之後得知受測者的興趣等等資訊,進而判斷有沒有侷限興趣的問題。
整個ADOS會執行40-60分鐘,可以被拆成兩個部分來分析:1)社交(一些互動遊戲來激發受測者的自然反應)。2) ADOS分數評量(一個有公信力的分數代表受測者的自閉症嚴重性)
#### 1)採用之ADOS社交場景
在這個研究中我們採用ADOS的「情緒」單元,內容主要是施測者會問受測者有關感受的問題(如:碰到傷心事的時候會有什麼感覺),進行時間大約會進行2-10分鐘不等,會根據施測者認為有沒有問夠問題,足不足以拿來評分為準。在我們的資料中幾乎是施測者問,受測者回答的形式這種一來一往的對話形式,而經過我們觀察大部份對話都是由施測者問話開始
#### 2)ADOS分數評量
ADOS評量出來的行為分數,來自觀察者(施測者)進行活動當中,照著ADOS 訪談量表上的項目給予的評分,評分總共有28個項目,但是在四個大項目之下(語言溝通,社交互動,遊戲、想像力、侷限興趣)。每個項目的分數最後會被匯集起來,變成一個加總後的分數,因此會有語言溝通,社交互動,遊戲、想像力、侷限興趣這四種類別的總評分,最後的這四大類評分往往才會成為診斷自閉症的依據。總而言之ADOS行為評分可以說是由觀察者主觀觀測得來的行為評分。
#### 3)影音資料
這個小節會講解我們蒐集影音資料。首先資料來源是從台大兒童醫院進行ADOS過程拍攝下來的,我們架設兩台Sony高解析度攝影機與用兩個領夾式麥克風收音,三台攝影機分別朝向受測者和施測者,還有一台從側面側錄兩人的對談;兩個麥克風形成兩軌音效由一台mixer同步,而影音方面的同步會由一個打板器的聲音來輔助後續影音同步。因此在錄完影音後,我們會有三個角度的畫面,以及兩個音軌的近場音效。圖二是我們的拍攝模擬圖片(為了受試者的隱私,我們只公布模擬照片)。這篇研究中,總共人數為60人(受測者的基本資料分佈展示在表三),且都是臨床診斷為自閉症的患者。受測者的臨床診斷書(AD、AS、HFA)是由各個受試者小時候的就醫被診斷出來的,診斷方式也是來自ADOS、ADIR、還有其他診斷方式綜合的判斷結果。另外,本研究之中的一來一往對話都是由人為切出來的
### execution function的評分-CANTAB
CANTAB是個電腦測驗,用來測驗人的execution function、記憶、專注力、反應力等行為能力。過去CANTAB拿來檢驗一些神經發展的疾病,像是ASD、過動症(ADHD)、智能障礙等...,在表一列出了CANTAB所有的測驗項目,而幾個主要的測驗項目在下文會簡單介紹:MOT、BLC是一開始的暖身題,為待會的測驗準備,DMS、PAL、PRM、SRM被歸類為視覺記憶類型測驗,AST、IED、OTS、SSP、SWM、SOC被歸類為execution function、籌備能力等的類別,CRT、MTS、RVP、RTI、SRT等的被歸類為跟專注力有關聯的測驗,最後是CGT、IST、SST、ERT被歸類為決策判斷、反應控制的測驗。總共參與CANTAB測驗的總人數為52人,比有收錄影音資料的個案(60)人還要少一點。在三列出參與人數的背景資料分佈。
### 研究方法
這個章節會介紹如何計算影音資料得來的多模態行為描述因子(圖三示意清楚的流程)。第一,我們從影音資料算出第一階粒度特徵(影像上採用動作特徵);第二,我們將從上步的特徵經過統計方法算出第二階區間特徵(turn-taking語音片段特徵,施受測三種角色皆有);第三,我們接著導出第三階特徵,方法是將上個階段特徵用六個統計值來描述。第三個階段的輸出會是一個向量,代表最終行為描述分數,在這個過程,我們計算了施測者、受測者、還有兩兩行為交互的描述分數(第二階段時區分)作為輸入,來預測AD、AS、HFA。
接下來介紹本篇文章用的符號表示方式:
$\sigma-[Pitch^{investquest}_{invest}]$
這個符號代表說我們取語音特徵Pitch作為第一階行為描述因子,在第二階段用平均($\sigma$)的方法,在investquest的turn-taking區間(在章節3.2會提到)算出代表invest(施測者)的第二階行為描述因子,而所有二階行為描述因子會一併算出圖三所示的統計值,才當成最終的第三階行為描述值。
#### 動作與聲音的行為描述因子
##### 動作行為描述因子
本文中我們採用Action Energy(AE) 來作為我們描述動作的因子。Action Energy可以描述每人每幀的動作量,算式如下:
首先,計算每幀的光通量再套上中值濾波器$M$進行平滑,可以得到移動向量$\omega=(u_{t},v_{t})$,找出首幀移動的點後開始追蹤那些點,每15幀追蹤一次,公式:
$P_{t+1}=(x_{t+1},y_{t+1})=(x_{t},y_{t})+(M*\omega)|_{\bar{x},\bar{y}}$
上式,$P_{t+1}$ 為Dense trajectory 由Wang 和Schmid等人提出^[] ,常被用在一些動作的預測^[] 。為了演算法上的限制,我們以15幀( ~0.5秒 )為單位,將第2~15幀的Dense trajectory數量平均起來作為基本單位,在本文中稱作Action Energy(AE)。在我們算出每15幀的AE後($P(i)$),接著我們用以下公式:
$NBAE(i)=\frac{P(i)-\mu}{\sigma}$
上述公式中的$\mu$與$\sigma$都是針對個人整場的資料中得出來的,因此NBAE(i)在計算每人對於自己的相對動作量,我們稱作Normal Body Action Energy(NBAE),是一維的向量。
##### 語音行為描述因子
語音特徵上我們用了以下低階語音描述特徵:Pitch intensity HNR jitter shimmer (總共五個維度),這些語音特徵是用Praat toolkit^[]算出來的。這些語音特徵以每10 ms為單位,經過Z正規化的方式來計算每個人相對於自己的語音描述因子。這些描述因子的意義為:
1. 頻率相關特徵:Pitch、intensity
2. 語音品質相關特徵:HNR、jitter、shimmer
這些特徵在過去的研究中皆呈現不錯的預測成果,比如:Pitch的曲線和音量曾被拿來說明與情緒的關係^[] 。語音品質相關特徵如HNR、jitter、shimmer被拿來測量聲道受損的聲音,像是氣音或是喉音^[] 。另外有很多文獻探討了自閉症的怪異行為包括會發出一些高頻刺耳的聲音^[] 。這些怪異的聲音在某些研究中,被證實可以被一些語音特徵統計組合來預測比方像是近來,Bone等人藉由運算來自施受測者語音特徵來預測受測者的自閉症嚴重程度,在他們實驗中也是取了ADOS中的emotion^[]
##### turn-taking 行為描述因子
Turn-taking意思是當人在交談的時候自然而然的形成一個你一句,我一句的狀態,而且有些研究也發現部分自閉症的人會有Turn-taking技巧上的缺陷,例如:過去文獻曾指出自閉症的人與別人交談時不順暢,搞不清楚何時該接話,因此在一些輔導課程會將Turn-taking納入教學之中。
[圖]
Turn-taking在本文的角色是:我們會在Turn-taking區間內算出第一階特徵的統計值,來代表第二階行為描述因子。接下來我們解說在本文我們怎麼定義Turn-taking,Turn-taking的定義在於每次換人說話的時候(turn exchange),而turn exchange就是定義從一人說話開始到另一人接話結束的過程。從上圖可以看到我們把Turn-taking分成三個部分:施測者(Investquest)問話、間隔(gap)、受測者答話(Partresp)。在我們的資料中的狀況是,幾乎所有對話是由施測者問話,受測者回答。investquest是從施測者的問題開始到問題問完的時間點,gap是從施測者的問題問完開始到受測者開始回答的中間反應時間,partresp則是受測者回答開始到結束,然後這三個區間合起來算一次的Turn-taking,而這三個區間的時間也被當作一種行為描述特徵。另外,會有一些情況是:受測者的回答在施測者的問話之前(搶話狀況),在這種情況中,gap就是負的值。
##### Turn-taking區間特徵(第二階描述因子)
第二階描述因子我們稱為Turn-taking區間特徵,是在上述的turn-taking區間中的統計值,我們取平均(Mean)、標準差(std)來當作我們的統計方式。在一次的Turn-taking當中,我們計算施測者、受測者、施受測交互關係特徵才會進行下一步處理。記名方式的話,施測者的特徵我們用Intra-Invest來表示,同樣地,Intra-Part表示受測者;Inter-Behavior表示交互關係。在後面我們會簡單介紹這三種角色的代表的意義。
##### Turn-taking區間的NBAE
我們取Turn-taking、investquest、gap、partresp區間範圍內的平均作為Turn-taking區間的NBAE。施測者與受測者在Turn-taking區間的NBAE間的運算可以代表兩者的交互關係,本文中表達方式為:$\mu-[NBAE^{ivestquest}_{inter}]$。$\mu$代表統計方式用的是平均上標ivestquest代表在ivestquest的區間內計算出來的值,下標inter代表是施受測的交互關係,施受測者交互關係我們拿施測者和受測者相減來表示,總共會有維度為12的區間NBAE。
##### Turn-taking區間的語音特徵
和NBAE一樣,語音特徵上,我們同樣在turn-taking區間內取統計值代表Turn-taking區間語音特徵,這個階段也會有施受測者,以及他們的交互關係的特徵,統計值上我們取平均和標準差兩種統計值。另外,在計算Pitch intensity HNR的時候我們會取0.5s的窗的平均,讓語音特徵的基本單位為0.5s(與NBAE的單位同步)。以$\mu-[Intensity^{ivestquest}_{invest}]$為例子來解釋:上面的式子意思是在$ivestquest$區間中計算$invest$的語音特徵,Intensity。Turn-taking區間的語音特徵總共的維度為12。
##### Turn-taking區間特徵
Turn-taking區間特徵我們採用Turn-taking區間:Investquest、Gap、Partresp還有三者合起來的Turn-taking的時長作為我們的特徵。與影像和聲音特徵一樣,我們也計算了Turn-taking的交互特徵(時長的比例),像是:Investquest/Gap 、 Investquest/Partresp 就分別相當於Investquest除以Gap時長和Investquest除以Partresp時長,最後我們得到的Turn-taking區間特徵共有9個維度。
##### 第三階描述因子
第三階描述因子為將第二階Turn-taking區間計算六種統計量(5%百分比 95%百分比 中位數 平均 標準差 四分位距)的特徵,每人在每個模態會有總共為一條的向量,因此可以表達一個多模態的特徵。這種計算統計量的作法在過去的文獻中也曾被用在情緒的辨識上^[]。第三階描述因子在接下來的階段將會被用來預測自閉症的三類亞群。表四統合了我們從第一階段到第三階段(最終階)特徵處理所使用的統計方法及特徵。
### 實驗與結果
我們用了三個實驗來驗證我們的研究:
* **實驗一:** 用多模態影音資料特徵預測ASD亞群(AD vs AS, AS vs HFA, AD vs HFA二類預測,AD vs AS vs HFA三類預測)
* **實驗二:** 多模態特徵融合CANTAB子集合分數聯合預測ASD亞群
* **實驗三:** 分析多模態特徵(來自ADOS訪談)與CANTAB分數(來自電腦測驗)的相關性
本文主要使用的分類器為logistic regression,另外還跟其他同是知名的分類器:support vector machine、Random forrest比較,結果分別放置於表5~8。分類器主要使用logistic regression是因為logistic regression比較不會過擬合在少量的資料上。另外,CANTAB測驗得出來的數據維度巨大(100項以上),因此我們在加入多模態特徵融合前先進行步進的特徵選取選用與標記(ASD 亞群)比較相關的那些變數。步進特徵選取的方式採用單變數步進特徵選取來計算變數與標記的F-value。表9(底部)呈現步進特徵選取過後的CANTAB資料預測ASD亞群的分類結果。整個實驗採用Leave One Out進行交叉驗證,預測分數的衡量採用Unweighted Average recall(UAR)來計算。
#### 實驗一結果討論
![](https://i.imgur.com/g9FLtK7.png)
表十列出我們多模態特徵對於AD vs AS, AS vs HFA, AD vs HFA二類預測,AD vs AS vs HFA三類預測的結果。簡單總結,多模態特徵的最好的預測結果分別是0.68、0.80、0.76、0.54,和我們預設的Baseline(ADOS 高通和社交分數)0.65、0.46、0.60、0.43相比,有比較優越的成績。個別任務的預測上,在AD vs AS的結果中$\mu-[NBAE^{gap}_{inter}]$+$\mu-[Intensity^{investquest}_{invest}]$+$\mu-[Duration^{investquest}_{intra}]$的多模態特徵有最好的預測結果,而這三個模態中的兩個模態的特徵來自investquest的區間。$\mu-[NBAE^{partresp}_{invest}]$+$\mu-[Intensity^{investquest}_{invest}]$+$\mu-[Duration^{gap/investquest}_{inter}]$與$\mu-[NBAE^{gap}_{inter}]$+$\mu-[Intensity^{investquest}_{invest}]$+$\mu-[Duration^{gap}_{intra}]$預測能力也都超過Baseline(都是0.66)。由於這些特徵許多都來自investquest區間,因此有可能investquest區間算出來的特徵對於預測AD vs AS有非常大的幫助。預測AS vs HFA的結果最好的多模態特徵為$\mu-[NBAE^{investquest}_{Part}]$+$\sigma-[Pitch^{partresp}_{part}]$+$\mu-[Duration^{investquest}_{part}]$在分析過其他高過Baseline的特徵後(用粗體字標註)我們發現$\sigma-[Pitch^{partresp}_{part}]$扮演重要的腳色,這個特徵代表著在受測者回答的時候他的聲調變異程度,而這個特徵和ASD的預測有關係的原因可能來自於AS在這種雙人對談當中表現得比較有豐富的聲調^[]。另外、$\sigma-[Pitch^{partresp}_{part}]$本身對於AS vs HFA的預測效果為0.63,也驗證了它在這個場合預測的重要性。$\mu-[NBAE^{partresp}_{invest}]$+$\mu-[HNR^{partresp}_{part}]$+$\mu-[Duration^{gap}_{intra}]$在預測AD vs HFA的時候有最好的結果。$\mu-[HNR^{partresp}_{part}]$代表一種聲音的不飽和性,發生在partresp的受測者聲音,語音中的不飽和性可能來自於沙啞或是氣聲的聲音,可以猜測這種聲音的出現次數可能影響著AD vs HFA的預測。另外,$\mu-[HNR^{partresp}_{part}]$本身的預測力為0.61,也是具有影響力的一個特徵,且加上其他兩個模態增加了它的預測能力。最後是預測AD vs AS vs HFA三類預測,使用的多模態特徵為:$\mu-[NBAE^{partresp}_{invest}]$+$\mu-[Intensity^{investquest}_{invest}]$+$\mu-[Duration^{gap/investquest}_{inter}]$,這個多模態特徵在AD vs AS的目標上有不錯的表現,在三類預測上也同時呈現不錯的成果(0.54)。
經過觀察,我們發現在investquest(施測者問話)區間的特徵占了很大的比例,Bone之前的假設,就是施測者在執行ADOS訪談時的行為也可以映照出受測者的自閉的嚴重程度。
![](https://i.imgur.com/wFPj9Lk.png)
#### 實驗一分析
我們用t-test檢定來檢視兩兩目標族群中,各個模態第三階特徵值的相關性(表上數值)和有沒有顯著的差異性(標註$*$號)。表十一列出三種模態、第三階特徵所用的統計值,以及在AD vs AS、AS vs HFA、AD vs HFA兩兩族群間的多模態特徵差異。在AD vs AS的比較中,施測者的NBAE在gap區間的區間平均量在AD和AS的個案間有顯著的差異。$\mu-[NBAE^{gap}_{invest}]$的相關性數值為-0.05代表施測者在與AS互動時的量大於與AD互動的時候。對於語音特徵來說,$\sigma-[intensity^{investquest}_{invest}]$普遍在AD的時候比較高,這代表著施測者在施測者問話時的聲音音量(intensity)的標準差在與AD互動時比較高。再來看到AS vs HFA,$\mu-[NBAE^{gap}_{invest}]$的結果是AS明顯高於HFA,但是在$\mu-[NBAE^{gap}_{inter}]$卻呈現相反的結果,表示決定性的因素應該是在於$\mu-[NBAE^{gap}_{part}]$。和AD vs AS的結果綜合比較,結果顯示施測者在與AS互動的時候會有比較多的動作。另外在分析語音特徵的時候,我們發現受測者平均的pitch的curvature IQR、Curvature max、Slope max在HFA是比較高的。接著,Turn-taking時長特徵分析上,AS個案的$\mu-[Duration^{gap/investquest}_{inter}]$特徵出現比較低的數值,這種現象可能有兩種方式去解釋:不是gap比較短就是investquest比較長。但這都意味著AS在與施測者互動的時候會有比較高的互動性,講話時間也比較長。在AD vs HFA的預測上,$\mu-[NBAE^{gap}_{invest}]$在AD時比較高。在分析聲音品質的時候卻是HFA比較高,這結果與$\mu-[pitch^{partresp}_{part}]$一樣,因此可以推測HFA在ADOS訪談的時候口語表現比較正常,然而施測者聲音的豐富程度卻呈現AD高於HFA的情況,這有可能來自於,施測者需要用比較豐富的方式來主導訪談,使受測者能完成測驗。最後,對於Duration(Turn-taking時長)來說,gap和gap/investquest的數值都是HFA比較高。
![](https://i.imgur.com/zS1fa8K.png)
### 實驗二結果與討論
我們將CANTAB測驗分數與ADOS訪談的多模態影音特徵融合可以達到更好的效果,融合的方法使用特徵相接。在加入CANTAB的實驗中,參與的人數只有52人,所以我們附上這52人純多模態影音特徵結果(表九斜線左邊)及加入CANTAB融合後結果(表九斜線右邊)。我們預先用步進特徵選取法選出F-value比較大的值,將CANTAB中的變數與預測標記比較相關的特徵先選出來,形成我們拿來預測AD、AS、HFA的CANTAB子集合。CANTAB子集合結果為:0.76、0.81、0.74、0.54,分別對應到AD vs AS、AS vs HFA、AD vs HFA及AD vs AS vs HFA四種任務。步進特徵選取法選出來的特徵,在AD vs AS任務中選出了[ PRMmcL, SRMmcL, PALmsE, PALftS, PALtT, PALtTA]這幾項評分;在AS vs HFA任務中選出了[SRMmcL, DMSmcLS, DMSpc4, DMStC, DMStC4, PALtT, SOCitT3, SOCitT4, SOCstT4, BLCtE, RVPrN];在AD vs HFA任務中選出了[PALft, PALmsE, PALmsT, PALftS, PALtE, SWMdE8, SWMtE, SWMwE, SWMwE6, SWMwE8, SOCmM2, SOCmM3, SOCmM4, SOCstT3]裡面的子集合;最後AD vs AS vs HFA的任務中選出了[PRMmcL, DMSmcLS, PALtE, PALtT, PALtTA, SSPtuE, SOCstT3, SOCstT4, BLCmcL, RVPrN, SOCstT]裡面的子集合。實驗結果顯示,在加入CANTAB的資訊後可以提升純粹多模態影音特徵的預測準確性,有些甚至可以超越CANTAB子集合的分數。由結果可以推論CANTAB的資料有與多模態影音特徵相關或者互補的特性,有關於這兩類不同方式得來的特徵之間的相關性,我們在實驗三會進行分析。
![](https://i.imgur.com/XqRnqkF.png)
### 實驗三結果
接下來我們用pearson correlation計算影音多模態特徵與CANTAB測量的execution function的相關性。我們將相關性的結果置於表十二,我們僅列出相關性高於0.5的結果。首先,$Duration^{gap/investquest}_{inter}$的5%百分位和Rapid Visual Processing中的RVPB測量值為負相關(-0.61,$\rho$<.001),且與RVPfaP為正相關。RVP所測量的是受測者的認知功能和注意力維持能力^[] ,過去的文獻中也有探討自閉症個案的行為和記憶力維持缺陷,例如:Ozonoff等人記錄了HFA的行為記憶^[] ;還有Hellen等人認為ASD異常專注的注意力可能來自他們比較不願意面對外部刺激。另一方面,$Duration^{gap/investquest}_{inter}$的值如果比較高,可能來自於比較長的gap或者比較短的investquest時長,這兩個現象可能是來自於兩人的對話比較像是偵訊般的一問一答,比較少聊天般的對談。在我們的數據中呈現的是,HFA大於AS、AD,可能的解釋是,HFA能夠對答流暢,但是沒意願進行其他話題的交談。總之,這項turn-taking時長特徵能夠表現一種比較質詢式的交談方式,然而對於execution function和行為方面的關係,更細節的解釋就需要往後更縝密的分析。接著,兩項DMS下面的子集合DMSpCS、DMStCS與$\mu-[HNR^{partresp}_{part}]$和$\sigma-[HNR^{partresp}_{part}]$(施測者的語音特徵)呈現相反的關係($\rho$<.001),更精確來說,DMS測驗的正確率(百分比正確率和總正確率)和investquest區間HNR的變化程度的中位數是有相反的關聯性的。另外,DMS的設計是為了測量視覺記憶,而這個能力與專注力有關^[]。在ADOS訪談中,受測者專注力的行為表現可能會影響到施測者需不需要改變他說話語調方式,因此反應在施測者的發音品質特徵上面(HNR)。最後,SOC測量下的SOCsT2與$\sigma-[Pitch^{investquest}_{invest}]$(施測者的語音特徵)呈現負相關($\rho$<.001)。$\sigma-[Pitch^{investquest}_{invest}]$(的斜率和曲率最大值)代表的是ADOS emotion模塊訪談下的音調變異度,另一方面,SOC所測量的是受測者的行為記憶^[],換句話說,比較好的行為記憶會與施測者的語音特徵在emotion模塊的變化少的現象有相關,或許這類的受測者比較能正常地回答關於情緒方面的問題而不用讓施測者用其他迂迴的方式問完該問的問題。
![](https://i.imgur.com/eoc3XDa.png)
### 討論
從統計結果來看,AD明顯的行為差異可以展現在施測者音量的變化程度$\sigma-[intensity^{investquest}_{invest}]$,AS個案可以藉由施測者的動作量來預測,特別是在Gap的時候。AS個案常被說會用不恰當的方式和別人互動(^[]) ,但是一般生活技能學習發展都正常(^[]) ,這點能跟AD區隔開來,並且相對於HFA來說,AS比較有向他人互動交流的意願(^[]) 。接著我們發現對於聲調的變異度($\sigma-[pitch^{partresp}_{part}]$)和語音的飽和度($\mu-[HNR^{partresp}_{part}]$)來說,HFA會高於另外兩類族群。這或許和專注力與行為記憶力有關係,且會影響到execution function^[] ,但是詳細情形還有賴於往後更細微的研究觀察。HFA是個有自閉症狀卻能展現正常行為功能的自閉症亞群,這個結論與過去的文獻說:AS與HFA比AD有更高的認知行為功能相符(沒發現認知和語言能力發展延遲)(^[]) 。最後,Turn-taking中Gap與ivestquest的時長比例在HFA的情況會比較高,我們假設比較順暢的Turn-taking模式能夠降低這個數值,然而AS仍然稍低於HFA,詳細的情形也是有賴於往後更深度的調查。
本文的實驗和發現可用以下來總結,首先我們使用了ADOS訪談下錄的影音資料,計算出訊號驅動的人類行為數值,並且證明它具有效力能夠預測自閉症的三個亞群(由t-test證明)並且在配合legistic regression分類器能夠達到分別為0.68、0.80、0.76、0.54的UAR。另外,我們還發現不只是受測者本身的特徵值,就連施測者,還有施受測者之間的交互關係都可能會是能預測ASD的關鍵要素,因此藉由從影音資料中計算訊號驅動的人類行為數值,讓我們可以發現自閉症三個亞群之間更細微的變化。接著實驗二展現了加入測量內在認知行為能力execution function資料能夠提升對於三類預測的準確率。我們假設訊號驅動的行為數值能夠提供額外資訊輔助已認證的醫療上認知行為測驗(CANTAB)。實驗三反而是讓我們探討是否從我們從ADOS訪談計算的行為數值與個案的認知行為資料有相關聯性。
### 結論