:dart: W8 - Productivity and Lexical Bundles === <!-- ## Table of Content [Toc] --> ## 名字:俞辰 ### Statistical Inferential Test 描述性統計允許您描述資料集,而推斷性統計允許您根據資料集進行推斷。 **描述性統計** 使用描述性統計,您可以報告資料的特徵: * 此分佈涉及每個值的頻率。 * 集中趨勢 涉及數值的平均值。 * 變異性涉及值的分佈程度。 在描述性統計中,不存在不確定性——統計數據精確地描述了您收集的數據。如果您從整個人群收集數據,您可以直接將這些描述性統計數據與其他人群的數據進行比較。 **推論統計** 大多數時候,您只能從樣本中獲取數據,因為從您感興趣的整個總體中收集數據太困難或太昂貴。 描述性統計只能總結樣本的特徵,而推論統計則使用樣本對更大的總體做出合理的猜測。 對於推論統計,使用隨機且無偏的抽樣方法非常重要。如果您的樣本不能代表您的總體,那麼您就無法做出有效的統計推論或概括。 [Reference](https://www.scribbr.com/statistics/inferential-statistics/) ### Sampling Without Replacement 放回抽樣: 想像一下,您有一罐 12 顆獨特的玻璃珠。如果您從罐子中進行替換取樣,則隨機選擇任 1 顆玻璃珠的幾率為 1/12。選擇一顆珠子後,將其放回罐子中,這樣在以後的取樣中選擇 12 顆珠子中任何一個的機率都不會改變(1/12)。這意味著如果您重複該過程,您完全有可能隨機取出相同的珠子(在本例中為 1/12 機會)。 無放回抽樣可以定義為隨機抽樣,不允許抽樣單位出現多次。現在讓我們透過一個快速範例來了解無替換採樣的工作原理。 想像一下,您有一罐 12 顆獨特的玻璃珠。如果您從罐子中取樣而不更換,則隨機選擇任何 1 顆玻璃珠的幾率為 1/12。選擇珠子後,它不會返回到罐子中,因此在未來採樣中選擇剩餘 11 個珠子中的任何一個的機率現在為 (1/11)。這意味著,每抽取一個額外的樣本,罐子中的珠子就會越來越少,直到最終沒有更多的珠子可供採樣(12 次採樣後)。 [Reference](https://towardsdatascience.com/understanding-sampling-with-and-without-replacement-python-7aff8f47ebe4) ### Fuzzy Set Theory 由美國人札德(L.A.Zadeh)在西元一九六五年創立的一種數學理論。是一門以量化方法處理模糊概念的學問。強調人類的思維、推理及對周遭事物的認知,在本質上都是相當模糊的,因此認為以精確為導向的傳統分析方法,已不完全適用於以人為中心的系統上,必須以模糊算則分析法取代傳統的數量方法。此種理論的應用領域非常廣,舉凡以生命行為為主要角色的系統所組成的體系,都可以此理論探討之。以工業設計為例,結合此種理論之產品將更為人性化,符合實際的需求,如洗衣機將可隨衣物多寡、髒汙程度等而自動調整水位與清洗時間;冰箱則可隨食物種類、數量而調整溫度等。這些產品將明顯產生節省水電的效益。 模糊理論以模糊集合為基礎,以研究不確定事物為目標,接受模糊現象存在的事實,乃傳統集合論的擴展。一般數學上所謂的集合稱為明確集合(crisp set),係以特徵函數(characteristic function)描述個體與集合的隸屬關係,採用非0即1的二分法,不存在任何模糊地帶,為當代二值邏輯和二進位電腦的科學基礎。然而,在真實世界中,模糊概念到處存在,許多事物的性質是模糊的、關係是模糊的,甚至人類有許多語言和思維也都是模糊的。例如:這本書和那本書很類似;他開車有點快;那所圖書館很雄偉;這張照片拍得相當漂亮等。模糊集合以所謂的歸屬函數(membership function)來定義個體與集合的歸屬程度,其值是介於0到1之間的任何值:當個體屬於集合的程度越大時,其歸屬程度就越接近於1,反之則越接近於0。 [Reference](https://pedia.cloud.edu.tw/Entry/Detail/?title=%E6%A8%A1%E7%B3%8A%E9%9B%86%E5%90%88%E7%90%86%E8%AB%96&search=%E7%89%A9%E7%A8%AE) --- ## 名字:瓈萱 ### Fuzzy set theory 模糊集合論 - 模糊理論(Fuzzy theory) fuzzy=模糊的觀念/概念 是模糊集合(fuzzy set) 模糊關係(Fuzzy Relation )模糊邏輯(Fuzzy Logic) 模糊控制(Fuzzy control) 模糊控制(Fuzzy Control) 的總稱 - Fuzzy Set theory (模糊集合論) 從classcial set theory(crisp set theory)衍生而來。是為了解決真實世界中普遍存在的模糊現象,用數學來描述語意式的模糊資訊的方法。 傳統上的集合論是給定一個x元素和一個Y子集合,那x和Y之間的關係要麼就是x屬於Y,要麼就是x不屬於Y,兩者只有一者會成立。基於這個概念因此有了聯集、交集、補集。 但有些「概念」是無法用二分法去區分的,例如:老、年輕、小孩....等(什麼條件算年輕??25歲?18歲?) 這些概念本身就是模糊的所以也沒辦法用二分法去判斷元素x是否為這個集合的一員,因此fuzzy set theory 有別於傳統集合論的觀點,把x屬不屬於某個集合用0~1之間去表示,去代表他屬於這個集合的『程度』為何。而也因此每個集合的成員之間是有程度的區別。 ![圖片 1](https://hackmd.io/_uploads/Bkwzh6ElR.png) 例子:如果180公分是高的話 有一個178公分的人,用傳統的集合去分類的話就會屬於不高,但用Fuzzy set 的定義來說 178公分已經算很高了 ![image](https://hackmd.io/_uploads/ByahR2NlC.png) - 歸屬(隸屬)函數μA(x) 用來表示元素x的歸屬於集合A的成度函數稱稱作歸屬函數,其值介於0~1,越接近1代表元素x屬於集合A的程度越高,越接近0屬於集合A的程度越低,計算方式有很多種,常見的以下有六種 ![圖片 1](https://hackmd.io/_uploads/Syi8n6ElC.png) 這篇文獻用到的是梯形歸屬函數去計算 ![圖片 1](https://hackmd.io/_uploads/H1dt26Nl0.png) [reference](https://medium.com/@andy6804tw/%E6%A8%A1%E7%B3%8A%E9%82%8F%E8%BC%AF%E7%B0%A1%E4%BB%8B-315ca767dcfd) [reference](https://zh.wikipedia.org/zh-tw/%E9%9A%B8%E5%B1%AC%E5%87%BD%E6%95%B8) [reference](https://api.lib.ntnu.edu.tw:8443/server/api/core/bitstreams/2f9dcd76-24aa-4404-81b7-4bc4b6c5e02b/content) ### Baayen's criterion - 什麼是 morphology productivity? 語言當中很多字都是有內部結構,舉英文來說,-ness 的結尾通常是加在形容詞後面,並且有這個字尾的字通常是名詞,而這群字也有差不多的意思,那我們就可以說所有具有ness 字尾的字屬於一個mophological categories。 而不同的mophological categories 會有不同的狀況,有些categories的成員可能是固定的,或是不多 甚至有可能有漸漸減少的趨勢(可能隨著時間的更動 越來越少人使用)而有些category 中的成員會增加 如果呈現增加的趨勢,就可以說這個型態的類別是productivity 的。 - Baayen’s criterion 用來測量 mophological categories productivity 的程度,方法有三種 1. Realized productivity 計算語料中這個類型的字(ex.有-ness結尾的)總共造出多少不同的字 (frequency) 不同categories 互相比較 越高的代表創造力越高 2. Expanding productivity 計算方式:看整個語料中 這類型的字並且只出現一次 /所有只出現過一次的字 這是要去算這個類型創建新字的比率高不高,如果在語料中很多這種造字類型的字都只出現一次 就代表他很容易產生新的字詞,也代表這個morphological category 很容易增加新的成員(所以才會叫expanding,category 可以變越來越大 也代表他的productivity 是高的) 3. potential productivity 計算方式:語料中 這類型只出現一次的字/這類型所有的字(ex. 全部有ness 的字) 算出來代表這個類別的“飽和度”所以如果算出來的值越低,代表這類別能產生出新字的可能性會更高。 [reference](https://www.linkedin.com/advice/0/what-some-techniques-measure-morphological-productivity-asucf) [reference](https://) ### --- ## 名字:植棻 ### Baayen’s measures of productivity 以suffix為例,解釋以下三種計算方法: **Realized productivity** **計算 type frequency**,將各個不同suffix組成的字,一一計算其type frequency,frequency越高→ realized productivity越高。 缺點:像是沒有考慮到實際字詞之間的相似程度,還有低頻詞可能只是使用機會少,不一定能直接表示productivity,所以有些high realized productivity的字,可能反而出現次數比較少,僅用type frequency 來計算無法處理這些問題。 **Potential Productivity** 又被稱為 Category-conditioned degree of productivity (CCDP) > Hapax legomena:在語料庫中僅出現一次的詞 Neologism:新創的詞彙 Baayen 認為 hapaxes 跟 neologism 有相當程度的關聯,因此計算 hapax 的數量可以間接估測有多少新創詞彙 > **計算方法為 Number of hapaxes formed by the certain suffix / Number of all tokens formed by the certain suffix** 這個計算方法是想看每一種 suffix 組成的字中,有多少比例是新詞。如果新詞的比例高,表示該 suffix 可以形成比較多的字,也等於 productivity 較高。 缺點:不管是用哪一種suffix,hapaxes 本來就不會很多。因此計算出來的數值大小,非常大一部分是受到分母數值的影響。而出現頻率高的字,直觀上應該會認為其有較高的productivity,可是 token frequency 放在分母來計算,就會使該 suffix 的 potential productivity 很小。 **Expanding Productivity** 又被稱為 Hapax-conditioned degree of productivity (HCDP) **計算方法為 Num of hapaxes formed by the certain suffix / Num of all hapaxes** 這個計算方法是想看所有的新字中,由各個 suffix 組成的字各佔多少比例,以此觀察哪些 suffix 比較有創造力,比例越高表示 expanding productivity 越高,這個方法就比較不會受 suffix 組成的字的整體 token frequency 影響。 缺點:hapaxes 雖然用來看 suffix 創造新詞的 productivity,但其實 hapaxes 可能是原本就有只是非常罕見的字,不一定就是 neologism。另外,neologism 也可能被使用不只一次。所以從 hapaxes 來看 neologism 的解釋力有待商榷。 ### Fuzzy Set Theory 1965年由學者 L.A. Zadeh提出模糊集合 (Fuzzy Sets) 的概念。要將一個東西界定在哪一個類別當中,有些不會是很明確100%的屬於某一個類別。就像要判斷一個東西的「美醜」,不會是100%美或是100%醜,這麼清楚容易的判斷。可能這個東西有70%的特質可以稱為「美」,30%的特質可以稱為「醜」,因此這樣在分類別式就不會有一個明確劃分的界線,而是模糊不清的界線。 **Crisp Sets 明確集合** - 每一個評估對象都能夠很明確地被分辨 (非0即1) - 一個由明確集合 A 所定義出的一個特徵函數 (Characteristic Function) ΦA {0, 1} - $ΦA(X)=1$ → X屬於A - $ΦA(X)=0$ → X不屬於A **Fuzzy Sets 模糊集合** - 界線不明的概念集合(例:高矮、胖瘦) - 一個集合A,它的特徵函數 $ΦA(x)$ 介於0到1之間,稱為模糊集合,而該特徵函數被稱為歸屬函數 (Membership Function) - 當集合中的任兩個值$X1$與$X2$ ,其$ΦA(X1)>ΦA(X2)$,表示$X1$屬於A的程度比$X2$屬於A的程度大。 | | 傳統(明確)集合 | 模糊集合 | | --- | --- | --- | | 函數 | 使用0或1的特徵函數 | 使用0到1的歸屬函數 | | 關係 | 強調非此即彼的關係 | 接受亦此亦彼的關係 | | 方法 | 硬性的二分法 | 軟性的分類法 | [Reference_1](http://debussy.im.nuu.edu.tw/sjchen/Fuzzylogic/Fuzzy02-%E6%A8%A1%E7%B3%8A%E9%9B%86%E5%90%88.pdf) [Reference_2](https://web.math.sinica.edu.tw/math_media/d181/18102.pdf) --- ## 名字:靖涵 ### **Sampling theory** 從**母體(population)** 中抽取部分**樣本(sample)**,並從分析樣本中的特徵以推估母體,因為母體數量大要一一分析會太消耗資源,抽樣可以更有效率、節省資源地了解母體特徵。但結果好壞會與抽取樣本是否有偏差相關,抽樣之前需要先釐清「想要得到什麼結論」以及「想要調查的對象是誰」。而抽取樣本的方式主要可以分為「隨機抽樣」和「非隨機抽樣」兩類,兩大類底下又有許多不一樣的方法。以下為常見的幾種方式。 1. **隨機抽樣** - **簡單隨機抽樣 (Simple Random Sampling)**: 最基本的方式,即每一個樣本被抽到機率都是一樣的,且彼此是完全獨立的。例如:桶子裡面有編號 1-10 的10顆球,隨機抽一顆。每一顆被抽到的機率都是 1/10。 - **系統抽樣/等距抽樣 (Systematic Sampling)**: 母體先做排序,並隨機選定一個樣本當作起始點,再制定一個固定區間抽取樣本。舉例:設定固定區間 3、初始值為5,則抽取5, 8, 11...。 - **分層抽樣 (Stratified Sampling)**: 母體中要先依照**互斥**特徵分組(例如:有/無,是/否),再從每一層中皆隨機抽取樣本,以確保每一種特徵組都有被抽取到。例如:男生戴眼鏡/男生沒戴眼鏡/女生戴眼鏡/女生沒戴眼鏡。 - **整群抽樣/群集抽樣 (Clustering Sampling)**: 母體中的有不同群(並非因互斥特徵而分),然後隨機抽取幾個群。例如:一個年級中有10個班,並且並不是以能力分班,從中隨機抽幾3個班當作樣本,去看他們的學科能力表現。母體差異如果很大,例如是以能力分班,則不可以使用該抽樣法,不然抽出來的結果會有偏差。 2. **非隨機抽樣** - **方便/抽樣/任意抽樣 (Convenience Sampling)**: 以容易取得的資料作為抽樣的樣本,例如某一天在某一間店門口等公共場所任意選某些人來當受試者。這個方法比較簡便,但也容易產生偏差。 - **配額抽樣 (Quota Sampling)**: 一樣也是先依照特徵分層,但抽取樣本的時候會以主觀判定、配額每一個群體要抽取多少數量,這個方式可以確保抽取樣本的比例和母體相似。 - **主觀抽樣 (Purposive Sampling)**: 已經有一些先備的知識,從主觀經驗去判斷哪一些樣本比較可以當有代表性而做的抽樣。例如:想了解屏東旅遊市場,所以就選了墾丁作為調查地點。 - **滾雪球抽樣 (Snowball Sampling)**: 一開始先從小樣本數開始,再請這些樣本提供其他符合標準的樣本以擴大樣本數量。這種方法雖然容易造成偏差,但常用於研究中難以進行隨機抽樣的群體或現象,例如毒品使用者或非法移民。 [Reference_Sampling_1](https://www.youtube.com/watch?v=lfK7qvRIfTc) [Reference_Sampling_2](https://zh.surveymonkey.com/market-research/resources/types-of-sampling/) ### **Fuzzy set (模糊集)** - **set (集合)**:通常為有同一種特徵的集合。 - **Crisp Sets (明確集合)/ Binary Sets**:集合之間可以明確分界、集合中的點可以明確被歸類。例如一集合 A 的**特徵函數 (Characteristic Function)** $Φ_A$ -> {0,1} 或 (Ture, False)。 - **Fuzzy Sets (模糊集合)**:是數學上的概念,用來表示無法明確分界的概念集合(boundary is fuzzy),例如:冷/熱,高/矮。特徵函數會介於 0到1 之間,而非明確的 0 or 1。這裡的特徵函數被稱為 **歸/隸屬函數 (Membership Function)**,可知道集合中元素隸屬該集合的程度。 一集合 A 可以表示成 $μ_A(x)$ 或 A(x)。membership 和 non-membership 的差別就不是 abrupt 而是 gradual: {0, 0.2, ..., 0.8, 1.0}。Fuzzy set 的衡量也有可能因為主觀的想法而有所不同。應用上有 AI 則利用此概念學習人類在做實際上無確二元對立決策時的思考方式。 - **例子:** U: 全部的學生 G: 高的學生 S: 矮的學生 G={G, μ(G)},μ() 即高的程度 S={S, μ(S)},μ() 即矮的程度 G={(A,0.4),(B,0.5),(C,0.3),(D,0.1)} S={(A,0.6),(B,0.5),(C,0.7),(D,0.9)} - 常見的隸屬函數有圖像化分佈如下: ![截圖 2024-04-11 下午1.23.07](https://hackmd.io/_uploads/SkUTqVHlR.png) - 高斯(Gaussian):鐘型曲線。 - 三角形(Triangular):常由起始點、頂點、結束點形成一個三角形。 - 梯形(Trapezoidal):由左起始點、左頂點、右頂點、右結束點組成。 [Reference_Fuzzy_1](http://debussy.im.nuu.edu.tw/sjchen/Fuzzylogic/Fuzzy02-%E6%A8%A1%E7%B3%8A%E9%9B%86%E5%90%88.pdf) [Reference_Fuzzy_2](https://www.youtube.com/watch?v=FpHJZWh-7QM) --- ## 名字:予茜 ### Fuzzy set analysis(模糊集合分析) L.A. Zadeh(1965)所提出,是一種處理較不確定性、有模糊或不夠精確信息的數學方法。何謂模糊的信息?例如:「今天天氣很熱」、「他跑得很快」或「你賺的很多」等等,這些都是不夠精確的訊息,怎麼樣才算熱?跑多快才算快呢?每個人的定義都有所不同。 在模糊集合之前,必須先了解明確集合(crip sets)和模糊集合的不同。 * **明確集合**: 分「有」和「無」的概念。可以明確分辨元素是屬於哪一種集合。通常以「1」和「0」表示,是屬於二值邏輯的判斷,目前一般的控制系統也都使以此作為依據。 一個由明確集合A所定義出的特徵含數(Characteristic Function) ΦA={0, 1} 1,當x屬於A;0,當x不屬於A 例如:室溫設定為26度,超過26度就開啟冷氣,若低於26度就關閉冷氣,就是二值邏輯的判斷。 ![螢幕擷取畫面 2024-04-11 190229](https://hackmd.io/_uploads/H1guXSHeR.png) 當事物可被明確區別時(如:男、女)使用明確集合,然而在大多數的事物、 語意表達上通常難以精確地區分(如:多、少),也就是含有模糊的敘述。而模糊集合,如同人類的思維模式,可以說每一元素是將二值邏輯(Binary Logic)擴展為多值邏輯(Multi-valued Logic),推廣將事物介於 0 與 1 之間的數值來表示。 * **模糊集合**:允許元素以不同程度屬於一個集合。該函數將每個元素對應0到1之間的一個值,表示該元素屬於某集合的程度。 有一集合A,其特徵含數介於0~1之間,我們將之稱為模糊集合。而他的特徵含數被稱之為**歸屬含數**(Membership Function;隸屬含數)。此函數的表示方式為A(x): A:X > [0,1],(即A(x)介於0~1之間) 若用控制冷氣來表達,利用模糊的話,就不是二值判斷,而是以多值來判斷。例如定義三個模糊集合,高集合、中集合和低集合。溫度27度在「高」集合的所屬程度為0,在「中」集合所屬程度為0.66,在「低」集合所屬程度為0.33。「高」集合在31度(含)以後所屬程度都是1,而「低」集合在25度(含)以後所屬程度都是1,「中」集合僅有介在30度到26度之間,只有28度的所屬程度為1。 這樣的運作模式可以讓冷氣隨溫度高低控制風速,改善傳統冷氣機無法維持溫度平穩和耗電的狀況。 | 溫度 | 高集合 | 中集合 | 低集合 | | |:--- | ---- | ---- | ---- | --- | | 23 | 0 | 0 | 1 | | | 24 | 0 | 0 | 1 | | | 25 | 0 | 0 | 1 | | | 26 | 0 | 0.33 | 0.66 | | | 27 | 0 | 0.66 | 0.33 | | | 28 | 0 | 1 | 0 | | | 29 | 0.33 | 0.66 | 0 | | | 30 | 0.66 | 0.33 | 0 | | | 31 | 1 | 0 | 0 | | [參考資料](https://api.lib.ntnu.edu.tw:8443/server/api/core/bitstreams/2f9dcd76-24aa-4404-81b7-4bc4b6c5e02b/content) ![螢幕擷取畫面 2024-04-11 204913](https://hackmd.io/_uploads/SJewnIreR.png) [參考資料](https://http://debussy.im.nuu.edu.tw/sjchen/Fuzzylogic/Fuzzy02-%E6%A8%A1%E7%B3%8A%E9%9B%86%E5%90%88.pdf) ### Baayen's Proposed Measure of Productivity Baayen他提出了不同的方式來測量語言的生產力。這裡的**productivity** 表示一個詞綴可以和多少的詞幹結合,變成一個新詞的能力。 共有三個標準可參照: 1.Realized productivity, 衡量標準是**類型頻率**,即不同類型的數量由過程或詞綴產生的單字。測量的是特定詞綴(具有相同功能)在語料庫中的使用頻率。 2.Potential frequency 用來衡量一個詞綴結合其他詞幹形成新詞的潛在能力。如果一個詞綴具高潛在效率,表示它有較大的潛力和許多不同詞幹結合,也暗示其使用範圍很廣,用於語言創新的程度也比較高。 算法:單一出現的詞彙數量除以語料庫中由該型態(morphe)形成詞彙的總數。 3.Expanding frequency 這個方式可以通過考察詞綴與**不尋常的詞幹**結合產生的新詞數量來評估,這些不常見的詞幹是基於它們在語料庫中的(低)頻率表現。 算法:將預計算的新詞數量除以詞綴出現的總次數或詞綴可以結合的詞根數量 --- ## 名字:喻璞 ### Dispersion measures 差異量數 - Measures of absoulute dispersion 絕對差異量數 - 當統計資料的「性質相同」、「單位相同」、「平均數差異不大」的時候使用 - 如:全距、四分位差、平均偏差、標準差 - Measures of relative dispersion 相對差異量數 - 放在同一個基準點上面,比較不同的係數。 - 當統計資料的「性質不同」、「單位不同」、「平均數差異很大」的時候使用 [ref](https://ethan-zhuang.medium.com/statistics-week-4-numerical-descirptive-measures-iii-85f7b2689341) ### Binomial distribution 二項分佈 二項分配:是一種離散型隨機分配,為二項實驗,又稱為白努利實驗(Bernoulli trial, 只有「成功」或「失敗」兩種結果的試驗) 特點: 1. 每次實驗包括一連串n次相同的嘗試 2. 次嘗試只有兩種結果 3. 每次嘗試中,成功的機率固定為p,則每次嘗試中失敗的機率固定為q=1-p 4. 每次嘗試均互相獨立 公式: $\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}\quad (k=0,1,\ldots ,n)$ *Note. n 為正整數,p介於0-1之間,X則為服從母數為 n,p 的二項分布。* [ref1](https://smallcollation.blogspot.com/2013/08/binomial-distribution.html#gsc.tab=0) [ref2](https://zh.wikipedia.org/zh-tw/%E4%BA%8C%E9%A0%85%E5%BC%8F%E5%88%86%E5%B8%83) ### Morphology productivity 如,詞綴的的生產力俵是該詞綴用於創造新複雜詞彙的一種特性。 [ref](https://userpage.fu-berlin.de/~flohaas/Handout%204_morphIII_SoSe06.pdf) #### Baayen's measurement ##### Realized productivity / type frequency - 一個詞綴產生的不同詞彙的數量 - Baayen(2009)認為這個指標可以顯示過去的生產力以及詞綴的使用程度。 ##### Potential productivity / ==P== > "A potential productivity of a category (or an affix) is calculated by means of ‘the number of words V (1, C, N) in morphological category C that occur only once in the corpus, the hapax legomena, divided by the total number of tokens created by that morphological process in the corpus’ (Baayen, 2009, p. 7)" - hapax legomenon - 即該詞/語素在語料庫僅出現一次的單字或表達方式。 - Baayen(1993)認為hapax的數量可以顯示一個詞綴的生產力,因為特定模式的hapax數量與該處理的新詞數量有關。他將此指標稱為類別條件下的生產力程度(category-conditioned degree of productivity),估計了由某個詞綴創建的詞彙的**增長率**。此指標關注「文本中遇到尚未觀察到的單詞類型的**概率**」 - 潛在生產力指標的主要用途是**區分本身具有生產力和不具有生產力**的詞彙形成模式 ##### Expanding productivity ==P*== - the hapax-conditioned degree of productivity’ / HCDP - 計算方法:語料庫中該morphological category的hapaxes數量除以該語料庫中hapax單詞的總數 - Baayen認為該指標評估了morphological category正在擴展並吸引新成員的速度;且Booij(2007)認為「這個比率是對所有詞綴對詞彙增長率相對的估計」。 - 擴展生產力指標則根據其生產力程度對生產性過程進行排名。 ### Fuzzy set theory - Lotfi Zadeh (1972) fuzzy set 是指「具有不清晰邊界的類別」,其中「從成員資格到非成員資格的轉變是漸進的,而不是唐突的」。 - 即每個成員對集合的歸屬度根據成員的函數定義,而該函數是0到1之間的實數。 #### trapezoidal-shaped membership function / 梯形歸屬函數 trapezoidal MF 利用連續性歸屬函數來描述無限模糊集合的特性,梯形歸屬函數是典型的方法之一。 [ref1](https://api.lib.ntnu.edu.tw:8443/server/api/core/bitstreams/2f9dcd76-24aa-4404-81b7-4bc4b6c5e02b/content) [ref2](https://www.mathworks.com/help/fuzzy/trapmf.html) --- ## 名字:孟桁 ### Productivity (linguistics) The ability to generate new words. Measured through particular processes, for example, usage of affixes to create new words. Baayen’s measures of productivity: * Realized – number of distinct words produced by a process/affix. Reflects general productivity and usage of a process. * Potential (category-conditioned) – hapax legomena (words that only appear once) divide by all tokens created by that same process. Reflects potential productivity of that process. * Expanding (hapax-conditioned) – number of hapaxes by a process divide by all hapaxes. Reflects the growing usage of a process. ### Fuzzy set theory Applying the notion of scalarity to classification. Originally, categories in classification are classical sets, meaning they match the definitions of a category precisely. Fuzzy sets view the definitions on a gradual perspective, resulting vagueness within a category. --- <!-- ## tags, 拜託不要刪除以下 --> ###### tags: `QL2024` <!-- --- ## 名字: ### 以下如果要用到標題請打三個以上的井字號 -->