# LLM COLLABORATIVE INTELLIGENCE: THE PATH TO ARTIFICIAL GENERAL INTELLIGENCE
## EDWARD Y.CHANG
[第1章 人工智慧的簡史:從圖靈到變形模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hk_XGgt81e)
[第2章 大型語言模型(Large Language Models, LLMs)的能力與機遇](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/H14XrxYUyl)
[第3章 提示工程:Few-Shot、Chain of Thought 與 Retrieval-Augmented Generation](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HymkilKL1l)
[第4章 CRIT: 使用蘇格拉底式提問促進 LLM 的批判性思考](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HkuqTgFUJx)
[第5章 SocraSynth:對抗式多-LLM推理](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkKY7WKLyg)
[第6章 EVINCE:透過條件式統計與資訊理論](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/SJx2qrrDyg)
[第7章 揭示反思性大型語言模型中的錯誤與偏見](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Sy7NuOjDJe)
[第8章 多模態大型語言模型中的情感建模
](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkgXfFoPJl)[第9章 一個三分支制衡框架,用於大型語言模型的情境感知倫理對齊](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/S1tp7toPyg)
[第10章 超越計算: 意識建模](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BJVUUFjDye)
[第11章 回顧性與適應性框架 以改善大型語言模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1j46Zt8Jx)
[ 第12章 發現洞見 超越已知
](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1lVzY2wkl)[附錄 X1 蘇格拉底的箴言](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hym0J53vJe)
### 第1章 人工智慧的簡史:從圖靈到變形模型
**摘要**
本章重新詮釋了人工智慧(AI)的發展歷史,聚焦於相似性測量的演進過程,從基於規則到上下文感知模型,並強調相似性測量在AI核心功能(如學習與問題解決)中的關鍵作用。內容涵蓋語言學(文本)與電腦視覺(圖像)中相似性理解的發展與影響,並展望AI結合高級數據分析與抽象推理的未來。本章從語言學、計算機科學以及認知心理學/神經科學的角度深入探討,說明相似性概念的進步如何驅動AI持續發展。
---
**介紹**
人工智慧(AI)經歷了一段引人入勝的歷史軌跡,分為五個關鍵時期,每個時期都代表了由重大技術進步引發的重要範式轉變:
1. **起始階段**:奠定了AI的基礎概念與里程碑;
2. **專家系統編碼人類知識**:以基於規則的系統為主,將人類專業知識進行編碼與應用;
3. **啟發式建模**:開發與應用啟發式方法進行AI問題解決的時代;
4. **從數據中學習的模型**:過渡到能從數據中學習與適應的演算法,標誌著機器學習的誕生;
5. **基於語境的語義消歧**:AI在理解與解釋語境方面不斷提高,增強了語義準確性。
儘管維基百科等綜合資料已經從語言、計算、哲學、認知心理學、神經科學及應用等多個角度詳細闡述了AI的發展歷程,本章選擇了一個不同的切入點:**相似性**。
---
**相似性在AI中的關鍵角色**
機器智慧的核心屬性包括學習能力、模式識別、預測準確性、穩健性、適應性、概括能力、推理能力、問題解決與決策能力。在這些特質中,相似性的概念扮演了關鍵角色:
- 在學習中,有效的相似性測量是識別模式與概括知識的基礎;
- 在適應性方面,檢測與過往經驗相似的能力使AI能適應新的情況;
- 在穩健性方面,相似性測量幫助AI區分正常與異常模式,增強其韌性;
- 在問題解決中,辨識與過去情境相似的能力使AI能將現有解決方案應用於新問題,提高解決挑戰的效率。
本章探討了相似性在AI各項能力中的重要功能,並強調其對AI基礎操作的重大貢獻。
---
**相似性在具體與抽象領域的應用**
在具體對象中,相似性測量對多項視覺任務至關重要,如識別模式、形狀與顏色,這些是物件識別與圖像分類的基礎。在文本分析中,相似性測量能識別內容相似性,應用於抄襲檢測、文檔檢索與語言翻譯。
在抽象層面,相似性測量有助於識別語義關係,應用於知識表徵、本體映射與改進AI的解釋能力。環境研究利用相似性測量進行氣候建模與生態學研究。情緒分析、法律案例推理與語言翻譯等領域也基於相似性測量進行深入分析與決策。
---
**相似性研究的進展**
相似性研究的進展,雖然看似緩慢,反映了人類的智慧與計算資源限制的交互作用。從感官輸入(如視覺、聽覺、嗅覺與觸覺數據)到複雜的抽象概念(如思想與語義),相似性的量化範疇非常廣泛。硬體進步使研究者得以探索更先進的方法,涵蓋具體與抽象形式的相似性。
---
**章節安排**
接下來的內容將深入探討關鍵的AI術語與相似性測量的發展,從兩種視角分析:
1. **學科視角**:涵蓋語言學、計算機科學、認知心理學與神經科學;
2. **歷史演進**:追溯相似性測量在AI中的歷史發展,包括基於規則、基於模型、數據中心化與上下文感知四個時期。
### 第1.1節 **Definitions**
我們在此定義並範疇化一些關鍵術語與概念,以準備後續討論。
#### 1.1.1 **Rudimentary Terms**
- **Data**:用於訓練AI模型的原始資訊。資料品質對模型效能影響重大。
- **Algorithm**:電腦執行特定任務的指令集。AI演算法通常較為複雜,涉及統計方法。
- **Model**:從資料中學習的知識表徵,使AI系統能進行預測或決策。
#### 1.1.2 **General Terms**
- **Artificial Intelligence (AI)**:機器執行我們認為“智能”的任務的廣義概念。
- **Explainable AI**:具備透明性與理解性的AI系統,能解釋其運作與決策過程。
- **General AI (AGI)**:能在廣泛任務中展現人類智能般學習、推理與解決問題能力的AI系統。目前仍為理論概念,未在實務應用中實現。
- **Narrow AI**:專注於特定任務的AI,現已廣泛應用(如臉部識別、網路搜尋)。其能力局限於預定範疇,缺乏跨領域適應能力。
- **Machine Learning (ML)**:AI的一個子集,利用統計技術讓機器隨經驗改進任務能力。
- **Deep Learning (DL)**:Machine Learning的子集,採用三層或更多層的神經網路,模擬人腦行為以“學習”大量資料。
- **Neural Networks**:受人腦結構啟發的計算模型,用於識別模式並解決AI中的常見問題,如分類、預測與決策。
- **Supervised Learning**:模型在標記資料與目標輸出下訓練,目標是學習輸入與輸出的映射關係。
- **Unsupervised Learning**:模型未提供標記資料,需自行尋找輸入中的結構模式。
- **Reinforcement Learning**:AI代理通過執行動作並觀察結果來學習,以獲取長期回報(如AI學習玩遊戲)。
- **Natural Language Processing (NLP)**:讓機器具備讀取、理解與推導人類語言意涵的AI領域。
- **Computer Vision**:讓電腦理解視覺世界的AI領域,提取影像與影片中的資訊。
- **Robotics**:涉及機器人設計、構造與應用的技術分支,常融入AI以提升自動化與適應性。
- **Large Language Model (LLM)**:訓練於大規模資料集的進階AI系統,最初專注於文本,如今逐漸涵蓋多模態資料,能以接近人類認知的方式理解、生成並互動。
#### 1.1.3 **Performance Terms**
- **Algorithmic Bias**:演算法可能反映、延續或放大訓練資料中存在的偏差,導致決策過程的不公正結果。
- **Hallucination**:AI生成不準確、不相關或未經支持的資訊,尤其在語言模型中生成合理但不事實的文本。
- **Generalization**:AI模型在未見過的資料上表現良好的能力,顯示其知識應用於不同情境的能力,是衡量穩健性的重要指標。
- **Overfitting**:模型對訓練資料細節與雜訊學習過多,導致在新資料上表現不佳。通常發生於模型過於複雜時。
---
### 第1.2節 **Perspectives on Similarity**
本節從語言學、計算機科學以及認知心理學/神經科學三個不同領域介紹**similarity measurement**的基礎理論。隨後的歷史部分將闡明這些基礎理論如何影響並融入AI不同時期的技術進步與方法論。
#### 1.2.1 **Linguistic Perspective**
- **Distributional Semantics**:Zellig Harris於1954年的研究認為,詞語的分布屬性與上下文使用可解開語言理解的秘密,即“出現在相似上下文中的詞語往往具有相似的意義”。
- **Semantic Structuring**:1980年代,普林斯頓大學開發的**WordNet**將詞語組織為同義詞集,對語義消歧與信息檢索等領域影響深遠。
- **Advanced Methods**:技術如**Latent Semantic Analysis (LSA)**、**Latent Dirichlet Allocation (LDA)**及嵌入技術(如**Word2Vec**與**GloVe**),讓詞語意義可在高維空間中概念化。
- **Transformer Models**:如**BERT**和**GPT**,採用自監督學習及上下文預測,實現了語義理解的新紀元,實現了Zellig Harris 1954年願景。
#### 1.2.2 **Computer Science Perspective**
相似性測量從基於規則模型發展到向量空間與概率模型,反映了該領域在解決計算問題上的進步:
- **Rule-Based**:透過“if-then”語句進行決策,雖然靜態但在早期的**Expert Systems**中發揮了關鍵作用。
- **Vector-Space Models**:將物件與特徵表徵為高維空間中的向量,並使用距離函數評估相似性,如**Inner Product**、**Cosine Similarity**與**Weighted Minkowski Distance**。
- **Probabilistic-Based Models**:引入如**Pearson Correlation Coefficient**、**Mahalanobis Distance**及**Kullback-Leibler Divergence (KL-Divergence)**等方法,以統計與概率原理進行精確相似性量化。
#### 1.2.3 **Cognitive Psychology Perspective**
- **Feature Integration Theory (FIT)**:Anne Treisman提出該理論,解釋大腦如何將感官特徵整合為統一的感知,並對AI中如**Convolutional Neural Networks (CNNs)**設計產生深遠影響。
- **Dynamic Partial Function (DPF)**:DPF表明,物件的相似性可基於不同特徵維度呈現,影響了數據增強策略,如**AlexNet**的應用。
- **Neuroscience Influence**:大腦的層級結構與特徵檢測能力啟發了AI系統設計,促進了AI在模式辨識與相似性處理中的能力提升。
#### 1.2.4 **Section Remarks**
相似性測量的探討跨越語言學、計算機科學及認知心理學/神經科學,展現其多學科的本質。各領域對**similarity**的不同詮釋促進了學科間的對話與創新,推動了我們對相似性這一基本概念的量化與解讀能力。
### 第1.3節 **Eras of Similarity Measurement**
通過人工智慧(AI)和 **similarity measurement** 的歷史演進,可以劃分出幾個不同的時代,每個時代都因獨特的方法論與技術進步而顯著。在上一節中,我們從不同科學學科探討了相似性測量;本節則以時間軸為主線,記錄從 **Rule-Based** 時代到 **Model-Based**、**Data-Centric** 及 **Context-Aware** 方法論的演化,並展望未來的可能發展,探索未知的領域。
---
#### 1.3.1 **Rule-Based Era (1950s - )**
**Rule-Based Era** 起源於1950年代,是AI的起始階段,其特徵在於使用符號表徵與邏輯進行相似性分析。這一時期的重要里程碑包括:
- **Logical Reasoning Systems**:Allen Newell 與 Herbert A. Simon 開發的 **Logic Theorist** 與 **General Problem Solver**,開創了基於邏輯規則進行問題解決的方法 [44]。
- **應用案例**:如 **DENDRAL**(通過規則推導分子結構)[36] 與 **MYCIN**(診斷感染與推薦治療方案)[48],展現了基於規則推理在醫學診斷等領域的實用性。
**應用範例**:
1. **Customer Service**:基於規則的聊天機器人通過預定義規則回應關鍵字或短語,提供即時且一致的客戶支持。
2. **Fraud Detection**:金融行業使用基於規則的系統識別可疑交易(如不尋常金額或異常地點)。
3. **Equipment Failure Diagnosis**:工業領域中,基於規則的系統分析數據以定位設備故障原因並預測未來可能的問題。
儘管基於規則的系統在結構清晰、邏輯透明的領域非常有效,但在複雜或動態環境中表現不足。相比現代的 **Convolutional Neural Networks (CNNs)** 和 **Large Language Models (LLMs)**,其透明性使其更易解釋,而後者雖然功能強大,但內部運作如“黑箱”,不易解釋。
---
#### 1.3.2 **Model-Based Era (1970s - )**
該時代引入了基於 **Vector-Space** 與 **Probabilistic Models** 的相似性量化方法。
##### 1.3.2.1 **Vector-Space Models**
**Vector-Space Models** 標誌著從規則到基於表徵方法的轉變,物件和特徵被概念化為高維空間中的向量,從而提供更靈活的相似性量化方式:
- **Information Retrieval**:文件被表徵為詞頻向量,使用 **Cosine Similarity** 計算相似性,大幅提高了信息檢索系統的效率與效果。
- **Distance Functions and Feature Weighting**:如 **Minkowski Distance** 及 **Weighted Minkowski Distance**,允許在特定應用中調整維度權重。
- **Beyond Textual Data**:在影像處理中,特徵(如顏色、紋理、形狀)被表徵為向量,用於量化影像相似性,促進了影像檢索、分類與聚類的發展。
- **Dimensionality Reduction Techniques**:如 **Principal Component Analysis (PCA)** 與 **Latent Semantic Analysis (LSA)**,幫助緩解高維數據的“Curse of Dimensionality”。
**挑戰**:向量表徵可能導致數據稀疏性,降低資源效率與準確性。此外,線性降維方法在處理非線性數據結構時存在局限性。
##### 1.3.2.2 **Probabilistic Models**
**Probabilistic Models** 提供了比向量空間模型更高的靈活性,能直接納入數據中的不確定性與變異性:
- **Statistical Inference and Similarity**:通過估計數據或特徵出現的可能性處理不確定性,特別適用於噪聲或不完整數據。
- **Bayesian Approaches**:如 **Bayesian Methods**,整合先驗知識與經驗數據,通過動態更新模型信念適應變化的數據環境。
- **Latent Semantic Models**:如 **Latent Semantic Analysis (LSA)** 與 **Latent Dirichlet Allocation (LDA)**,利用降維與主題建模進一步提升語義分析能力。
**影響**:該時代的模型拓展了相似性測量工具箱,為更具適應性與上下文感知的方法鋪平了道路。
---
#### 1.3.3 **Data-Centric Era (2000s - )**
**Data-Centric Era** 的轉變以利用大數據為核心,得益於計算硬體的進步,使平行處理成為可能:
- **Deep Learning Architectures**:如 **CNNs** 和 **Transformers**,通過大規模多樣化數據訓練,能直接學習特徵,減少對人工設計的依賴。
- **MapReduce**:如 Google 的 **MapReduce**,成為大規模數據處理的基石,推動了數據驅動方法的發展。
- **Large-Scale Machine Learning**:平行算法的發展(如 **PSVM**、**PLDA**)顯著提高了大數據環境下的計算效率與模型性能。
---
#### 1.3.4 **Context-Aware Era (2010s - )**
**Context-Aware Era** 的相似性測量實現了 Zellig Harris 與 John R. Firth 語義學洞見的進一步發展:
- **Attention Models and Transformers**:如 **BERT** 與 **GPT**,通過關注數據中相關部分提升了上下文理解能力。
- **Multimodal Data Integration**:結合多種模態信息(文本、圖像、語音),提供更全面的相似性測量能力。
- **Multilinguality and Cultural Sensitivity**:增強對不同語言與文化背景數據的處理能力,提升了全球適用性。
---
#### 1.3.5 **Section Remarks**
下一個時代將專注於增強 **LLMs** 決策過程的可解釋性,結合 **Rule-Based Systems** 的透明性與深度學習的能力:
1. **Neuro-Symbolic AI**:結合 **Neural Networks** 的數據處理能力與符號 AI 的邏輯推理。
2. **Domain Knowledge Integration**:將專業知識整合到模型中,提升可靠性與解釋性(如醫學應用)。
3. **Interactive Systems**:通過 **SocraSynth** 等系統結合人類專業知識與 AI 的高效性,促進模型性能與透明性的進一步提升。
這些策略的推進將使 AI 在性能與透明性之間達成平衡,促進其在各種應用領域的信任與採用。
### 第1.4節 **Concluding Remarks**
本章從**similarity**的視角,以學科與時間軸為主探討了人工智慧(AI)的歷史。展望未來,我們認為大型語言模型(**LLMs**)的出現標誌著AI在**Context-Aware Era**的一個關鍵里程碑,為下一個前沿——**Interpretability, Understanding, and Discovery** 的時代奠定了基礎。在這個新時代中,重點將轉向賦能LLMs,使其不僅能理解,還能創造和創新,進一步合成新知識和洞見。
我們可以預見,這個探索的時代將不僅僅局限於讓機器在如圍棋(**Go**)和國際象棋(**Chess**)等遊戲中超越人類,而是拓展至更廣泛的任務領域,在多個領域中超越人類能力。從**Chapter 5**開始的接下來的章節,將深入研究如何利用多個LLMs的集體智能(**Collective Intelligence**),並探索未知領域,進一步突破現有知識的邊界。
---
### References
[1] “A Feature-Integration Theory of Attention”. In: Cognitive Psychology 12.1 (1980), pp. 97–136. issn: 0010-0285.
[2] David Barber. Bayesian Reasoning and Machine Learning. Cambridge University Press, 2012.
[3] Christopher M. Bishop. Pattern Recognition and Machine Learning. Springer, 2006.
[4] David M Blei, Andrew Y Ng, and Michael I Jordan. “Latent dirichlet allocation”. In: Journal of Machine Learning Research 3.Jan (2003), pp. 993–1022.
[5] Donald E. Broadbent. Perception and Communication. Pergamon Press, 1958.
[6] Michael Cafarella et al. “Data Management Projects at Google”. In: SIGMOD Rec. 37.1 (2008), pp. 34–38. issn: 0163-5808. doi: 10.1145/1374780.1374789. url: https://doi.org/10.1145/1374780.1374789.
[7] Sung-Hyuk Cha. “Comprehensive Survey on Distance Similarity Measures between Probability Density Functions”. In: 2007. url: https://-api.semanticscholar.org/-CorpusID:15506682.
[8] Edward Y Chang. “Examining GPT-4’s Capabilities and Enhancement with SocraSynth”. In: The 10th International Conf. on Computational Science and Computational Intelligence. 2023.
[9] Edward Y. Chang. Foundations of Large-Scale Multimedia Information Management and Retrieval: Mathematics of Perception. Springer, 2011.
[10] Edward Y. Chang et al. “PSVM: Parallelizing Support Vector Machines on Distributed Computers”. In: Proceedings of the 20th International Conference on Neural Information Processing Systems. NIPS’07. Red Hook, NY, USA: Curran Associates Inc., 2007, pp. 257–264. isbn: 9781605603520.
[11] Jocelyn J. Chang and et al. “SocraHealth: Enhancing Medical Diagnosis and Correcting Historical Records”. In: The 10th International Conf. on Computational Science and Computational Intelligence. 2023.
[12] Wen-Yen Chen et al. “Parallel Spectral Clustering in Distributed Systems”. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 33.3 (2011), pp. 568–586. doi: 10.1109/TPAMI.2010.88.
### References (續)
[13] William F. Clocksin and Christopher S. Mellish. Programming in Prolog. Springer-Verlag, 1981.
[14] Corinna Cortes and Vladimir Vapnik. “Support-Vector Networks”. In: Machine Learning 20.3 (1995), pp. 273–297.
[15] Jeffrey Dean and Sanjay Ghemawat. “MapReduce: simplified data processing on large clusters”. In: Commun. ACM 51.1 (Jan. 2008), pp. 107–113. issn: 0001-0782.
[16] Jia Deng et al. “Imagenet: A large-scale hierarchical image database”. In: 2009 IEEE conference on computer vision and pattern recognition. IEEE. 2009, pp. 248–255.
[17] Jacob Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. arXiv: 1810.04805 [cs.CL].
[18] Susan T Dumais. “Latent semantic analysis”. In: Annual review of information science and technology 38.1 (2004), pp. 188–230.
[19] Artur d’Avila Garcez and Luis C. Lamb. Neurosymbolic AI: The 3rd Wave. 2020. arXiv: 2012.05876 [cs.AI].
[20] Andrew Gelman et al. Bayesian Data Analysis, Third Edition. Chapman and Hall/CRC, 2014.
[21] R. L. Goldstone. “Similarity, interactive activation, mapping”. In: Journal of Experimental Psychology: Learning, Memory, and Cognition 20.3 (1994), pp. 3–28.
[22] Zellig S. Harris. “Distributional Structure”. In: WORD 10.2-3 (1954), pp. 146–162.
[23] John-Dylan Haynes and Geraint Rees. “Decoding mental states from brain activity in humans.” In: Nature Reviews Neuroscience 7 (2006), pp. 523–534.
[24] D. H. Hubel and T. N. Wiesel. “Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex”. In: The Journal of physiology 160.1 (1962), pp. 106–154. doi: 10.1113/jphysiol.1962.sp006837.
[25] Paul Jaccard. “The distribution of the flora in the alpine zone.” In: New Phytologist 11.2 (1912), pp. 37–50.
[26] I. T. Jolliffe. “Principal Component Analysis”. In: Springer Series in Statistics (1986).
[27] Kurt Koffka. Principles of Gestalt Psychology. New York: Harcourt, Brace and Company, 1935.
[28] Daphne Koller and Nir Friedman. “Probabilistic Graphical Models - Principles and Techniques”. In: 2009.
[29] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. “ImageNet classification with deep convolutional neural networks”. In: Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1. NIPS’12. Lake Tahoe, Nevada: Curran Associates Inc., 2012, pp. 1097–1105.
[30] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. “Imagenet classification with deep convolutional neural networks”. In: Communications of the ACM 60.6 (2012), pp. 84–90.
[31] Yann LeCun et al. “Backpropagation applied to handwritten zip code recognition”. In: Neural computation 1.4 (1989), pp. 541–551.
[32] Yann LeCun et al. “Gradient-based learning applied to document recognition”. In: Proceedings of the IEEE 86.11 (1998), pp. 2278–2324.
[33] Baitao Li, E. Chang, and Ching-Tung Wu. “DPF - A Perceptual Distance Function for Image Retrieval”. In: Proceedings. International Conference on Image Processing. Vol. 2. 2002, pp. II–II. doi: 10.1109/ICIP.2002.1040021.
[34] Beitao Li, Edward Y. Chang, and Yi Wu. “Discovery of A Perceptual Distance Function for Measuring Image Similarity”. In: Multimedia Systems 8 (2003), pp. 512–522.
[35] Haoyuan Li et al. “PFP: Parallel FP-Growth for Query Recommendation”. In: ACM RecSys ’08. Lausanne, Switzerland: ACM, 2008.
[36] Robert K. Lindsay et al. “Applications of Artificial Intelligence for Organic Chemistry: The DENDRAL Project”. In: McGraw-Hill advanced computer science series (1979).
[37] Jiakai Liu et al. “Web-Scale Image Annotation”. In: Advances in Multimedia Information Processing - PCM 2008. Springer Berlin Heidelberg, 2008, pp. 663–674. isbn: 978-3-540-89796-5.
[38] Lihui Lu et al. “Combining Domain Knowledge and Deep Learning Methods for Vehicle Trajectory Prediction”. In: Journal of Physics: Conference Series 2303.1 (2022).
[39] Laurens van der Maaten, Eric O. Postma, and Jaap van den Herik. “Dimensionality Reduction: A Comparative Review”. In: 2008. url: https://api.semanticscholar.org/CorpusID:12051918.
[40] Douglas L. Medin, Robert L. Goldstone, and Dedre Gentner. “Respects for Similarity”. In: Psychological Review 100.2 (1993), pp. 254–278.
[41] Tomas Mikolov et al. Efficient Estimation of Word Representations in Vector Space. 2013. arXiv: 1301.3781 [cs.CL].
[42] George A. Miller. “WordNet: a lexical database for English”. In: Communications of the ACM 38.11 (1995), pp. 39–41.
[43] T. M. Mitchell. Machine Learning. McGraw-Hill series in computer science. McGraw Hill, 1997. isbn: 9780070428072.
[44] Allen Newell and Herbert A. Simon. “Logic Theorist and General Problem Solver”. In: Journal of the ACM (JACM) 1 (1956), pp. 256–260.
[45] Kenneth A. Norman et al. “Beyond mind-reading: multivoxel pattern analysis of fMRI data”. In: Trends in Cognitive Sciences 10 (2006), pp. 424–430.
[46] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. “GloVe: Global Vectors for Word Representation”. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014, pp. 1532–1543.
[47] J. Ross Quinlan. “Induction of Decision Trees”. In: Machine Learning 1 (1986), pp. 81–106.
[48] Edward Hance Shortliffe, Bruce G. Buchanan, and Edward A. Feigenbaum. “MYCIN: A Rule-Based Computer Program for Advising Physicians Regarding Antimicrobial Therapy Selection”. In: AI in Medicine 10 (1975), pp. 199–208.
[49] Joshua B. Tenenbaum, Vin De Silva, and J. C. Langford. “A Global Geometric Framework for Nonlinear Dimensionality Reduction”. In: Science 290 (2000), pp. 2319–2323.
[50] Peter W. Foltz, Thomas K. Landauer, and Darrell Laham. “An introduction to latent semantic analysis”. In: Discourse Processes 25.2-3 (1998), pp. 259–284.
[51] Ashish Vaswani et al. “Attention is all you need”. In: Advances in neural information processing systems (2017).
[52] Yi Wang et al. “PLDA: Parallel Latent Dirichlet Allocation for Large-Scale Applications”. In: Algorithmic Aspects in Information Management. Ed. by Andrew V. Goldberg and Yunhong Zhou. Berlin, Heidelberg: Springer Berlin Heidelberg, 2009, pp. 301–314.
[53] Max Wertheimer. “Experimentelle Studien über das Sehen von Bewegung”. In: Zeitschrift für Psychologie 61 (1912), pp. 161–165.
[54] Z. Zheng et al. “SpeeDO: Parallelizing Stochastic Gradient Descent for Deep Convolutional Neural Network”. In: LearningSys, NeurIPS. 2015.