AI / ML領域相關學習筆記入口頁面

[ML] Dimensionality Reduction 降維演算法 - Deep Targeted Discriminant Analysis (DeepTDA) ，t-SNE 與 UMAP之外的新選擇

深度學習與資料可視化：DeepTDA 與 UMAP 分析

在資料科學的應用場景中，經常需要通過降低資料的維度來理解和可視化複雜的資料集。本文將簡單比較兩種流行的降維技術：DeepTDA（Deep Targeted Discriminant Analysis）和UMAP（Uniform Manifold Approximation and Projection），討論它們各自的優缺點以及最佳使用情境。

DeepTDA 與 UMAP 的基本概念

DeepTDA 是一種基於拓撲資料分析 + 自監督學習的方法(Topological Data Analysis + Self-supervised)，適用於從資料中學習判別基的集體變量（discriminant-based collective variables ，CV），這些變量用於區分不同的物理或化學狀態。
UMAP 是一種非監督學習的維度減少技術，它專注於保持資料的局部和全局結構，適用於資料可視化和結構探索。

UMAP 的優點與缺點

優點：
- 適合於資料可視化和初步的結構探索。
- 處理大規模資料集時速度快。
- 能夠在減少維度時保持資料的局部和全局結構。
缺點：
- 降維後的結果可能難以解釋。
- 結果可能受到隨機種子的影響。

DeepTDA 的優點與缺點

優點：
- 能夠利用已知的標籤信息來引導維度減少過程。
- 針對特定狀態或類別建立判別性變量。
- 可以與其他機器學習模型配合使用，如深度學習網絡。
缺點：
- 需要進行監督學習，可能涉及較為複雜的神經網絡和長時間的訓練。
- ~~依賴於有標籤的訓練資料集。~~
DTA is an example of unsupervised machine learning, meaning you don’t need to label your data prior to analysis.

Topological Data Analysis

選擇 DeepTDA 還是 UMAP？

DeepTDA 更適合於需要精確區分不同物理或化學狀態的情境，如分子動態模擬、化學反應路徑分析等。
UMAP 更適合於大範圍的資料探索和可視化，特別是當資料標籤不可用或者不完整時。

Deep Targeted Discriminant Analysis (DeepTDA)說明

以下翻譯補充參考自2023。Luigi Bonati et. al.。mlcolvar。Deep-TDA: Deep Targeted Discriminant Analysis

Introduction

DeepTDA（Deep Targeted Discriminant Analysis）是一種用於監督學習的方法，它專門從有限的亞穩態(metastable states)信息出發，學習一種稱為集體變量（discriminant-based collective variables，CVs）的特殊變數。

Physical descriptors

在圖中提到的"Physical descriptors"指的是用於描述系統狀態的物理特徵。在化學和物理的脈絡中，這些描述符可能是原子的位置、角度、速度、能量狀態等，它們提供了對系統微觀狀態的詳細資訊。在DeepTDA模型中，這些物理描述符作為輸入資料被輸入到神經網絡，神經網絡會學習如何從這些高維度的物理資料中提取重要的特徵，並將其轉換成有用的低維度集體變量（CV），這些變量有助於區分不同的亞穩態或化學狀態。
Metastable states

在物理學中，亞穩態（metastable states）是指一種比最穩定態（即系統能量最低的態）稍微不穩定的狀態。雖然這個狀態不是最穩定的，但它需要一定的外部能量或擾動才能轉變到更穩定的態。這就像是一個球放在一個小坑里，而不是放在最深的大坑里；它可以留在那個小坑裡很長時間，直到有足夠的力使它出坑並最終滾到最深的那個坑裡。在化學反應中，亞穩態可能是某些中間產物的狀態，這些中間產物最終會變成更穩定的產物。在材料科學中，某些材料結構的亞穩態可能擁有獨特的性質，這使得它們在特定應用中非常有用，即便它們不是最穩定形態

亞穩態就像是遊戲中的不同關卡，而集體變量就是幫助識別這些關卡的特殊標誌

DeepTDA模型中的這些檢查點（metastable states）這裡可以看作是分群（clustering）的邊界，每個群體代表了系統中的一個特定狀態或階段。這些檢查點定義了資料點應該分類到哪一個群組中的規則，並且這些群組在整個資料集中是互相區分開的。

因此，當用DeepTDA來學習如何區分不同的亞穩態時，就像是在用分群算法來識別和劃定數據點應該屬於哪個群組的邊界。這種類比有助於理解亞穩態在動態系統中的角色，以及它們如何與分群算法中定義群組邊界的概念相似。
Discriminant-based Collective variables，CVs

「discriminant-based collective variables（基於判別的集體變數）」這個詞可以這樣理解：想像有一堆物質或狀態，它們在一個很大很複雜的空間裡，比如說在化學反應中，每種物質都有好多好多的原子，而且每個原子都在不停地動。這些動來動去的原子就好像是在很大的空間裡的一堆點。現在，想要用一個簡單的方法來描述這個複雜的動態，這就需要「集體變數」出場了。

集體變數其實就是一種特殊的變數，能夠幫把這一大堆的原子動態簡化成幾個重要的特點，只需要關注幾個變數就好了。而基於判別的集體變數，就是設計來區分不同物質或狀態的這些變數。例如，如果想要區分水和冰，基於判別的集體變數就會是描述水和冰在分子層面上的差異的那些關鍵特點。

數學上，可以用一個簡單的公式來表示這種基於判別的集體變數
$C V$ ，它可能會依據一些物理特性
$x_{i}$ 來定義：

$C V = f (x_{1}, x_{2}, . . ., x_{n})$

這裡的
$f$ 是一個函數，它將所有的物理特性
$x_{i}$ （比如原子的位置或速度）綜合起來，讓可以用
$C V$ 這個集體變數來描述整個系統的狀態。這樣，就可以用一個或幾個
$C V$ 來代替成千上萬的
$x_{i}$ ，這樣計算起來就方便多了。

在這裡可以把「基於判別的集體變數」理解為一種編碼（Encoding）的概念。在資訊科學和資料處理中，編碼通常指的是將大量資料或複雜信息轉換成更簡潔、更易於處理的格式。這種轉換過程保留了原始資料中最重要的特徵，同時減少了資料的複雜性。

在DeepTDA中，「基於判別的集體變數」的編碼過程涉及使用神經網絡從高維資料中學習到能夠反映不同物質或狀態特性的低維表示。這些變數捕捉了區分這些狀態所需的關鍵資訊，就像是編碼器把一串複雜的資料編碼成一組更簡潔、更有意義的代碼，讓能夠更容易地進行分析和處理。

在DeepTDA中，使用一種叫神經網絡（NN）的工具來處理大量的描述資料

d

，這些資料包含了亞穩態的信息。神經網絡的任務是把這些複雜的描述轉換成簡單的集體變量，就好像是將遊戲中複雜的地圖縮減成簡單的指南針，幫助導航。神經網絡會被訓練，以確保從每個亞穩態得到的資料，在這個集體變量的空間裡，能夠按照事先設定的目標分布開來。這個目標通常是由若干個高斯函數組成，每個亞穩態一個。

In DeepTDA these CVs are built imposing a target that is a linear superimposition of multivariate Gaussians with diagonal covariances.

在DeepTDA裡面，我們設定一個目標，來建立一些特殊的變數（CVs），幫助我們區分不同的狀態。這個目標是由幾個多變量高斯函數組成的，這些高斯函數疊加在一起。想像高斯函數就像是不同大小和形狀的山丘，它們彼此重疊，形成了一個有起伏的地形圖。

「Diagonal covariances」
這個術語意味著在這些高斯函數形成的地形圖中，每座山丘的寬度和方向都是獨立的，它們不會互相影響。在數學上，這表示我們在計算這些山丘的形狀時，只考慮了每個方向上的擴散程度，而沒有考慮不同方向之間的關聯。简而言之，每個變量都是獨立變化的，沒有變量之間的關聯性。

當面對多個亞穩態時，DeepTDA的應用也很直接。通常，如果有

N_{s}

個亞穩態，就需要定義

N_{s} - 1

個集體變量，來完整描述它們之間所有可能的過渡。這些集體變量是通過設定一個目標來建立的，這個目標是多個多變量高斯函數的疊加，它們具有對角共變數。

不過，在某些情況下，如果不同的亞穩態只能按照特定的順序出現，比如在化學反應中，有穩定的中間產物，或者從相同的反應物中只能得到互斥的產品，那麼就可以減少需要的集體變量的數量。在這種情況下，DeepTDA允許僅通過設定一個目標就能建立一維的集體變量，這個目標會尊重這些狀態的順序。

舉例來說，在遊戲中有很多不同的階段或「關卡」（metastable states）。每個關卡都有自己的特點，而DeepTDA就像是一個特殊的指南，能幫找到從一個關卡到另一個關卡的路徑。如果遊戲有

N_{s}

個關卡，就需要

N_{s} - 1

種指南，也就是集體變量，來指引通過所有可能的路徑。

這些指南是根據一些規則設計的，這些規則就像是一堆覆蓋在關卡上的多變量高斯函數，每一個函數都有一個「中心點」和「擴散範圍」，這幫助清楚地看到每個關卡的位置和大小。

但有時候，遊戲的設計是讓你必須按照一定的順序通過這些關卡，比如你必須先通過「森林」關卡才能進入「沙漠」關卡。在這種情況下，你不需要那麼多的指南，因為關卡之間的路徑是固定的。DeepTDA允許只用一條路徑或指南，就能按照正確的順序通過所有關卡，這條指南就是設定的一維集體變量，它尊重了關卡的通過順序。

Optimization criterion

每個狀態在訓練過程中都會貢獻兩個數值，一個是中心位置的數值，一個是分布寬度的數值。神經網絡的目標是調整這些數值，使其盡可能接近事先設定的目標值。

就好像你在玩一個射擊遊戲，你的槍每次射擊後都有一個散佈範圍，你要通過調整瞄準器，讓你的子彈盡可能打在靶心，同時確保子彈散佈的範圍也要盡可能小，這樣你射出的子彈就可以更精準地命中目標。

在數學公式中，用

L_{k, ρ}^{μ}

和

L_{k, ρ}^{σ}

來表示這兩個數值。

L_{k, ρ}^{μ}

確保神經網絡預測的中心位置

μ_{k, ρ}

要接近目標中心

μ_{k, ρ}^{t g}

，而

L_{k, ρ}^{σ}

確保預測的分布寬度

σ_{k, ρ}

要接近目標寬度

σ_{k, ρ}^{t g}

。

最後，把所有狀態和所有維度上的這些數值加起來，得到一個總損失函數

L_{T D A}

，神經網絡就是要通過訓練來最小化這個總損失函數。公式中的

α

和

β

是兩個超參數，用來調整中心位置和分布寬度在損失函數中的重要程度，確保在訓練的第一階段，這兩部分的貢獻大致相同。

總損失函數的數學公式如下：

L_{T D A} = \sum_{ρ = 1}^{N_{d}} \sum_{k = 1}^{N_{s}} [α L_{k, ρ}^{μ} + β L_{k, ρ}^{σ}]

這個公式簡單地說就是把所有狀態和維度上的數值加起來，得到一個總分，神經網絡要努力讓損失函數越小越好。

在分群演算法中，每個群組通常會有一個「群中心點」，這代表了該群組所有數據點的中心或平均位置。同樣地，

L_{k, ρ}^{μ}

可以被看作是一個度量，它衡量實際的群中心點與目標中心點之間的差異，目的是使實際中心點盡可能接近目標中心點。

而

L_{k, ρ}^{σ}

則類似於衡量群組在高維空間中範圍的大小。在分群中，這可以對應到群組的「半徑」或分散程度，它告訴群組中的數據點與群中心點的平均距離。在DeepTDA中，

L_{k, ρ}^{σ}

試圖使實際的群範圍與目標範圍相匹配。

L_{k, ρ}^{μ}

和

L_{k, ρ}^{σ}

這兩個損失函數是為了在訓練神經網絡時，導引模型學習出能夠清晰區分不同亞穩態的集體變量，就像分群演算法中嘗試找到最佳的群中心點和確定群範圍一樣。

Choice of the target

如何設定目標高斯函數的中心點和寬度，以便有效地學習和區分不同的亞穩態

首先，每個亞穩態都會對應一個高斯函數。需要把這些函數放在彼此之間有一定距離的位置，這樣模型才能更好地學習如何區分它們。例如，如果有兩個亞穩態對應的高斯函數中心點是

μ_{A} = - 7

和

μ_{B} = 7

，這表示把這兩個函數放在距離至少為 14 個單位的位置（因為 (-7) 到 (7) 就有 (14) 個單位的距離）。

接著，高斯函數的寬度，也就是

σ

，代表了每個亞穩態在高維空間中的範圍。通常，這個範圍的寬度設定為 0.2 到 0.5 之間就可以了，這個範圍既不會太大也不會太小。

為什麼要這樣設定呢？原因有三：

不要太靠近：如果亞穩態之間的高斯函數放得太近，那麼在這些狀態之間的過渡狀態（通常對這個狀態了解不多）就沒有足夠的空間了。
不要太遠：如果放得太遠，那麼神經網絡在大部分集體變量空間中就要從數據中進行外推，而不是內插，這是比較困難的。
不要太寬也不要太窄：高斯函數的寬度如果設定得不合理，可能會導致學習到的模型對原子位置的依賴性太強或太弱，在施加偏見（bias）時會造成問題，導致過於強烈或微弱的力。

總的來說，這樣的設定可以幫助神經網絡更好地學習數據，並且確保在分辨不同亞穩態時，模型的表現是有效的。

白話來說，想像你在設計一個電子遊戲的地圖，要放置一些檢查點（就是這裡說的高斯函數，用來代表不同狀態）。要確保這些檢查點（metastable states）既不要太靠近，也不要太遠。如果它們太靠近，玩家就分不清楚現在在哪個階段；如果它們太遠，玩家可能會迷路，因為大部分地圖都沒有檢查點。而且檢查點的大小也不能太大或太小，要剛剛好，這樣玩家才能明確知道自己是否已經達到那個階段。

數學上，會給這些檢查點設定一個中心位置（比如說

μ_{A} = - 7, μ_{B} = 7

），這就像是確定每個檢查點在地圖上的確切位置。然後，還會設定一個大小（這裡的寬度，用

σ

表示），就像是決定檢查點的範圍有多大。一般來說，這個範圍的大小應該設在0.2到0.5之間，這樣大部分時間都是合適的。

這樣設定目標的理由是要讓神經網絡在學習時不至於太困難，也不會學得不夠準確。如果這些目標設定得好，那麼神經網絡就能更好地學習如何區分不同的遊戲階段，並幫助玩家順利通過。

TPI-Deep-TDA

TPI-Deep-TDA 是 Deep-TDA 的一種進階版，它加入了 Transition Path Informed (TPI) 的概念。簡單來說，這個方法不只是學習亞穩態（就像是不同的遊戲關卡），還學習這些關卡之間的過渡路徑，也就是從一個狀態到另一個狀態的轉變。

在這個進階的模型中，我們把過渡路徑當作一個獨立的類別來處理。這樣做的好處是它不僅提高了模擬的收斂速度，還改善了模型的性能，因為它提供了更多關於亞穩態之間關係的資訊。

整個過程可以想像成以下步驟：

進行無偏見的分子動力學模擬，這就像是探索遊戲地圖，找到所有可能的路徑。
訓練 Deep-TDA，學習關卡的特點和它們之間的路徑。
應用 OPES-Flooding 在 Deep-TDA CV 上，這個步驟就像是在遊戲中創造一些特殊事件，幫助我們更快地找到從一個關卡到另一個關卡的路徑。
訓練 TPI-Deep-TDA，這一步是在學習中加入過渡路徑的資訊，這就像是獲得了一張更詳細的遊戲地圖，上面標有從一個關卡到另一個關卡的直接路徑。
進行 OPES 在 TPI-Deep-TDA CV 上的模擬，這個階段是用我們新獲得的詳細地圖來指導我們快速有效地完成遊戲。

在實際操作中，TPE 數據是通過修剪反應軌跡來收集的，這些軌跡可以用 OPES-Flooding 方案輕易生成，這就像是用一個已知的地圖來預測其他地圖的情況。這樣，TPE 就被加入到 Deep-TDA CV 中，作為一個更寬廣的狀態，用 ( \sigma_{TPE} = 1.0/2.0 ) 來表示，確保它與其他亞穩態之間的重疊是可以忽略不計的。

Reference

2023.04。datarefiner。Why you should use Topological Data Analysis over t-SNE or UMAP?

最通俗直白的一篇，推薦從這篇看起

TDA (DataRefiner) visualisation for the time-series dataset

2023。Luigi Bonati et. al.。mlcolvar。Deep-TDA: Deep Targeted Discriminant Analysis

Topological Data Analysis

拓撲資料分析（Topological Data Analysis，TDA）是一種應用拓撲技術分析數據集的方法，特別是在處理高維、不完整和噪聲數據時顯得非常有用。TDA提供了一個一般性的框架，可以不受特定度量影響地分析數據，並提供降維和對噪聲的穩固性

2021.09。Frédéric Chazal、 Michel。Frontiers in Artificial Intelligence。An Introduction to Topological Data Analysis: Fundamental and Practical Aspects for Data Scientists

2022.05。Shawhin Talebi。Topological Data Analysis (TDA) A less mathematical introduction

Topological Data Analysis (TDA) | An introduction

Key points
- TDA studies the shape of data
- TDA is well-suited for noisy and high-dimensional datasets

AI / ML領域相關學習筆記入口頁面

[ML] Dimensionality Reduction 降維演算法 - Deep Targeted Discriminant Analysis (DeepTDA) ，t-SNE 與 UMAP之外的新選擇

深度學習與資料可視化：DeepTDA 與 UMAP 分析

DeepTDA 與 UMAP 的基本概念

UMAP 的優點與缺點

DeepTDA 的優點與缺點

選擇 DeepTDA 還是 UMAP？

Deep Targeted Discriminant Analysis (DeepTDA)說明

Introduction

Optimization criterion

Choice of the target

TPI-Deep-TDA

Reference

2023.04。datarefiner。Why you should use Topological Data Analysis over t-SNE or UMAP?

2023。Luigi Bonati et. al.。mlcolvar。Deep-TDA: Deep Targeted Discriminant Analysis

Topological Data Analysis

2021.09。Frédéric Chazal、 Michel。Frontiers in Artificial Intelligence。An Introduction to Topological Data Analysis: Fundamental and Practical Aspects for Data Scientists

2022.05。Shawhin Talebi。Topological Data Analysis (TDA) A less mathematical introduction

2022.07。马东什么。topological data analysis 概述

Read more

[GenAI][AI Agents] Long-Term Agentic Memory With LangGraph - Introduction to Agent Memory

[GenAI][AI Agents] Long-Term Agentic Memory With LangGraph - Baseline Email Assistant

[AI Agents in LangGraph](https://learn.deeplearning.ai/courses/ai-agents-in-langgraph/lesson/1/introduction)

AI / ML領域相關學習筆記入口頁面