ML/2021李弘毅

P1 1. Regerssion/classification(回歸/分類) 1. Loss 1. Gradient Descent 1. Optimization 1. sigmoid function 1. Hard sigmoid 1. Batch 1. ReLU(Rectified Linear Unit)/2個ReLU=Hard sigmoid 1. 單sigmoid=Neuron 1. hidden layer 1. overfitting ------------------- P2 1. Model bias/optimization/overfitting/mismatch 1. constrained 1. MSE ------------------------- P3+P4+P5+P6 1. Local minima V.S. Saddle point 1. Small batch V.S. Large batch what's the difference?優缺點? 1. Momentum(勢頭) 1. Learning rate 1. RMS 1. Learning rate decay V.S. Warm up 1. one-hot vector 1. softmax(調整至0-1之間) 1. cross-entropy **minimizing cross-entropy=maximizing likelihood** 1. Normalization 1. internal covariate shift ------------------------- P7 1. self attention ==output=vactor<regression>，output=label<classification>== 1. LLM 1. Seq2seq 1. Fully-connected ==史上最屌論文:attention is all you need:Transformer== 1. positional encoding 1. BERT 1. GAN/CNN/RNN ----------------- P8(Transformer) 1. Encoder/decoder 2.residual 3.Batch normal 小於 layernormal in transformer 4.Autoregressive 5.NAT(non-autogregrssive) 6.crossattention 7.copy mechanism 8.Beam search 9.Exposure bias Transformer: 一種深度學習模型架構，由Vaswani等人於2017年提出。主要應用於自然語言處理任務，如機器翻譯。Transformer使用自注意力機制來處理序列數據，並在Encoder-Decoder結構中進行操作。 Residual (Residual Connection): 在深度學習中的一種連接方式，通常應用於神經網絡的層之間。它允許模型在學習過程中更容易地傳遞梯度，減緩了梯度消失的問題。 Batch Normalization Layer Normalization in Transformer: 兩種標準化技術，用於加速深度神經網絡的訓練。在Transformer中，Layer Normalization通常應用於每一層的輸出，有助於穩定模型的訓練過程。 Autoregressive: 一種生成模型的特性，表示模型生成序列數據時，每個時間步的輸出依賴於前一個時間步的輸出。 NAT (Non-Autoregressive Transformer): 一種Transformer的變體，主要用於生成模型，但與傳統的autoregressive方法不同，NAT同時生成多個時間步的輸出，並且這些時間步之間是獨立的。 Cross-Attention: Transformer中的一種注意力機制，用於處理不同序列之間的相互信息。在Encoder-Decoder結構中，Cross-Attention可用於確保在翻譯等任務中，模型可以同時關注輸入和輸出序列的不同部分。 Copy Mechanism: 在自然語言處理中，一種機制，使得模型可以學會從輸入序列中複製一些片段到輸出序列，而不是生成全新的單詞。這對於處理命名實體等情境很有用。 Beam Search: 一種搜索算法，通常用於生成模型中，特別是應用於序列生成的任務，例如機器翻譯。它保留多個生成的候選，而不僅僅是單一的生成序列，以提高模型生成的多樣性。 Exposure Bias: 在序列生成任務中的一種偏差，指的是模型在訓練過程中只能接觸到已知的部分序列，但在生成時需要處理未知的部分。這種偏差可能導致模型在實際應用中表現不佳。 -------------- P9 GAN 1.Generator/discriminator ------------- 聽打 1.auto-encoder(unsupervised)(bottleneck 中間的窄vector)(高轉低維度) 2.embedding 3.PCA 4.discrete represention 5.anomaly detection(可以拿來做詐欺偵測)(異常檢測模型) 6. domain adversarial training/DAT 7.thershold 8.howto do/solve Adversarial Attack(L2-norm,l-infinity)(影響特斯拉辨識系統) 9.黑箱/白箱攻擊 10.one-pixel attack/backdoor/reprogramming 11.solve-filter/image compression/generator/adversarial training 12.Explainable ML 13.Domain Adaptation(更改data的domain來訓練資料)/Diry-t 14.Reinforce learning/reward 15.ML三步驟 function with unknown/define loss from training data/optimization 16.policy gradient/proximal policy optimization 17.exploration/加大entropy 18.critic(預測reward) 19.reward shaping(把reward拆分成小細項) 20.inverse Reinforce learning/IRL 21.Catastrophic Forgetting 22.Pruning類神經網路剪枝 23.大樂透假說 (Lottery Ticket Hypothesis) 24.ensemble(多模型平均) 25.knowledge disillation 26.parameter quantization 27.low rank approximation 28.gradient episodic memory(GEM) 29.progressive neural network 30.selective synaptic plasticity 31.life long learning/transfer learning 32.benchmark Autoencoder (無監督)：一種神經網絡結構，用於學習數據的壓縮表示。包含編碼器和解碼器，其中編碼器將輸入數據映射到較低維度的表示，解碼器則將該表示還原為原始數據。 Embedding：將數據映射到低維度空間的過程，通常用於將類別特徵轉換為連續的向量表示。 PCA (主成分分析)：一種統計方法，用於將高維度數據轉換為具有最大方差的低維度表示。 Discrete Representation：將數據表示為離散值的方法，通常用於處理類別或符號型數據。 Anomaly Detection (異常檢測)：一種機器學習任務，旨在識別與正常模式不同的異常或異常行為。 Domain Adversarial Training (DAT)：通過在模型中添加對抗性損失，從而使模型能夠在源域和目標域之間進行遷移學習。 Threshold：在二元分類中，設定的一個值，用於將模型的輸出判斷為正類或負類。 Adversarial Attack：針對機器學習模型的攻擊方法，通常通過對輸入進行微小修改，以誤導模型的預測。黑箱/白箱攻擊：黑箱攻擊指攻擊者無法訪問模型結構或參數的情況下進行攻擊，而白箱攻擊則允許攻擊者訪問模型的結構和參數。 One-Pixel Attack/Backdoor/Reprogramming：針對機器學習模型的攻擊手法，包括通過修改極少數像素或添加後門（backdoor）以影響模型性能。 Image Compression/Generator/Adversarial Training：圖像壓縮是減少圖像數據量的過程，生成器是一種生成模型，而對抗性訓練是通過引入對抗性損失以提高生成模型性能的方法。 Explainable ML：可解釋的機器學習，指的是能夠解釋模型預測或決策的方法，增加模型的可解釋性。 Domain Adaptation：通過改變數據的領域來訓練模型，以提高模型在目標領域上的性能。DIRT（Dirty目標）是一種變體。 Reinforcement Learning/Reward：強化學習是通過與環境的互動來學習最優行為的機器學習方法。獎勵是反饋信號，用於指導模型的學習。 Policy Gradient/Proximal Policy Optimization：策略梯度是一種用於學習策略的方法，而Proximal Policy Optimization是一種策略優化算法。 Exploration/增大Entropy：在強化學習中，探索是指學習新的行為，增大Entropy則有助於促使模型更多地探索未知區域。 Critic：在強化學習中，預測即將發生的未來獎勵的模型。 Reward Shaping：將總體獎勵分解為細項，以更好地引導學習。 Inverse Reinforcement Learning (IRL)：通過觀察專家的行為，學習其背後的目標和獎勵結構。 Catastrophic Forgetting：在連續學習中，指的是模型在學習新任務時遺忘先前學到的知識。 Pruning/神經網路剪枝：通過去除不必要的神經元或連接，以減小模型的大小。 Lottery Ticket Hypothesis：一種關於神經網絡中稀疏子網絡存在的假說。 Ensemble：將多個模型的預測結果組合起來，以提高整體性能。 Knowledge Distillation：從一個模型（教師模型）轉移到另一個模型（學生模型）的過程，以簡化模型或提高性能。 Parameter Quantization：減少模型參數位數以節省模型存儲空間的技術。 Low-Rank Approximation：通過用低秩矩陣逼近原始矩陣，以減小模型的大小。 Gradient Episodic Memory (GEM)：一種用於防止忘卻連續學習中先前任務的方法。 Progressive Neural Network：一種連續學習的方法，允許模型動態地擴展新任務。 Selective Synaptic Plasticity：模型中有選擇性地更新或保留某些神經元之間的連接。 Life-Long Learning/Transfer Learning：模型在長時間內持續學習的過程，或者模型在已學到的知識上進行遷移學習。 Benchmark：用於評估機器學習模型性能的標準數據集或任務。