P1 1. Regerssion/classification(回歸/分類) 1. Loss 1. Gradient Descent 1. Optimization 1. sigmoid function 1. Hard sigmoid 1. Batch 1. ReLU(Rectified Linear Unit)/2個ReLU=Hard sigmoid 1. 單sigmoid=Neuron 1. hidden layer 1. overfitting ------------------- P2 1. Model bias/optimization/overfitting/mismatch 1. constrained 1. MSE ------------------------- P3+P4+P5+P6 1. Local minima V.S. Saddle point 1. Small batch V.S. Large batch what's the difference?優缺點? 1. Momentum(勢頭) 1. Learning rate 1. RMS 1. Learning rate decay V.S. Warm up 1. one-hot vector 1. softmax(調整至0-1之間) 1. cross-entropy **minimizing cross-entropy=maximizing likelihood** 1. Normalization 1. internal covariate shift ------------------------- P7 1. self attention ==output=vactor<regression>,output=label<classification>== 1. LLM 1. Seq2seq 1. Fully-connected ==史上最屌論文:attention is all you need:Transformer== 1. positional encoding 1. BERT 1. GAN/CNN/RNN ----------------- P8(Transformer) 1. Encoder/decoder 2.residual 3.Batch normal 小於 layernormal in transformer 4.Autoregressive 5.NAT(non-autogregrssive) 6.crossattention 7.copy mechanism 8.Beam search 9.Exposure bias Transformer: 一種深度學習模型架構,由Vaswani等人於2017年提出。主要應用於自然語言處理任務,如機器翻譯。Transformer使用自注意力機制來處理序列數據,並在Encoder-Decoder結構中進行操作。 Residual (Residual Connection): 在深度學習中的一種連接方式,通常應用於神經網絡的層之間。它允許模型在學習過程中更容易地傳遞梯度,減緩了梯度消失的問題。 Batch Normalization Layer Normalization in Transformer: 兩種標準化技術,用於加速深度神經網絡的訓練。在Transformer中,Layer Normalization通常應用於每一層的輸出,有助於穩定模型的訓練過程。 Autoregressive: 一種生成模型的特性,表示模型生成序列數據時,每個時間步的輸出依賴於前一個時間步的輸出。 NAT (Non-Autoregressive Transformer): 一種Transformer的變體,主要用於生成模型,但與傳統的autoregressive方法不同,NAT同時生成多個時間步的輸出,並且這些時間步之間是獨立的。 Cross-Attention: Transformer中的一種注意力機制,用於處理不同序列之間的相互信息。在Encoder-Decoder結構中,Cross-Attention可用於確保在翻譯等任務中,模型可以同時關注輸入和輸出序列的不同部分。 Copy Mechanism: 在自然語言處理中,一種機制,使得模型可以學會從輸入序列中複製一些片段到輸出序列,而不是生成全新的單詞。這對於處理命名實體等情境很有用。 Beam Search: 一種搜索算法,通常用於生成模型中,特別是應用於序列生成的任務,例如機器翻譯。它保留多個生成的候選,而不僅僅是單一的生成序列,以提高模型生成的多樣性。 Exposure Bias: 在序列生成任務中的一種偏差,指的是模型在訓練過程中只能接觸到已知的部分序列,但在生成時需要處理未知的部分。這種偏差可能導致模型在實際應用中表現不佳。 -------------- P9 GAN 1.Generator/discriminator ------------- 聽打 1.auto-encoder(unsupervised)(bottleneck 中間的窄vector)(高轉低維度) 2.embedding 3.PCA 4.discrete represention 5.anomaly detection(可以拿來做詐欺偵測)(異常檢測模型) 6. domain adversarial training/DAT 7.thershold 8.howto do/solve Adversarial Attack(L2-norm,l-infinity)(影響特斯拉辨識系統) 9.黑箱/白箱攻擊 10.one-pixel attack/backdoor/reprogramming 11.solve-filter/image compression/generator/adversarial training 12.Explainable ML 13.Domain Adaptation(更改data的domain來訓練資料)/Diry-t 14.Reinforce learning/reward 15.ML三步驟 function with unknown/define loss from training data/optimization 16.policy gradient/proximal policy optimization 17.exploration/加大entropy 18.critic(預測reward) 19.reward shaping(把reward拆分成小細項) 20.inverse Reinforce learning/IRL 21.Catastrophic Forgetting 22.Pruning類神經網路剪枝 23.大樂透假說 (Lottery Ticket Hypothesis) 24.ensemble(多模型平均) 25.knowledge disillation 26.parameter quantization 27.low rank approximation 28.gradient episodic memory(GEM) 29.progressive neural network 30.selective synaptic plasticity 31.life long learning/transfer learning 32.benchmark Autoencoder (無監督): 一種神經網絡結構,用於學習數據的壓縮表示。包含編碼器和解碼器,其中編碼器將輸入數據映射到較低維度的表示,解碼器則將該表示還原為原始數據。 Embedding: 將數據映射到低維度空間的過程,通常用於將類別特徵轉換為連續的向量表示。 PCA (主成分分析): 一種統計方法,用於將高維度數據轉換為具有最大方差的低維度表示。 Discrete Representation: 將數據表示為離散值的方法,通常用於處理類別或符號型數據。 Anomaly Detection (異常檢測): 一種機器學習任務,旨在識別與正常模式不同的異常或異常行為。 Domain Adversarial Training (DAT): 通過在模型中添加對抗性損失,從而使模型能夠在源域和目標域之間進行遷移學習。 Threshold: 在二元分類中,設定的一個值,用於將模型的輸出判斷為正類或負類。 Adversarial Attack: 針對機器學習模型的攻擊方法,通常通過對輸入進行微小修改,以誤導模型的預測。 黑箱/白箱攻擊: 黑箱攻擊指攻擊者無法訪問模型結構或參數的情況下進行攻擊,而白箱攻擊則允許攻擊者訪問模型的結構和參數。 One-Pixel Attack/Backdoor/Reprogramming: 針對機器學習模型的攻擊手法,包括通過修改極少數像素或添加後門(backdoor)以影響模型性能。 Image Compression/Generator/Adversarial Training: 圖像壓縮是減少圖像數據量的過程,生成器是一種生成模型,而對抗性訓練是通過引入對抗性損失以提高生成模型性能的方法。 Explainable ML: 可解釋的機器學習,指的是能夠解釋模型預測或決策的方法,增加模型的可解釋性。 Domain Adaptation: 通過改變數據的領域來訓練模型,以提高模型在目標領域上的性能。DIRT(Dirty目標)是一種變體。 Reinforcement Learning/Reward: 強化學習是通過與環境的互動來學習最優行為的機器學習方法。獎勵是反饋信號,用於指導模型的學習。 Policy Gradient/Proximal Policy Optimization: 策略梯度是一種用於學習策略的方法,而Proximal Policy Optimization是一種策略優化算法。 Exploration/增大Entropy: 在強化學習中,探索是指學習新的行為,增大Entropy則有助於促使模型更多地探索未知區域。 Critic: 在強化學習中,預測即將發生的未來獎勵的模型。 Reward Shaping: 將總體獎勵分解為細項,以更好地引導學習。 Inverse Reinforcement Learning (IRL): 通過觀察專家的行為,學習其背後的目標和獎勵結構。 Catastrophic Forgetting: 在連續學習中,指的是模型在學習新任務時遺忘先前學到的知識。 Pruning/神經網路剪枝: 通過去除不必要的神經元或連接,以減小模型的大小。 Lottery Ticket Hypothesis: 一種關於神經網絡中稀疏子網絡存在的假說。 Ensemble: 將多個模型的預測結果組合起來,以提高整體性能。 Knowledge Distillation: 從一個模型(教師模型)轉移到另一個模型(學生模型)的過程,以簡化模型或提高性能。 Parameter Quantization: 減少模型參數位數以節省模型存儲空間的技術。 Low-Rank Approximation: 通過用低秩矩陣逼近原始矩陣,以減小模型的大小。 Gradient Episodic Memory (GEM): 一種用於防止忘卻連續學習中先前任務的方法。 Progressive Neural Network: 一種連續學習的方法,允許模型動態地擴展新任務。 Selective Synaptic Plasticity: 模型中有選擇性地更新或保留某些神經元之間的連接。 Life-Long Learning/Transfer Learning: 模型在長時間內持續學習的過程,或者模型在已學到的知識上進行遷移學習。 Benchmark: 用於評估機器學習模型性能的標準數據集或任務。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up