# 機器學習工作坊1 重點概念整理 > [name=Yun-Tao Chen] > [time=Wed, Sep 18, 2019 12:05 PM] **機器學習 (Machine Learning)** 領域的原物料是**大量的資料**,也是俗稱的**大數據**, 有了大數據後,就可以透過資料來訓練機器學習模型,目的就是讓機器學習模型能夠 “看懂” 資料。 機器學習演算法核心是機率模型,有許多參數可以調整,使得模型能夠輸出更接近正確的資訊。 參數調整的方式則是演算法的一大重點,與訓練模型所用的資料相輔相成 準備資料時,我們必須要蒐集齊全每一筆資料的 input 端與 output 端,例如做貓咪影像辨識時,我們必須提供大量已知是**貓的圖片**,以及**不是貓的圖片**,讓機器學習模型自動去調整參數,得到一個**能夠辨識一張圖片是否是貓**的模型。 評估機器學習模型的策略,以及資料準備的處理方式,都是機器學習領域當中,非常重要的環節。有好的評估準則,才能讓我們挑出好的機器學習模型,用在適合的情境當中。在做分類問題時,統計學當中有三個很常用的指標,分別為**精確率 (Precirion)**,**召回率 (Recall)**,與**F值(F Score)** 以「**辨識是否有疾病**」的分類準確度為例: **精確率** 代表我們辨識模型推斷「有病」的案例當中,實際上有病的比例。 **召回率** 代表實際有病的案例當中,成功被辨識模型偵測到的比例。 **F值** 則是將精確率,召回率做一個加權平均後,所計算出來的指標。 由以上案例可見,光是一個分類問題,就可以從許多不同的面向去探討模型是否「**準確**」,如果想要綜合評估模型的表現,我們可以採用像是 **F Score** 這樣的綜合指標來評估模型整體表現。 目前的影像辨識領域,大量採用機器學習知名的**神經網路 (Neural Network 簡稱 NN)** 架構,在顯示卡與運算能力發展進步的幫助下,讓我們可以擁有足夠的運算能力,在短時間內運算處理多層 (深層) 的神經網路架構,發展出**深度學習 (Deep Learning)** 這樣的演算法,突破了影像辨識多年來的瓶頸。 Deep Learning 演算法架構針對不同的問題,也發展出許多變形,例如用於處理影像的 **Convolutional Neural Network (CNN)** 模型,以及用於處理時間序列資料如做文本翻譯,語音辨識的 **Recurrent Neural Network (RNN)** 模型。 許多知名的 CNN 架構在影像辨識比賽中取得優異的成績,例如 **Google** 的 **Inception** 系列,**微軟**的 **ResNet** 系列,都是知名的設計,有興趣可以查關鍵字追一下最新發展喔。 相關資源推薦 台大李宏毅教授的 Youtube 頻道: https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ Stanford University Machine Learning 線上課程: https://www.coursera.org/learn/machine-learning
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up