# PM2.5計畫申請書 ## 1. ### 1.1 BACKGROUND 研究背景 - 介紹PM2.5(不重要) - 目前有關PM2.5的研究有: - source apportionment 來源分配 識別樣本的化學物質組成,方法有: - receptor model, source model receptor model 透過污染物元素的數量分佈,得出運輸方式和擴散路徑;source model 通過模擬污染物來源的運輸和擴散路徑進行分配 - tracer model 直接從源頭收集污染物樣本並分析樣品的化學特性 - concentration prediction 濃度預測 預測隔天PM2.5的情況,有3個方法: - Statistical methods 估計自變量(溫度風速降水)與因變量(PM2.5濃度)間的關係,或尋找PM2.5時間序列的季節性模式 - Machine learning models(如artificial neural networks人工神經網絡, fuzzy systems模糊系統, support vector machines支持向量機器) 能依據歷史數據找出自變量與因變量之間的關係函數 - hybridization of multiple prediction models 混合多個預測模型去預測,目前團隊已經開發出4個learning model - spatiotemporal analysis 時空分析 目前對時空分析大多屬於統計方法,例如計算相關係數(CC)和方差係數(CV),但它們不能針對時空域中諸多變量分析,而且計算量很大。只有少數研究採用機器學習技術來研究 - 我們認為結合典型PM2.5時空分析和其他學科領域會很有益處,並且我們發現「PM2.5濃度和分散度」與「影片場景」間有很大關係 - 我們假設把地理圖切成n×n的格子(n×n像素)。在每個格子中央都有一個PM2.5 sencer,每小時傳輸一次濃度強度的資料。至於沒有PM2.5 sensor格子,可以通過平滑(smoothing)或機器學習技術來模擬。 (**...這裡不太懂...**) 從上方觀看城市,監視PM2.5濃度的每小時變化動態。所以每一小時經過就會獲得一個n×n像素的圖像(影像用語叫「幀」),網格中的PM2.5濃度被視為灰度值(濃度愈高灰度愈高)(**變成2D string??**)。30天後有30×24 = 720幀,串連在一起形成就一段影像,影像的變化代表PM2.5濃度、路徑、分散的情況。 video spatiotemporal analysis(影像時空分析)的技術已經很成熟,所以可以用這些技術來分析PM2.5的影像 - 2D Be-strings:用字串來表示圖片的數據結構(P.6) - shot boundary detection:一種辨識視頻鏡頭邊界的方法(P.7) - video summarization(視訊時空摘要):去除影像中不重要的資訊,只留下重點(P.8~9) - gait energy image (GEI,步態能量圖):辨識人類步態,有效描述從不同角度觀察到的人類步態特徵(P.9) [【计算机视觉】步态能量图GEI](https://blog.csdn.net/xiaowei_cqu/article/details/18002883) - Bag of Words category recognition(BoVW,詞袋模型):圖像分類方法,一般BoVW效果好壞主要取決於從圖像中提取的「局部特徵」。在這裡會用一種新的分類方法--利用「壓縮的局部視網膜特徵(CLRF)」來進行圖像分類(P.10) [Image Category Recognition using Bag of Visual Words Representation](https://www.researchgate.net/publication/309601235_Image_Category_Recognition_using_Bag_of_Visual_Words_Representation) [Neutrino's Blog: 使用Bag of Visual Words 做圖片分類](https://tigercosmos.xyz/post/2020/06/cv/bag-of-visual-words/) - 舉例: 1. 使用者可以畫出一張有標誌性的圖,來查詢PM2.5警報類別和與自然對象的空間關係 2. 使用者上傳一張圖後,先轉成2D Be-string,再和數據庫做比對,進行更多分析 3. 使用者上傳一張GEI,查詢數據庫中的相似鏡頭(PM2.5短片),來分析歷史上PM2.5濃度、移動和分散的模式。 - 為了充分利用影像處理技術,將3D filter convolution(3D濾波器卷積)來自動檢測新的PM2.5濃度特徵,例如點、線和區域污染源。 > 卷積:對圖片去做「擷取特徵」的動作,找出最好的特徵再進行分類 > [[機器學習 ML NOTE]Convolution Neural Network 卷積神經網路](https://medium.com/%E9%9B%9E%E9%9B%9E%E8%88%87%E5%85%94%E5%85%94%E7%9A%84%E5%B7%A5%E7%A8%8B%E4%B8%96%E7%95%8C/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-ml-note-convolution-neural-network-%E5%8D%B7%E7%A9%8D%E7%A5%9E%E7%B6%93%E7%B6%B2%E8%B7%AF-bfa8566744e9) > [圖像卷積與濾波的一些知識點](https://kknews.cc/zh-tw/news/862lyxq.html) - The frequent co-occurrence activities can be identified by association-rule mining in both spatial and temporal domains simultaneously. (翻譯:藉由在空間和時間中同時進行association-rule mining,可以識別頻繁的co-occurrence) (**不懂**,association-rule mining是指上述的分析方法?還是另一種分析方法?) > co-occurrence(共現關係):[共生分群的三種規則](https://medium.com/marketingdatascience/%E5%85%B1%E7%94%9F%E5%88%86%E7%BE%A4%E7%9A%84%E4%B8%89%E7%A8%AE%E8%A6%8F%E5%89%87-b4e10ebd4b3c) ### 1.2 LITERATURE REVIEW 回顧文獻 #### 1.2.1 Spatiotemporal Analysis of PM2.5 | PM2.5的時空分析 - PM2.5典型的分析方法主要有4種 1. 相關係數與方差 - coefficient variance(CV)越高代表PM2.5在城市的波動越大 - CV值的變動和觀光有一定程度的關係 - coefficient correlattion(CC)在都市化與PM2.5有正負相關 > 變異係數(CV):形容機率分布「離散程度」的一個標準 > 相關係數(CC):形容兩變數X和Y之間的相關程度,其值介於-1與1之間 2. 時空回歸 - 廣泛應用在反應變量和獨立變量之間的關係 - 時空回歸解釋PM2.5和多個獨立變量可以減少計算模型 - 計算模型:用於測量演算法在時間上或空間上的複雜度 3. 概率 - 每小時用2參數的伽瑪分布(gamma ditribution)描述每個城市在季節性的probability density functions (PDFs) - 兩個參數分別為形狀參數(shape parameter)和比例參數(scale parameter) - 最佳值為參照往年資料的機率算出 - 可用非參數預測PM2.5 - 伽瑪分布:計算連續發生事件的等候時間 4. 機器學習 - 觀測 - 冬天PM2.5最高,反之夏天最低 - 北邊PM2.5較高,反之南邊較低 - 現有的PM2.5時空分析方法存在幾個缺點: - 大多使用統計,很少方法使用分群技術分析(clustering techniques),忽略了機器學習的可能性 - 只能將時間和空間分開分析(因為運算量太大),導致兩者相關性被忽略 - 只能逐段一一分析,缺乏全面性觀點來闡述不同時空的關聯性 #### 1.2.2 Spatiotemporal Analysis of Video 影像的時空分析 ##### A:Spatial Representation and Retrieval of Still Images(**?**) - 將2D string data投影到x軸y軸,按照x軸 & y軸的順序判斷2D位置,以e作為分割表示每個區塊的begin & end ![](https://i.imgur.com/5dEPZwG.png =300x) - A~E:PM2.5濃度等級(**每一個標記都代表一個測站?**) - (x軸相對位置, y軸相對位置) - "<" : (在左方, 在下方) - "=" : 在座標軸上相同位置 - ":" : object的位置一樣(x軸座標=y軸座標),將"="改成":" - 但2D string有一些限制,就是object必須在「(正方形)網格中」才能使用,而且不能處理複雜的空間關係:“contain(包含)” “overlap(重疊)”,如Fig.2的B和E交界 - 比2D string更好的方法:2D Be-string 移除了所有indicator(指標)(**指標有哪一些?**),效率變好 同樣分開看x軸和y軸,每個object產生2條投影線(beginning和ending)。如果有兩條連續的投影線不重合,則在它們之間插入虛擬物體投影線e ![](https://i.imgur.com/LpZiCZq.png =500x) - 優點:object不必限制在n*n的網格中,可以是長寬各不同的矩形,較貼近真實情況 - 如何估計二圖像間的「相似性」:找出二圖像間x軸和y軸的LCS(longest common subsequence,最長公共子序列) - 相似性 = LCS÷原字串長度 - 時空分析:單單分析一張圖是「空間分析」,分析連續多張圖(shot)是「時間分析」 ##### B:shot boundary detection(SBD) - 一段影片由一個或多個shot(鏡頭)組成,每一個shot由多張連續圖片組成 - 要自動分割一段影片,依照關鍵畫面將前後變化分別抓出來變成多個shot - shot的過度通常分為二種:突然過渡(hard cut)和柔和過渡(soft cut),後者較難辨識出來 - SBD過程分為二階段: 1. frame scoring phase:定義一個函數,對每張圖打分,表示該圖為「重要畫面」的可能性 2. cut decision phase:決定一個臨界值,將所有圖片依1.的分數分為 cuts 和 non-cuts - 分割方法: - 修正臨界點。如果frame的數值高於臨界點-->切 - 適合的臨界點 - 機器學習 ##### C:影片彙整 - 應該是將之前蒐集到的shot彙整成一張GEI ##### D:gait energy image(GEI) - 計算圖片的頻率各個地方出現的頻率 ##### E:搜尋關鍵字 - 利用直方圖記錄圖形類別 - 找到全部的類別模型 ### 1.3 ORIGINALITY AND IMPACT 原創性與影響 ## 2. PROPOSED METHODS 建議方法 ### 2.1 SYSTEM FRAMEWORK 系統框架 ### 2.2 PM2.5 DATA ACQUISITION AND IMPUTATION | PM2.5數據的採集與插補 - 用高斯模糊(Gaussian smoothing)補值 : 因為會有一些資料缺漏 - 之後再將這些資料按環保署分類成10級 - 會產出兩種圖: 空屋濃度圖, 空屋警報顏色圖 ### 2.3 AIR QUALITY SHOT DETECTION ENGINE 空氣品質檢測 - 將這些圖片一張一張播放變成影片 - 將影片用SAD(自動偵測鏡頭邊界)裁成片段 - 分析片段的現象 - 或是拿來做成GEI(一張圖就能表現一些動態資訊) ### 2.4 SHOT/GEI CLUSTERING ENGINE | SHOT/GEI 分群 - 將上一步驟的東西類似的集中成一組 #### 法一 : CNN - to learn the deep features (運用機器學習提取深度特徵 #### 法二 : BoW model - to represent the visual features (表示重要的視覺特徵 #### 法三 : SIFT ### 2.5 2D Be-STRING GENERATION ENGINE 產生2D Be-STRING - 有三種空間資訊地圖(用2D Be-STRING 紀錄) - 1. PM2.5警報類別分布圖 - 2. 自然因素分布圖 - 3. 人為因素分布圖 ### 2.6 SEMI-SUPERVISED SUMMARIZATION ENGINE 半監督式地彙整資料 - 用半監督學習來總結資料, 包括有分類的和沒分類的 - 這樣在瀏覽多年的資料會比較方便 - (這裡我沒有很確定) ### 2.7 QUERY AND BROWSING (Q/B) ENGINE 查詢與瀏覽 - 查詢瀏覽方式 - 1.QBE : 直接用例子找(ex. 輸入濃度或警報顏色) - 2.QBG : 用GEI找 - 3.BBTW : 用時間範圍找(ex. 2020 3月) - 4.BBC : 用2.4分好的群找 ### 2.8 Q/B INTERFACE ENGINE 查詢與瀏覽介面 - 查詢瀏覽介面 ### 2.9 ANALYTICS ENGINE 分析 - 去出資料後分析 #### 2.9.1 Spatiotemporal Feature Detection 時空特徵檢測 #### 2.9.2 Spatiotemporal Association 時空關聯 #### 2.9.3 Spatiotemporal Regression 時空回歸