1204 zipf分布模擬封包行為評估演算法

--- tags: Entrpy_Algorithm_Exp --- # 1204 zipf分布模擬封包行為評估演算法 ## 實驗目的以zipf分布產生一資料流模擬一般封包分布行為，並以此來探討不同的 1. 封包總量(total cnt) 2. 封包個數(distinct cnt) 3. 封包分布對演算法準確度的影響。 ## 實驗參數 #### zipf 分布 1. 封包量 :10^5 ~10^6 ,step 10^5 2. 封包個數:10^4 ~10^5 ,step 10^4 3. 封包分布: z參數 0.1~0.9 ,step 0.1 #### CLifford * K值 = 20 ## 實驗方法我們以以上代換實驗參數產風不同的分布，並將其以1.精確熵值和2.Clifford algorithm 分別計算熵值後計算誤差機率(error probability)，並將其繪圖分析。 ## 實驗結果 #### zipf 分布 z=0 ![](https://i.imgur.com/XwWObZn.png) z=0.6 ![](https://i.imgur.com/PpcI93m.png) z=0.9 ![](https://i.imgur.com/pJqRks8.png) #### 模擬分析資料長度:slen slen = 100000 ![](https://i.imgur.com/0fi9MNs.png) slen = 200000 ![](https://i.imgur.com/szA2gtX.png) slen = 300000 ![](https://i.imgur.com/xvoP1fT.png) slen = 400000 ![](https://i.imgur.com/3rCdze9.png) slen = 1000000 ![](https://i.imgur.com/StBbaXh.png) 下面兩張圖為放大10k~20k間陡升的曲線。下圖為range(1k~9k) ![](https://i.imgur.com/kNhSH75.png) 下圖為range(11k~19k) ![](https://i.imgur.com/FpTdqaH.png) ## 結論我們把Slen(strem length)當作是單一區間內的總封包數，range做為是封包個數(distinct)，根據結果可以看出來當總量上升時基本的曲線並不會改變，而影響準確率的是range，在range區間為20k~50k之間準確率會有很好的表現，又以分部參數Z>0.6較佳。 #### 我們可推測: 1.當分布與平均分布將較接近時(z=0時為平均分布)，準確率變化幅度較大。 2.當區間個數上升且在20k~50k之間可以得到較佳的準確率。