contributed by <shelly4132
>
hugikun999
>需要一併列出硬體組態,特別是 processor model,這樣才有比較分析的依據 jserv
先從github上clone程式碼下來
打開Makefile可以看到已經預設打開OpenMP和AVX了
使用clock_gettime() 來測量不同實做的執行時間,需要花一點時間等待。
完成後可以發現資料夾裡多了一個csv檔
利用LibreOffice圖表
用gnuplot畫的結果
將N的大小提高
使用 time
指令可以看到以下三種時間
表示程式從執行開始到結束所花費的時間。
表示這個程式運行在User mode的CPU time。
表示這個程式運行在Kernel mode的CPU time。
CPU time是指實際上CPU有在運作的時間,像等待使用者輸入的時間並不會被計算進去,但Real time會把那些時間都計算進去。而在多執行緒的情況下,CPU time是所有執行緒的總和。
之所以要有 Kernel mode 和 User mode 之分,是因為我們希望
作業系統可以壟斷所有的硬體操作,讓一般的程式不能亂搞。
Kernel mode 就是萬能的,只要是 CPU 能管的硬體,Kernel
mode 的程式就可以透過 machine code 來操作該硬體。
User mode 基本上就是「受限」的模式。除了一些沒有傷害的行
為之外什麼都不能做。
第一個參數clk_id可填入:
CLOCK_REALTIME:系統時間,會被NTP調整
CLOCK_MONOTONIC:時間自系統開機後就一直單調的遞增,但會被NTP調整時間,所以並不能算是絕對的單調遞增。
CLOCK_MONOTONIC_RAW:與CLOCK_MONOTONIC很像,只是他不會受到NTP的影響
CLOCK_PROCESS_CPUTIME_ID
CLOCK_THREAD_CPUTIME_ID
CLOCK_REALTIME_COARSE
CLOCK_MONOTONIC_COARSE
CLOCK_BOOTTIME
CLOCK_REALTIME_ALARM
CLOCK_SGI_CYCLE
CLOCK_TAI
而struct timespec* tp則是本函式回傳的結果。
struct timespec的宣告如下:
利用此公式求得pi的值
用一樣的公式只是使用了OpenMp去做優化,function新增了一個參數(threads)用來指定要用幾個thread來執行
AVX (Advanced Vector Extensions) 是 Intel 一套用來作 Single Instruction Multiple Data 的指令集。
_mm256d : 它並不是一種暫存器,是指可以用來載入到 AVX 暫存器的 “Data type”,double precision, 64bit
_mm256_set1_pd(1.0):將參數浮點數值放到 _mm256 變數的所有位置。
_mm256_set_pd(dt * 3, dt * 2, dt * 1, 0.0):將dt * 3, dt * 2, dt * 1, 0.0這些參數依序放入_mm256 變數,參數順序和放進去的次序相反。
之前測出來的error rate只有一條曲線,原本還覺得滿合理的,結果後來發現code有寫錯,改好後竟然多了一條曲線 orz
後來跟鄭皓澤討論後,發現是AVX Unroll在N = 1000結尾的時候pi的值都會跟別人不一樣,但為什麼會這樣的原因還有待進一步的研究。
表示程式碼的實做可能有缺陷,想辦法去修正 jserv
從以下程式碼可以看到它比Baseline多執行了16遍,當N=1000的時候,i最大可以到984,但984/16 = 61.5,不能整除,所以變成有漏算的情形。
考慮以下分解:
對兩邊從0到1去做積分
當時,除積分項以外的項收斂到萊布尼茨級數。同時,積分項收斂到0:
所以這便證明了萊布尼茨公式。
標準差:
標準差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標準差,代表大部分的數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。而標準差定義為變異數的算術平方根。
標準誤差:
標準誤差是指在抽樣試驗(或重覆的等精度測量)中,常用到樣本平均數的標準差。
如果已知母體的標準差(σ),那麼抽取無限多份大小為 n 的樣本,每個樣本各有一個平均值,所有這個大小的樣本之平均值的標準差可證明為
但由於通常σ為未知,此時可以用研究中取得樣本的標準差 (s) 來估計 :
由上述公式算出信賴區間的最大與最小值
用信賴區間篩選過數值的曲線圖