# HW1-Raytracing ###### tags: `Miyavi-Chen` ## 開發環境 cpu: ```clike= $ lscpu Architecture: x86_64 CPU 作業模式: 32-bit, 64-bit Byte Order: Little Endian CPU(s): 4 On-line CPU(s) list: 0-3 每核心執行緒數:2 每通訊端核心數:2 Socket(s): 1 NUMA 節點: 1 供應商識別號: GenuineIntel CPU 家族: 6 型號: 142 Model name: Intel(R) Core(TM) i5-7200U CPU @ 2.50GHz 製程: 9 CPU MHz: 446.594 CPU max MHz: 3100.0000 CPU min MHz: 400.0000 BogoMIPS: 5400.00 虛擬: VT-x L1d 快取: 32K L1i 快取: 32K L2 快取: 256K L3 快取: 3072K NUMA node0 CPU(s): 0-3 ``` kernel: ``` $ uname -a Linux miyavi-desktop 4.8.0-39-generic #42~16.04.1-Ubuntu SMP Mon Feb 20 15:06:07 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux ``` ## 作業說明 * `make clean` 再利用`make PROFILE=1` complile 可以在程式進去跟離開加一些做統計的code(-gp檔) ## 學習清單 - [ ]gprof - [x]Graphviz - [x]loop unrolling - [x]Force Inline - [x]OpenMP - [ ]Pthread ## 開始前準備 * 檢圖可用 eog 或 gimp [file name] * 工具安裝 ```clike= $ sudo apt-get install graphviz $ sudo apt-get install imagemagick ``` * `convert out.ppm out.png` 可以轉換圖檔 ## Graphviz 可以把gprof產生的數據透過Graphviz產生容易懂的圖表. 但是Graphviz需要特定格式如下: * dot 主要用在有向圖 * neato 基於spring-model(又稱force-based)算法 * twopi 徑向步圖 * circo 圓環布圖 * fdp 用在無向圖 #### Install Graphviz `$ sudo apt-get install graphviz` #### install gprof2dot ``` $sudo apt install python python-pip $sudo pip install --upgrade pip $sudo pip install gprof2dot ``` 從[ gprof、gprof2dot.py、dot使用方法简介 ](https://casatwy.com/shi-yong-dotyu-yan-he-graphvizhui-tu-fan-yi.html)知道下面CMD來產生call graph 之有向圖 `gprof ./raytracing | gprof2dot -n0 -e0 | dot -T png -o output.png ` ![](https://i.imgur.com/M2OiTqD.png) ## 還沒優化前 * 直接編譯然後執行 ``` $make $./raytracing # Rendering scene Done! Execution time of raytracing() : 2.874858 sec ``` * 使用gprof分析 * 編譯加執行 ``` $make clean $make PROFILE=1 $./raytracing $gprof ./raytracing | less # Rendering scene Done! Execution time of raytracing() : 5.920379 sec ``` * 結果:想辦法減少前面幾項高%的時間/呼叫次數 ``` Flat profile: Each sample counts as 0.01 seconds. % cumulative self self total time seconds seconds calls s/call s/call name 23.88 0.63 0.63 56956357 0.00 0.00 subtract_vector 19.33 1.14 0.51 69646433 0.00 0.00 dot_product 8.34 1.36 0.22 17821809 0.00 0.00 cross_product 7.20 1.55 0.19 13861875 0.00 0.00 rayRectangularIntersection 6.82 1.73 0.18 10598450 0.00 0.00 normalize 6.63 1.91 0.18 17836094 0.00 0.00 add_vector 6.06 2.07 0.16 31410180 0.00 0.00 multiply_vector 6.06 2.23 0.16 13861875 0.00 0.00 raySphereIntersection 4.74 2.35 0.13 1048576 0.00 0.00 ray_color 3.03 2.43 0.08 4620625 0.00 0.00 ray_hit_object 1.90 2.48 0.05 4221152 0.00 0.00 multiply_vectors ...... ``` ## 優化法一:loop unrolling * 一種將loop展開用空間換取時間的方法 * 將`math-toolkit.h`中剛剛前面用gprof分析較高%的functions的loop 展開. * 如將subtract_vector中loop 展開 ``` 33 void subtract_vector(const double *a, const double *b, double *out) 34 { 35 ¦ for (int i = 0; i < 3; i++) 36 ¦ ¦ ¦ out[i] = a[i] - b[i]; 37 } ``` * Loop unrolling 後 ``` void subtract_vector(const double *a, const double *b, double *out) 34 { 35 37 ¦ out[0]= a[0] - b[0]; 38 ¦ out[0]= a[1] - b[1]; 39 ¦ out[0]= a[2] - b[2]; } ``` * 結果可以看到減法/點積/外積的呼叫次數都大幅降. 執行時間從2.8->1.1s 成功降低執行時間 ``` # Rendering scene Done! Execution time of raytracing() : 1.101514 sec Flat profile: Each sample counts as 0.01 seconds. % cumulative self self total time seconds seconds calls ms/call ms/call name 52.03 0.39 0.39 3145730 0.00 0.00 cross_product 10.67 0.47 0.08 1 80.05 745.45 raytracing 9.34 0.54 0.07 10485760 0.00 0.00 subtract_vector 8.67 0.61 0.07 9437184 0.00 0.00 dot_product 4.00 0.64 0.03 1048579 0.00 0.00 normalize 4.00 0.67 0.03 1048576 0.00 0.00 rayConstruction 2.67 0.69 0.02 3145728 0.00 0.00 raySphereIntersection 2.00 0.70 0.02 4194304 0.00 0.00 add_vector 1.33 0.71 0.01 4194304 0.00 0.00 multiply_vector 1.33 0.72 0.01 3145728 0.00 0.00 rayRectangularIntersection 1.33 0.73 0.01 1048576 0.00 0.00 ray_color ``` ## 優化法二:Force inline * inline 原來在被關閉編譯器最佳化 -O0 後是不會被執行的,所以我們加入讓編譯器可以強執執行 inline function 的程式碼`__attribute__((always_inline)) `強制inlince進程式碼進而減少函數調用的呼叫 * 結果真的變快了不少 ``` # Rendering scene Done! Execution time of raytracing() : 3.496136 sec ``` * 原本幾千萬次的呼叫項都不見了 ``` Flat profile: Each sample counts as 0.01 seconds. % cumulative self self total time seconds seconds calls s/call s/call name 35.56 0.91 0.91 13861875 0.00 0.00 rayRectangularIntersection 21.49 1.46 0.55 13861875 0.00 0.00 raySphereIntersection 11.72 1.76 0.30 2110576 0.00 0.00 compute_specular_diffuse 8.40 1.98 0.22 1048576 0.00 0.00 ray_color 8.21 2.19 0.21 4620625 0.00 0.00 ray_hit_object 7.42 2.38 0.19 2110576 0.00 0.00 localColor 2.74 2.45 0.07 1048576 0.00 0.00 rayConstruction 0.78 2.47 0.02 2520791 0.00 0.00 idx_stack_top ``` ## 優化法三:OpenMP * 觀念:OpenMP是一個跨平台的多執行緒實現,主執行緒(順序的執行指令)生成一系列的子執行緒,並將任務劃分給這些子執行緒進行執行。這些子執行緒並列的執行,由執行時環境將執行緒分配給不同的處理器。 * 語法格式: 像下面用到的`for/ parallel/ private` 都是`directive` ``` #pragma omp <directive> [clause[[,] clause] ...] ``` * Makefile 需要改一下,且include omp.h ``` CC ?= gcc CFLAGS = \ -std=gnu99 -Wall -O0 -g -fopenmp LDFLAGS = \ -lm -fopenmp ``` * raytracing.c加入下面程式碼在for前 . 因為d,stk,object_color 再raytracing 這個function的for 回圈中大家共用,使用private 使之再各執行緒都有一份 ``` #pragma omp parallel for private( d, stk, object_color) num_threads(THREAD_CNT)\ shared(height,width,factor) for (int j = 0; j < height; j++) { for (int i = 0; i < width; i++) { ... ``` `num_threads(THREAD_CNT)`代表要用多少執行緒來跑 `private( d, stk, object_color)`代表各個執行續複製一份d,stk,object_color 變數 `shared(height,width,factor)`代表height,width,factor為共用 * 結果inline+openMP. 比單純inline又更快,呼叫次數又更少了 ``` # Rendering scene Done! Execution time of raytracing() : 2.282882 sec Flat profile: Each sample counts as 0.01 seconds. % cumulative self self total time seconds seconds calls s/call s/call name 36.40 1.19 1.19 8503296 0.00 0.00 rayRectangularIntersection 26.00 2.04 0.85 8447223 0.00 0.00 raySphereIntersection 11.93 2.43 0.39 1372878 0.00 0.00 localColor 8.26 2.70 0.27 1310226 0.00 0.00 compute_specular_diffuse 4.59 2.85 0.15 2785719 0.00 0.00 ray_hit_object 4.28 2.99 0.14 558194 0.00 0.00 ray_color 2.75 3.08 0.09 818031 0.00 0.00 reflection 2.45 3.16 0.08 534180 0.00 0.00 rayConstruction 0.92 3.19 0.03 1609022 0.00 0.00 idx_stack_top 0.92 3.22 0.03 770567 0.00 0.00 refraction ``` * 參考資料 [Wiki_OpenMP](https://zh.wikipedia.org/zh-hk/OpenMP) [簡易的程式平行化方法-openmp(一)簡介](https://kheresy.wordpress.com/2006/06/09/%E7%B0%A1%E6%98%93%E7%9A%84%E7%A8%8B%E5%BC%8F%E5%B9%B3%E8%A1%8C%E5%8C%96%E6%96%B9%E6%B3%95%EF%BC%8Dopenmp%EF%BC%88%E4%B8%80%EF%BC%89%E7%B0%A1%E4%BB%8B/) [laochanlam 大](https://hackmd.io/s/B1hlfxl9e#) [hugikun999 大](https://hackmd.io/s/HyHhgcv6#) ## 優化法四:POSIX Thread for Parallel Programming * 有點忘了用法,複習一下[PThread](https://computing.llnl.gov/tutorials/pthreads/) * 考慮要點: * What type of parallel programming model to use?-> Raytracing function 裡的for loop. * Problem partitioning-> 將height 切割成core數個partition * Data dependencies-> Data 間為Indep. * race conditions-> 因為data indep.所以沒race condition * 使用方法: * 建一個struct 用來存原本要傳入的參數 * 再使用pthread_create()時用一個該strcut pointer傳入給每個partition必要參數 * 最後等threads都作完後,使用pthread_joint合併 * TBD