# 2017q1 Homework1 (raytracing)
contributed by <`Weinux`>
###### tags: `sysprog2017` `w1` `raytracing` `Weinux`
### Reviewed by `xdennisx`
- 沒有分析平行化之後的效能,例如:OpenMP、pthread
- Git commit message 應該要完整一點,包刮實作方式、實作之後的影響等等
- commit [f0d4184af071ea9d4c9b850cca61da8b59d02394](https://github.com/Weinux/raytracing/commit/f0d4184af071ea9d4c9b850cca61da8b59d02394) 應該確認程式無誤再 commit
- commit [c69cafa2208b9d08bfe7b2005d8a377cff2c37dc](https://github.com/Weinux/raytracing/commit/c69cafa2208b9d08bfe7b2005d8a377cff2c37dc) 應避免錯字 `btought`
## 開發環境
* OS:Lubuntu 16.04 LTS
* Linux 系統版本: 4.4.0-63-generic
* Architecture: x86_64
* CPU 作業模式: 32-bit, 64-bit
* Byte Order: Little Endian
* CPU: Intel(R) Core(TM) i5-2410M CPU @ 2.30GHz
* Model name: Intel(R) Core(TM) i5-2410M CPU @ 2.30GHz
* Memory: 6GB (5870MB)
* Cache:
* L1d cache: 32K
* L1i cache: 32K
* L2 cache: 256K
* L3 cache: 3072K
## Raytracing
- 直接編譯程式
`$ make`
```text =
cc -std=gnu99 -Wall -O0 -g -c -o objects.o objects.c
cc -std=gnu99 -Wall -O0 -g -c -o raytracing.o raytracing.c
cc -std=gnu99 -Wall -O0 -g -c -o main.o main.c
cc -o raytracing objects.o raytracing.o main.o -lm
```
`$ ./raytracing`
```text=
# Rendering scene
Done!
Execution time of raytracing() : 3.854475 sec
```

使用 gprof 觀察
- 必須在 gcc option 中加入 `-pg` 才能生成可以被 `grof` 觀察的數據
- 在 Makefile 中程式碼, 可以看到只要設定 `PROFILE=1` 就可以在編譯時加入 `-pg` 指令
```clike=17
ifeq ($(strip $(PROFILE)),1)
PROF_FLAGS = -pg
CFLAGS += $(PROF_FLAGS)
LDFLAGS += $(PROF_FLAGS)
endif
```
```
$ make clean
$ make PROFILE=1
```
可以看到
```
cc -std=gnu99 -Wall -O0 -g -pg -c -o objects.o objects.c
cc -std=gnu99 -Wall -O0 -g -pg -c -o raytracing.o raytracing.c
cc -std=gnu99 -Wall -O0 -g -pg -c -o main.o main.c
cc -o raytracing objects.o raytracing.o main.o -lm -pg
```
接著再執行程式並且使用 gprof 指令觀察
`$ ./raytracing`
```
# Rendering scene
Done!
Execution time of raytracing() : 8.033182 sec
```
`$ gprof ./raytracing | less`
```
Each sample counts as 0.01 seconds.
% cumulative self self total
time seconds seconds calls s/call s/call name
18.28 0.55 0.55 56956357 0.00 0.00 subtract_vector
16.62 1.05 0.50 69646433 0.00 0.00 dot_product
11.97 1.41 0.36 10598450 0.00 0.00 normalize
11.63 1.76 0.35 31410180 0.00 0.00 multiply_vector
9.14 2.04 0.28 13861875 0.00 0.00 rayRectangularIntersection
6.48 2.23 0.20 17836094 0.00 0.00 add_vector
5.98 2.41 0.18 4620625 0.00 0.00 ray_hit_object
5.15 2.57 0.16 13861875 0.00 0.00 raySphereIntersection
3.99 2.69 0.12 17821809 0.00 0.00 cross_product
2.33 2.76 0.07 1 0.07 3.01 raytracing
1.99 2.82 0.06 1048576 0.00 0.00 ray_color
1.33 2.86 0.04 1048576 0.00 0.00 rayConstruction
1.00 2.89 0.03 4221152 0.00 0.00 multiply_vectors
1.00 2.92 0.03 2520791 0.00 0.00 idx_stack_top
1.00 2.95 0.03 2110576 0.00 0.00 compute_specular_diffuse
1.00 2.98 0.03 1241598 0.00 0.00 reflection
0.66 3.00 0.02 1241598 0.00 0.00 refraction
0.50 3.01 0.02 3838091 0.00 0.00 length
0.00 3.01 0.00 2558386 0.00 0.00 idx_stack_empty
```
- 透過 gprof 可以發現在 raytracing 程式 **subtract_vector, dot_product, normalize, multiply_vector** 佔了大部分的執行時間
接著透過 gprof2dot 來將 gprof 相關資訊視覺化, 使用 gprof2dot 前需要先作下列的安裝才可以使用, 參考 [hugikun999的共筆](https://hackmd.io/s/HyHhgcv6#)
```
$sudo apt-get install python python-pip
$sudo pip install --upgrade pip
$sudo pip install gprof2dot
```
```
$ gprof ./raytracing | gprof2dot | dot -T png -o output.png
```

## Loop unrolling
在原本的 math-toolkit 中的迴圈部份全部展開減少 branch 與 branch miss 對程式效能的影響
```text=
# Rendering scene
Done!
Execution time of raytracing() : 2.664209 sec
```
```
Each sample counts as 0.01 seconds.
% cumulative self self total
time seconds seconds calls s/call s/call name
20.21 0.40 0.40 69646433 0.00 0.00 dot_product
12.38 0.65 0.25 13861875 0.00 0.00 rayRectangularIntersection
10.11 0.85 0.20 10598450 0.00 0.00 normalize
9.60 1.04 0.19 56956357 0.00 0.00 subtract_vector
8.09 1.20 0.16 31410180 0.00 0.00 multiply_vector
8.09 1.36 0.16 4620625 0.00 0.00 ray_hit_object
5.31 1.46 0.11 17836094 0.00 0.00 add_vector
5.31 1.57 0.11 17821809 0.00 0.00 cross_product
4.80 1.66 0.10 13861875 0.00 0.00 raySphereIntersection
4.55 1.75 0.09 1048576 0.00 0.00 ray_color
3.03 1.81 0.06 1048576 0.00 0.00 rayConstruction
2.02 1.85 0.04 2110576 0.00 0.00 localColor
2.02 1.89 0.04 1 0.04 1.98 raytracing
1.52 1.92 0.03 4221152 0.00 0.00 multiply_vectors
1.01 1.94 0.02 3838091 0.00 0.00 length
0.51 1.95 0.01 2558386 0.00 0.00 idx_stack_empty
0.51 1.96 0.01 2110576 0.00 0.00 compute_specular_diffuse
0.51 1.97 0.01 1241598 0.00 0.00 reflection
0.51 1.98 0.01 1241598 0.00 0.00 refraction
0.00 1.98 0.00 2520791 0.00 0.00 idx_stack_top
```
- 所得到的結果比起一開始的執行時間整整快了 1.2 sec
- 程式中 **subtract_vector, dot_product, normalize, multiply_vector** 執行時間也都有下降』
## Force inline
- 在 gcc 要 force inline function 需要加入`__attribute__((always_inline))` 可以強制 gcc 在最佳化沒有開啟 `-O0` 時 inline
- [How do i force gcc to inline a fuction](http://stackoverflow.com/questions/8381293/how-do-i-force-gcc-to-inline-a-function)
```clike=26
static inline __attribute__((always_inline))
void add_vector(const double *a, const double *b, double *out)
{
out[0] = a[0] + b[0];
out[1] = a[1] + b[1];
out[2] = a[2] + b[2];
}
```
```
# Rendering scene
Done!
Execution time of raytracing() : 2.435457 sec
```
- Force inline 所得到的結果比起 loop unrolling 的執行時間又再快了 0.2 sec
## 參考資料