contributed by <PunchShadow
>
raygoah
findName()
的方法是將已排序過的 linked list 以 node by node 的方式進行搜尋,也提到可能可採用 binary search 的方式將時間縮短,建議可以嘗試實作 Binary Search Tree ,並嘗試將資料打亂後觀察結果會有什麼不同rwe0214
Git 和環境安裝
的第四點字打錯了,workat60474
$ uname -a
Linux punchshadow-G56JR 4.13.0-36-generic
#40-Ubuntu SMP Fri Feb 16 20:07:48 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux
$ lscup
Architecture: x86_64
CPU 作業模式: 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 4
On-line CPU(s) list: 0-3
Thread(s) per core: 2
Core(s) per socket: 2
Socket(s): 1
NUMA node(s): 1
Vendor ID: GenuineIntel
CPU family: 6
Model: 60
Model name: Intel(R) Core(TM) i5-4200H CPU @ 2.80GHz
Stepping: 3
CPU MHz: 2793.614
CPU max MHz: 3400.0000
CPU min MHz: 800.0000
BogoMIPS: 5587.22
Virtualization: VT-x
L1d cache: 32K
L1i cache: 32K
L2 cache: 256K
L3 cache: 3072K
NUMA node0 CPU(s): 0-3
Flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand lahf_lm abm cpuid_fault epb invpcid_single pti retpoline tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid xsaveopt dtherm ida arat pln pts
不需要附上自己的簡介,但請記得附上你的實驗環境資訊
課程助教好的感謝助教,第一次還不太熟悉如何交作業 >""<
PunchShadow
安裝Lubuntu和Linux tools都相當順利
由於對於git完全不熟,根本就是一個初心者的概念,所以得先從最基本的開始練習
然後要編輯程式時,發現連vim都不會用,只好從新看文件(也太難過了吧,根本從零開始阿我
表示你進步的幅度很大,應該要開心
$ sudo sh -c " echo 0 > /proc/sys/kernel/perf_event_paranoid"
一開始在進行 $ make plot
的時候突然彈出了
make:*** No rule to make target
無法執行的警語,後發現,是之前還不熟悉vim的時候,不小心改到了 phonebook 內的一些東西,導致 make 找不到目標,找的好久都沒發現問題,好險還沒開始寫,只好乾脆直接重新clone一次
重新clone完後終於順利跑出人生地一張gnuplot,開始感覺有點厲害
在終於比較清楚 linux 開發環境、git 及一些基礎工具的使用後,終於可以開始進入正題了,在開始之前,感謝 ryanpatiency同學 這篇真的整理得很詳細,讓我這個初心者獲益良多
了解程式架構
改善phonebook_opt.h 內的資料結構
降低phonebook_opt.c 內 findName()及 append()
執行時間
:
隔開,輸入 $ make target1 則可以執行 target1 之 command
# comments
#一些變數宣告
target1: target1之目標檔
<TAB>command;
target2: target2之目標檔
<TAB>command;
...
...
clean:
<TAB>rm -rf *.o
CC ?= gcc
CFLAGS_common ?= -Wall -std=gnu99
CFLAGS_orig = -O0
CFLAGS_opt = -O0
EXEC = phonebook_orig phonebook_opt
GIT_HOOKS := .git/hooks/applied
.PHONY: all
all: $(GIT_HOOKS) $(EXEC)
$(GIT_HOOKS):
@scripts/install-git-hooks
@echo
SRCS_common = main.c
1~7 : 基本上都在做變數的宣告,可以看做是為簡化後面的的程式宣告的,後面只要以 $(變數名) 就能取代隴長的指令。而 ?=
的意思未定義時為等號後面值
8 : :=
為在執行這行時,該變數就已經被決定,不會因程式執行到後面而改變
參考: makefile賦值運算符號
9 : .PHONY
主要是避免和同名文件發生衝突,以及提昇效能,所以.PHONY 是被用來定義假工作目標,這樣 Make 就知道這不是針對檔案
參考:.PHONY解說
10 : 定義 all
為哪些目標
12~14 : 在 git/hooks/applied
下自動掛載一個 hook,不顯示執行掛載的指令及文件內的 echo 動作(install-git-hooks 中若成功執行 hook 掛載則會 echo 一個成功的訊息)
18~21: 當執行 $ make phonebook_orig
時的需要做的事情,將所有變數展開(可參考下方補充),可以看成以下程式
phonebook_orig: main.c phonebook_orig.c phonebook_orig.h
gcc -Wall -std=gnu99 -o0 \
-DIMPL="\"phonebook_orig.h\"" -o phonebook_orig \
main.c phonebook_orig.c
-Wall
: 顯示所有警告字樣-std=gnu99
: 使用C99之規格-o0
: 還不曉得-DIML
: -D
為定義 marco(巨集)之用,所以這裡將 IMPL
定義為 phonebook_orig.h ,代表其中使用的變數都可以在往後的程式內使用,這就是為何在 main.c 中無定義 entry 卻可以使用的原因-o
: 指定輸出檔名為 phonebook_origmain.c phonebook_orig.c
: 未知參考 : GCC and Make
後面 : 都是在建立 target 即 輸入 $ make XXX
時會發生什麼事
補充與整理:
%.o: %.c
gcc -c $<
若將上方程式寫入 Makefile中,執行 $ make foo.o
,則系統會去搜尋是否有 foo.c
,若無則無法執行,找到的話便會去執行且印出 $ gcc -c foo.c
,其中foo
可以換成任何字元皆能做相同指令
$ ls
foo.c
$ make foo.o
gcc -c foo.c
$ ls
foo.c foo.o
若不想顯示 gcc -c foo.c
則改成 @gcc -c foo.c
即可
在這個Makefile中
- $< : foo.c
- $@ : foo.o
CLOCK_REALTIME
: 系統根據現在的 wall-clock 所計算出最佳時間,會因為管理者改變時間而被影響, main.c 中就是使用這種 clock 作為 append() 等 function 執行時間
CLOCK_REALTIME_COARSE
:相較於 CLOCK_REALTIME ,較為不精準但執行較快速
CLOCK_MONOTONIC
: 系統從一個固定的時間點,對照 wall-clock 所計算出的時間點,不會隨著程式跳躍而改變
CLOCK_MONOTONIC_COARSE
: 相較於 CLOCK_MONOTONIC ,較為不精準但執行較快速
CLOCK_MONOTONIC_RAW
: 類似於 CLOCK_MONOTONIC ,但提供更多 raw hardware-based time
CLOCK_BOOTTIME
: 相同於 CLOCK_MONOTONIC ,不同地方在於它會將系統閒置的時間算入
CLOCK_PROCESS_CPUTIME_ID
: 計算所有 thread 所佔之 CPU 時間
CLOCK_THREAD_CPUTIME_ID
: 計算單一 thread 所佔之 CPU 時間
而在在 <time.h> 這個 libray 中還有定義一個 structure timespec
struct timespec {
time_t tv_sec; /* seconds */
long tv_nsec; /* nanoseconds */
}
所以 17~28 之 diff_in_second()
便是利用 timespec 去計算 append() 和 findName() 執行時間
參考 :
CLOCK_REALTIME v.s. MONOTONIC
$ man clock_gettime
、 man page of clock_gettime()Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
再來看回 main.c
zyxel
要去 phonebook 內找
assert()
: 可判斷()內的條件是否成立,若不成立則會中止程式,並在終端機上列印出中止原因* ++79~81++ : 若使用的為 GNUC 的編譯器,則清空 cache 內的資料
* ++82~86++ : 計算 findName() 之執行時間
* ++88~90++ : 將兩個執行時間寫入 output file 中
心得:
從這個搜尋方法來看,屬於最基本的 search in linked-list 的方法,採 node by node,但 linked list 已是 sorted 的話,可能可採用 binary search 的方式將時間縮短
在 phonebook_orig.h 中最主要是定義 entry 這個 data structure ,除了用來比較的 lastName 外, 還有其他的資訊及一個連結下個 node 的 link
心得:
想要降低 cache miss,可以從加大 block 或是縮小一個 entry 的資料量開始,從前人的實驗中也可看出這方法是可行的,因此往後應該會先從縮小 entry 的資料量開始著手
寫到這邊,不得不小小抱怨一下關於 vim 設定和 coding style 的檢查方式(不過也應該是自己沒熟悉 vim 的關係
講故事時間開始 :
先從我最一開始的 vimrc 開始說起好了,以下是一部分的設定檔
set nu
set cursorline
set tabstop=4
一開始看著林林總總的設定變數,完全不知道該如何下手阿,於是就選了幾個看似重要的設定上去,這邊我有稍微注意到 tab 跟 space 之間的關係,所以還特別去加上了 set tabstop=4
這條,但就在我要進行 git commit
的時候,竟然出現 coding style 不一致的情況(心裡 os:我才新增個沒幾行,你就跟我說 style 出問題
set expandtab
set shiftwidth=4
推薦
線上 vim 配色工具Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
參考:將 vim tab 轉成 space
為了驗證 entry 變小可導致 cache miss 下降,我先將 phonebook_orig.h 中,不會用來比較的部份存在另外一個 node 中,而 phonebook_opt.c 則是先用 phonebook_orig.c
/* Define a new struct to include the detail of phonebook. */
typedef struct __PHONE_BOOK_DETAIL{
char firstName[16];
char email[16];
char phone[10];
char cell[10];
char addr1[16];
char addr2[16];
char city[16];
char state[2];
char zip[5];
}detail;
typedef struct __PHONE_BOOK_ENTRY {
char lastName[MAX_LAST_NAME_SIZE];
struct __PHONE_BOOK_ENTRY *pNext;
/* Linking to the detail. */
struct __PHONE_BOOK_DETAIL *pDetail;
} entry;
原先的 cache miss performance
1,178,508 cache-misses # 83.173 % of all cache refs ( +- 0.28% )
1,416,940 cache-references ( +- 0.22% )
276,900,133 instructions # 1.34 insn per cycle ( +- 0.01% )
206,135,397 cycles ( +- 0.27% )
0.062861794 seconds time elapsed ( +- 0.31% )
減小 entry 後的 performance
87,989 cache-misses # 41.687 % of all cache refs ( +- 1.08% )
211,070 cache-references ( +- 0.81% )
252,100,537 instructions # 1.93 insn per cycle ( +- 0.00% )
130,667,427 cycles ( +- 0.56% )
0.039911044 seconds time elapsed ( +- 0.57% )
時間比較
由以上的數據可以看出當 entry 縮小時,cache miss 能有效的減少,執行時間也可以縮短
時間真的過得很快,兩個禮拜的時間一下過不見惹