contributed by <yenWu
>
這次的目標會放在減少 append()時間 和 挑戰題 還有修改 hash function
Code Review: Mar 8, 2016
使用 lscpu
和 sudo lshw
可看到硬體資訊
先前按照老師給的作業指示跟著操作,這次有稍微閱讀一下相關資訊,並且嘗試看看強大的回復功能,和了解一下add的真正意義
git init
建立目錄 .git
git status
確認現在所有檔案的狀況git add 檔名
追蹤此檔案git commit
確認檔案並snapshot(有點像暫時存檔)git remote add <nickname> <repository-URL>
連結遠端的repository並給他取代稱git push <nickname>
把檔案上傳到指定的repository大概對git的原理和用法有比較基本的認識,但尚未看到branch那邊(有先看fork)
之後會補上SSH的過程(之前都先做完了,沒紀錄到 = =)
自己寫入設定檔
$ vim ~/.vimrc`
參考資料:
我使用我自己比較偏愛的astyle格式
$astyle --style=kr --indent=spaces=4 --indent-switches --suffix=none *.[ch]
在 pre-commit hook 我卻沒有成功,我有給 hook/ 底下一個soft link,但我在 commit 時卻沒有偵測我亂寫的格式
考慮到團隊合作,請配合原本的指示,使用一致的 coding style jserv
我已經做了修改了。彥寬
這邊要說明一下 pre-commit,這邊我搞錯了一件事,就是 softlink 會以 source 會以 target的所在目錄當作相對位置的起點,其實只要 ll
你就會發現,softlink 顯示就是這樣,所以要去看target的link。
ln -sf ../../scripts/pre-commit.hook .git/hooks/pre-commit
echo -1 > /proc/sys/kernel/perf_event_paranoid
$ ./yourapp & sudo perf top -p $!
這可以省略寫sleep()再開令一個終端機輸入pid當只有輸入make時只會進行第一個target,但要執行target前,必須先有後面的相依檔案,如果找不到就會再往下面的target找,把所有相依檔按找完才會執行下面的commond,首先先註記一些較少用到的gcc用法
不是依序!應該說每個 target 被 satisfied 後,就會執行指定命令,若回傳值非 0 就會失敗
gcc後面可以加上:
-E
: 只進行前處理,不進行編譯,結果由 console 直接輸出-C
: 進行前處理時保留註解-S
: 產生組合語言程式碼 (.s)-c
: 只編譯不進行連結 (產生 .o 檔)-I
: 指定 INCLUDE PATH-L
: 指定 LIBRARY PATH-llibrar
y – 指定要連結的函式庫-Dname
: 定義 macro,同 #define-Uname
: 解除 macro 定義,同 #undef參考資料:
Makefile 裡頭使用 gcc 的示範:
CC = gcc
INC = -I ./include
OBJ = main.o op.o
test: ${OBJ}
$(CC) -o $@ ${OBJ}%.o: %.c
${CC} $< ${INC} -c
.PHONY: clean
clean:
rm -f test ${OBJ}
目標檔案 (Target): 相依檔案 (Prerequisites)
指令 (Commond)
比方說:
test: main.c op.c
gcc main.c op.c -o test
其中
CC=gcc
變數asign${CC}
取出CC裏面存放的值%.o : %.c
這是像C++的Template的用法,指令要尋找main.o時,%.o = main.o %.c = main.c$@
= Target$<
= First Dependent File參考資料:
這邊我用老師提供的 runtime.gp 當學習範例:
reset # 這是清除前面的設定
set ylabel 'time(sec)' # 將y軸的label寫上 'time(sec)'
set style fill solid
set title 'perfomance comparison' # 設定 title name
set term png enhanced font 'Verdana,10' # 設定 png 為輸出格式
set output 'runtime.png' # 設定output file name
plot [:][:0.150]'output.txt' using 2:xtic(1) with histogram title ’original’, \
using ($0-0.06):($2+0.001):2 with labels title ' ', \
using 3:xtic(1) with histogram title 'optimized', \
using ($0+0.3):($3+0.0015):3 with labels title ' '
最近想要再使用時發生這個問題,進入gnuplot 時畫不出 sin(x) (我想要直接顯示在螢幕),然後看到 terminal type set to ’unknown’,經過查詢得知是抓不到連結,所以方法之一就是更新gnuplot到version 11
參考資料
$ make run
size of entry : 136 bytes
execution time of append() : 0.127555 sec
execution time of findName() : 0.015991 sec
$perf stat --repeat 5 -e cycles,instructions,cache-references,cache-misses,branch-instructions,branch-misses ./phonebook_orig
Performance counter stats for ’./phonebook_orig’ (5 runs):
447,819,700 cycles ( +- 1.62% ) [34.16%]
273,082,321 instructions # 0.61 insns per cycle ( +- 0.75% ) [51.33%]
11,489,866 cache-references ( +- 0.81% ) [52.31%]
3,459,780 cache-misses # 30.112 % of all cache refs ( +- 1.59% ) [50.76%]
48,161,780 branch-instructions ( +- 0.58% ) [32.11%]
5,558,063 branch-misses # 11.54% of all branches ( +- 0.71% ) [32.97%]
0.182893634 seconds time elapsed ( +- 0.92% )
$perf stat -r 10 -e cache-misses,cache-references,L1-dcache-load-misses,L1-dcache-store-misses,L1-dcache-prefetch-misses,L1-icache-load-misses ./phonebook_orig
Performance counter stats for ’./phonebook_orig’ (10 runs):
3,508,579 cache-misses # 29.720 % of all cache refs ( +- 0.25% ) [49.65%]
11,805,580 cache-references ( +- 0.74% ) [51.67%]
1,347,036 L1-dcache-load-misses ( +- 0.69% ) [50.75%]
<not supported> L1-dcache-store-misses
<not supported> L1-dcache-prefetch-misses
419,659 L1-icache-load-misses ( +- 3.05% ) [48.73%]
0.186848163 seconds time elapsed ( +- 0.60% )
因為搜尋電話簿時,沒必要先把他的資料全部讀到 cache 裡,只需要讀 lastName
就好,所以我就把詳細資料跟 lastName
分離開來找 。其中 append()
和 findName()
直接複製orig的
phonebook_opt.h
typedef struct phonebooK_detail {
char firstName[16];
char email[16];
char phone[10];
char cell[10];
char addr1[16];
char addr2[16];
char city[16];
char state[2];
char zip[5];
} detail;
typedef struct __PHONE_BOOK_ENTRY {
char lastName[MAX_LAST_NAME_SIZE];
detail *pDetail;
struct __PHONE_BOOK_ENTRY *pNext;
} entry;
時間上都有減少,但是append不應該減少才對,我猜想是我再append是貼原本code所以他只會malloc entry的空間,但沒有malloc detail的空間
附上detail 也malloc後的圖,結果是append()增高,且findname()也因為這樣而升高了
這次去 dictionary 看,發現搜的字根本不在,本來有再考慮要用 多個東西一起搜讓搜尋更有保有區域性,看來接下來的方法應該要朝分類進行。
利用 fgets的特性,man 完就會發現它會在讀到 newline 或是 EOF停下來並且在他們後面會多種一個 '\0'
,接著的 code 就是把 newline 變成 '\0'
,我們延後替換 newline,我操作只比較前面的長度,真的找到了再把 newline 換掉即可。
main.c
while (fgets(line, sizeof(line), fp))
e = append(line, e);
phonebook_opt.c
/* because the assert test, we can’t modify the strcut*/
if (strncasecmp(lastname, pHead->lastName, len) == 0 &&
(pHead->lastName[len] == ’\n’ ||
pHead->lastName[len] == ’\0’)) {
pHead->lastName[len] = ’\0’;
return pHead;
原本的程式是將字典直接建好,這邊我們先建檢索,等到findName找到時我們再去補上他的資料,這樣也能減少 append()。
strcpy-sse2-unaligned.S not found
這只有在 gdb 時會看到,簡單來說就是 strcpy很像有問題,而外面就是直接 core dump,而這個問題即是我的 assert 沒考慮清楚,順帶一提 assert並沒辦法做到即時回傳,因為我的 bug 是出在 assert裏面的 function 所以他會直接 core dump 而不會等到你 assert,簡單說就是我忘了我已經我已經替換了 newline 所以我第二次 call findname 就找不到結果了。我們應該使用 backtrace 來對付這個,因為他沒有指名是哪個 str出問題。(gdb) 彥寬
不說了,悲劇,append大概 0.36 …
這邊我使用mutithread在append上
thread 1:
but thread 4 …:
…thread 8 …:
I notice that more thread and more append() time shake.Yen-Kuan Wu
findName() time will decrease because we use the cross append(), and the benchmark only measure the time we findzyxel
. Yen-Kuan Wu
thread 1:
thread 2:
thread 4:
thread 8:
thread 16:
這邊很清楚的看出來,太多 thread 會變慢沒問題,但奇怪的是 1 2 4的差別卻不大,我也開啟我自己設定的 debug 模式,發現大加搜尋的數目都是正確的,但問題出在我是使用 sync 的方式,所以假如有一個thread跑比較慢,那總體時間也就會比較慢。
這就是我上 降低 append() 時間開銷:延後fgets完newline的替換 + 延後補上 detail
的作法
這邊很單純的,我是打算讓大家先各自串一個 link list 之後我再把他連起來,但一開始成效真的是讓人吐血…,經過老師指點,我知道了 fgets 是一個 blocking IO所以就算我開再多 thread,也只是白搭,老師提示我可以用 mmap()。
首先想要使用 mmap的動機就是 fgets這個 blocking IO,讓程式更可以平行化,但是由於我們不知道每個字元的 offset,所以我先將 file整理成 16 char alignment,之後再使用 mmap(),就能夠直接 offset 16到下一個 word了。
做完面的東西後,發現效能還是沒有多好,而且跟 thread 的使用量不成正比,找了很久很久…,之後才發現是 malloc()再搞鬼,因為 malloc 也屬於 system call,所以他也是無法平行化的東西,所以我們再使用了簡易的memory pool。
為什麼講簡易呢? 因為我就直接 malloc 開linklist 會用到的總空間,然後交叉串聯,當然這不是正統的方式,老師有貼給我正確的 memory pool 用法,他將會是我下一個改善的目標。
說白了就是 ansyc,由於我是使用 sync的方式,所以 join 一定要等慢的那位,造成我 4 個thread 只要有一個太慢就會拖累總體時間。
Hash 42737 bucket
Hash bucket 我使用老師例子裡的 42737 當作第一次測試,而結果不如預期,append() time 太高了,而我也試圖去找一下問題
「程式輸出的文字訊息」請勿使用圖片表示,請改由文字貼上課程助教
不好意思這是從我的 Hackpad貼過來的,年代久遠= =,我記得老師也有提醒過我,我不會再犯的,感謝。彥寬
./phonebook_opt & sudo perf top -p $!
{
while( ep->pNext != NULL) {
ep = ep->pNext;
}
新增 pLast 減少找尾巴時間
hash_bucket
typedef struct _hash_bucket {
entry *pNext;
entry *pLast;
} hash_bucket;
Execution time
size of entry : 32 bytes
execution time of append() : 0.168732 sec
execution time of findName() : 0.000003 sec
hash function
時間過長,要改進append()
寫到一半有bug,嘗試使用了gdb
$ gdb ./phonebook.opt
就會進入gdb的shell,之後再輸入b(breaking)再來輸入run就能看到我的memory dump掛在那一個function
(gdb) b
(gdb) run
man index 有這個func
yenWu
phonebook
sysprog21