contributed by <Charlie-Tsai1123
>
Denny0097
筆記程式碼格式
應為C,而非Cpp。
q_new
Commit dae63fa
先用 malloc
分配空間給 head
接著判斷是否成功配置,有的話利用 INIT_LIST_HEAD
讓 next
跟 prev
指標指向自己
q_free
Commit dae63fa
free 每個元素流程應該是 1. 斷開與 queue 的連結 (list_del
)2. 釋放該元素
而其中釋放元素又分成兩部分 1. 釋放 char*
2. 釋放 element_t*
原本想要自己寫,但在閱讀 queue.h
後發現 q_release_element
已經完成了
q_insert_head
/ q_insert_tail
Commit e7ec77b
首先分配新元素的空間,分成兩步
element_t
char*
char*
使用 strdup
(分配空間並複製字串)接著用 list_add
/ list_add_tail
加到 queue
中
q_remove_head
/ q_remove_tail
Commit 64c4ef8
先記錄要刪除的點,用 list_entry
得到指標所指位子的 element_t
,接著用 strncpy
複製字串,最後用 list_del
移除節點
但這樣過不了 track-17-complexity
(新增 percentile 後已達到100/100)
q_size
Commit cba267a
用 list_for_each
遍歷每個節點並用 size
記錄遍歷了幾次
q_delete_mid
Commit b438041
用快慢指針找出中間的節點也就是 slow->next
然後刪除
q_delete_dup
Commit b438041
我的想法是用兩個指標分別是 current
記錄當前檢查是否重複的節點, next
檢查後面的值是否跟 current
相同,若相同就刪除,不同就更新 current
。
isRepeat
是用來記錄是否有 next
跟 current
相同,有的話更新 current
前要刪除 current
。
q_swap
Commit 9787922
此題先找出要交換的那兩個點 current->next
、 current->next->next
,再藉由 list_del
先移除第一個節點再用 list_add
加入到第二個節點後
好像可以用 list_move_tail
讓程式碼更簡潔: (待改)
發現好像可以直接用 q_reverseK
實做只需要 q_reverseK(head, 2)
q_reverse
Commit 9787922
把第一個元素也就是 head->next
搬到 queue
的末尾並用 tail
紀錄,然後更新 queue
的 tail
發現好像可以用q_reverseK
也就是 q_reverseK(head, q_size(head))
q_reverseK
Commit 9787922
q_sort
Commit aad1788
採用 merge sort 但實做方式使用指標
第一步是 partition 須產生指向左邊右邊 partition 第一個元素的指標
merge 中止條件:
left
== right
左邊的 queue
沒元素了right
== tail
右邊的 queue
沒元素了Commit 7d711af
q_ascend
/ q_descend
Commit cfd347b
q_merge
Commit 3fb617e
question:
如何只用 struct list_head *
表達整個串列架構?
如何得到每個 queue
?
16 - 40 行 queue.h
62 - 65 行 qtest.c
從以上兩個程式我推測 queue
的結構如下:
那知道整個結構後就可以用 list_entry
取出想要的元素了
qtest
提供 shuffle
q_shuffle
利用 Fisher–Yates shuffle 演算法來實作洗牌(shuffle)
- 先用 q_size 取得 queue 的大小 len。
隨機從 0 ~ (len - 1) 中抽出一個數字 random- old 將指向從前面數來第 random 個節點,new 會指向最後一個未被抽到的節點,將 old 和 new 指向的節點的值交換,再將 len - 1。
- 隨著 len 大小變小,已經被抽到過,並交換值到 queue 後面的會愈來愈多,直到所有的節點都已經被抽到過,shuffle 就結束。
思考如何將 q_shuffle
的功能加入 qtest.c
中 (參考 do_reverse
)
問題 1 : exception_setup
功能
測試程式查看是否發生錯誤,回傳 signal ,讓 qtest
執行的時候得知是否有操作成功
問題 2 : set_noallocate_mode
功能
禁止 alloc memory
解決:在 queue.h
中加入 q_shuffle
的宣告
在 ./qtest
中可以使用,但是 git commit -a
出現以下錯誤
解決:因為禁止修改 queue.h
所以直接把 q_shuffle
的實做放到 qtest.c
內
shuffle
Pearson's chi-squared test 能檢驗虛無假說 (Null hypothesis) ,即某特定事件在樣本中觀察到的頻率分佈與特定理論分佈一致,事件必須是互斥且機率為 1
如果要 shuffle 四個不同的數字,會出現24種可能的結果,彼此互斥的,且發生機率加起來為 1。那假設 shuffle 是公平的(24種結果發生的機率相同),並遵守 Uniform distribution,那虛無假說為:
用 shuffle_test.py 跑出得結果
= 21.72860365765852
決定自由度
對於 N 個隨機樣本而言,自由度為 N - 1。我們 shuffle 4 個數字會有24種結果,因為加起來機率為 1 ,所以實際上可以自由變換的變數只有23個,其中一個結果的機率為 1 減去另外23個結果發生的機率,所以自由度為 23。
選擇顯著水準
用 shuffle_test.py 跑出得圖表
Address Sanitizer
除錯執行 make SANITIZER=1
以及 make test
是 100/100
Valgrind
除錯make valgrind
Massif
Massif
是分析記憶體使用狀況的工具可分成以下:
malloc
、calloc
、realloc
來分配動態記憶體時,作業系統會從heap分配一塊記憶體,這就是 Heap block。Even implementations that were supposed
to be constant-time turned out not to be so
black-box testing
測試者不需要知道程式的內部運作(如程式碼或演算法),而是根據輸入和輸出來評估系統是否符合預期行為。
檢測時間執行是否與輸入數據有關,對兩組不同輸入統計,判斷是否有顯著差異
Step 1: Measure execution time
Classes definition:
fix-vs-random: 第一類 fixed input、第二類 random input
目標:檢測輸入資料是否影響執行時間
Cycle counters:
x86: TSC (Time Stamp Counter)
ARM: SysTick
目標:測量時間
Environmental condition
每次測試隨機選擇輸入類別
預先分配輸入類別及準備數據
Step 2: Post-processing
Step 3: Statistical Test
在 qtest.c
中搜尋 simulation 發現出現在 queue_insert
跟 queue_remove
中,而他們分別會呼叫 is_insert_tail_const
、 is_insert_head_const
以及 is_remove_tail_const
、is_remove_head_const
而在 dudect/fixture.c 可以看到
因此以上四個函式他們會呼叫 test_const
最多進行 TEST_TRIES
次測試,每輪至少要有 ENOUGH_MEASURE
筆測資,而每次用 (N_MEASURES - DROP_SIZE * 2)
筆 random 的資料跟 fix 比較,所以總共進行 ENOUGH_MEASURE / (N_MEASURES - DROP_SIZE * 2) + 1
次
Note
問題:為什麼是 N_MEASURES - DROP_SIZE * 2
?
我認為是為了符合論文中所提及的 Environmental condition,因為在最前面跟最後面的資料可能會有異常值的影響。
每輪會呼叫 doit
函式,並回傳是否符合常數時間
doit
中較重要的操作為以下五行
prepare_input
產生 random vs fix 的資料(輸入幾次、輸入什麼 都是 random)這個函式就是在執行論文中提到的 Step1: Measure Execution Time 中的 Classes Definition
measure
紀錄 N_MEASURES 次 operation 執行的前後時間
differentiate
計算 operation 執行時間藉由 after_tick - before tick
2 跟 3 都在執行 Step1: Measure Execution Time 中的 Cycle counter 計算 operation 時間
update_statistics
更新此輪 fix (class 0) 跟 random (class 1) 的 operation 執行時間分佈
ret &= report();
計算 t statistic value 查看是否分佈相同
4 跟 5 在執行 Step 3: Statistical Test
如果分佈相同則與輸入沒有關係,此操作為常數時間
接下來要解釋上面的第 4 跟 5 如何使用t statistic value
首先先了解 percentile 的作用,percentile 主要在實施 step 2 的 pros processing ,從
程式碼中的註解可以得知由於執行時間分佈可能會受到系統因素影響,我們丟棄異常大的測量值,只保留最快的 x% 測試數據,並對不同的 x 進行多次測試,以提高分析的準確性。
接下來看看原來程式碼如何實現:
percentile
中的 which
代表的是第幾百分位數,所以它回傳的是第 which
個百分位數的值
那在計算第幾百分位數的值前,需要先將 exec_time
排序, prepare_percentiles
是計算每個百分位的值。
問題:為什麼計算第幾百分為的公式為 1 - (pow(0.5, 10 * (double)(i + 1) / DUDECT_NUMBER_PERCENTILES)
我先用 matplotlib 分析畫出 which
的分佈
可以發現,which 前期的斜率較抖可以接受的資料量較多,因為 constant time 會符合 t 分布在大部分的資料集中於較短時間的資料
the execution time distribution tends to be skewed towards large
timings, leading to a fat right tail.
fd 就是所謂的 file descriptor ,因為在 UNIX 系統中,任何東西都可以視為檔案,而 socket 就是利用 UNIX file descriptors 與其他程式溝通
fd_set 是在 UNIX/Linux 的 select() API 中使用的 文件描述符集合,用於監聽多個文件描述符(FD,File Descriptor)的狀態,如:
它通常用來 監控網路 socket、文件、管道 (pipe)、標準輸入輸出等 I/O 資源,確保程式不會在 read() 或 write() 時阻塞。以下為 fd_set 可使用的函式:
select() allows a program to monitor multiple file descriptors,
waiting until one or more of the file descriptors become "ready"
for some class of I/O operation (e.g., input possible).
從 linux manual page 可以得知 select
是一個多工 I/O 監聽機制,允許程式同時監控多個檔案描述符(file descriptors, fd)eg: nfds = 5, 則會監聽 fd = 0, 1, 2, 3, 4, 5
當這些 fd 有事件發生(可讀、可寫或異常),select
會返回,讓程式處理事件。這樣可以避免程式一直「阻塞」在某個 fd 上,而是可以有效率地監聽多個來源。
問題:select 用了什麼機制可以防止程式阻塞在某個 fd
cmd_select
在 select
的基礎下又加了一些功能,以下對兩者做一些比較
功能 | select | cmd_select |
---|---|---|
監聽標準輸入 |
Image Not Showing
Possible Reasons
0~nfds 的 fd |
Image Not Showing
Possible Reasons
|
緩衝區處理 |
Image Not Showing
Possible Reasons
|
Image Not Showing
Possible Reasons
|
命令處理 |
Image Not Showing
Possible Reasons
|
Image Not Showing
Possible Reasons
|
linenoise 支援 |
Image Not Showing
Possible Reasons
|
Image Not Showing
Possible Reasons
|
開啟伺服器 socket (web_open(port)) 並監聽
設定事件多工處理函式 web_eventmux
run_console
中皆使用 cmd_select(0, NULL, NULL, NULL, NULL)
形式,因為只須讀取資料,且處理方式只須考慮 STDIN_FILENO 跟 web_fd (忽略 nfds)。此外,因為 readfds
回傳是 0 所以會直接採用 &local_readset
Note
問題:既然直接採用 local_readset 且使用 cmd_select 時皆沒有用到傳入的參數,為什麼寫的時候還要傳入參數?
我的想法是,可能讓它看起來像 select 增加他的 readability