2020q3 Homework3 (quiz3)

# 2020q3 Homework3 (quiz3) contributed by < `StevenChen8759` > ###### tags: `linux2020` > 相關連結： > [2020秋季進階電腦系統理論與實作 quiz3](https://hackmd.io/@sysprog/2020-quiz3) > [2020秋季進階電腦系統理論與實作 quiz3 作業說明](https://hackmd.io/@sysprog/B12ftyoBD) > [2020秋季進階電腦系統理論與實作 quiz3 作業繳交區](https://hackmd.io/@sysprog/2020-homework3) > [color=green] ## :radio_button: 測驗一 ```cpp int asr_i(signed int m, unsigned int n) { const int logical = (((int) -1) OP1) > 0; unsigned int fixu = -(logical & (OP2)); int fix = *(int *) &fixu; return (m >> n) | (fix ^ (fix >> n)); } ``` ### :building_construction: 程式碼分析 * 根據邏輯右移的規則，若我們將一個 int 型別的負數右移，則根據二補數的表示特性，該負數將變成正數，明顯不符原題目對於算術右移的規則。 * 因此，我們在 return 的部分增加了 `bitwise or` 項目，調整邏輯右移為算術右移。 * 我們參考 `-5 算術右移 1` 以及 `-5 算術右移 2` 運算，比較算術右移與邏輯右移的結果: ```verilog logic_rs_1: 32'hFFFF_FFFB -> 32'h7FFF_FFFD arith_rs_1: 32'hFFFF_FFFB -> 32'hFFFF_FFFD logic_rs_2: 32'hFFFF_FFFB -> 32'h3FFF_FFFE arith_rs_2: 32'hFFFF_FFFB -> 32'hFFFF_FFFE ``` * 進一步比較最高 4 位元的結果，可發現邏輯右移與算術右移的差異主要在於高位元的不同: ```verilog logic_rs_1 (Highest 4 bits): 4'b0111 arith_rs_1 (Highest 4 bits): 4'b1111 logic_rs_2 (Highest 4 bits): 4'b0011 arith_rs_2 (Highest 4 bits): 4'b1111 ``` * 經過上述的觀察，不難發現邏輯右移後須進行 `sign extension` 以符合算術右移的要求，且擴充的位元數恰等於邏輯右移的位元數。 * 綜合上述結論，在 m 為非負數的時候，我們不需要執行 `sign extension` 即可讓邏輯右移達成算術右移的要求，因此我們須限制 return 的 or 之 `(fix ^ (fix >> n))` 全零，又因為 `logical` 變數的指派為比較運算的結果，其值必定為 0 或是 1，因此我們可以得知 `OP2` 為 `m < 0`。 * 我們再回頭分析 `(fix ^ (fix >> n))`，因為這段運算需指出高位元需做 `sign extension` 的 bit 數，而其餘位元保持不變，因此我們根據上述的例子歸納出 `or mask` 的確切值: ```verilog 32'h7FFF_FFFD | 32'h3FFF_FFFE or ) 32'h8000_0000 | or ) 32'hC000_0000 ------------------- | ------------------- 32'hFFFF_FFFD | 32'hFFFF_FFFE ``` * 透過上述的 `sign extension` 觀察，我們推導出下列的 `or mask` 計算過程 (以 `-5 算術右移 2` 為例): ```verilog 32'hFFFF_FFFF xor ) 32'h3FFF_FFFF (右移兩個位元) ------------------------ 32'hC000_0000 ``` * 因此可知 `fix` 之值在 `m < 0` 時為 `32'd-1`，因此 `logical` 之值為 1。 * 根據 2 補數的特性，-1 邏輯右移 1 個位元作大於 0 比較才可保證 `logical` 之值為 1，故 `OP1` 為 `>> 1` ```cpp int asr_i(signed int m, unsigned int n) { const int logical = (((int) -1) >> 1) > 0; unsigned int fixu = -(logical & (m < 0)); int fix = *(int *) &fixu; return (m >> n) | (fix ^ (fix >> n)); } ``` ## :radio_button: 測驗二 ```cpp bool isPowerOfFour(int num) { return num > 0 && (num & (num - 1))==0 && !(__builtin_ctz(num) OPQ); } ``` ### :building_construction: 程式碼分析 * 根據數值系統的特性，若一個數 $x$ 為 4 的羃次時 (假設 $x = 4^n$)，則從 $x$ 之二進位表示法的 LSB 算起，連續 0 個數必恰為 $2n$ 個。參考下列 4 羃次的 2 進制表示法: ```verilog 16'd4 -> 16'b0000_0000_0000_0100 (n = 1) 16'd16 -> 16'b0000_0000_0001_0000 (n = 2) 16'd64 -> 16'b0000_0000_0100_0000 (n = 3) 16'd256 -> 16'b0000_0001_0000_0000 (n = 4) 16'd1024 -> 16'b0000_0100_0000_0000 (n = 5) ... ``` * 除了上述的特性外，根據二進制的特性可發現若一個數 $n$ 為 4 的羃次，則 $n$ 在二進位表示方法中必定只會出現一個 `1`。 * 因此 `n & (n - 1)` 必等於 0。 * 又因輸入的數為 `signed`，綜合上述判斷式得到下列的邏輯判斷陳述式: ```cpp return num > 0 && (num & (num - 1))==0 && !(__builtin_ctz(num) OPQ); ``` * 根據上述推論，`__builtin_ctz(num)` 之值在輸入 num 為 4 的羃次的狀況下，其回傳值必定為偶數，因此我們透過位元運算判定 `__builtin_ctz(num)` 是否為偶數。 * 考量完整的偶數判定陳述式 `!(__builtin_ctz(num) OPQ)` ，當 `__builtin_ctz(num)` 為偶數時，括號內部值須為 0 才能輸出正確結果，因此 `OPQ` 應為 `& 0x1` ## :radio_button: 測驗三 ```cpp int numberOfSteps (int num) { return num ? AAA + 31 - BBB : 0; } ``` ### :building_construction: 程式碼分析 * 這段程式碼主要計算 [Leetcode No.1342](https://leetcode.com/problems/number-of-steps-to-reduce-a-number-to-zero/) 的計算次數。 * 在輸入 0 時因二進制表示法不含任何 1，因此直接回傳 0。 * 根據二進制表示法的特性，因 leading zero 的個數最多為 31，考量 leading zero 個數為 31 的時候，此時 num 必為 1，popcount 值亦為 1，其計算次數為 1 次。 * 接著我們考慮 num 為 2 的羃次之 case (假設為 $2^k$)。 * 當 num = 2 時，需計算 2 次 (clz = 30)。 * 當 num = 4 時，需計算 3 次 (clz = 29)。 * (以下類推) * leading zero 所造成額外的計算次數隨著 leading zero 數量的增加而減少，因此我們扣除 leading zero 的數量，BBB 應填 `__builtin_clz(num)` * 接下來我們討論 popcount 對計算次數造成的影響，以 8、12、14、15 為例。 * num = 8, clz = 28, popcount = 1, 計算 4 次 * num = 12, clz = 28, popcount = 2, 計算 5 次 * num = 14, clz = 28, popcount = 3, 計算 6 次 * num = 15, clz = 28, popcount = 4, 計算 7 次 * 根據歸納的結果，popcount 增加 1，則在計算的過程就需要多一次 -1 的計算，因此 AAA 應為 `__builtin_popcount(num)`。 ## :radio_button: 測驗四 ```cpp #include <stdint.h> uint64_t gcd64(uint64_t u, uint64_t v) { if (!u || !v) return u | v; int shift; for (shift = 0; !((u | v) & 1); shift++) { u /= 2, v /= 2; } while (!(u & 1)) u /= 2; do { while (!(v & 1)) v /= 2; if (u < v) { v -= u; } else { uint64_t t = u - v; u = v; v = t; } } while (XXX); return YYY; } ``` ### :building_construction: 程式碼分析 * 第一個 for 迴圈必定執行至 u 與 v 至少一數為奇數時停止，而這樣的特性會使迴圈跳離後的 u 與 v 互質，即其最大公因數為 1。 * 根據 [Bézout's identity](https://en.wikipedia.org/wiki/B%C3%A9zout%27s_identity)，$gcd(a,b) = 1 \iff sa+tb=1, \exists \ s,t \in \mathbb{Z}$，我們可在原始的 u, v 皆為偶數的情況下將兩數持續除 2，直到至少一數為奇數時停止，而最後再針對計算出來的 gcd 左移除 2 的次數進行還原，得到原始的 gcd。 * 在第二個 `while` 迴圈裡面，針對經過前一迴圈處理後仍為偶數的 u 再行除 2，直至 u 為奇數，因為在先前的 for 迴圈處理後 u, v 已互質，因此再將 u 除以 2 並不會改變兩數互質的特性；除此之外，令數字更小可再減少計算的次數。 * do-while 迴圈內針對變數 v 操作的 while 迴圈亦同。 * 我們接續看到 do-while 迴圈內的 if 判斷式，此處應用了輾轉相除法的概念，並移除了 mod 運算，單純利用一連串的加減法與除二運算 (即右移一位元) 可使運作效能更佳。 * 觀察迴圈對變數 v 的操作，可發現迴圈在輾轉相除的過程中，除了 u > v 以外，被減的結果皆放在變數 u，而輾轉相除法的減數會放在變數 v。 * 在輾轉相除的過程中，v 最後將會歸零。 * 因此跳離迴圈的條件是 v > 0，故 XXX 填入 v * 而最後迴圈返回時，如同前述所說需還原原始 gcd，故 u 需左移 shift 個位元，YYY 填入 u << shift。 ## :radio_button: 測驗五 ```cpp #include <stddef.h> size_t naive(uint64_t *bitmap, size_t bitmapsize, uint32_t *out) { size_t pos = 0; for (size_t k = 0; k < bitmapsize; ++k) { uint64_t bitset = bitmap[k]; // traverse all elements size_t p = k * 64; // offset of bitmap // bitwise value check (1) for (int i = 0; i < 64; i++) { if ((bitset >> i) & 0x1) out[pos++] = p + i; // Indicate is-one index } } return pos; } ``` ```cpp #include <stddef.h> size_t improved(uint64_t *bitmap, size_t bitmapsize, uint32_t *out) { size_t pos = 0; uint64_t bitset; for (size_t k = 0; k < bitmapsize; ++k) { bitset = bitmap[k]; while (bitset != 0) { uint64_t t = KKK; int r = __builtin_ctzll(bitset); out[pos++] = k * 64 + r; bitset ^= t; } } return pos; } ``` ### :building_construction: 程式碼分析 * 根據函式 `naive()`，最終回傳的變數 `pos` 值指出此 bitarray 所含 1 的個數，且陣列 `out` 內含值指出哪一個位元的值為 1。 * 在函式 `improve()` 中使用了 `__builtin_ctzll(bitset)` 函式，直接計算 tailing zero 的個數，可直接得到 offset 的位置並加速 `naive()` 的計算。 * 在每一次計算之後，tailing zero 前方的 1 須設定為 0，在新的實現中是採用 xor 運算設定該位元為 0。 * 根據二補數的特性，一數與其二補數做 bitwise and 運算，其結果中必定只包含 1 個 1，且其位置與原數從 LSB 數來的第一個 1 的位置相同。 * 因此，我們運用這個特性，可知 KKK 應為 `bitset & -bitset`。