2020q3 Homework5 (quiz5)

# 2020q3 Homework5 (quiz5) contributed by < `JimmyLiu0530` > ###### tags: `進階電腦系統理論與實作` ## 測驗1: 浮點數除法考慮到以下浮點數除法程式: (fdiv.c) ```c= #include <stdio.h> #include <stdlib.h> double divop(double orig, int slots) { if (slots == 1 || orig == 0) return orig; int od = slots & 1; double result = divop(orig / D1, od ? (slots + D2) >> 1 : slots >> 1); if (od) result += divop(result, slots); return result; } ``` 假設 `divop()` 的第二個參數必為大於 0 的整數，而且不超過 `int` 型態能表達的數值上界。請補完程式碼。 ### 程式說明原理: $\dfrac{N}{d}$ = $\dfrac{N}{d+1}*\dfrac{d+1}{d}$ = $\dfrac{N}{d+1}*(1+\frac{1}{d})$ = $\dfrac{N}{d+1}+\dfrac{N}{d(d+1)}$ e.g. $\dfrac{N}{5}=\dfrac{N}{5+1}+\dfrac{N}{5(5+1)}$ Line 8 的作用在於: 若除數 `slots` 是偶數，那麼被除數 `orig` 與除數 `slots` 可以先同時除以 2，再進行運算，因此 `D1 = 2`。若 `slots` 為奇數，則根據上述的原理 $\dfrac{orig}{slots}$ = $\dfrac{orig}{slots+1}+\dfrac{orig}{slots(slots+1)}$ 告訴我們兩件事: 1. 首先就是 `D2 = 1`。又因為 `slots` 原本是奇數加 1 後變成偶數，所以也可以與 `orig` 同除以 2。 2. 再來就是最終結果 `result` 除了計算 $\dfrac{orig}{slots+1}$ 外還要再加上 $\dfrac{orig}{slots(slots+1)}$ ，因此 line 10 需要 `divop(result, slots)`。 ### 延伸問題 #### 1. 以編譯器最佳化的角度，推測上述程式碼是否可透過 [tail call optimization](https://en.wikipedia.org/wiki/Tail_call) 進行最佳化，搭配對應的實驗; > 搭配閱讀 [C 語言: 編譯器和最佳化原理](https://hackmd.io/@sysprog/c-compiler-optimization?type=view) 及 [C 語言: 遞迴呼叫](https://hackmd.io/@sysprog/c-recursion?type=view) #### 2. 比照 [浮點數運算和定點數操作](https://hackmd.io/@NwaynhhKTK6joWHmoUxc7Q/H1SVhbETQ)，改寫上述程式碼，提出效率更高的實作，同樣避免使用到 FPU 指令 (可用 `gcc -S` 觀察對應的組合語言輸出)，並與使用到 FPU 的實作進行效能比較 ------------------------------------------------ ## 測驗2: 平方根延續 [從 √2的運算談浮點數](https://hackmd.io/@sysprog/ryOLwrVtz?type=view)，假設 float 為 32-bit 寬度，考慮以下符合 IEEE 754 規範的平方根程式，請補上對應數值，使其得以運作： ```c= #include <stdint.h> /* A union allowing us to convert between a float and a 32-bit integers.*/ typedef union { float value; uint32_t v_int; } ieee_float_shape_type; /* Set a float from a 32 bit int. */ #define INSERT_WORDS(d, ix0) \ do { \ ieee_float_shape_type iw_u; \ iw_u.v_int = (ix0); \ (d) = iw_u.value; \ } while (0) /* Get a 32 bit int from a float. */ #define EXTRACT_WORDS(ix0, d) \ do { \ ieee_float_shape_type ew_u; \ ew_u.value = (d); \ (ix0) = ew_u.v_int; \ } while (0) static const float one = 1.0, tiny = 1.0e-30; float ieee754_sqrt(float x) { float z; int32_t sign = 0x80000000; uint32_t r; int32_t ix0, s0, q, m, t, i; EXTRACT_WORDS(ix0, x); /* take care of zero */ if (ix0 <= 0) { if ((ix0 & (~sign)) == 0) return x; /* sqrt(+-0) = +-0 */ if (ix0 < 0) return (x - x) / (x - x); /* sqrt(-ve) = sNaN */ } /* take care of +INF and NaN */ if ((ix0 & 0x7f800000) == 0x7f800000) { /* sqrt(NaN) = NaN, sqrt(+INF) = +INF,*/ return x; } /* normalize x */ m = (ix0 >> 23); if (m == 0) { /* subnormal x */ for (i = 0; (ix0 & 0x00800000) == 0; i++) ix0 <<= 1; m -= i - 1; } m -= 127; /* unbias exponent */ ix0 = (ix0 & 0x007fffff) | 0x00800000; if (m & 1) { /* odd m, double x to make it even */ ix0 += ix0; } m >>= 1; /* m = [m/2] */ /* generate sqrt(x) bit by bit */ ix0 += ix0; q = s0 = 0; /* [q] = sqrt(x) */ r = QQ0; /* r = moving bit from right to left */ while (r != 0) { t = s0 + r; if (t <= ix0) { s0 = t + r; ix0 -= t; q += r; } ix0 += ix0; r >>= 1; } /* use floating add to find out rounding direction */ if (ix0 != 0) { z = one - tiny; /* trigger inexact flag */ if (z >= one) { z = one + tiny; if (z > one) q += 2; else q += (q & 1); } } ix0 = (q >> 1) + QQ1; ix0 += (m << QQ2); INSERT_WORDS(z, ix0); return z; } ``` Reference: - [Floating point division and square root algorithms and implementation in the AMD-K7/sup TM/ microprocessor](https://ieeexplore.ieee.org/document/762835/) - [√Square Roots](http://www.azillionmonkeys.com/qed/sqroot.html) - [以牛頓法求整數開二次方根的近似值](http://science.hsjh.chc.edu.tw/upload_works/106/44f6ce7960aee6ef868ae3896ced46eb.pdf) (第 19 頁) 請補完程式碼，使上述程式碼得以運作。 ### 程式說明 - **牛頓法**求整數開根號近似值的**核心概念**: - 假設估算 $\sqrt{N}$，則令$f(x)=x^2-N$，利用 $f(x)=0$ 求得 $x=\pm\sqrt{N}$。 - 接著，取一個估算值 a，對 $(a,f(a))$ 做切線，並與 x 軸相交於 b。一樣再對 $(b,f(b))$ 做切線與 x 軸相交於 c，重複上述步驟即可逼近 $\sqrt{N}$。 ### 延伸問題 #### 1. 嘗試改寫為更有效率的實作，並與 FPU 版本進行效能和 precision /accuracy 的比較 #### 2. 練習 LeetCode [69. Sqrt(x)](https://leetcode.com/problems/sqrtx/)，提交不需要 FPU 指令的實作 ------------------------------------------------ ## 測驗3: LeetCode [829. Consecutive Numbers Sum](https://leetcode.com/problems/consecutive-numbers-sum/) 給定一個正整數 N，問 N 能寫成多少種連續正整數之和，例如 9 可寫成 $4+5$，或者 $2+3+4$。由於要寫成連續正整數之和，則可用等差數列來思考，且差值為 1，這個等差數列不必從 1 開始，假設從 x 開始，且個數共有 k 個，則可寫出該等差數列為： $x, x+1, x+2,..., x+(k-1)$ 令其和為 N，根據等差數列的求和公式，可寫出以下等式： $kx+\dfrac{(k-1)k}{2}=N$ 整理後可得： $kx=N-\dfrac{(k-1)k}{2}$ 對任意 k 值，倘若 x 能得到正整數解，就表示必定會有個對應的等差數列和為 N。由於 k 是等差數列的長度，首先必定大於 0，即為下限。由於 x 也必是正整數，可得: $N-\dfrac{(k-1)k}{2}>0$ 從而得到近似解： $k<\sqrt{2N}$ 參考實作如下: ```c= int consecutiveNumbersSum(int N) { if (N < 1) return 0; int ret = 1; int x = N; for (int i = 2; i < x; i++) { x += ZZZ; if (x % i == 0) ret++; } return ret; } ``` 請補完程式碼，使上述程式碼得以運作。 ### 程式說明根據題目的敘述及提示可知 $k$ 為正整數且 $k<\sqrt{2N}$，有了 k 值的範圍後，在這範圍內一一去檢驗 $kx=N-\dfrac{(k-1)k}{2}$ 是否成立就可以知道 N 能不能寫成 k 個連續整數相加。因為任何正整數一定能寫成 1 個數相加(即自己)，所以直接從 k=2 開始看。接著用一個例子來說明如何將數學式轉換成程式碼: (N=9為例) | k | $kx=N-\dfrac{(k-1)k}{2}$ | x |是否能寫成 k 個連續整數相加 | | - | - | - | - | | 2 | $2x=9-\dfrac{1*2}{2}=8$ | 4 | :O: | | 3 | $3x=9-\dfrac{2*3}{2}=6$ | 2 | :O: | | 4 | $4x=9-\dfrac{3*4}{2}=3$ | $\dfrac{3}{4}$ | :X: | 根據上面例子會發現 1. 每一次迭代，$N-\dfrac{(k-1)k}{2}$ 的值都會比上一次等差地減少。 - e.g. k=2 時，值為 8 會是上一輪的 9 減掉 **1**; k=3 時，值為 6 會是上一輪的 8 減掉 **2**, 以此類推，因此 `ZZZ = 1-i`。 2. $2x = 8$ 有整數解釋因為 8 被 2 整除，然而 $4x = 3$ 無整數解是因為 3 不被 4 整除，因此可以推廣到 $kx=m$ 有整數解就代表 m 要能被 k 整除，呼應 line 9 的判斷式。 - 執行效能: ![](https://i.imgur.com/yjQB6Sq.png) ### 延伸問題 #### 1. 嘗試改寫為更有效率的實作 ```c= int consecutiveNumbersSum(int N){ int res = 1, count; while (N % 2 == 0) N /= 2; for (int i = 3; i * i <= N; i += 2) { count = 0; while (N % i == 0) { N /= i; count++; } res *= count + 1; } return N == 1 ? res : res * 2; } ``` > TODO: 透過 shift 改寫 > :notes: jserv - 此方法的原理：由上面的推論可得 $kx=N-\dfrac{(k-1)k}{2}$ ，變換一下得到 $2N=k(2x+k-1)$，因為 $2N$ 是偶數，代表著 $k$ 或是 $(2x+k-1)$ 要是偶數，而當 k 偶數，$(2x+k-1)$ 就會是奇數; 當 k 奇數，$(2x+k-1)$ 就會是偶數。也就是說，N 的每一個 odd factor 都會對應一組答案。因此，此問題就變成了 N 有幾個 odd factor。 - 計算 odd factor 數量: > 若 $N=3^a*5^b*7^c*...$，則 N 共有 (a+1)(b+1)(c+1)... 個因數 > ( 因為在 line 3 會將所有2因數移除，所以才可以如此假設 N ) - 程式碼說明: 上面這個新的程式碼就是用來找 `N` 有多少個 odd factor。首先，因為我們只關心 odd factor，所以先移除 `N` 的所有 2 因數，再對所有小於 `N` 的奇數去看是否為 `N` 的因數。若是，則去計算該因數有多少次方(即 `count`)，加 1 後再乘入 `res` 中。最後，for 迴圈結束檢查若 `N` 為 1，那麼直接回傳 `res`; 否則代表 N 中還剩一個**最大質因數** P，且其次方必為1，因此回傳 `res * (1+1)`。 > 因為 line 4 for 迴圈的中止條件為 `i * i <= N`，所以執行完 for 迴圈後 N 有可能剩下的就只有其最大質因數 P (因為 (1) 若為合數，那麼早在 for 迴圈就被除掉了。(2) 假設 N 還存在另一個質因數 Q，Q < P，則代表 for 迴圈沒有執行到 `i = Q`，即 Q * Q > N。又 ${N}\geq{P}*Q>Q*Q$，很明顯矛盾，因此 N 中不存在另一個質數)，使得 P * P > N，也因為 P * P > N，所以 P 的次方必為 1。 - 執行效能: ![](https://i.imgur.com/jmLCJ4v.png)