Copyright (慣C) 2017, 2019 宅色夫
不同程式語言給出相似的執行結果: Floating Point Math
Python 3.12 在 GNU/Linux 的執行:
後者顯然比預期數值 0.09
略大
而 0.1 - 0.01 - 0.1
又會得到比預期數值 -0.01
略大的結果,有辦法讓電腦精準地表達和運算數值嗎?
電腦科學家 Donald E. Knuth 在《The Art of Computer Programming》第 2 卷說:
"Perhaps the prettiest number system of all is the balanced ternary notation"
這裡的 ternary 意思是三個的、三個一組的、三重的,也稱為 base-3,顧名思義,不是只有 0 或 1,而是將可能的狀態擴充為 0
, 1
, 2
,在 balanced ternary 中,就是 -1
, 0
, +1
等三個可能狀態,又可以簡寫為 -
, 0
, +
。
the ternary values as being "balanced" around the mid-point of 0. The same rules apply to ternary as to any other numeral system: The right-most symbol, R, has it's own value and each successive symbol has it's value multiplied by the base, B, raised to the power of it's distance, D from R.
在三進位中,一個十進位的數 可表示為
針對數值儲存效率,採用 radix economy 提供量化評估,如下:
其中 代表是以 為基底的數值系統,表示常數 時需付出的儲存空間代價,可見在各數字範圍內以 為底的效果皆是最好,另外在 為 1 to 6
以及 1 to 43
時 為基底比 為基底的數值系統效率更好。使用數學定義來推導出比較公式:
假設我們要比較基底 及 時,比較方法可以寫成
可見上式去掉常數 的影響,讓我們可對數值系統進行更全面比較。接著,為了讓此數值可以重用,所有數值系統都可藉由與 相互比較,得知其儲存效率。
接著再對照上表的 項目,可發現扣除 , 的儲存效率最好,換言之,這也是三進位系統的立足點。三進位系統最初由 1959 年莫斯科國立大學的一群科學家設計的 Setun 電腦所採納,儘管該團隊後來在 1965 年解散,但由於這種數值系統的種種優點,後來出現了一個名為 Nutes 的虛擬處理器,它採用三進位數值系統作為其 OISC (單一指令集電腦) 指令架構,本質上是 Turing-complete,且它利用三進位數值系統易於正負轉換的特性,使其能夠輕鬆實作 subtract, and, branch, if, negative 等已被證明可用 OISC 指令架構所實作的指令。
balanced ternary 與一般三進位不同之處在於 ,其整數與分數的表示法都跟二進位一樣,但在表示一個數的負數時較二進位方便:
由上可知,在 balanced ternary 中要取一個數的負數,只要將全部的位元乘以 即可,比二進位的負數操作快速簡單。考慮以下 balanced ternary:
+++-0
= (1 * 34) + (1 * 33) + (1 * 32) + (-1 * 31) + 0
= 81 + 27 + 9 + -3
= 114
乍看沒什麼特別的,但當我們考慮 -114
的表示法時,就有趣:
---+0
= (-1 * 34) + (-1 * 33) + (-1 * 32) + (1 * 31) + 0
= -81 + -27 + -9 + 3
= -114
也就是把所有的 +
和 -
對調,就不用像在 2 進位表示法中,需要特別考慮 signed 和 unsigned。
balanced ternary 的作用不僅在一致的方式去表達數值,還可用於浮點數。以下是 10 進位的 0.2
對應的 balanced ternary 表示法:
0.+--+
= 0 + (1 * (3-1)) + (-1 * (3-2)) + (-1 * (3-3)) + (1 * (3-4))
= 0.33 + -0.11 + -0.03 + 0.01
= 0.2
如何表達 10 進位的 0.8
呢?既然 0.8 = 1 - 0.2
,我們做以下表示:
+.-++-
= 1 + (-1 * (3-1)) + (1 * (3-2)) + (1 * (3-3)) + (-1 * (3-4))
= 1 + -0.33 + 0.11 + 0.03 + -0.01
= 0.8
把最開頭的 0
換成 +1
,然後小數點後的 +
和 -
對調即可。
接著評估 balanced ternary 計算正負轉換效率,此處針對二進位採用二補數、三進位採用平衡三進位表示負數。以十進位數值 123
為例,在二進位八位元的表示法,其表示為 01111011
,平衡三進位八位元則表示為001TTTT0
,若想將 反轉為負數型態,平衡三進位僅須針對所有位元進行反轉,獲得 00T11110
,計算量為「8 次位元反轉」。相較之下,二進位計算二補數時得,要反轉所有位元,隨後遞增一,獲得10000100
,計算量為「8 次位元反轉加上一次遞增操作」。
若想要量化這份差距,首先假設在位元數相同的狀況下,兩者位元反轉所花時間相同,因此差距就主要體現在 +1
的過程中,實際的所花的時間以期望值表示,令 位元的狀況下,二進位加法的進位次數期望值為 ,則 可寫成:
化簡後可得:
至此,因為二進位轉換時會多進行一次加法,因此轉換效率上,平衡三進位將略勝一籌,這個看似微小的落差,在人工智慧的運算上會予以顯著地放大。
延伸閱讀:
數學中的「群」是個由我們定義的二元運算的集合,這裡的二元運算稱為「加法」,表示為符號 +
。為了讓一個集合 G 成為群,必須定義加法運算並使之具有以下 4 個特性:
(a + b)
也是集合 G 中的元素;(a + b) + c = a + (b + c)
;a + 0 = 0 + a = a
;a + b = 0
;倘若我們追加下述條件:
5. 交換律: a + b = b + a
;
那麼,稱這個群為阿貝爾群 (Abelian group)。
嚴格定義後,我們再回顧通常概念的「加法」時,就可發現,整數的集合 Z
就是一個群 (同時也是個阿貝爾群),但是,自然數的集合 (N
) 就不是群,因為 N 不滿足上述第 4 個特性。
為何我們要大費周章去表達「群」的特性呢?一旦我們證明它具備上述 4 個特性,那麼就可自由地獲取到一些其他特性。像是:
a + b = 0
(我們可以將 b 寫成 -a)。以電腦的數值系統來說,整數 (包含 sign 和 2's complement) 加法形成阿貝爾群,實數 (R
) 的加法也形成阿貝爾群,但我們必須考慮四捨五入 (或無條件捨入) 對這些屬性的影響。更甚者,由於 overflow 的考慮,導致儘管 x 和 y 都是實數,結果可能截然不同。
回到電腦的資料表示法,假設我們用 4 個 bits 來表示,像是 0000
表示 0
,我們可以額外引入一個 bit 來表示 +/- (sign bit),但事實上我們可將上述特性考慮進去,引入反元素,讓每個正整數都可有一個對應的反元素,也是負數,這也是為何對應的正整數 bit-wise not 後 +1。1000
是唯一沒有對應正整數的數值,因此有號數的負整數會比正整數多一個。
在 IEEE 754 的單精度運算符點數中 (好看的解說影片,我說板書),表達式 (3.14 + 1e10) - 1e10 求值會得到 0.0 —— 因為捨入,數值 3.14 會丟失。另一方面,表達式 3.14 + (1e10 - 1e10) 會得到數值 3.14。
延伸閱讀: 浮點數的美麗與哀愁
作為阿貝爾群,大多數值的浮點數加法都有反元素,但是 INF (無窮) 和 NaN 是例外情況,因為對任何 x,都有 NaN + fx = NaN;
浮點數加法不具有結合性,這是缺乏的最重要「群」特性。知道這些後,對我們寫程式有什麼影響呢?
衝擊可大了!
假設 C 語言編譯器即將處理以下程式碼:
編譯器可能為了省下一道浮點數運算,而產生以下中間程式碼: (code motion 技巧,詳見 編譯器和最佳化原理篇)
但對於 x 來說,這樣的計算方式可能會導致和原始數值截然不同的結果,因為它運用了加法運算的不同的結合方式!
單精度浮點數運算中:
0x7FFFFFFF
(32-bit 有號數最大值) = 2147483647 / (24 * 60 * 60) = 24855 / 100 = 248.55 days.其他 integer overflow 案例:
假設懷有惡意的程式設計師將「負」的數值作為 maxlen 帶入 copy_from_kernel
,會有什麼問題?
假設懷有惡意的程式設計師將 ele_cnt = 220 +1, ele_size = 212 帶入,會有什麼問題?
搭配觀看影片 How to count to 1000 on two hands,記得開啟 YouTube 字幕
萊布尼茲在 1678 年發明二進位表示法,他研究 Pascal 在 1642 年設計製造的十進位數字計算機,並在 1671 年設計出能作加減乘除的分級計算機設計。藉由多次的加減來實現乘除,還可以求平方根。這過程中,他發現平時用起來很方便的十進位計數法,搬到機械上去實在太麻煩。
為了解答「能否用較少的數碼來表示一個數呢?」這問題,萊布尼茲在 1678 年發明二進位計數法,也就是二進位。如此一來,用 0 和 1 兩個數碼就可以表示出一切數。比如用 10
表示 2,11
表示 3,100
表示 4,101
表示 5,以此類推。
大清國康熙時期,派遣傳教士白晉 (法語: Joachim Bouvet) 回到法國,白晉在 1701 年寄了一封附上兩張易經六十四卦圖的信給萊布尼茲,萊布尼茲受到啟發,稱讚八卦是「世上流傳下來的科學中最古老的紀念物」。
George Boolean 在1800年介紹「邏輯代數」,後來成為「布林代數」(Boolean Algebra)
Claude E. Shannon 於 1938 年發表布林代數對於二進位函數的應用。
C 語言中,x & (x - 1) == 0
的數學意義
將字元轉成小寫: 免除使用分支
避免 overflow
(x + y) / 2
這樣的運算,有個致命問題在於 (x + y) 可能會導致 overflow (考慮到 x 和 y 都接近 UINT32_MAX,亦即 32-bit 表示範圍的上限之際)
x & y
是進位, x ^ y
是位元和, >> 1
是向右移一位x ^ y
; 位元相加產生的進位值: (x & y) << 1
x + y = x ^ y + ( x & y ) << 1
(x + y) >> 1
(x ^ y + (x & y) << 1) >> 1
(x & y) + ((x ^ y) >> 1)
以下 C 語言程式的 DETECT 巨集能做什麼?
DETECT
在偵測什麼?
測試這程式時,要注意到由於 LONG_MAX 定義在 <limits.h>
裡面,因此要記得作 #include
這個巨集的用途是在偵測是否為 0 或者說是否為 NULL char ’\0’,也因此,我們可以在 iOS 的原始程式碼 strlen 的實作中看到這一段。那,為什麼這一段程式碼可以用來偵測 NULL char ?
我們先思考 strlen() 該怎麼實作,以下實作一個簡單的版本
這樣的版本有什麼問題?雖然看起來精簡,但是因為他一次只檢查 1byte,所以一旦字串很長,他就會處理很久。另外一個問題是,假設是在 32-bit 的 CPU 上,一次是處理 4-byte (32-bit) 大小的資訊,不覺得這樣很浪費嗎?
為了可以思考這樣的程式,我們由已知的計算方式來逆推原作者可能的思考流程,首先先將計算再簡化一點點,將他從 (((X) - 0x01010101) & ~(X) & 0x80808080) 變成
還是看不懂,將以前學過的笛摩根定理套用上去,於是這個式子就變成了
再稍微調整一下順序
所以我們就可進行分析
X | ~(X - 0x01)
=> 取得最低位元是否為 0 ,並將其他位元設為 1
上面這兩組組合起來,我們可以得到以下結果
於是我們知道,原來這樣的運算,如果一個 byte 是 0,那經由這個運算得到的結果會是 0x80,反之為 0。
不妨換另一種想法看
((X) - 0x01)
=> 只在 X=0 或 X>0x80時,最高位元才會得到1, 0b1xxx xxxx~X
=>只在 X<0x80時,最高位元才會得到1, 0b1xxx xxxx再將這個想法擴展到 32-bit,是不是可以想到說在 32bit 的情況下,0 會得到 0x80808080 這樣的答案?我們只要判斷這個數值是不是存在,就可以找到 ’\0’ 在哪了!
參考資料:
應用:
只能使用位元運算子和遞迴,在 C 程式中實作兩個整數的加法,可行嗎?
回顧 加法器 的實作:
思考以下程式碼:
延伸閱讀: How to simulate a 4-bit binary adder in C
當我們計算 (以 2 為底的對數) 時, 其實只要算高位有幾個 0's bits. 再用 31 減掉即可。
當要算 時, 因為 32-bit unsigned integer 最大只能顯示 4294967295U,所以 32-bit LOG10() 的值只有可能是 0 ~ 9.
這時可透過查表法,以省去除法的成本。
換句話說,計算 時,知道「高位開頭有幾個 0」就成為計算的關鍵操作。
延伸閱讀: Fast computing of log2 for 64-bit integers
類似 De Bruijn 演算法
64-bit version
gcc 提供 built-in Function:
可用來實作 log2:
那該如何實作 clz 呢?
0b10000000
,ffs(128)會回傳 80b10000001,
ffs(129) 會回傳 1延伸閱讀: Bit scanning equivalencies
考慮以下 C 程式,解說在 32-bit 架構下具體作用(不是逐行註解),以及能否避開用迴圈?
這段程式的作用是逐位元反轉順序,如下面測試所示,顛倒後位元不足 32bit 者,全部補 0
參考 Reverse integer bitwise without using loop,將原本的 for 迴圈變更為 bit-wise 操作:
在不使用迴圈的情況下,可以做到一樣的功能。
延伸閱讀:
Bits Twiddling Hacks 解析: (一), (二), (三)
0
),所以圖會變暗。如果使用 OR (每個 bit 有 75% 機率會變 1
),圖就會變亮。這兩種幾乎都還是看的出原本的圖片,但若是用 XOR 的話,每個 bit 變成 0 或 1 的機率都是 50%,所以圖片就會變成看不出東西的雜訊。上圖左 1 是原圖,左 2 是用 AND 做運算之後,右 2 是用 OR 做運算之後,右 1 是用 XOR,可見使用 XOR 的加密效果最好。
已知 X, Y 是 random variable over {0,1}n,X 是 independent uniform distribution,則 Z = X xor Y 也會是 uniform distribution。附圖是用 truth table 列舉證明,n = 2 的真值表:
於是我們可以對 X 作 xor, 將任意分佈的 random number 轉為 uniform distribution
完整證明: How to prove uniform distribution of 𝑚⊕𝑘 if 𝑘 is uniformly distributed?
參考資料:Ciphers vs. codes