contributed by < LiChiiiii
>
測驗題目:quiz2
考慮 next_pow2
可針對給定無號 64 位元數值 x,找出最接近且大於等於 2 的冪的值,例如:
next_pow2(7)
= 8next_pow2(13)
= 16next_pow2(42)
= 64最初想法是將 x 左移 1 後,最高位元的 1 保留下來,其餘設定為 0 ,根據測驗一的題目實作,利用 shift
和 or
將最高位元的 1 至最低位元的 bit 皆設定為 1 ,最後回傳 x+1 即為答案。
Example:
發現:如果 x 剛好是 2 的冪,那麼應該要回傳 x 本身,但上述程式碼不會回傳 x 。
Example:
因此可加上條件式判斷 x 是否剛好是 2 的冪,避免不必要的操作。
__builtin_clzl
改寫__builtin_clzl(x)
回傳 x 中有多少個 leading 0-bits ,當64 減去 __builtin_clzl(x)
即可找到最高位元的位置。
在 The Linux Kernel API 中找到 __roundup_pow_of_two
實作。其原始程式碼在 linux/log2.h 。
__roundup_pow_of_two
給定一個無號整數 n,回傳該值最接近且大於等於 2 的冪的值,若 n 為 2 的冪則回傳 n。
:stars: fls_long
用來找從最高位元開始連續的 0 的個數,也就是找到出現第一個 1 的位置。linux/bitops.h
如果 l
是一個 32 位元的整數(即sizeof(l) == 4),則調用 fls
函數。
如果 l
是一個 64 位元的整數(即sizeof(l) > 4),則調用 fls64
函數。
__roundup_pow_of_two
使用案例在 commit 8758768 可以看到原本的 i40iw_qp_round_up
被替換成 roundup_pow_of_two
。
i40iw_qp_round_up
實作概念與next_pow2
相同,在 for loop 的每次循環中,將 scount 乘以2,然後將 wqdepth 右移 scount 位,並將結果與 wqdepth 進行位元或運算,這樣的效果是將最高位元的 1 至最低位元的 bit 皆設定為 1 ,其時間複雜度為 O(log wqdepth)。
roundup_pow_of_two
是將最高位元開始連續的 0 的個數作為 unsigned long 1 向左移的次數,其時間複雜度為 O(1)。
clz
內建函式已運用時,編譯器能否產生對應的 x86 指令?x86 中有一條稱為 bsrq
的指令,可以實現尋找最高位元 1 的位置的功能,其運作方式與 clz
函式類似。編譯器可以將 clz
函式轉換為 bsrq
指令來實現對應的功能。
實際執行 cc -O2 -std=c99 -S next_pow2.c
,可在 next_pow2.s
第 22 行看到 bsrq
指令。
:stars: BSR (Bit Scan Reverse)
指令和 bsrq
指令差別在哪裡?
BSR (Bit Scan Reverse) 指令和 bsrq 指令都是在 x86 架構的指令集中的位元運算指令,它們的主要區別在於操作數的大小。
具體而言,BSR 指令是用於 16 位元或 32 位元操作數的位元運算,而 bsrq 指令是用於 64 位元操作數的位元運算。因此,它們分別可以從指定的操作數中尋找最高位元 (MSB) 的位置並將其傳回。
chatGPT
給定一整數 n ,回傳將 1 到 n 的二進位表示法依序串接在一起所得到的二進位字串,其所代表的十進位數字 mod 之值。
len
:用來紀錄整數 i
之 bit 長度,也就是要左移的位元數。
迴圈會從 i = 1 開始執行至 i = n,也就是說, bit 長度會越來越長。當 i
為 2 的冪時,代表進位到下一個 bit , 因此執行 len++
增加 bit 長度,而每次循環會將前面迴圈的結果向左移 len
個位元數,利用 or
與 i
合併後,再做 mod M
的運算來避免 overflow 。
__builtin_{clz,ctz,ffs}
改寫,並改進 的運算int __builtin_ffs (int x)
Returns one plus the index of the least significant 1-bit of x, or if x is zero, returns zero.
int __builtin_ctz (unsigned int x)
Returns the number of leading 0-bits in x, starting at the most significant bit position. If x is 0, the result is undefined.
int __builtin_clz (unsigned int x)
Returns the number of leading 0-bits in x, starting at the most significant bit position. If x is 0, the result is undefined.
__builtin_clz(i) + __builtin_ctz(i) = 31
作為 2 的冪之條件式判斷。以上程式碼改寫並沒有增進效能,於是又想了其他改寫方式。
__builtin_clz
會回傳從最高位元開始連續的 0 之個數,將 32 bits 減去 __builtin_clz(i)
即為需左移的位元數。UTF-8 字元可由 1, 2, 3, 4 個位元組構成。其中單一位元組的 UTF-8 由 ASCII 字元構成,其 MSB 必為 0。
UTF-8 的多位元組字元是由一個首位元組和 1, 2 或 3 個後續位元組所構成。首位元組可以表示其 UTF-8 字元是幾個位元組所組成,舉例來說,2 bytes 的字元其首位元組之最高位元開始存在連續 2 個 1,下表為多位元組字元的規則:
UTF-8 | |
---|---|
ASCII | 0xxx.xxxx |
2 bytes | 110x.xxxx 10xx.xxxx |
3 bytes | 1110.xxxx 10xx.xxxx 10xx.xxxx |
以下程式碼使用了 SWAR(SIMD Within A Register)算法,計算給定的 UTF-8 編碼的字串中字元數量。
程式碼中使用 for 迴圈來一次處理 8 bytes ,所以先透過 len>>3
(也就是 len/8
)來計算總共有幾個 8 bytes ,接著在迴圈中將 not bit6 and bit7
這個想法實作,並透過 __builtin_popcount
計算有多少 1,來紀錄有幾個 continuation byte
(也就是 10xx.xxxx
),最後將 continuation byte
的數量從總字串長度中減去,即可確定字元數量。
第 16 行:利用
(1 << 3) * (len / 8)
得到總字串長度,再減去continuation byte
的數量。
第 17 行:如果
len & 7
不等於 0,則說明len
不是 8 的倍數,此時調用count_utf8
函數計算在迴圈內未被處理到的 bytes ,回傳值再加入count
中。
swar_count_utf8
中的循環次數比 count_utf8
少,因為對於一次處理 8 bytes 的長度範圍,使用位元運算進行計數,減少了循環的次數。而 count_utf8
則需要遍歷每個 byte 進行判斷,增加了循環的次數。
swar_count_utf8
和 count_utf8
, 再利用 perf
重複執行 100 次並計算 instructions
和 cycles
的數量,從以下結果可以明顯看到 count_utf8
使用到較多的指令數量,花費較多的運行時間。在 /fs/unicode/utf8-norm.c 找到 UTF-8 和 Unicode 相關字串處理的程式碼。
utf8byte()
是一個 UTF-8 字串的解碼器,用於從 UTF-8 字符串中提取規範化形式的單個字節,並處理了 UTF-8 字符串的解碼和解析過程中可能出現的各種特殊情況。這段程式碼存在一些重複的部分,可以將重複部分抽取出來,另外建立函式來改進可讀性。
utf8byte(struct utf8cursor *u8c)
此程式碼是為了檢查從最高位元開始是否只包含一段連續的 1,使用一個 for 迴圈不斷的左移 x ,並檢查最高位元是否為 1 ,直到 x 等於零就結束迴圈回傳 true ,否則繼續左移 x ,若發現最高位元為 0 即回傳 false 。
改寫成精簡的程式碼,先計算 x 的 2 補數 ( ~x + 1 ) ,兩者做 XOR 來保證高位元的值為連續的 1 ,即可在最後比較大小來檢查是否特定樣式。
Example:
參見 Data Structures in the Linux Kernel 找到 BITMAP_FIRST_WORD_MASK
和 BITMAP_LAST_WORD_MASK
實作,其原始程式碼在 linux/bitmap.h 。
BITMAP_FIRST_WORD_MASK
此函式用來獲得從最高位元開始包含連續 1 的 mask ,參數 start 代表從最低位元開始算起含有 0 的個數,其餘為 1 。
將 0xFFFFFFFF
左移 (start) & (BITS_PER_LONG - 1)
,其中 BITS_PER_LONG
是一個常量,表示 unsigned long 型別的位數,通常是 32 位元或 64 位元,取決於機器的架構。
Example:
BITMAP_LAST_WORD_MASK
此函式用來獲得從最低位元開始包含連續 1 的 mask ,參數 nbits 代表從最低位元開始算起含有 1 的個數,其餘為 0 。
假設 BITS_PER_LONG
為 32 ,那麼實作就是將 0xFFFFFFFF
右移 32 - nbits
。
Example:
這是一個用於清除 bitmap 指定範圍內的位元數的函數
map
: 指向 bitmap 的 pointer
start
: bitmap 中需要被清除的第一個 bit 的位置
len
: 需要被清除的 bit 的數量