- 編碼、解碼
計(jì)算機(jī)硬盤中只能存儲(chǔ)二進(jìn)制,那么怎么來存儲(chǔ)字符串呢?答案是通過建立二進(jìn)制與字符串的映射關(guān)系。那么如何映射呢?需要一個(gè)約定的集合來充當(dāng)中介,這就是字符集。
將字符映射成二進(jìn)制數(shù)據(jù)叫做編碼,將二進(jìn)制數(shù)據(jù)映射為字符的過程叫做解碼。
常用的字符集有比如ASCII,ASCII使用一個(gè)字節(jié)編碼,共收錄128個(gè)字符,包括空格、標(biāo)點(diǎn)符號(hào)、數(shù)字、大小寫字母和一些不可見字符。例如'L' -> 01001100,十六進(jìn)制:0x4C
最通用的字符集為utf-8,收錄地球上能想到的所有字符。采用變長編碼方式,編碼一個(gè)字符需要使用1~4個(gè)字節(jié)。例如:'L' -> 01001100(十六進(jìn)制:0x4C) '啊' -> 111001011001010110001010(十六進(jìn)制:0xE5958A)
- MySQL中的utf8和utf8mb4
utf-8使用1-4個(gè)字節(jié),但是一般常用的字符1-3個(gè)字節(jié)就足夠了,考慮到讀寫效率,于是MySQL自己擅作主張地將自己的utf8字符集改為1-3個(gè)字節(jié)。這樣可能導(dǎo)致一些問題,比如emoji表情讀寫失敗。utf8mb4才是正統(tǒng)的使用1-4個(gè)字節(jié)存儲(chǔ)數(shù)據(jù)的字符集,所以一般在建庫時(shí),都會(huì)選擇utf8mb4。
- 比較規(guī)則
如何比較兩個(gè)字符的大???我們需要比較規(guī)則。如何制定比較規(guī)則才是合理的呢?最簡單的想法是:使用字符相對應(yīng)的二進(jìn)制數(shù)來比較。比方說字符'a'的編碼為0x01,字符'b'的編碼為0x02,所以'a'小于'b'。
但很多時(shí)候這么簡單的比較規(guī)則無法滿足需求,那么更加多樣、復(fù)雜的比較規(guī)則就應(yīng)運(yùn)而生了。就拿最常見的utf8_general_ci來說吧,utf8代表所應(yīng)用的字符集,general表示通用的,其他還有例如spanish,則代表更適合西班牙語字符。ci代表不區(qū)分大小寫,其他還有例如cs,代表區(qū)分大小寫。
比較規(guī)則大多用于排序,如果在對字符串作排序后得到了意想不到的結(jié)果,需要考慮一下是不是比較規(guī)則的設(shè)置上出現(xiàn)了問題。