剛開始學(xué)習(xí)Python,肯定少不了基礎(chǔ)知識(shí)的了解,比如說字符編碼,那么你知道Python常見字符編碼有哪些嗎?我們一起來看看Python字符編碼的常用種類吧。 第一種:ASCII碼。是基于拉丁字母的一套電腦編碼系統(tǒng),主要用于顯示現(xiàn)代英語和其他西歐語言,它是現(xiàn)今最通用的單字節(jié)編碼系統(tǒng),并等同于國(guó)際標(biāo)準(zhǔn)IS/IEC 646。 由于計(jì)算機(jī)是美國(guó)人發(fā)明的,因此,最早只有127個(gè)字母被編碼到計(jì)算機(jī)李,也就是大小寫英文字母、數(shù)字和一些符號(hào),這個(gè)編碼表被稱為ASCII編碼,比如大寫字母A的編碼是65,小寫字母a的編碼是97,后128個(gè)稱為擴(kuò)展ASCII碼。 第二種:GBK和GB2312。能在計(jì)算機(jī)中顯示中文字符是至關(guān)重要的,然而ASCII表里一個(gè)偏旁部首都沒有,所以我們需要一個(gè)關(guān)于中文和數(shù)字對(duì)應(yīng)的關(guān)系表,一個(gè)字節(jié)只能最多表示256個(gè)字符,用處理中文顯然一個(gè)字節(jié)是不夠的,所以我們需要采用兩個(gè)字節(jié)來表示,所以中國(guó)制定了GB2312編碼,用來將中文編寫進(jìn)去。 第三種:Unicode。因?yàn)楦鱾€(gè)國(guó)家都有一套自己的編碼,所以無法避免沖突,因此Unicode誕生了。它可以把所有語言都統(tǒng)一到一套編碼里,這樣就不會(huì)存在亂碼問題了,現(xiàn)代操作系統(tǒng)和大多數(shù)編程語言都直接支持Unicode。 第四種:UFT-8。基于節(jié)約的原則,出現(xiàn)了把Unicode編碼轉(zhuǎn)化為可變長(zhǎng)編碼的UTF-8編碼。而UTF-8編碼把一個(gè)Unicode字符根據(jù)不同的數(shù)字大小編碼成1-6個(gè)字節(jié),常用的英文字母被編碼成一個(gè)字節(jié),漢字通常是3個(gè)字節(jié),只有很生僻的字符才會(huì)被編碼成4-6個(gè)字節(jié),如果你要傳輸?shù)奈谋景罅坑⑽淖址?,用UTF-8編碼就能節(jié)省空間。 |
|