文字编码
decode(’utf - 8’)解码 把其他编码转换成unicode编码
encode(’gbk’) 编码 把unicode编码转换成其他编码
”gbk”.decode(’gbk’).encode(’utf - 8’)
unicode = 中文
gbk = 英文
utf - 8 = 日文
英文一 > 中文一 > 日文,unicode相当于转化器
在Python2里字符串只有两大阵营:
unicode和str
如果type(字符串)显示结果是str,其实指的是bytes字节码。
而其它各种我们所说的utf-8,gb2312等等也都是Unicode的不同实现方式。
encoding和decoding
绝对要记住的:
从unicode转换到str,这个叫encoding,编码。
从 str 转换到 unicode,这个叫 decoding,解码。
变成unicode的过程,叫decoding
。不要记错。
一定记住,全文都统一用str
格式字符串
用r.content
一般网页.decode(“utf-8”)解决问题
1 |
|