你还在为Python中文乱码而感到烦恼?今天老司机给你讲讲!
有没有遇到过这样的问题,读取文件被提示“UnicodeDecodeError”、爬取网页得到一堆乱码,其实这些都是编码惹的祸,如果不能真正理解编码的问题所在,就像开车没有带导航,游泳没有带有度数的眼镜。如果你正在为此而 头疼,不妨来看看这篇文章,里面或许有你要的答案。 一些基本的编码知识 1).常见的编码格式 ASCII/ANSI: ASCII可以简单理解为用于表述英文文字的编码。ANSI是ASCII的扩展,除英文外还可以表示拉丁文。 GB2312/GBK/GB18030: “GB”既“国标”,是中国自己的编码方案,目的当然是为了描述汉字(下文我们统称 其为GB系列)。其中,GB2312是对ASCII的中文扩展,GBK和GB18030的涵盖了GB2312的所有内容,同时 又增加了近20000个新的汉字(包括繁体字)和符号。 Unicode: 既然中国搞出了自己的编码标准,那么其他国家当然也有自己的一套规范,而且相互之间互不支持,为了解决这一乱象,国际标谁化组织提出了统一的标准编码准则Unicode 。这里大家 可以先简单记住一点:python3 Unicode。 UTF-8: 说得官面...