有了这篇文章， Python 中的编码不再是噩梦-低调大师

有了这篇文章， Python 中的编码不再是噩梦

2020-04-27 894

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

Python 中编码问题，一直是很多 Python 开发者的噩梦，尽管你是工作多年的 Python 开发者，也肯定会经常遇到令人神烦的编码问题，好不容易花了半天搞明白了。

一段时间后，又全都忘光光了，一脸懵逼的你又开始你找各种博客、帖子，从头搞清楚什么是编码？什么是 unicode？它和 ASCII 有什么区别？为什么 decode encode 老是报错？python2 里和 python3 的字符串类型怎么都不一样，怎么对应起来？如何检测编码格式？

反反复复，这个过程真是太痛苦了。

今天我把大家在 Python 上会遇到的一些编码问题都讲清楚了，以后你可以不用再 Google，收藏这篇文章就行。

1. Python 3 中 str 与 bytes

在 Python3中，字符串有两种类型，str 和 bytes。

今天就来说一说这二者的区别：

unicode string（str 类型）：以 Unicode code points 形式存储，人类认识的形式
byte string（bytes 类型）：以 byte 形式存储，机器认识的形式

在 Python 3 中你定义的所有字符串，都是 unicode string类型，使用 type 和 isinstance 可以判别

而 bytes 是一个二进制序列对象，你只要你在定义字符串时前面加一个 b，就表示你要定义一个 bytes 类型的字符串对象。

但是在定义中文字符串时，你就不能直接在前面加 b 了，而应该使用 encode 转一下。

2. Python 2 中 str 与 unicode

而在 Python2 中，字符串的类型又与 Python3 不一样，需要仔细区分。

在 Python2 里，字符串也只有两种类型，unicode 和 str 。

只有 unicode object 和非unicode object（其实应该叫 str object）的区别：

unicode string（unicode类型）：以 Unicode code points 形式存储，人类认识的形式

byte string（str 类型）：以 byte 形式存储，机器认识的形式

当我们直接使用双引号或单引号包含字符的方式来定义字符串时，就是 str 字符串对象，比如这样

而当我们在双引号或单引号前面加个 u，就表明我们定义的是 unicode 字符串对象，比如这样

3. 如何检测对象的编码

所有的字符，在 unicode 字符集中都有对应的编码值（英文叫做：code point）

而把这些编码值按照一定的规则保存成二进制字节码，就是我们说的编码方式，常见的有：UTF-8，GB2312 等。

也就是说，当我们要将内存中的字符串持久化到硬盘中的时候，都要指定编码方法，而反过来，读取的时候，也要指定正确的编码方法（这个过程叫解码），不然会出现乱码。

那问题就来了，当我们知道了其对应的编码方法，我们就可以正常解码，但并不是所有时候我们都能知道应该用什么编码方式去解码？

这时候就要介绍到一个 python 的库 -- chardet ，使用它之前需要先安装

chardet 有一个 detect 方法，可以预测其编码格式

为什么说是预测呢，通过上面的输出来看，你会看到有一个 confidence 字段，其表示预测的可信度，或者说成功率。
但是使用它时，若你的字符数较少，就有可能 “误诊”），比如只有中文两个字，就像下面这样，我们是使用 gbk 编码的，使用 chardet 却识别成 KOI8-R 编码。

所以为了编码诊断的准确，要尽量使用足够多的字符。

chardet 支持多国的语言，从官方文档中可以看到支持如下这些语言

4. 编码与解码的区别

编码和解码，其实就是 str 与 bytes 的相互转化的过程（Python 2 已经远去，这里以及后面都只用 Python 3 举例）

编码：encode 方法，把字符串对象转化为二进制字节序列
解码：decode 方法，把二进制字节序列转化为字符串对象

那么假如我们真知道了其编码格式，如何来转成 unicode 呢？

有两种方法

第一种是，直接使用 decode 方法

第二种是，使用 str 类来转

5. 如何设置文件编码

在 Python 2 中，默认使用的是 ASCII 编码来读取的，因此，我们在使用 Python 2 的时候，如果你的 python 文件里有中文，运行是会报错的。

原因就是 ASCII 编码表太小，无法解释中文。

而在 Python 3 中，默认使用的是 uft-8 来读取，所以省了不少的事。

对于这个问题，通常解决方法有两种：

第一种方法

在 python2 中，可以使用在头部指定

可以这样写，虽然很好看

但这样写太麻烦了，我通常使用下面两种写法

第二种方法

这里在调用sys.setdefaultencoding(‘utf-8’) 设置默认的解码方式之前，执行了reload(sys)，这是必须的，因为python在加载完sys之后，会删除 sys.setdefaultencoding 这个方法，我们需要重新载入sys，才能调用 sys.setdefaultencoding 这个方法。

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/live

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-04-27
本文作者：王一白
本文来自：“掘金”，了解相关信息可以关注“掘金”

微信关注我们

原文链接：https://yq.aliyun.com/articles/757853

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

魔镜问世！世界首款可定制智能镜子

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！很多娃的蜜汁自信，有时都是来自“照镜子”。。但是吧，我们有时还真不能盲目自信，毕竟镜子不能客观地分析出你的健康指数~ 现在这个问题有人解决了！在年初的 CES 上，法国初创公司 CareOS就推出了一款 Poseidon 智能浴室镜。 Poseidon 是一款家用智能镜子，专注于个人卫生、皮肤护理和健康。它内置有 CareOS 系统，它是首个专为健康领域设计的健康与美容平台，平台上集成了50多种物联网设备、产品和服务。 CareOS的母公司 Baracoda 集团及其子公司成立于2001年，是物联网和相关的健康专家，提供创新的预防保健平台。 Poseidon 配有多点触控表面、环境光传感器、将手指悬停在玻璃上方的无接触框架、不同颜色的 LED 等。它还配有一块带有高通芯片组、USB、WiFi 和以太网的主板，这使它更像一台带镜子的电脑。另外它还配备了一个摄像头，对面部识别、各种 AR 应用和检测你的姿势都有所帮助。除了支持 AR 美妆功能外，这款镜子还能跟踪和分析用户的皮肤健...

2020-04-27

899

从《Java开发手册》面世以来，从最开始的版本到现在的泰山版，每一个版本我都学习过。如果说要我从中总结出一些经验来，那么我对《Java开发手册》的学习分成了三个阶段：阅读、实操与理解。一、阅读阶段所谓的阅读阶段，在我看来就是之前从没遇到过、也从未了解过的规约，通过《Java开发手册》的阅读了解到相关知识，之后在项目中遇到了，再返回来阅读，以避免开发中可能存在的问题。比如编码规则中关于并发处理处理的这部分规则，在项目开发中我还未曾真正使用到并发和线程。那么我在看并发处理这部分规则时，我只是能大致阅读，知道有这部分规约的存在。以后项目中如果有用到并发和线程时，我再回过头来再次阅读这部分规约，以避免开发中可能存在的问题。二、实操阶段所谓的实操阶段，也就是在阅读规约之后，在项目中确实遇到规约中的问题，运用规约中的知识进行项目开发的过程。举

2020-04-27

733

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。