有了这篇文章, Python 中的编码不再是噩梦
云栖号资讯:【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!
Python 中编码问题,一直是很多 Python 开发者的噩梦,尽管你是工作多年的 Python 开发者,也肯定会经常遇到令人神烦的编码问题,好不容易花了半天搞明白了。
一段时间后,又全都忘光光了,一脸懵逼的你又开始你找各种博客、帖子,从头搞清楚什么是编码?什么是 unicode?它和 ASCII 有什么区别?为什么 decode encode 老是报错?python2 里和 python3 的字符串类型怎么都不一样,怎么对应起来?如何检测编码格式?
反反复复,这个过程真是太痛苦了。
今天我把大家在 Python 上会遇到的一些编码问题都讲清楚了,以后你可以不用再 Google,收藏这篇文章就行。
1. Python 3 中 str 与 bytes
在 Python3中,字符串有两种类型 ,str 和 bytes。
今天就来说一说这二者的区别:
- unicode string(str 类型):以 Unicode code points 形式存储,人类认识的形式
- byte string(bytes 类型):以 byte 形式存储,机器认识的形式
在 Python 3 中你定义的所有字符串,都是 unicode string类型,使用 type 和 isinstance 可以判别
而 bytes 是一个二进制序列对象,你只要你在定义字符串时前面加一个 b,就表示你要定义一个 bytes 类型的字符串对象。
但是在定义中文字符串时,你就不能直接在前面加 b 了,而应该使用 encode 转一下。
2. Python 2 中 str 与 unicode
而在 Python2 中,字符串的类型又与 Python3 不一样,需要仔细区分。
在 Python2 里,字符串也只有两种类型,unicode 和 str 。
只有 unicode object 和 非unicode object(其实应该叫 str object) 的区别:
unicode string(unicode类型):以 Unicode code points 形式存储,人类认识的形式
byte string(str 类型):以 byte 形式存储,机器认识的形式
当我们直接使用双引号或单引号包含字符的方式来定义字符串时,就是 str 字符串对象,比如这样
而当我们在双引号或单引号前面加个 u,就表明我们定义的是 unicode 字符串对象,比如这样
3. 如何检测对象的编码
所有的字符,在 unicode 字符集中都有对应的编码值(英文叫做:code point)
而把这些编码值按照一定的规则保存成二进制字节码,就是我们说的编码方式,常见的有:UTF-8,GB2312 等。
也就是说,当我们要将内存中的字符串持久化到硬盘中的时候,都要指定编码方法,而反过来,读取的时候,也要指定正确的编码方法(这个过程叫解码),不然会出现乱码。
那问题就来了,当我们知道了其对应的编码方法,我们就可以正常解码,但并不是所有时候我们都能知道应该用什么编码方式去解码?
这时候就要介绍到一个 python 的库 -- chardet ,使用它之前 需要先安装
chardet 有一个 detect 方法,可以 预测其编码格式
为什么说是预测呢,通过上面的输出来看,你会看到有一个 confidence 字段,其表示预测的可信度,或者说成功率。
但是使用它时,若你的字符数较少,就有可能 “误诊”),比如只有 中文 两个字,就像下面这样,我们是 使用 gbk 编码的,使用 chardet 却识别成 KOI8-R 编码。
所以为了编码诊断的准确,要尽量使用足够多的字符。
chardet 支持多国的语言,从官方文档中可以看到支持如下这些语言
4. 编码与解码的区别
编码和解码,其实就是 str 与 bytes 的相互转化的过程(Python 2 已经远去,这里以及后面都只用 Python 3 举例)
- 编码:encode 方法,把字符串对象转化为二进制字节序列
- 解码:decode 方法,把二进制字节序列转化为字符串对象
那么假如我们真知道了其编码格式,如何来转成 unicode 呢?
有两种方法
第一种是,直接使用 decode 方法
第二种是,使用 str 类来转
5. 如何设置文件编码
在 Python 2 中,默认使用的是 ASCII 编码来读取的,因此,我们在使用 Python 2 的时候,如果你的 python 文件里有中文,运行是会报错的。
原因就是 ASCII 编码表太小,无法解释中文。
而在 Python 3 中,默认使用的是 uft-8 来读取,所以省了不少的事。
对于这个问题,通常解决方法有两种:
第一种方法
在 python2 中,可以使用在头部指定
可以这样写,虽然很好看
但这样写太麻烦了,我通常使用下面两种写法
第二种方法
这里在调用sys.setdefaultencoding(‘utf-8’) 设置默认的解码方式之前,执行了reload(sys),这是必须的,因为python在加载完sys之后,会删除 sys.setdefaultencoding 这个方法,我们需要重新载入sys,才能调用 sys.setdefaultencoding 这个方法。
【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK
原文发布时间:2020-04-27
本文作者:王一白
本文来自:“掘金”,了解相关信息可以关注“掘金”
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
魔镜问世!世界首款可定制智能镜子
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 很多娃的蜜汁自信,有时都是来自“照镜子”。。 但是吧,我们有时还真不能盲目自信, 毕竟镜子不能客观地分析出你的健康指数~ 现在这个问题有人解决了!在年初的 CES 上,法国初创公司 CareOS就推出了一款 Poseidon 智能浴室镜。 Poseidon 是一款家用智能镜子,专注于个人卫生、皮肤护理和健康。 它内置有 CareOS 系统,它是首个专为健康领域设计的健康与美容平台,平台上集成了50多种物联网设备、产品和服务。 CareOS的母公司 Baracoda 集团及其子公司成立于2001年,是物联网和相关的健康专家,提供创新的预防保健平台。 Poseidon 配有多点触控表面、环境光传感器、将手指悬停在玻璃上方的无接触框架、不同颜色的 LED 等。 它还配有一块带有高通芯片组、USB、WiFi 和以太网的主板,这使它更像一台带镜子的电脑。 另外它还配备了一个摄像头,对面部识别、各种 AR 应用和检测你的姿势都有所帮助。 除了支持 AR 美妆功能外,这款镜子还能跟踪和分析用户的皮肤健...
- 下一篇
学习开发手册的三个阶段:阅读、实操与理解之再读《Java开发手册》
从《Java开发手册》面世以来,从最开始的版本到现在的泰山版,每一个版本我都学习过。如果说要我从中总结出一些经验来,那么我对《Java开发手册》的学习分成了三个阶段:阅读、实操与理解。 一、阅读阶段 所谓的阅读阶段,在我看来就是之前从没遇到过、也从未了解过的规约,通过《Java开发手册》的阅读了解到相关知识,之后在项目中遇到了,再返回来阅读,以避免开发中可能存在的问题。比如编码规则中关于并发处理处理的这部分规则,在项目开发中我还未曾真正使用到并发和线程。那么我在看并发处理这部分规则时,我只是能大致阅读,知道有这部分规约的存在。以后项目中如果有用到并发和线程时,我再回过头来再次阅读这部分规约,以避免开发中可能存在的问题。 二、实操阶段 所谓的实操阶段,也就是在阅读规约之后,在项目中确实遇到规约中的问题,运用规约中的知识进行项目开发的过程。举
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Hadoop3单机部署,实现最简伪集群
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果