零基础学python之文本和编码问题-低调大师

零基础学python之文本和编码问题

2018-06-08 583

字符串是个相当简单的概念:一个字符串是一个字符序列。问题出在”字符”的定义上。

在2015 年,”字符”的最佳定义是Unicode字符。因此，从Python 3 的str对象中获取的元素是Unicode字符

Unicode 标准把字符的标识和具体的字节表述进行了如下的明确区分。

字符的标识，即码位，是0~1 114 111的数字（十进制），在Unicode标准中以4~6个十六进制数字表示，而且加前缀U+。例如，字母A的码位是U+0041，欧元符号的码位是U+20AC，高音谱号的码位是U+1D11E. 在Unicode 6.3标准中，约10% 的有效码位有对应的字符。

字符的具体表述取决于所用的编码。编码是在码位和字节序列之间转换时使用的算法。在UTF-8编码中,A(U+0041)的码位编码成单个字节\x41，而在UTF-16LE编码中编码成两个字节\x41\x00。再举个例子，欧元符号(U+20AC)在UTF-8编码中是三个字节——\xe2\x82\xac，而在UTF-16LE中编码成两个字节：\xac\x20.

把码位转换成字节序列的过程是编码,使用encode；把字节序列转换成码位的过程是解码,使用decode.

非英语用户常常会搞反所谓的编码解码,可以这样理解: 把Unicode字符串想成“人类可读”的文本.那么，

把字节序列变成人类可读的文本字符串就是解码

而把字符串变成用于存储或传输的字节序列就是编码

所以，我们在做爬虫的时候，遇到乱码的情况，可以先去看看编码格式是否正确！

微信关注我们

原文链接：https://yq.aliyun.com/articles/639549

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

必学Python库你知道多少?

Tkinter———— Python默认的图形界面接口。 Tkinter是一个和Tk接口的Python模块，Tkinter库提供了对Tk API的接口，它属于Tcl/Tk的GUI工具组。Tcl/Tk是由John Ousterhout发展的书写和图形设备。Tcl(工具命令语言)是个宏语言，用于简化shell下复杂程序的开发，Tk工具包是和Tcl一起开发的，目的是为了简化用户接口的设计过程。Tk工具包由许多不同的小部件，如一个按钮、一个滚动条等。通过Tk提供的这些小部件，我们就可快速地进行GUI开发。Perl、Scheme等语言也利用Tk库进行GUI开发。Tkinter是跨平台，在各种平台下都能使用。 Python Imaging Library(PIL)————python提供强大的图形处理的能力，并提供广泛的图形文件格式支持，该库能进行图形格式的转换、打印和显示。还能进行一些图形效果的处理，如图形的放大、缩小和旋转等。是Python用户进行图象处理的强有力工具。 Pmw(Python megawidgets)Python超级GUI组件集————一个在python中利用Tkinter模块...

2018-06-08

628

1.继承 (1)继承：子类可以自动拥有父类的非私有的成员变量和成员方法 (2)Java中如何表示继承呢?格式是什么呢? A:用关键字 extends表示 B:格式： class 子类名 extends 父类名 {} 示例： (3)继承的好处： A:提高了代码的复用性 B:提高了代码的维护性 C:让类与类产生了一个关系，是多态的前提 (4)继承的弊端： A:让类的耦合性增强。这样某个类的改变，就会影响其他和该类相关的类。原则：低耦合，高内聚。耦合：类与类的关系内聚：自己完成某件事情的能力 B:打破了封装性 (5)Java中继承的特点 A:Java中类只支持单继承（当多继承有重复的方法时，子类调用方法时无法判断是哪个方法） B:Java中可以多层(重)继承(继承体系) (6)继承的注意事项 A:子类不能继承父类的私有成员，只能继承父类所有的非私有成员 B:子类不能继承父类的构造方法，但是可以通过 super 去访问 C:不要为了部分功能而去继承 (7)什么时候使用继承呢 ? A:继承体现的是： is a 的关系。 B:采用假设法 (8)Java继承中的成员关系 A:成员变量 a:子...

2018-06-08

731

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。