浅谈unicode编码和utf-8编码的关系-低调大师

浅谈unicode编码和utf-8编码的关系

2018-12-04 648

字符串编码在Python里边是经常会遇到的问题，特别是写文件以及网络传输的过程中，当调用某些函数的时候经常会遇到一些字符串编码提示错误，所以有必要弄清楚这些编码到底在搞什么鬼。

v2-365f174ca5da4dec74804937a421bdcb_hd.j

我们都知道计算机只能处理数字，文本转换为数字才能处理。计算机中8个bit作为一个字节，所以一个字节能表示最大的数字就是255。计算机是美国人发明的，而英文中涉及的编码并不多，一个字节可以表示所有字符了，所以ASCII（American national Standard Code for Information Interchange，美国国家标准信息交换码）编码就成为美国人的标准编码。但是我们都知道中文的字符肯定不止255个汉字，使用ASCII编码来处理中文显然是不够的，所以中国制定了GB2312编码，用两个字节表示一个汉字，碰到及其特殊的情况，还会用三个字节来表示一个汉字。GB2312还把ASCII包含进去了。同理，日文，韩文等上百个国家为了解决这个问题发展了一套自己的编码，于是乎标准越来越多，如果出现多种语言混合显示就一定会出现乱码。那么针对这种编码“乱象”，Unicode便应运而生了，其将所有语言统一到一套编码规则里。

v2-1101d3415b1d26de719f908aa6044860_hd.j

Unicode有许多种编码，比如说可以通过16个bit或者32个bit来把所有语言统一到一套编码里。举个栗子，字母A用ASCII编码的十进制为65，二进制为0100 0001；汉字“中”已经超出了ASCII编码的范围，用unicode编码是20013，二进制是01001110 00101101；A用unicode编码只需要前面补0，二进制是00000000 0100 0001。可以看出，unicode不仅解决了ASCII码本身的编码问题，还解决了超出ASCII编码范围之外的其他国家字符编码的统一问题。

虽然unicode编码能做到将不同国家的字符进行统一，使得乱码问题得以解决，但是如果内容全是英文unicode编码比ASCII编码需要多一倍的存储空间，同时如果传输需要多一倍的传输。当传输文件比较小的时候，内存资源和网络带宽尚能承受，当文件传输达到上TB的时候，如果 “硬”传，则需要消耗的资源就不可小觑了。为了解决这个问题，一种可变长的编码“utf-8”就应运而生了，把英文变长1个字节，汉字3个字节，特别生僻的变成4-6个字节，如果传输大量的英文，utf8的作用就很明显了。

不过正是因为utf-8编码的可变长，一会儿一个字符串是占用一个字节，一会儿一个字符串占用两个字节，还有的占用三个及以上的字节，导致在内存中或者程序中变得不好琢磨。unicode编码虽然占用内存空间，但是在编程过程中或者在内存处理的时候会比utf-8编码更为简单，因为它始终保持一样的长度，一样的长度对于内存和代码来说，它的处理就会变得更加简单。所以utf-8编码在做网络传输和文件保存的时候，将unicode编码转换成utf-8编码，才能更好的发挥其作用；当从文件中读取数据到内存中的时候，将utf-8编码转换为unicode编码，亦为良策。

如上图所示，当需要在内存中读取文件的时候，此时将utf-8编码的内存转换为unicode编码，在内存中进行统一处理；当需要保存文件的时候，出于空间和传输效率的考虑，此时将unicode编码转换为utf-8编码。在Python中进行读取和保存文件的时候，必须要显示的指定文件编码，其余的事情就交给Python的相关库去处理就可以了。

小伙伴们，了解了这些基础知识之后，接下来对Python中的字符串编码问题的理解就轻松的多了。

微信关注我们

原文链接：https://yq.aliyun.com/articles/675240

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ChainDesk-Beego之ORM模型Model介绍

作者：ChainDesk韩茹，ChainDesk区块链行业分析师，ChainDesk区块链工程师ChainDesk官网：http://www.chaindesk.cn/?20181205aliyunmeiti 模型(Models) 一、Model介绍 beego ORM 是一个强大的 Go 语言 ORM 框架，orm模块主要是处理MVC中的M（models）。她的灵感主要来自Django ORM 和 SQLAlchemy。对象关系映射（Object Relational Mapping，简称ORM）模式是一种为了解决面向对象与关系数据库存在的互不匹配的现象的技术。简单的说，ORM是通过使用描述对象和数据库之间映射的元数据，将程序中的对象自动持久化到关系数据库中。已支持数据库驱动： MySQL : github. com/go-sq-driver/mysql PostgreSQL : github. com/lib/pq Sqlite3 : github. com/mattn/go-sqite3 模型(Models)ORM特性: 支持Go的所有类型存储轻松上手,采用简单的CRUD风...

2018-12-04

1099

PbootCMS是网站常用的一款CMS系统，是由国内著名程序开发商翔云科技研发的一套网站CMS系统，免费开源，扩展性较高，使用的企业很多但是避免不了网站存在漏洞，SINE安全对其代码进行安全审计的同时发现该pbootcms 存在严重的漏洞，包含SQL注入获取管理员密码漏洞，以及远程代码注入执行漏洞。该pbootcms系统采用的是PHP语言开发，数据库是MYSQL,并支持pgsql数据库大并发处理，系统默认支持的服务器环境，PHP5.3版本以上，以及mysql版本5.6,apache,nginx,都可以运行该CMS系统。关于这次检测出来的CMS漏洞，我们进行详细的介绍。之前的pbootcms老版本出现的漏洞也比较多，我们这次审计的是pbootcms V1.3.3新版本，新版本较于老版本更新了许多，SQL注入非法参数的过滤，以及上传漏洞的修复，过滤系统的加强，但还是始终没有严格的杜绝非法参数的传入。我们来看下这个远程代码注入执行漏洞，该漏洞产生的原因是在ParserController.php代码里的LABEL方式调用shat函数，我们来看下代码：我们找到label调用的方式，一步步跟...

2018-12-05

608

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。