Python打印不合法的文件名-低调大师

Python打印不合法的文件名

2019-07-24 598

本文摘自《python3-cookbook》(5.15 打印不合法的文件名)

问题

你的程序获取了一个目录中的文件名列表，但是当它试着去打印文件名的时候程序崩溃，出现了 UnicodeEncodeError 异常和一条奇怪的消息—— surrogates not allowed 。

解决方案

当打印未知的文件名时，使用下面的方法可以避免这样的错误：

def bad_filename(filename):
    return repr(filename)[1:-1]

try:
    print(filename)
except UnicodeEncodeError:
    print(bad_filename(filename))

讨论

这一小节讨论的是在编写必须处理文件系统的程序时一个不太常见但又很棘手的问题。默认情况下，Python假定所有文件名都已经根据 sys.getfilesystemencoding() 的值编码过了。但是，有一些文件系统并没有强制要求这样做，因此允许创建文件名没有正确编码的文件。这种情况不太常见，但是总会有些用户冒险这样做或者是无意之中这样做了( 可能是在一个有缺陷的代码中给 open() 函数传递了一个不合规范的文件名)。

当执行类似 os.listdir() 这样的函数时，这些不合规范的文件名就会让Python陷入困境。一方面，它不能仅仅只是丢弃这些不合格的名字。而另一方面，它又不能将这些文件名转换为正确的文本字符串。 Python对这个问题的解决方案是从文件名中获取未解码的字节值比如 xhh 并将它映射成Unicode字符 udchh 表示的所谓的”代理编码”。下面一个例子演示了当一个不合格目录列表中含有一个文件名为bäd.txt(使用Latin-1而不是UTF-8编码)时的样子：

import os
files = os.listdir('.')
print(files)    # ['spam.py', 'b\udce4d.txt', 'foo.txt']

如果你有代码需要操作文件名或者将文件名传递给 open() 这样的函数，一切都能正常工作。只有当你想要输出文件名时才会碰到些麻烦(比如打印输出到屏幕或日志文件等)。特别的，当你想打印上面的文件名列表时，你的程序就会崩溃：

for name in files:
     print(name)
--------
spam.py
Traceback (most recent call last):
    File "<stdin>", line 2, in <module>
UnicodeEncodeError: 'utf-8' codec can't encode character '\udce4' in
position 1: surrogates not allowed

程序崩溃的原因就是字符 udce4 是一个非法的Unicode字符。它其实是一个被称为代理字符对的双字符组合的后半部分。由于缺少了前半部分，因此它是个非法的Unicode。所以，唯一能成功输出的方法就是当遇到不合法文件名时采取相应的补救措施。比如可以将上述代码修改如下：

for name in files:
    try:
        print(name)
    except UnicodeEncodeError:
        print(bad_filename(name))
--------
spam.py
b\udce4d.txt
foo.txt

在 bad_filename() 函数中怎样处置取决于你自己。另外一个选择就是通过某种方式重新编码，示例如下：

def bad_filename(filename):
    temp = filename.encode(sys.getfilesystemencoding(), errors='surrogateescape')
    return temp.decode('latin-1')

译者注:

surrogateescape:
这种是Python在绝大部分面向OS的API中所使用的错误处理器，
它能以一种优雅的方式处理由操作系统提供的数据的编码问题。
在解码出错时会将出错字节存储到一个很少被使用到的Unicode编码范围内。
在编码时将那些隐藏值又还原回原先解码失败的字节序列。
它不仅对于OS API非常有用，也能很容易的处理其他情况下的编码错误。
使用这个版本产生的输出如下：

for name in files:
     try:
         print(name)
     except UnicodeEncodeError:
         print(bad_filename(name))
--------
spam.py
bäd.txt
foo.txt

这一小节主题可能会被大部分读者所忽略。但是如果你在编写依赖文件名和文件系统的关键任务程序时，就必须得考虑到这个。否则你可能会在某个周末被叫到办公室去调试一些令人费解的错误。

微信关注我们

原文链接：https://yq.aliyun.com/articles/710840

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

jdk11源码--SynchronousQueue源码分析

概述 SynchronousQueue是一个同步阻塞队列，每一个 put操作都必须等待一个take操作。每一个take操作也必须等待一个put操作。SynchronousQueue是没有容量的，无法存储元素节点信息，不能通过peek方法获取元素，peek方法会直接返回null。由于没有元素，所以不能被迭代，它的iterator方法会返回一个空的迭代器Collections.emptyIterator();。 SynchronousQueue比较适合线程通信、传递信息、状态切换等应用场景，一个线程必须等待另一个线程传递某些信息给他才可以继续执行。 SynchronousQueue这个队列不常用，但是线程池中有用到该队列，所以也分析一下。Executors.newCachedThreadPool()方法中使用到了SynchronousQue

2019-07-24

803

大家在项目开发过程中，或多或少都用过缓存，为了减少数据库的压力，把数据放在缓存当中，当访问的请求过来时，直接从缓存读取。缓存一般都是基于内存的，读取速度比较快，市面上比较常见的缓存有：memcache、redis、mongodb、guava cache等。缓存的常规用法大家使用缓存时，常用的逻辑时这样的：根据条件生成key；从缓存中读取数据，若成功读取数据，则返回；若数据不存在，根据条件从数据库读取；将从数据库中读取的数据放入缓存；返回数据；每一个使用缓存的场景，上面的逻辑都要重写一遍，是不是很烦躁，是不是很浪费时间。有没有简单的方法完成上面的逻辑？当然有了，这就是今天要向大家介绍的Spring Cache。 Spring Cache Spring Cache并不神秘，而且使用起来非常的方便。它是注解组成的，最常用的一个注解是@Cacheable。这个注解是在方法上使用的，当使用了注解的方法被调用时，会先从缓存中查询，如果缓存中不存在，则执行方法，然后将方法的返回值放入缓存中。具体的使用方法如下：首先，我们在IDEA中使用Spring Boot搭建环境，在选择依赖的页...

2019-07-25

653

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。