三行Python代码，让数据预处理速度提高2到6倍-低调大师

三行Python代码，让数据预处理速度提高2到6倍

2018-10-07 588

在 Python 中，我们可以找到原生的并行化运算指令。本文可以教你仅使用 3 行代码，大大加快数据预处理的速度。

Python 是机器学习领域内的首选编程语言，它易于使用，也有很多出色的库来帮助你更快处理数据。但当我们面临大量数据时，一些问题就会显现……

目前，大数据（Big Data）这个术语通常用于表示包含数十万数据点的数据集。在这样的尺度上，工作进程中加入任何额外的计算都需要时刻注意保持效率。在设计机器学习系统时，数据预处理非常重要——在这里，我们必须对所有数据点使用某种操作。

在默认情况下，Python 程序是单个进程，使用单 CPU 核心执行。而大多数当代机器学习硬件都至少搭载了双核处理器。这意味着如果没有进行优化，在数据预处理的时候会出现「一核有难九核围观」的情况——超过 50% 的算力都会被浪费。在当前四核处理器（英特尔酷睿 i5）和 6 核处理器（英特尔酷睿 i7）大行其道的时候，这种情况会变得更加明显。

幸运的是，Python 库中内建了一些隐藏的特性，可以让我们充分利用所有 CPU 核心的能力。通过使用 Python 的 concurrent.futures 模块，我们只需要 3 行代码就可以让一个普通的程序转换成适用于多核处理器并行处理的程序。

标准方法

让我们举一个简单的例子，在单个文件夹中有一个图片数据集，其中有数万张图片。在这里，我们决定使用 1000 张。我们希望在所有图片被传递到深度神经网络之前将其调整为 600×600 像素分辨率的形式。以下是你经常会在 GitHub 上看到的标准 Python 代码：

 import glob

import os

import cv2

### Loop through all jpg files in the current folder

### Resize each one to size 600x600

for image_filename in glob.glob("*.jpg"):

### Read in the image data

img = cv2.imread(image_filename)

### Resize the image

img = cv2.resize(img, (600, 600))

上面的程序遵循你在处理数据脚本时经常看到的简单模式：

1. 首先从需要处理内容的文件（或其他数据）列表开始。

2. 使用 for 循环逐个处理每个数据，然后在每个循环迭代上运行预处理。

让我们在一个包含 1000 个 jpeg 文件的文件夹上测试这个程序，看看运行它需要多久：

time python standard_res_conversion.py

在我的酷睿 i7-8700k 6 核 CPU 上，运行时间为 7.9864 秒！在这样的高端 CPU 上，这种速度看起来是难以让人接受的，看看我们能做点什么。

更快的方法

为了便于理解并行化的提升，假设我们需要执行相同的任务，比如将 1000 个钉子钉入木头，假如钉入一个需要一秒，一个人就需要 1000 秒来完成任务。四个人组队就只需要 250 秒。

在我们这个包含 1000 个图像的例子中，可以让 Python 做类似的工作：

●  将 jpeg 文件列表分成 4 个小组；
●  运行 Python 解释器中的 4 个独立实例；
●  让 Python 的每个实例处理 4 个数据小组中的一个；
●  结合四个处理过程得到的结果得出最终结果列表。

这一方法的重点在于，Python 帮我们处理了所有棘手的工作。我们只需告诉它我们想要运行哪个函数，要用多少 Python 实例，剩下的就交给它了！只需改变三行代码。实例：

 import glob

import os

import cv2

import concurrent.futures

def load_and_resize(image_filename):

### Read in the image data

img = cv2.imread(image_filename)

### Resize the image

img = cv2.resize(img, (600, 600))

### Create a pool of processes. By default, one is created for each CPU in your machine.

with concurrent.futures.ProcessPoolExecutor() as executor:

### Get a list of files to process

image_files = glob.glob("*.jpg")

### Process the list of files, but split the work across the process pool to use all CPUs

### Loop through all jpg files in the current folder

### Resize each one to size 600x600

executor.map(load_and_resize, image_files)

从以上代码中摘出一行：

with concurrent.futures.ProcessPoolExecutor() as executor:

你的 CPU 核越多，启动的 Python 进程越多，我的 CPU 有 6 个核。实际处理代码如下：

executor.map(load_and_resize, image_files)

「executor.map()」将你想要运行的函数和列表作为输入，列表中的每个元素都是我们函数的单个输入。由于我们有 6 个核，我们将同时处理该列表中的 6 个项目！

如果再次用以下代码运行我们的程序：

time python fast_res_conversion.py

我们可以将运行时间降到 1.14265 秒，速度提升了近 6 倍！

注意：在生成更多 Python 进程及在它们之间整理数据时会有一些开销，所以速度提升并不总是这么明显。但是总的来说，速度提升还是非常可观的。

它总是那么快吗？

如果你有一个数据列表要处理，而且在每个数据点上执行相似的运算，那么使用 Python 并行池是一个很好的选择。但有时这不是最佳解决方案。并行池处理的数据不会在任何可预测的顺序中进行处理。如果你对处理后的结果有特殊顺序要求，那么这个方法可能不适合你。

你处理的数据也必须是 Python 可以「炮制」的类型。所幸这些指定类别都很常见。以下来自 Python 官方文件：

●  None, True, 及 False
●  整数、浮点数、复数
●  字符串、字节、字节数组
●  只包含可挑选对象的元组、列表、集合和字典
●  在模块顶层定义的函数（使用 def ，而不是 lambda ）
●  在模块顶层定义的内置函数
●  在模块顶层定义的类
●  这种类的实例，其 __dict__ 或调用__getstate__() 的结果是可选择的（参见「Pickling Class Instances」一节）。

原文发布时间为：2018-10-5

本文来自云栖社区合作伙伴“CDA数据分析师”，了解相关信息可以关注“CDA数据分析师”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/648066

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Java取整和java四舍五入方法

import java.math.BigDecimal; import java.text.DecimalFormat; public class TestGetInt{ public static void main(String[] args){ double i=2, j=2.1, k=2.5, m=2.9; System.out.println("舍掉小数取整:Math.floor(2)=" + (int)Math.floor(i)); System.out.println("舍掉小数取整:Math.floor(2.1)=" + (int)Math.floor(j)); System.out.println("舍掉小数取整:Math.floor(2.5)=" + (int)Math.floor(k)); System.out.println("舍掉小数取整:Math.floor(2.9)=" + (int)Math.floor(m)); /* 这段被注释的代码不能正确的实现四舍五入取整 System.out.println("四舍五入取整:Math.rint(2...

2018-10-07

844

七牛云官网下载官方 SDK | java.zip 在官网控制台创建 CDN 存储空间将 SDK jar 包导入完成后找到: java-sdk-X.x.xx\examples\upload.java 在官网控制台创建 CDN 存储空间将 SDK jar 包导入完成后找到 : java-sdk-X.x.xx\examples\upload.java examples 下定义了很多操作的案例这里我只试一个上传 : 需要更改的地方有 String ACCESS_KEY = "Access_Key"; String SECRET_KEY = "Secret_Key"; String bucketname = "Bucket_Name"; 之前创建的存储空间 String key = "my-java.png"; 上传到七牛后保存的文件名 String FilePath = "/.../..."; 上传文件的路径执行 main 方法 OK 注意: 执行 main 方法的时候抛出了异常检查你的电脑网络是否畅通检查jar包是否版本过低: gson-2.8.2.jar happy-dn...

2018-10-07

809

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。