【使用linux 并发命令parallel 加快处理文本文件】-原来是坑爹啊。-低调大师

【使用linux 并发命令parallel 加快处理文本文件】-原来是坑爹啊。

2013-12-11 997

1，看到oschina 上面的一篇文章

如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

http://www.oschina.net/news/45477/use-cpu-cores-linux-commands

系统使用的是Redhat 5

parallel的官网：

http://www.gnu.org/software/parallel/

需要使用opensuse的源进行安装

http://software.opensuse.org/download.html?project=home%3Atange&package=parallel

对于 CentOS CentOS-6，请以根用户 root 运行下面命令：

cd /etc/yum.repos.d/
wget http://download.opensuse.org/repositories/home:tange/CentOS_CentOS-6/home:tange.repo
yum install parallel

对于 CentOS CentOS-5，请以根用户 root 运行下面命令：

cd /etc/yum.repos.d/
wget http://download.opensuse.org/repositories/home:tange/CentOS_CentOS-5/home:tange.repo
yum install parallel

经测试wc -l 命令发现在cpu数量是4的时候并没有提高计算时间，反而慢了。

计算1G文件行数，用wc-l花费 1s而使用 parallel后花费 10s

对于200MB的文件也是10倍的关系。

总结：

理论和实际使用还是有差别啊。在4cup的机器上面测试一点优势也没有啊。

基本上要慢个 10倍以上啊。看来要处理大文件，还是hadoop比较靠谱啊。

微信关注我们

原文链接：https://yq.aliyun.com/articles/138547

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop五分钟入门指南

《Hadoop五分钟入门指南》原文见： http://blog.josedacruz.com/2013/12/09/hadoop-in-5-minutes-for-beginners/#.Uqhs3_Q6Cjt 如果你有大量的数据（TB级），而且这些数据到处分散，且有些数据是结构化的，有些数据不是。你想查询这些数据，你或许在想，“我需要力量来组织和查询这些数据”。是的，你需要Hadoop。一、什么是Hadoop？ Apache Hadoop软件库是一个框架，它可以对大数据集使用简单的编程模型做跨集群的分布式处理。Hadoop在设计上可以从单服务器节点扩展到成千上万的服务器节点，每个节点都能提供本地计算和存储。 HDFS——分布式文件系统，MapReduce模式的实现。 HDFS是一个文件系统，分布在系统中的所有机器上，但是你只能把它视为单个的文件系统，因为它是分布式的、跨主机的。那么，我的本地文件系统是怎样的？HDFS工作于本地文件系统之上。 MapReduce是一个模式，处理大数据集（当然你也可以用于处理小数据集，因为MapReduce只是一个模式，而不是产品，它可以使用任意编程...

2013-12-10

873

《ElasticSearch查询》目录导航： ElasticSearch查询第一篇：搜索API ElasticSearch查询第二篇：文档更新 ElasticSearch查询第三篇：词条查询 ElasticSearch查询第四篇：匹配查询（Match） ElasticSearch查询第五篇：布尔查询不同于SQL语言，对ElasticSearch引擎发送的查询请求，有两种方式：第一种方式是使用RESTful 风格的API请求对数据进行搜索或更新，这意味着，必须使用搜索API向ElasticSearch引擎发起搜索请求；第二种方式是使用Qeury DSL，将查询语言封装成JSON结构，在JSON结构中，封装查询请求的参数，作为请求主体（Request Body），发送给ElasticSearch引擎处理。 DSL是领域专用语言（Domain-SpecificLanguage）的首字母缩写，是一种通用的大数据查询语言，用于实现海量数据的检索分析。本系列是ElasticSearch的入门文章，用于介绍搜索API的使用方法，只求快速入门，想要深入了解，最好的文档永远是官方手册。 ...

2013-12-18

823

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。