Pentaho 7.0更新：数据准备和分析两不误-低调大师

Pentaho 7.0更新：数据准备和分析两不误

2017-07-02 524

Pentaho公司的软件定位一直是做整合数据集成和分析，不过在即将发布的7.0平台中，该公司提供了用于加速和提升数据准备流程的功能。

升级后的分析、集成、数据准备工具于11月发布，支持用户在处理和准备过程中的任何环节直观地检查数据。这样数据科学家、数据工程师和业务分析师都可以使用图表、图形和其它可视化组件来动态检查数据，发现并提前解决潜在的数据质量问题，而无需等到完成整个分析工作才能发现。

例如，他们可以看到整合两个表的数据结果对于支持准确分析来说，是否缺少了很多数值；或者在抽取、转换和加载（ETL）集成处理过程中应用回归分析技术检查是否产生错误信息。Pentaho 7.0还支持IT团队发布预定义数据源给业务用户，这样可以加速数据准备阶段的协作。

Pentaho公司表示，在运行过程中，通过准备流程以协作的方式可视化检查和评估数据，这样的功能可以缩短数据科学家和其它用户为分析用途准备数据的时间。当然，数据工程师不大可能会对数据质量问题创建流程（减少了错误概率）。（2015年日立集团有限公司收购了Pentaho公司）

Pentaho 7.0还提供了新功能，支持与Spark SQL集成，方便ETL开发人员和数据分析师在Apache Spark集群中使用标准SQL的变体查询数据。还有几种其它类似功能也是专为处理大数据环境的数据而设计，包括支持Kafka消息队列系统、Avro和Parquet文件格式。

David Menninger是Ventana研究公司的一名技术分析师，他说Pentaho的新功能混合了分析和数据准备两方面的工作，这可能意味着数据管理的一种发展趋势。

越来越多的企业都希望可以把数据准备和分析任务更紧密地整合到一起，这样整合过程就更能以自服务的形式完成。Menninger说：“自服务数据准备成为了流行趋势。实际上，它需要与分析过程紧密集成。”

现在，Menninger认为Pentaho公司走在了市场的前沿，但是他预计其它厂商会很快跟风，推出比较类似的功能。

Paxata公司就是这样一个自服务数据工具供应商，该公司才初创几年，致力于拓展软件实现更高级功能。规划增加的功能包括：引导客户做必要的数据转换；通过机器学习技术帮助用户在语义层面更好地理解数据。

Paxata公司位于美国加州Redwood市，该公司上个月迈出了第一步，发布了同名软件的更新版本，新版本利用了Paxata连接技术，可以从不同的Hadoop集群、NoSQL数据库和其它系统中抽取整合数据。Paxata公司首席产品官Nenshad Bardoliwalla表示，该公司计划以季度为周期增加更多功能，不过全面打造设想的平台还有很长的路要走。

本文转自d1net（转载）

微信关注我们

原文链接：https://yq.aliyun.com/articles/126134

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark 交互式处理上百 TB 数据

Apache Spark在内存数据处理领域有很多创新。有了这个框架，你可以上传数据到集群内存，并在交互模式下以非常快的速度处理这些数据(交互模式是Spark另一个重要特性)。2014年 Databricks宣布 Apache Spark能在23分钟内完成100T数据的排序。这里有一个有趣的问题—— 你可以在集群中以交互方式处理的数据量的上限是什么?如果你的集群中有100T数据呢? 你可能惊讶内存竟然如此之快。直觉告诉你可以内存可以交互式处理100T的输入数据或者至少能处理一半的规模。然而，像往常一样，在分布式系统的世界，我们的直觉是错误的。响应时间对于一个简单的数据处理场景和一个比较复杂的，各自的响应时间是什么?那我们还是在一个交互模式吗?我们应该这样思考，但是很不幸，我们没有。我看到的是，在实际的场景中，一个有8T数据的“where sum(), count()”语句的简单场景的响应时间是20-40秒。对于更复杂更实际的情形(有几个“group by”和几个“join”)，响应时间是3-5分钟。这绝不是我说的交互模式! 在日常生活中，我只会在响应时间比较关键的情形下作分析。对我...

2017-07-02

681

本节书摘来自华章计算机《Storm分布式实时计算模式》一书中的第2章，第2.5节,作者：（美）P. Taylor Goetz　Brian O’Neill 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.5　自动化集群配置迄今为止，我们已经在命令行模式下手工配置了单节点伪集群。这种方法应对小规模集群当然是行得通，但当集群规模不断增加时，这种方式就变得难以维护了。考虑到配置十个，甚至成百上千节点的场景。配置任务可以通过脚本来自动执行，但即使是基于脚本的自动化解决方案在扩展性上也是有问题的。幸运的是，已有一些有效的技术来帮助解决管理大规模服务器集群的配置和定制问题。Chef和Puppet都提供了声明式的配置方式，来定义机器的状态（意味着机器安装了哪些软件包，以及如何配置的）和分类（例如，一个Apache Web Server类

2017-07-02

604

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。