《Flume日志收集与MapReduce模式》一3.3　小结-低调大师

《Flume日志收集与MapReduce模式》一3.3　小结

2017-05-01 654

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第3章，第3.3节，作者［美］史蒂夫·霍夫曼（Steve Hoffman）斯里纳特·佩雷拉（Srinath Perera），更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.3　小结

本章介绍了在数据处理管道中常用的两类通道。
内存通道提供了更快的速度，这是以故障事件出现时数据丢失为代价的。
此外，文件通道提供了更可靠的传输，因为它能容忍代理故障与重启，这是以牺牲性能为代价的。
你需要确定哪种通道更适合于你的使用场景。在确定内存通道是否适合时，请问问自己丢失一些数据的经济上的代价如何。在考虑是否使用持久化通道时请衡量它与添加更多的硬件以弥补性能上的差异时的代价相比如何。另一个考虑就是数据问题了。写入到Hadoop中的数据不一定都来自于流式应用日志。如果接

微信关注我们

原文链接：https://yq.aliyun.com/articles/107485

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《NoSQL权威指南》——2.3 查询优化

本节书摘来自异步社区出版社《NoSQL权威指南》一书中的第2章，第2.3节，作者：【美】Joe Celko（乔•塞科），更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.3 查询优化有些列式数据库使用基于行的优化器，抵消了列式存储很多的优势。它们在具体化“行”之前在查询执行时使用基于行的优化器进行优化处理（只组装查询的列，实际上是做选择和投影）。基于列的优化可以将选择和投影分为单独的操作，这是MapReduce算法的一个版本（这些算法稍后会加以解释）。目标是在查找实际的数据值前，获取尽可能多的行数。如果你能并行地收集列会更好。很显然，因为列中的数据已经完成，映射将首先开始。但选择操作需要尽快执行。请注意，我刚才提到来自一个域的列。大多数实际数据库中完成的联结是等值联结，这意味着在不同表中的列都是来自同一个域，并且匹配相同的值。特别是，PRIMARY KEY及其引用FOREIGN KEY都必须在同一个域中。PRIMARY KEY列包含表的唯一值，而FOREIGN KEY可能是一对多的。我们可以在列描述符中添加表的名字，使之成为域描述符：{table_name, star...

2017-05-01

577

2.2　数据清洗在本节中，我们将回顾一些Spark平台上的数据清洗方法，重点关注数据不完备性。然后，我们将讨论一些Spark数据清洗方面的特殊特征，以及一些基于Spark平台更加容易的数据清洗解决方案。学习完本节，我们将能够完成数据清洗，并为机器学习准备好数据集。 2.2.1　处理数据不完备性对于机器学习，数据越多越好。然而，通常数据越多，“脏数据”也会越多——这意味着会有更多的数据清洗工作。数据质量控制可能会有许多问题需要处理，有些问题可能很简单，如数据输入错误或者数据复制。原则上，解决他们的方法是类似的——例如，利用数据逻辑来实现探索和获取项目的本质知识，利用分析逻辑来纠正他们。为此，在本节中，我们将重点关注缺失值处理，以便说明在这个主题上Spark的使用方法。数据清洗涵盖了数据的准确性、完整性、独特性、时效性和一致性。虽然听起

2017-05-01

656

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。