《Flume日志收集与MapReduce模式》一3.1 内存通道
本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第3章,第3.1节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看
3.1 内存通道
见名知意,内存通道指的是事件存储在内存中的通道。由于通常情况下,内存的速度要比磁盘快几个数量级,因此事件的接收速度也会更快,这降低了对硬件的需求量。使用这种通道的弊端在于代理失败(如硬件问题、断电、JVM崩溃、Flume重启等)会导致数据丢失。根据使用场景的不同,这可能是非常不错的解决方案。系统度量通常属于这一类,因为少量的数据丢失并不会造成什么影响。然而,如果事件表示的是网站的购买情况,那么内存通道就是一种非常差劲的选择了。
要想使用内存通道,请将通道的type参

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce
本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润 译者注:本文是本书第一章的开头,第一章其它部分由其他人翻译。 你可能是一个视频服务提供商,而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验。或者你是一个政府监管机构,需要为互联网页进行色情或非色情的分类以便过滤色情页面,同时还要做到高吞吐量以及实时性。或者你是一个通讯/移动服务提供商——要么你在这样的公司工作——而你担心客户流失(客户流失意味着,老用户离开而选择竞争对手,或者新用户加入竞争对手)。你一定非常想知道前一天有哪些客户在tweeter上抱怨你的服务。或者你是个零食店主,而你非常想对你的客户做购买预测,这样你就可以为你商品做更多有针对性的促销活动,并期望销售额由此带来的增长。或者你是一家医疗保险公司,当务之急是计算某位客户明年住院的概率,以便适当的修改的保费。或者你是一家金融产品公司的CTO,而公司希望拥有实时交易/预测算法,帮助确认损益表底线。或者你为一家电子制造公司工作,而你想在试运行期间预测故障、查明故障根源,以便在后来的实际运行中有效。这要归功于大数据分析创造的...
- 下一篇
Apache Spark机器学习.2.1 访问和加载数据集
摘要 Spark机器学习的数据准备 机器学习从业者和数据科学家时常耗费70%或80%的时间为机器学习项目准备数据。数据准备可能是很艰辛的工作,但是它影响到接下来的各方面工作,因此是非常必要和极其重要的。所以,在本章中,我们将讨论机器学习中所有必要的数据准备方面的内容,通常包括数据获取、数据清洗、数据集连接,再到特征开发,从而让我们为基于Spark平台构建机器学习模型准备好数据集。具体而言,我们将讨论前面提到的以下6个数据准备任务,然后在针对复用性和自动化的讨论中结束本章: 访问和加载数据集 开放可用的机器学习数据集 将数据集加载到Spark 使用Spark进行数据探索和可视化 数据清洗 处理数据缺失与不完整 基于Spark的数据清洗 数据清洗变得容易 一致性匹配 处理一致性问题 基于Spark的数据匹配 获得更好的数据匹配效果 数据重组 数据重组任务 基于Spar
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Hadoop3单机部署,实现最简伪集群
- CentOS7设置SWAP分区,小内存服务器的救世主