《Flume日志收集与MapReduce模式》一2.4 小结
本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第2章,第2.4节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看
2.4 小结
本章介绍了如何下载Flume二进制分发包。我们创建了一个简单的配置文件,里面包含了一个源,它会将内容写到一个通道中,后者又会将其写到一个接收器中。源监听着一个Socket,等待网络客户端的连接,并向其发送事件数据。这些事件被写到一个内存通道中,然后被写到一个log4j接收器中,从而成为输出。接下来,我们使用Linux netcat工具连接到监听代理上,向Flume代理的源发送一些字符串事件。最后,我们验证基于log4j的接收器成功将事件写出。
下一章将会详细介绍在数据处

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
《Storm技术内幕与大数据实践》一9.4 实时意图和搜索
本节书摘来异步社区《Storm技术内幕与大数据实践》一书中的第9章,第9.4节,作者: 陈敏敏 , 黄奉线 , 王新春责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。 9.4 实时意图和搜索 在PC互联网时代,谷歌2005年就推出了个性化搜索服务,因为引发公众对隐私的担忧,没有太商业化,如今移动互联网时代,去哪儿、京东等电商,慢慢都推出了个性化搜索,无论消费者登录与否,通过追踪客户的搜索行为来判断其消费喜好,即便用户退出登录,也会根据Cookie、设备号等信息,给用户返回个性化的搜索内容。当然搜索引擎本身的爬虫/反爬虫等异常检测、对搜索关键字分词后进行同义词/反义词/全半角/简繁体等自动扩展以及错别字的纠正都可以在实时计算中进行数据清洗。例如,eBay应用Jetstream流处理技术,对海量的用户行为进行了实时的数据清洗。 要让个性化的搜索内容更加精准,需要打通外部用户画像和不断更新着的商家的服务、商品等。在电商的搜索系统中,为了解决搜索的并发和性能,往往有内存中的实时分布式索引和硬盘中的全量索引,热门商品信息直接从内存中读取,当内存中不存在时,才从硬盘中读全量索引...
- 下一篇
超越Hadoop的大数据分析之致谢
本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:许巧辉 首先,我要衷心感谢Vineet Tyagi、AVP和Impetus的创新实验室主管。Vineet对我帮助很大,并促使我写这本书。在6、7月份,每个工作日他给我3个小时的时间写作本书,这是帮助我完成本书的关键。任何学术活动都要专门花费很多时间——这时候就得加倍努力,因为我必须在工作之余写作。Vineet令写作成为我工作的一部分。 我也想对Pankaj Mittal、CTO和SVP、Impetus表示感谢,他对研发的全心支持,像我这样的研发全职工作。荣誉对他来说,就是Impetus能够有一个无支付和收入压力的研发团队。这真的释放了我并有助于我专注于研发。在IT行业工作,写书是一个艰巨的任务。感谢Pankaj实现这点及类似的活动。 Praveen Kankariya是Impetus的CEO,他是我灵感的源泉,指导着我。感谢Praveen的支持!我还要感谢在Impetus的Nitin Agarwal博士、AVP和领导、数据科学实践小组。Nitin帮助我塑造一些思想,尤其是在我们讨论机器学习算法的认识/实...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS8编译安装MySQL8.0.19
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- 设置Eclipse缩进为4个空格,增强代码规范