大数据处理的一些总结和应用(有关舆情监控)
说到大数据处理可能大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角
大数据的概念:
1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。
2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
3、海量异构的数据(包括文本、图像、声音等)。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)
大数据处理的应用场景有很多:
1.阿里巴巴平台----淘宝双十一
2.证券交易系统
3.智慧城市
4.情报分析,舆情监控
大数据处理的的发展历史和架构演进,可以看成:
是从传统手工作坊(分布式批处理)到流水线工厂(hadoop)再到没有中间商 的O2O平台(spark)
开源工具简介---批处理
Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。
HDFS:是Hadoop的分布式存储系统,同Google的GFS性质是一样的。
MapReduce:是一种编程模型,用于大规模数据集的并行运算。
Hive是基于Hadoop的一个数据仓库工具,提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。
Pig:Pig最大的作用就是对MapReduce算法(框架)实现了一套shell脚本 ,类似我们通常熟悉的SQL语句,在Pig中称之为Pig Latin。
Hbase:一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。它是Google bigtable的一个开源的实现。
Zookeeper:它是一个针对大型分布式系统的可靠协调系统,功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。它是 Google的Chubby一个开源的实现。
舆情监控系统的系统流程:
最近去一个文科院校讲了一节课:基于大数据处理的舆情监控系统及其应用简介,ppt分享出来希望大家批评指正:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
HDFS中文件的压缩与解压
文件的压缩有两大好处:1、可以减少存储文件所需要的磁盘空间;2、可以加速数据在网络和磁盘上的传输。尤其是在处理大数据时,这两大好处是相当重要的。 下面是一个使用gzip工具压缩文件的例子。将文件/user/hadoop/aa.txt进行压缩,压缩后为/user/hadoop/text.gz 1 package com.hdfs; 2 3 import java.io.IOException; 4 import java.io.InputStream; 5 import java.io.OutputStream; 6 import java.net.URI; 7 8 import org.apache.hadoop.conf.Configuration; 9 import org.apache.hadoop.fs.FSDataInputStream; 10 import org.apache.hadoop.fs.FSDataOutputStream; 11 import org.apache.hadoop.fs.FileSystem; 12 import org.apache.hadoo...
- 下一篇
kibana 数据可视化
kibana,elasticsearch项目的产品之一。项目地址:https://www.elastic.co/products/kibana。 它是数据可视化工具,提供网页与人交互,将查询语句交给ES处理并将结果可视化。官方标语为:Explore & Visualize Your Data,探索与可视化你的数据。 1.视图 图1-1 kibana的视图示例 2.向es发起查询 图2-1 kibana通过webservice 与es交互
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Hadoop3单机部署,实现最简伪集群
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker安装Oracle12C,快速搭建Oracle学习环境