《Hadoop金融大数据分析》读书笔记
《Hadoop金融大数据分析》 Hadoop for Finance Essentials
使用Hadoop,是因为数据量大
数据量如此之多,以至于无法用传统的数据处理工具和应用来处理的数据称主大数据
3V定义:即“大量Volume,多样Variety,高速Velocity是与大数据相关的三个属性或维度。
大量指的是数据的量很大,
多样指的是数据的类型很多,
高速指的是数据处理的速度很快
对于一家处理GB级数据的小公司来说,TB级的数据可能被认为是大数据,
对于处理TB级数据的大公司来说,PB级的数据,则被认为是大数据
就常规而言,大数据至少是TB级的
除了想要存储无尽的数据,企业也需要分析它们
数据以不同的形式存储,其中大量的交易数据被称为结构化数据,图像和音频等数据被称为非结构化数据
ETL:提取Extract,转换Transform,加载Load
现在的企业需要处理异构型数据,从Excel表格,数据库到纯文本、图片、视频、网络数据、GPS数据、传感器数据、文本数据、移动信息数据、甚至包括可以扫描和转换成电子格式的文件

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
使用hadoop restful api实现对集群信息的统计
(适用于hadoop 2.7及以上版本) 涉及到RESTful API ResourceManager REST API’s:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html WebHDFS REST API:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/WebHDFS.html MapReduce History Server REST API’s:https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-clie
- 下一篇
助你玩转机器学习技术的十三套框架
在今天的文章中,我们将共同了解十三款机器学习框架,这些框架中最值得关注的特性,在于它们正致力于通过简单而新颖的方式应对与机器学习相关的种种挑战。 过去几年以来,机器学习已经开始以前所未有的方式步入主流层面。这种趋势并非单纯由低成本云环境乃至极为强大的GPU硬件所推动; 除此之外,面向机器学习的可用框架也迎来了爆发式增长。此类框架全部为开源成果,但更重要的是它们在设计方面将最为复杂的部分从机器学习中抽象了出来,从而保证相关技术方案能够为更多开发人员服务。 在今天的文章中,我们将共同了解十三款机器学习框架,一部分去年刚刚发布、另一部分则在不久前进行了全部升级。而这些框架中最值得关注的特性,在于它们正致力于通过简单而新颖的方式应对与机器学习相关的种种挑战。 Apache SparkMLlib ApacheSpark可能算得上当前Hadoop家族当中最为耀眼的成员,但这套内存内数据处理框架在诞生之初实际与Hadoop并无关系,且凭借着自身出色的特性在Hadoop生态系统之外闯出一片天地。Spark目前已经成为一款即时可用的机器学习工具,这主要归功于其能够以高速将算法库应用至内存内数据当中。 S...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS7设置SWAP分区,小内存服务器的救世主
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装