开源-开源公司-Apache
Apache开源软件一览:
1.Hadoop
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
github:https://github.com/apache/hadoop
2. Flink
Apac
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
AI平台-Spark引擎架构
1. 背景 2.spark内核结构 2.1 重要组成部分 1、Application2、spark-submit3、Driver4、SparkContext5、Master6、Worker7、Executor8、Job9、DAGScheduler10、TaskScheduler11、ShuffleMapTask and ResultTask2.2 Spark工作流程简要
- 下一篇
DataWorks PyODPS节点实现结巴中文分词
找到可以在MaxCompute上运行的包 您可以选择在pypi或GitHub下载jieba,本文以github下载为例,如图所示,下载zip压缩包。pypi.org下载GitHub下载 上传第三方包 在 DataWorks 创建业务流程上传已下载至本地的jieba-master.zip上传完毕,务必记得提交资源至maxcompute开发环境。 创建测试数据表及数据 建表不做演示,DDL语句附后。 CREATE TABLE `jieba_test` ( `id` STRING, `content` STRING ); 创建临时查询,插入测试数据 insert into jieba_test values('1','阿里云大数据团队'); insert into jieba_test values('2','结巴分词测试'); 编写代码验证 在 DataWorks 创建业务流程-->创建PyODPS节点 def test(input_var): import jieba import sys reload(sys) sys.setdefaultencoding('utf-8') re...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Hadoop3单机部署,实现最简伪集群
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果