当开源技术遇上大数据创新
一、大数据市场前景无限
近年来,我国大数据政策频频发布,2014年“大数据”的概念首次正式写入《政府工作报告》,其后的2015年是大数据政策顶层设计年、2016年政策细化落地,国家发改委、环保部、工信部、国家林业局、农业部等均推出了关于大数据的发展意见和方案,2017年,大数据产业的发展正从理论研究加速进入应用时代,大数据与前沿科技的结合也越来越紧密。2017年,习近平明确要求实施国家大数据战略,加快建设数字中国。随着一系列利好政策的发布,大数据创业公司不断涌现,风险投资等机构也在追逐这个行业。大数据领域的创新创业变为常态,形成了大数据领域创新的力量。
大数据作为一种不会枯竭并且不断增值的重要的资源,是经济社会发展的重要推力,市场前途不可限量。从2014到2020年我国大数据市场规模不断扩大,其中2017-2018年正是市场高速成长期,大数据龙头企业较多,小微企业也分得庞大市场中的一杯羹。大数据产业整体蓬勃,未来向好。
二、开源推动大数据技术创新
开源,就是开放源码,意味着免费和自由的进行二次开发,如当下最为广泛使用的hadoop生态系统。开源大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。通过开放式的平台,吸引全球开发者集智共谋技术发展,开源将成为大数据技术创新的主要模式。目前,大数据分析处理流程中所使用的关键技术几乎都源自开源模式。
开放源代码对人工智能、区块链等前沿科技都具有重要影响力。源代码与这些高技术的结合点颇多,创新创业机会较多,研发项目在不断涌现。
国际上较受欢迎的开源大数据项目:
1.OpenCog和OpenCogPrime
2018年尖端技术潮流的一个典型例子——OpenCog项目被设计为面向虚拟和机器人功能的体系结构。用Python、C ++和Linux上Scheme 编写,与匹配一般智能和超越人类级别的目的相联系。还致力于实现其更加实际的研究和开发目标,同时精简其开源产品以实际应用。
2.Hyperledger
Hyperledger是在2015年由Linux基金会建立的,该项目最终目标是提供一系列开源的区块链和其他有用元素的工具箱。作为一个顶尖的科技趋势,区块链在2018年的最热门领域中备受瞩目,Gartner将其列入今年企业的最高战略趋势。
3.Kubernetes
Kubernetes是一个开源系统,专为部署自动化和容器化应用程序的管理而设计。随着谷歌的播种,该系统现在处于云原生计算基金会的管理之下。Kubernetes最引人注目的,是它与Docker合作密切。Kubernetes也得到了广泛和高调的推动,被Pivotal、Red Hat、OpenShift和IBM等公司支持。
4.TensorFlow
TensorFlow也许是最知名的开源项目,谷歌是该项目的主要倡导者,现已衍化为一个软件库,可以用于编程和数据流的目的,为广泛的用例提供服务。该项目还涉及当前的热门技术趋势,即机器学习,虽然这项技术并非是一个新事物,但随着在追求一系列不同结果时变得越来越受欢迎,这种技术一直在获得牵引力。
5.Vault
Vault是开源项目另一热点领域,提供了一种在传输过程中加密数据的工具,并且除了对其它信息进行一般安全管理之外,还越来越关注GDPR的相关修订。Vault的制造商还强调撤销功能是最大的亮点,有效保护有价值的数据。随着信息安全问题的不断加剧,Vault已成为十分重要的开源项目。
我国较突出的开源大数据项目:
1. 百度——希望获得开发者青睐的 “PaddlePaddle”
2016年9月1日,国内第一个机器学习开源平台PaddlePaddle诞生。
PaddlePaddle 能在多 GPU,多台机器上进行并行计算。相比现有深度学习框架,PaddlePaddle 对开发者来说有易用性、快速等优势。许多资深开发者认为PaddlePaddle 的设计理念与 Caffe 十分相似,怀疑是百度对标 Caffe 开发出的替代品。业内对 PaddlePaddle 的总体评价是“设计干净、简洁,稳定,速度较快。
2. 腾讯——面向企业的 “Angel”
Angel 将成为PaddlePaddle 之后、BAT 发布的第二个重磅开源平台。Angel 是面向机器学习的分布式计算框架,它为企业级大规模机器学习任务提供解决方案,可与 Caffe、TensorFlow 和Torch 等业界主流深度学习框架很好地兼容。“Angel 采用多种业界最新技术和腾讯自主研发技术使得 Angel 性能大幅提高,达到 Spark 的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。”
3. 阿里巴巴——犹抱琵牌半遮面的 DTPAI
阿里在2015 年就宣布了数据挖据平台 DTPAI , DTPAI 将集成阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等等。其次,与百度、腾讯一样,阿里也很重视旗下产品的易用性。阿里 ODPS 和 iDST 产品经理韦啸表示,DTPAI 支持鼠标拖拽的编程可视化,也支持模型可视化;并且广泛与MapReduce、Spark、DMLC、R 等开源技术对接。
4. 山世光——大陆学界硕果仅存的 SeetaFace
SeetaFace 基于 C++,不依赖于任何第三方的库函数。作为一套全自动人脸识别系统,它集成了三个核心模块,即:人脸检测模块、面部特征点定位模块以及人脸特征提取与比对模块。 SeetaFace 将供学界和工业界免费使用。它的开源,有望帮助大量有人脸识别任务需求的公司与实验室,在它们的产品服务中接入 SeetaFace,大幅减少开发成本。
三、开源大数据的发展趋势
开源让越来越多的项目可以直接采用大数据技术,不断的推动着大数据的创业创新,赛智时代分析师认为未来开源大数据将向以下三个方向发展:
1.容器技术愈受欢迎
容器技术能够使代码在任意环境中快速地 “接入并运行”,降低企业时间和资金成本。其速度和灵活性能够决定促使业务成功开展。
2.Hadoop与Spark应用增加
据福瑞斯特研究显示,Hadoop正以32.9%的速度增长。由于其可以降低企业成本且可以快速改进,很多企业表示会继续扩大相应的技术应用,所以未来Hadoop将会更加普及。而另一位后起之秀Spak在迭代计算上具有比Hadoop更高的效率并且数据集操作类型的开发更广泛,未来的广泛应用也是指日可待的。
3. 智能开源技术的应用更深入
人工智能正慢慢普及,全新的智能开源解决方案将改变人们和系统交互的方式,转变由来已久的工作观念,加深行业大数据的应用。
目前,我国开源产品较国外来讲水平不是很高,更多的时候国内的企业还只是开源的使用者和借鉴者,还没有到发明创造的阶段。虽说技术的发展是全球化的,技术开发的交互性促进了技术的不断突破,然而我们却不能过分依赖于“拿来主义”,赛智时代分析师认为,抵制以低成本换来高性能的产品或系统的诱惑,加大我国创业团队的研发投入,保持持续的自主创新才能稳定国家产业的发展。
原文发布时间为:2018-06-6
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
实践:大数据平台1.0总结和2.0演化路线
从3月份到现在2个月过去了,整个数据平台从0到1,算是有了一个基本的样子,跌跌撞撞的勉强支撑起运营的一些基本业务,当然这仅仅是开始,下一步还要从零打造自己的UBS系统,想想都兴奋呢!接下来总结下自己这段时间的得失,以及下一阶段的演化目标。 关于产品架构的原则可以查看这里,我分了两篇来写: https://www.cnblogs.com/buoge/p/9093096.html 目前的架构方式是这样的: 从使用Sqoop 定时从MySQL中同步数据,数据量大只能小水管的去fetch每次5-10W条记录,避免数据库压力过大 Flume tailagent 每汇总一小时然后传递logcenter,通过Python过滤后批量的Load到hive中 每日的报表在Hive的基础上会跑一些 MR 的Job, 作为每日的固化查询。 目前的缺点和不足: 问题: 日志读取,Hive入库和完成后删除log日志原始文件没有做完整的事务控制,load失败或是任务失败,原始日志已经删除了,尴尬:sweat:,目前解决方式是保留15天的原始日志 解决方案 :后续引入Kafka的日志回放功能,它有机制保证写入一次后在...
- 下一篇
日志收集(ElasticSearch)串联查询 MDC
之前写过将应用程序或服务程序产生的日志直接写入搜索引擎的博客 其中基本过程就是 app->redis->logstash->elasticsearch 整个链路过程 本来想将redis替换成kafka的 无奈公司领导不让(不要问我为什么没有原因不想回答,哦也!就这么酷!!!) 然后又写了相关的优化,其实道理很简单 就是 部署多个redis 多个logstash就ok了 (注意redis建议不要部署集群单节点就OK因为他只承担了消息传输的功能别无其他,架集群的好处就是APP应用自己分发负载了,如果是多个redis单节点需要个类似nginx的东西做负载转发,其实最好使用F5这类的硬件会更好)好了不多说废话下面直奔主题。 遇到的问题 1、去ES(ElasticSearch 以下简称ES)查询日志用关键
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS8安装Docker,最新的服务器搭配容器使用
- Hadoop3单机部署,实现最简伪集群
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker快速安装Oracle11G,搭建oracle11g学习环境