自定义LOG投递OSS数据Partition，优化你的计算

2017-01-22 698

数据划分Partition

OSS数据存储具有高可靠、低成本的特点，是海量数据存储的最佳选择之一，尤其适用于半结构化的日志存储，并可以结合E-MapReduce（使用Hive、Impala等计算引擎）通过schema-on-read方式加载数据做查询分析。

日志作为一种时间序列（time-series）数据，指定年、月、日进行分析是一种常见做法。例如使用Hive来分析OSS上的日志：

如果没有Partition，计算需要扫描整表（对应于OSS bucket前缀目录下的所有文件）
如果用时间设置了Partition，只需要加载指定OSS日期目录下的Object即可

对于大部分的日志分析而言，OSS上的日志通过Partition方式来存储，通过减少计算引擎需要扫描的数据规模可以得到三个好处：

缩短了数据分析的延时
免去计算引擎处理额外数据产生的开销

微信关注我们

原文链接：https://yq.aliyun.com/articles/69120

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

基于MaxCompute的图计算实践分享-解析图加载过程

免费开通大数据服务：https://www.aliyun.com/product/odps 一、前言 MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架，为用户提供了类似于 Pregel 的编程接口。MaxComputeGraph（以下简称 Graph ）作业包含图加载和计算两个阶段：加载，将存储在表中的数据载入到内存中，以点和边的形式存在；计算，遍历内存中的点，经过不断的迭代，直至达到迭代终止； Graph 模型有点（vertex）和边（edge）组成，以邻接表的形式进行组织，如下图：图的原始数据存在于MaxCompute的表（table）中，每个 table 包含多个记录（record），每个 record 又包含多个列（field），图加载就是将这种形式的数据，转换成 vertex 和 edge的过

2017-01-22

778

免费开通大数据服务：https://www.aliyun.com/product/odps 近期，各大安全组织检测到勒索软件正在攻击Hadoop集群，再次表明黑客正在尝试从“大数据”中获利，你的数据资产有没有被黑客get了？ ◇◆◇◆◇ 勒索软件攻击Hadoop事件综述最近，部分黑客组织针对几款特定产品展开了勒索攻击。截止到上周，已有至少34000多台MongoDB数据库被黑客组织入侵，数据库中的数据被黑客擦除并索要赎金。随后，在2017年1月18日当天，又有数百台ElasticSearch服务器受到了勒索攻击，服务器中的数据被擦除。安全研究人员Niall Merrigan表示，截止到目前，受攻击的ElasticSearch服务器已经超过了2711台。紧随上述两次攻击事件，目前已经有黑客将目标瞄准了Hadoop集群。这些勒索攻击的攻击模

2017-01-23

759

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

自定义LOG投递OSS数据Partition，优化你的计算

数据划分Partition

基于MaxCompute的图计算实践分享-解析图加载过程

你的大数据安全么？“Hadoop集群遭遇勒索软件攻击 ”

相关文章

发表评论

资源下载

Mario

Nacos

Rocky Linux

WebStorm

欢迎您来访！