Giraph源码分析（六）——Edge 分析-低调大师

Giraph源码分析（六）——Edge 分析

2019-08-11 653

1.在Vertex类中，顶点的存储方式采用邻接表形式。每个顶点有 VertexId、VertexValue、OutgoingEdges和Halt，boolean型的halt变量用于记录顶点的状态，false时表示active，true表示inactive状态。片段代码如下。

2.org.apache.giraph.edge.Edge 接口，用于存储顶点的边，每条边包含targetVertexId和edgeValue两个属性。类关系图如下：

Giraph默认使用DefaultEdge类存储边，该类中有两个变量： I targetVertexId和 E value，I为顶点ID的类型，E为边的类型。注意，DefaultEdge类同时继承ReusableEdge接口，在ReusableEdge类的定义中，有如下说明文字：
A complete edge, the target vertex and the edge value. Can only be one edge with a destination vertex id per edge map. This edge can be reused, that is you can set it's target vertex ID and edge value. Note: this class is useful for certain optimizations, but it's not meant to be exposed to the user. Look at MutableEdge instead.

从上述说明文字可知，edge可以被重用，只需要修改targetVertexId和value的值就行。即每个Vertex若有多条出边，只会创建一个DefaultEdge对象来存储边。
3.org.apache.giraph.edge.OutEdges 用于存储每个顶点的out-edges。从Vertex类的定义可知，顶点的每条边都被存储在OutEdges类型的edge对象中，OutEdges接口的关系图如下：

Giraph默认的使用ByteArrayEdges，每个顶点的所有边都被存储在byte[ ]中。当顶点向它的出边发送消息时，需要遍历Vertex类中的edges对象。示例代码如下：

注意：由DefaultEdge的定义可知，遍历getEdges时，返回的Edge对象时同一个对象，只是该对象中值改变了。下面继续查看代码来证明此观点。
查看ByteArrayEdges类的iterator()方法，如下：

返回的是内部类ByteArrayEdgeIterator对象，定义如下：

总结：当顶点的出度很大时，此优化甚好，能很好的节约内存。如UK-2005数据中，顶点的最大出度为 5213。
假设顶点1的出度顶点有<2 , 0.4>，<3 , 7.8> ，<5 , 6.4> 。如下代码：

输出结果为：
[ 2 ]
[ 3 , 3 ]
[ 5 , 5 , 5 ]
并非是希望的 [ 2 , 3 , 5 ]

微信关注我们

原文链接：https://yq.aliyun.com/articles/713805

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

PAI-STUDIO通过Tensorflow处理MaxCompute表数据

PAI-STUDIO在支持OSS数据源的基础上，增加了对MaxCompute表的数据支持。用户可以直接使用PAI-STUDIO的Tensorflow组件读写MaxCompute数据，本教程将提供完整数据和代码供大家测试。详细流程为了方便用户快速上手，本文档将以训练iris数据集为例，介绍如何跑通实验。 1.读数据表组件为了方便大家，我们提供了一份公共读的数据供大家测试，只要拖出读数据表组件，输入： pai_online_project.iris_data 即可获取数据，数据格式如图： 2.Tensorflow组件说明 3个输入桩从左到右分别是OSS输入、MaxCompute输入、模型输入。2个输出桩分别是模型输出、MaxCompute输出。如果输入是一个MaxCompute表，输出也是一个MaxCompute表，需要按下图方法连接。读写Ma

2019-08-11

745

直播间直达链接：（回看链接） https://tianchi.aliyun.com/course/live?&liveId=41076 或钉钉扫描海报上二维码，进群直接观看。时间 8月14日19:00 主讲人：辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。简介：本次直播介绍EMR Spark 在shuffle方面的相关优化工作，主要包含shuffle 优化的背景以及shuffle 优化的设计方案，最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

2019-08-11

737

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。