用 NetworkX + Gephi + Nebula Graph 分析人物关系(上篇)
我们都知道《权利的游戏》在全世界都很多忠实的粉丝,除去你永远不知道剧情下一秒谁会挂这种意外“惊喜”,当中复杂交错的人物关系也是它火爆的原因之一,而本文介绍如何通过 NetworkX 访问开源的分布式图数据库 Nebula Graph,并借助可视化工具—— Gephi 来可视化分析《权力的游戏》中的复杂的人物图谱关系。
数据集
本文的数据集来源:冰与火之歌第一卷(至第五卷)[1]
- 人物集 (点集):书中每个角色建模为一个点,点只有一个属性:姓名
- 关系集(边集):如果两个角色在书中发生过直接或间接的交互,则有一条边;边只有一个属性:权重,权重的大小代表交互的强弱。
这样的点集和边集构成一个图网络,这个网络存储在图数据库 Nebula Graph [2]中。
社区划分——Girvan-Newman 算法
我们使用 NetworkX [3] 内置的社区发现算法 Girvan-Newman 来为我们的图网络划分社区。
以下为「社区发现算法 Girvan-Newman」解释:
网络图中,连接较为紧密的部分可以被看成一个社区。每个社区内部节点之间有较为紧密的连接,而在两个社区间连接则较为稀疏。社区发现就是找到给定网络图所包含的一个个社区的过程。
Girvan-Newman 算法即是一种基于介数的社区发现算法,其基本思想是根据边介数中心性(edge betweenness)从大到小的顺序不断地将边从网络中移除直到整个网络分解为各个社区。因此,Girvan-Newman 算法实际上是一种分裂方法。
Girvan-Newman 算法的基本流程如下: (1)计算网络中所有边的边介数; (2)找到边介数最高的边并将它从网络中移除; (3)重复步骤 2,直到每个节点成为一个独立的社区为止,即网络中没有边存在。
概念解释完毕,下面来实操下。
- 使用 Girvan-Newman 算法划分社区。NetworkX 示例代码如下
comp = networkx.algorithms.community.girvan_newman(G) k = 7 limited = itertools.takewhile(lambda c: len(c) <= k, comp) communities = list(limited)[-1]
- 为图中每个点添加一个 community 属性,该属性值记录该点所在的社区编号
community_dict = {} community_num = 0 for community in communities: for character in community: community_dict[character] = community_num community_num += 1 nx.set_node_attributes(G, community_dict, 'community')
节点样式——Betweenness Centrality 算法
下面我们来调整下节点大小及节点上标注的角色姓名大小,我们使用 NetworkX 的 Betweenness Centrality 算法来决定节点大小及节点上标注的角色姓名的大小。
图中各个节点的重要性可以通过节点的中心性(Centrality)来衡量。在不同的网络中往往采用了不同的中心性定义来描述网络中节点的重要性。Betweenness Centrality 根据有多少最短路径经过该节点,来判断一个节点的重要性。
- 计算每个节点的介数中心性的值
betweenness_dict = nx.betweenness_centrality(G) # Run betweenness centrality
- 为图中每个点再添加一个 betweenness 属性
nx.set_node_attributes(G, betweenness_dict, 'betweenness')
边的粗细
边的粗细直接由边的权重属性来决定。
通过上面的处理,现在,我们的节点拥有 name、community、betweenness 三个属性,边只有一个权重 weight 属性。
下面显示一下:
import matplotlib.pyplot as plt color = 0 color_map = ['red', 'blue', 'yellow', 'purple', 'black', 'green', 'pink'] for community in communities: nx.draw(G, pos = nx.spring_layout(G, iterations=200), nodelist = community, node_size = 100, node_color = color_map[color]) color += 1 plt.savefig('./game.png')
emmm,有点丑…
虽然 NetworkX 本身有不少可视化功能,但 Gephi [4] 的交互和可视化效果更好。
接入可视化工具 Gephi
现在将上面的 NetworkX 数据导出为 game.gephi 文件,并导入 Gephi。
nx.write_gexf(G, 'game.gexf')
Gephi 可视化效果展示
在 Gephi 中打开刚才导出的 game.gephi
文件,然后微调 Gephi 中的各项参数,就以得到一张满意的可视化:
- 将布局设置为 Force Atlas, 斥力强度改为为 500.0, 勾选上
由尺寸调整
选项可以尽量避免节点重叠:
Force Atlas 为力引导布局,力引导布局方法能够产生相当优美的网络布局,并充分展现网络的整体结构及其自同构特征。力引导布局即模仿物理世界的引力和斥力,自动布局直到力平衡。
- 给划分好的各个社区网络画上不同的颜色:
在外观-节点-颜色-Partition 中选择 community(这里的 community 就是我们刚才为每个点添加的社区编号属性)
- 决定节点及节点上标注的角色姓名的大小:
在外观-节点-大小-Ranking 中选择 betweenness(这里的 betweenness 就是我们刚才为每个点添加的 betweenness 属性)
- 边的粗细由边的权重属性来决定:
在外观-边-大小-Ranking 中选择边的权重
- 导出图片再加个头像效果
大功告成,一张权力游戏的关系谱图上线 :) 每个节点可以看到对应的人物信息。
下一篇
本篇主要介绍如何使用 NetworkX,并通过 Gephi 做可视化展示。下一篇将介绍如何通过 NetworkX 访问图数据库 Nebula Graph 中的数据。
本文的代码可以访问[5]。
致谢:本文受工作 [6] 的启发
Reference
[1] https://www.kaggle.com/mmmarchetti/game-of-thrones-dataset
[2] https://github.com/vesoft-inc/nebula
[3] https://networkx.github.io/
[5] https://github.com/jievince/nx2gephi
[6] https://www.lyonwj.com/2016/06/26/graph-of-thrones-neo4j-social-network-analysis/
作者有话说:Hi,我是王杰,是图数据 Nebula Graph 研发工程师,希望本次的经验分享能给大家带来帮助,如有不当之处也希望能帮忙纠正,谢谢~

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
因为一个函数strtok踩坑,我懂得了看源码的重要性
关注、星标公众号 ,直达精彩内容 ID:技术让梦想更伟大 作者:李肖遥 在上篇因为一个函数strtok踩坑,我被老工程师无情嘲笑了(一),我们分析了strtok()函数,以及windos、Linux下的线程安全版,那么这篇中我们着重分析下解读strtok()的隐含特性,到底strtok有哪些坑。 看源码 要想深究其特性,必须看源码,下面的代码取自glibc-2.20的strtok.c文件。 1#include<string.h> 2 3staticchar*olds; 4 5#undefstrtok 6 7#ifndefSTRTOK 8#defineSTRTOKstrtok 9#endif1011/*ParseSintotokensseparatedbycharactersinDELIM.12IfSisNULL,thelaststringstrtok()wascalledwithis13used.Forexample:14chars[]="-abc-=-def";15x=strtok(s,"-");//x="abc"16x=strtok(NULL,"-=");//x="de...
- 下一篇
边缘计算、区块链、5G,哪个能走的更远
频繁出现的新词汇5G、区块链、边缘计算,这些都代表了什么,又能给我们的生活带来什么巨大的改变么?抉择之时已至,能够走向未来的真的只有一个吗? “没有什么能够阻挡,你对自由的向往....”手机铃声响起。 “喂,你好” “您好,这边是 xx 的客服代表,目前针对老用户有一个 4G 卡升级 5G 的活动,您作为我们 9 年的老用户可以将 4G 卡免费升为 5G 卡,并且每个月赠送 7 个 G 的全国流量....现在这个 5G 速度比 4G 快很多,下载东西,观看视频都是非常快的,以后都是 5G 时代,目前是赠送一年的体验期,体验期过了会恢复原价,咱们可以优先感受一下 5G 的魅力.....” 5G 我知道呀,之前热搜经常能看到它的影子,5G 商用之后各个运营商也开始了大力推广。之前也看过了好多关于 5G 的介绍和新闻。客服小姐姐看我这么感兴趣,更加热情洋溢的介绍了好久,最后被我以 “我的手机不支持 5G” 而告终,看来是时候要换个新手机了.... 2019 年 6 月,工业及信息化部正式发放 5G 牌照,开启了中国 5G 的商用元年,自此中国正式进入第五代移动通信时代。5G 从出现到至今一直...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装Docker,最新的服务器搭配容器使用
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker快速安装Oracle11G,搭建oracle11g学习环境