基于Dataworks进行疫情数据的分析(一)
2019年底,新型冠状病毒肺炎疫情爆发,并在较短时间内迅速蔓延至全国,对包括餐饮、娱乐在内的各行各业造成严重影响。疫情爆发至今已经有多个月份,在抗击疫情期间无数的人员投入到这场战‘疫’之中,他们奋斗在抵抗新冠病毒的第一防线,甚至为之奉献生命。经过全国人民的共同努力截止到目前国内疫情已基本控制住了。接下来我们通过Dataworks与DataV基于大数据分析以可视化方式实时动态展现疫情发展。
一、首先在创建MaxCompute项目:
(1)在阿里云官网注册一个个人账户并进行实名认证。账号开通以后需要人为的进行MaxCompute、Dataworks服务的开通。(开通流程略) 、(2)打开开通的MaxCompute服务进行工作空间的创建,具体如下所示:

(3)输入“工作空间名称” 、“模式”等基本配置项具体如下所示:

(4)创建工作空间我们需要选择“计算引擎服务”,具体如下图所指示:

(5)输入计算引擎的基本信息,然后点击“创建工作空间”,即可完成工作空间的创建(创建过程需要几秒钟):

二、数据开发
(6)创建完成后我们点击“数据开发”进入到数据开发的编辑界面:

(7)在打开的数据开发页面我们首先创建一个业务流程,具体如下图所示:

(8)在创建的业务流程中我们选择创建一个PyODPS节点,具体如下图所示:

(9)输入我们要获取页面的python代码,具体如下图所示:

(10)如果代码无误我们可以通过配置定时任务从某网站定期获取疫情数据,具体如下图所示:

以上我们即可完成疫情数据的采集工作。后面我们会对采集的数据进行清洗和处理。