DC学院数据分析学习笔记(一):获取数据

在DC学院上买了个数据分析的课程,OK!说干就干,记录下学习的笔记,希望能有所收获( ̄︶ ̄)↗

数据获取的方式

  1. 开放数据集
  2. 网站爬虫

开放数据集

  • 科研数据共享
  • 数据算法竞赛:DC学院,天池,kaggle
  • 政府公司分享
  • 个人分享

这个没什么好说的,科学上网,国外网站多的是!

网站爬虫

  • 建立网站连接
  • 爬取网页/API
  • 分析返回结果
  • 抽取所需信息

爬虫分两大类:

  1. 基于网站API的爬取:一般返回格式是JSON,这个和阿里云API返回的格式是一样的
  2. 基于网页的爬取:这个就比较难了,用过API的都明白(/▽\)

OK,刚学习了简单的网站API的爬取,下面实践一下!

这里是豆瓣API快速入门网址:https://developers.douban.com/wiki/?title=guide

我们可以访问请求的url来获取想要的信息
image

但这样显然太麻烦了,我们也可以通过python的urllib包来解决问题

image

返回的格式是JSON

稍微介绍一下JSON:

  • JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation)
  • JSON 是轻量级的文本数据交换格式
  • JSON 独立于语言 ,JSON 使用 JavaScript 语法来描述数据对象,但是 JSON 仍然独立于语言和平台。JSON 解析器和 JSON 库支持许多不同的编程语言。
  • JSON 具有自我描述性,更易理解
  • 数据在名称/值对中(如:"Day" : "Sunday"),数据由逗号,分隔花括号保存对象,方括号保存数组

然后我们用python解析JSON,假设我们要获取的是上文(如图)“rating”中“average"键所对应的值
image

来和浏览网站的时候所看到的对比一下

image

如果需要将获得的数据存到本地,同样可以用python轻松解决

image

在本地看一下

image

获取多部电影

image

这样是不是还不够便捷?

能不能输入一些电影名字,然后直接返回我们需要的信息,如评分呢?

OK,还是用到API,不过这里用到了”电影搜索“的API:

image

image

很OK!

下面看代码!

image

今天数据分析就学习了这么多,OK!希望能有所收获( ̄︶ ̄)↗

优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/437529

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。