如何开始写你的第一个python脚本——简单爬虫入门！-低调大师

如何开始写你的第一个python脚本——简单爬虫入门！

2018-06-13 665

好多朋友在入门python的时候都是以爬虫入手，而网络爬虫是近几年比较流行的概念，特别是在大数据分析热门起来以后，学习网络爬虫的人越来越多，哦对，现在叫数据挖掘了！

其实，一般的爬虫具有2个功能：取数据和存数据！好像说了句废话。。。

而从这2个功能拓展，需要的知识就很多了：请求数据、反爬处理、页面解析、内容匹配、绕过验证码、保持登录以及数据库等等相关知识，今天我们就来说说做一个简单的爬虫，一般需要的步骤！

存数据

先说存数据，是因为在初期学习的时候，接触的少，也不需要太过于关注，随着学习的慢慢深入，我们需要保存大批量的数据的时候，就需要去学习数据库的相关知识了！这个我们随后开篇单独说明。

初期，我们抓到需要的内容后，只需要保存到本地，无非保存到文档、表格（excel）等等几个方法，这里大家只需要掌握with语句就基本可以保证需求了。大概是这样的：

with open（路径以及文件名，保存模式） as f：
    f.write（数据）        #如果是文本可直接写入，如果是其他文件，数据为二进制模式更好

当然保存到excel表格或者word文档需要用到 xlwt库（excel）、python-docx库（word），这个在网上很多，大家可以自行去学习。

取数据

啰嗦那么多，终于到正题，怎么来抓取我们想要的数据呢？我们一步步的来！

一般所谓的取网页内容，指的是通过Python脚本实现访问某个URL地址(请求数据)，然后获得其所返回的内容（HTML源码，Json格式的字符串等）。然后通过解析规则（页面解析），分析出我们需要的数据并取（内容匹配）出来。

在python中实现爬虫非常方便，有大量的库可以满足我们的需求，比如先用requests库取一个url（网页）的源码

import requests                #导入库

url = '你的目标网址'

response = requests.get(url)   #请求数据

print(response.text)           #打印出数据的文本内容

这几行代码就可以获得网页的源代码，但是有时候这里面会有乱码，为什么呢？

因为中文网站中包含中文，而终端不支持gbk编码，所以我们在打印时需要把中文从gbk格式转为终端支持的编码，一般为utf-8编码。

所以我们在打印response之前，需要对它进行编码的指定（我们可以直接指定代码显示的编码格式为网页本身的编码格式，比如utf-8，网页编码格式一般都在源代码中的标签下的charset属性中指定）。加上一行即可

response.encode = 'utf-8' #指定编码格式

至此，我们已经获取了网页的源代码，接下来就是在乱七八糟的源代码中找到我们需要的内容，这里就需要用到各种匹配方式了，常用的几种方式有：正则表达式（re库），bs4（Beautifulsoup4库）,xpath(lxml库)！

建议大家从正则开始学习，最后一定要看看xpath，这个在爬虫框架scrapy中用的很多！

通过各种匹配方式找到我们的内容后（注意：一般匹配出来的是列表），就到了上面所说的存数据的阶段了，这就完成了一个简单的爬虫！

当然了，在我们具体写代码的时候，会发现很多上面没有说到的内容，比如

获取源代码的时候遇到反爬，根本获取不到数据
有的网站需要登录后才可以拿到内容
遇到验证码
获取到内容后写入文件出错
怎样来设计循环，获取大批量的内容甚至整站爬虫

等等，这些我们慢慢来研究！

总之，学习本身是一个漫长的过程，我们需要不断的练习来增强我们的学习兴趣，以及学到更扎实的知识！大家加油！

微信关注我们

原文链接：https://yq.aliyun.com/articles/639545

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

c# windows程序调用本地输入法

原文: c# windows程序调用本地输入法好久没写博客了，今天写了一个DEMO,在WINform程序中调用本地输入法，并在窗体中显示出来。其中使用到了很多API,现把代码贴出来，供大家参考 private string _CurrentImeHandleStr = ""; public delegate bool EnumResNameProc(IntPtr hModule, IntPtr nType, StringBuilder sName, IntPtr lParam); System.ComponentModel.ComponentResourceManager resources = new ComponentResourceManager(typeof(Form17)); public Form17() { InitializeComponent(); } #region API定义 private static readonly int BTN_HEIGHT = 21; private static readonly int IMAGE_ICON = 1; priv...

2018-06-13

666

1 工具篇反编译和回编用到的一些工具： apktool是解包APK 文件最常用的工具 keytool是一个Java数据证书的管理工具 jarsigner是JDK提供的针对jar包签名的通用工具 apksigner是Google官方提供的针对Android apk签名及验证的专用工具 zipalign是对zip包对齐的工具，使APK包内未压缩的数据有序排列对齐,从而减少APP运行时内存消耗 2 调试包回编操作通过apktool d xxx.apk得到反编译后smali文件和manifest文件，进行修改后，利用apktool build命令进行重新打包。 2.1 apktool编译时错误资源文件找不到： \res\values-v19\styles.xml:11: error: Error: No resource found that matches the given name: attr 'android:actionModeFindDrawable'. \res\values-v19\styles.xml:10: error: Error: No resource foun...

2018-06-13

751

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。