易车网实战+【保姆级】：Feapder爬虫框架入门教程-低调大师

易车网实战+【保姆级】：Feapder爬虫框架入门教程

2021-07-06 1021

今天辰哥带大家来看看一个爬虫框架：**Feapder**，看完本文之后，别再说你不会Feapder了。本文辰哥将带你了解什么是Feapder？、如何去创建一个Feapder入门项目（实战：采集易车网轿车数据）。其中实战部分包括**爬虫数据和存储到Mysql数据库**，让大家能够感受一下，数据从网页经框架Feapder采集后，直接存储到数据库的过程。之前我们已经用了Scrapy爬虫框架来爬取数据([以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』](http://mp.weixin.qq.com/s?__biz=MzU5NjM4MDY1Mw==&mid=2247486273&idx=1&sn=1cff5390f0e6482153977deff9f4d7e1&chksm=fe62d5c3c9155cd5ec50ee7a9e7e0dbeea835c06f4881980216c6f13b3b5b8d38e2e1ac7f48a&scene=21#wechat_redirect))，今天来试试使用Feapder写爬虫是**一种怎么样的体验**，**请往下看！！！！！** # 01、Feapder框架 ### 1.Feapder框架介绍 Feapder 是一款上手简单、功能强大、快速、轻量级的爬虫框架的Python爬虫框架。支持轻量爬虫、分布式爬虫、批次爬虫、爬虫集成，以及完善的爬虫报警机制。具体feapder项目结构每一块的功能是什么？怎么样用？接着往下看，下面的实战中有详细的讲解。 ### 2.Feapder的安装 feapder的安装很简单，通过下面的命令安装即可！ ``` pip install feapder ``` 出现下面的界面说明feapder成功安装！ ![](https://oscimg.oschina.net/oscnet/1051d0f2-bdf0-4bc5-b0e2-f0313963b47c.png) feapder的介绍和环境安装就完成了，下面开始真正去使用fepader来爬取易车网数据，并存储到mysql数据库。 # 02、实战 ### 1.新建feapder项目通过下方的命令去创建一个名为：**chenge\_yc\_spider**的的爬虫项目 ``` feapder create -p chenge_yc_spider ``` ![](https://oscimg.oschina.net/oscnet/f390f7a3-6dfb-4f30-9f3e-94096695d6ee.png) 创建好之后，我们看一下项目结构 ![](https://oscimg.oschina.net/oscnet/4ce80de6-653f-4067-b194-9802b8889db8.png) ### 2.编写爬虫在终端中进入到项目（chenge\_yc\_spider）下的spiders文件夹下，通过下面的命令创建一个目标爬虫文件（target_spider） ``` feapder create -s target_spider ``` ![](https://oscimg.oschina.net/oscnet/231aba4f-074c-4b28-a1f7-f336f6128273.png) 此刻项目结构如下： ![](https://oscimg.oschina.net/oscnet/6b897349-a37d-482d-885c-97a21cc5c02a.png) 编辑**target_spider.py**文件 ![](https://oscimg.oschina.net/oscnet/e7962520-3d27-4e1e-b2cd-b9c71f175b65.png) 这里实战案例：采集易车网数据。直接执行这个py文件，先看一下请求有没有没问题。 ![](https://oscimg.oschina.net/oscnet/2b456ae7-1446-4c60-b858-ea0ba79ed147.png) 可以看到请求返回响应200，说明请求成功。下一步我们开始解析网页数据并设置爬虫框架自动采集下一页数据。 ### 3.解析网页网页结果（待采集的数据）如下： ![](https://oscimg.oschina.net/oscnet/866bbecd-b88e-43d1-ba7e-0ca764c9e3c4.png) 通过查看源代码，分析数据所对应的网页标签 ![](https://oscimg.oschina.net/oscnet/75db5721-dc87-41bc-8c3a-7d1c06c9370a.png) 通过网页源码可以分析，汽车列表数据都是在class为search-result-list下。每一个class为search-result-list-item表示一条数据，每一条数据下都有汽车对应的属性（如：汽车名称、价格等）这里仅作为实战案例去学习feapder爬虫框架，因此这里就只爬取汽车名称、价格；这两个字段属性。 ### 4.创建Mysql数据库采集的数据需要存储到数据库（mysql）中，因此我们先来定义好数据库和表 ![](https://oscimg.oschina.net/oscnet/b1d52810-e1e3-4929-bd96-bbd4660c6353.png) 这里辰哥创建了一个数据库：chenge_yc，并在里面建了应该表：t_yc，其表结构如上图，这里如果不不熟悉mysql如何建立数据库表的可以参考辰哥的这篇文章（[实战|教你用Python玩转Mysql](http://mp.weixin.qq.com/s?__biz=MzU5NjM4MDY1Mw==&mid=2247489794&idx=1&sn=5e04990e875970602f774fa6ff994952&chksm=fe62c780c9154e965758c6b316bd05b7c016f9fe5cac2021b54a04614e3b023aa64a21b01a60&scene=21#wechat_redirect)）在爬虫项目中配置数据库，打开根目录下的setting.py文件 ![](https://oscimg.oschina.net/oscnet/5987bb1c-a53a-42be-8407-638a263e4e69.png) 可以看到feapder支持多种数据库的对接，咱们这里使用的是mysql，其配置如下： ![](https://oscimg.oschina.net/oscnet/e7291044-6dcc-40f2-b837-0af2bc0bf7d1.png) 接着在终端下，进入到根目录下的items文件夹，执行下面命令**生成数据库表对于的item** ``` feapder create -i t_yc ``` ![](https://oscimg.oschina.net/oscnet/cbd8586e-57ef-4b10-93ff-533d3c32de3a.png) **请注意**：命令中的t_yc是对于数据库表中的t_yc ![](https://oscimg.oschina.net/oscnet/5b10eea3-cc25-4457-9b48-2bf277b1fd26.png) 最后生成 t\_yc\_item.py 文件： ![](https://oscimg.oschina.net/oscnet/2525fb2b-eaa7-4d58-90c3-e14ba39cca96.png) 里面的name和price则是对应数据库中的字段。 ### 5.提取网页字段上面已经获取到网页源码，也知道数据所在的标签，现在开始编写代码进行解析。 ![](https://oscimg.oschina.net/oscnet/67f273c4-bb2d-4c34-bef2-a38acee215f8.png) 执行结果： ![](https://oscimg.oschina.net/oscnet/9db89be6-54ed-43b9-ab59-8258dc3d2f17.png) 可以看到数据已经成功提出来，下一步将这些数据存储到数据库中。 ### 6.存储到数据库 ``` import feapder ``` 引入刚刚的 t\_yc\_item.py，并创建对象TycItem。把爬取的name和price初始化到对象中。最后yieId TycItem，实际上就直接存储到数据库了（因为数据库表和item是对应连接关系，这样就直接存储到数据库了）。这太方便了，连sql语句都省了，6666666666 执行结果如下： ![](https://oscimg.oschina.net/oscnet/3dabc702-87f5-4f67-aa6e-a6c29036833a.png) 查看数据库： ![](https://oscimg.oschina.net/oscnet/07b3c820-c75d-4889-8242-df287778ba98.png) 同样可以看到数据直接就存储到数据库中。大功告成！！！！！！ # 03、小结相信看到这里的你已经完完全全掌握了爬虫框架： **Feapder** ，你不仅知道了什么是feapder，同时还学会了如何使用feapder。此外实战部分包括 **爬虫数据和存储到Mysql数据库**，让大家能够感受一下，数据从网页经框架Feapder采集后，直接存储到数据库的过程。一定要 **动手尝试** **！** 一定要 **动手尝试** **！** 一定要 **动手尝试！**

微信关注我们

原文链接：https://blog.51cto.com/u_11949039/2993594

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

关于ArrayList的几大问题，看完还不懂来打我！

2 --> 前言 ArrayList是Java集合框架中比较常用的数据结构了。继承自AbstractList，实现了List接口。底层基于数组实现容量大小动态变化。一看就是一个比较重要的模块，所以我们今天就来学习一下ArrayList相关知识。 ArrayList的数据结构和作用 ArrayList数据结构是数组，用来装载数据。相对于LinkedList，查询效率高，因为底层是数组，分配的是连续的内存空间，CPU在读取时可以缓存连续的内存空间，大幅度降低读取的性能开销；增删效率低，相对于Vector来说是线程不安全。虽然ArrayList是线程不安全的，但在我们实际的应用过程中，一般都是用来查询，涉及到增删的操作比较少，如果涉及到的增删操作比较频繁的场景，我们可以选择LinkedList，如果想保证线程安全，可以使用Vector、CopyOrWriteArray。如何实现存放任意数量的对象 ArrayList构造器有无参构造和有参构造。在有参构造器中，ArrayList可以通过构造方法在初始化的时候进行指定底层数组的大小。但是我们在使用有参构造时，会不会初始化数组大小呢？我们先来...

2021-07-06

654

2 --> title: "kubernetes 安全机制" date: 2020-09-09T14:50:05+08:00 draft: false categories: [kubernetes] tags: [kubernetes] kubernetes 安全机制  授权策略 API server 的授权策略(通过API server的启动参数 “--authorization-node” 设置) AlwayDeny 表示拒绝所有请求，一般用于测试 AlwayAllow 允许接收所有请求，kubernetes 默认配置 ABAC(Attribute-Based Access Control): 基于属性的访问控制，定义了一种访问控制的范例，通过使用将属性组合在一起的策略，将访问权限授予用户。策略可以使用任何类型的属性(用户属性，资源属性，对象环境属性等) RBAC: Role-Based Access Control 基于角色的访问控制是一种企业内个人用户的角色来管理对计算机或网络资源的访问的方法。 Node: 一种专用模式，根据计...

2021-07-06

743

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。