Python——爬虫学习1-低调大师

Python——爬虫学习1

2018-05-09 666

爬虫了解一下

网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

Python的安装

本篇教程采用Python3 来写，所以你需要给你的电脑装上Python3才行。注意选择正确的版本，一般下载并且安装完成，pip也一起安装好了。

链接：https://pan.baidu.com/s/1xxM09dmiXjTIiqABsIZxTQ 密码：mjqc

安装过程就不在赘言。

python插件的安装

爬虫用到的插件可以通过强大的pip下载（一个用于下载插件的程序），位置在C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\Scripts\pip.exe

用到的插件包括lxml，beautifulsoup4，requests

按住win+r，输入cmd，安装插件的语法为：pip install 插件名称

运行cmd

安装requests

输入pip install requests

安装beautifulsoup4

输入pip install beautifulsoup4

安装lxml

输入pip install lxml

注意：pip安装的插件的位置在C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\Lib\site-packages

正式编程工作

新建一个.py文件，输入代码如下：

#!/usr/bin/env python3
#-*- coding:utf-8 -*-

import requests #导入requests
from bs4 import BeautifulSoup #导入bs4中的BeautifulSoup
import os #导入os

#浏览器的请求头（大部分网站没有这个请求头会报错，请务必加上）
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1'}
all_url = 'http://www.mzitu.com/all' #开始的URL地址

##使用requests中的get方法来获取all_url的内容 ，headers为上面设置的请求头，请参考requests的文档
start_html = requests.get(all_url, headers=headers)
##打印出start_html（请注意，打印网页内容请使用text，concent是二进制的数据，一般用于下载图片，视频，音频等多媒体内容时才使用）
print(start_html.text)

运行一下就会得到网页的内容了，嘻嘻(*^__^*) 嘻嘻

微信关注我们

原文链接：https://yq.aliyun.com/articles/643725

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Java集合详解3：Iterator，fail-fast机制与比较器

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/80275510 微信公众号【Java技术江湖】一位阿里 Java 工程师的技术小站。（关注公众号后回复”Java“即可领取 Java基础、进阶、项目和架构师等免费学习资料，更有数据库、分布式、微服务等热门技术学习视频，内容丰富，兼顾原理和实践，另外也将赠送作者原创的Java学习指南、Java程序员面试指南等干货资源）今天我们来探索一下LIterator，fail-fast机制与比较器的源码。具体代码在我的GitHub中可以找到 https://github.com/h2pl/MyTech 喜欢的话麻烦star一下哈文章首发于我的个人博客： https://h2pl.github.io/2018/05/9/collection3 更多关于Java后端学习的内容请到我的CSDN博客上查看：https://blog.csdn.net/a724888 我的个人博客主要发原创文章，也欢迎浏览 https://h2pl.github.io/ ...

2018-05-10

543

1.简介在分析完AbstractQueuedSynchronizer（以下简称 AQS）和ReentrantLock的原理后，本文将分析 java.util.concurrent 包下的两个线程同步组件CountDownLatch和CyclicBarrier。这两个同步组件比较常用，也经常被放在一起对比。通过分析这两个同步组件，可使我们对 Java 线程间协同有更深入的了解。同时通过分析其原理，也可使我们做到知其然，并知其所以然。这里首先来介绍一下 CountDownLatch 的用途，CountDownLatch 允许一个或一组线程等待其他线程完成后再恢复运行。线程可通过调用await方法进入等待状态，在其他线程调用countDown方法将计数器减为0后，处于等待状态的线程即可恢复运行。CyclicBarrier （可循环使用的屏障）则与此不同，CyclicBarrier 允许一组线程到达屏障后阻塞住，直到最后一个线程进入到达屏障，所有线程才恢复运行。它们之间主要的区别在于唤醒等待线程的时机。CountDownLatch 是在计数器减为0后，唤醒等待线程。CyclicBarrie...

2018-05-11

490

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。