24、Python快速开发分布式搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
【百度云搜索:http://www.lqkweb.com】 【搜网盘:http://www.swpan.cn】 1、基本概念 2、反爬虫的目的 3、爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图
mica-http 是 okhttp 的封装,Fluent 语法的 http 工具包,语法参考 HttpClient Fluent API。
<dependency>
<groupId>net.dreamlu</groupId>
<artifactId>mica-http</artifactId>
<version>${version}</version>
</dependency>
compile("net.dreamlu:mica-http:${version}")
HttpRequest.setGlobalLog(LogLevel.BODY);
HttpRequest.get("https://www.baidu.com")
.log(LogLevel.BASIC) //设定本次的日志级别,优先于全局
.addHeader("x-account-id", "mica001") // 添加 header
.addCookie(new Cookie.Builder() // 添加 cookie
.name("sid")
.value("mica_user_001")
.build()
)
.query("q", "mica") //设置 url 参数,默认进行 url encode
.queryEncoded("name", "encodedValue")
.formBuilder() // 表单构造器,同类 multipartFormBuilder 文件上传表单
.add("id", 123123) // 表单参数
.execute() // 发起请求
.asJsonNode(); // 结果集转换,注:如果网络异常等会直接抛出异常。
// 同类的方法有 asString、asBytes、asStream
// json 类响应:asJsonNode、asValue、asList、asMap,采用 jackson 处理
// xml、html响应:asDocument,asDomValue、asDomList采用的 jsoup 处理
// file 文件:toFile
String html = HttpRequest.post("https://www.baidu.com")
.execute()
.onFailed((request, e) -> {// 网络等异常情况的消费处理,可无
e.printStackTrace();
})
.onResponse(ResponseSpec::asString);// 处理响应,有网络异常等直接返回 null
String text = HttpRequest.patch("https://www.baidu.com")
.execute()
.onSuccess(ResponseSpec::asString);
// onSuccess http code in [200..300) 处理响应,有网络异常等直接返回 null
HttpRequest.delete("https://www.baidu.com")
.async() // 开启异步
.onFailed((request, e) -> { // 异常时的处理
e.printStackTrace();
})
.onResponse(responseSpec -> { // 消费响应, 注意:响应的流只能读一次
int httpCode = responseSpec.code();
})
.onSuccessful(responseSpec -> { // 消费响应成功 http code in [200..300)
// 注意:响应结果流只能读一次
JsonNode jsonNode = responseSpec.asJsonNode();
})
.execute(); // 异步最后发起请求
// 设置全局日志级别
HttpRequest.setGlobalLog(LogLevel.BODY);
// 直接用 jackson json path 语法
private String getUserEmail(String accessToken) {
return HttpRequest.get("https://api.linkedin.com/v2/emailAddress?q=members&projection=(elements*(handle~))")
.addHeader("Host", "api.linkedin.com")
.addHeader("Connection", "Keep-Alive")
.addHeader("Authorization", "Bearer " + accessToken)
.execute()
.asJsonNode()
.at("/elements/0/handle~0/emailAddress")
.asText();
}
// 异步
public static void test() {
HttpRequest.post("https://www.baidu.com/do-stuff")
.log(LogLevel.BASIC) // 日志级别
.formBuilder() // 表单构造器
.add("a", "b")
.async() // 使用异步
.onSuccessful(System.out::println) // 异步成功时的函数
.onFailed((request, e) -> { // 异步失败,可无
e.printStackTrace();
})
.execute();
}
HttpRequest.setGlobalLog(LogLevel.BODY);
// 同步,异常时 返回 null
String html = HttpRequest.get("www.baidu.com")
.connectTimeout(Duration.ofSeconds(1000))
.query("test", "a")
.query("name", "張三")
.query("x", 1)
.query("abd", Base64Util.encode("123&$#%"))
.queryEncoded("abc", Base64Util.encode("123&$#%"))
.execute()
.onFailed(((request, e) -> {
e.printStackTrace();
}))
.onSuccess(ResponseSpec::asString);
System.out.println(html);
// 同步调用,返回 Optional,异常时返回 Optional.empty()
Optional<String> opt = HttpRequest.post(URI.create("https://www.baidu.com"))
.bodyString("Important stuff")
.formBuilder()
.add("a", "b")
.execute()
.onSuccessOpt(ResponseSpec::asString);
// 同步,成功时消费(处理) response
HttpRequest.post("https://www.baidu.com/some-form")
.addHeader("X-Custom-header", "stuff")
.execute()
.onSuccessful(responseSpec -> {
String text = responseSpec.asString();
System.out.println(text);
});
// 同步,异常时直接抛出
HttpRequest.get("https://www.baidu.com/some-form")
.execute()
.asString();
// async,异步执行结果,失败时打印堆栈
HttpRequest.get("https://www.baidu.com/some-form")
.async()
.onSuccessful(System.out::println)
.onFailed((request, e) -> {
e.printStackTrace();
})
.execute();
mica 工具集:https://gitee.com/596392912/mica pig 宇宙最强微服务(架构师必备):https://gitee.com/log4j/pig SpringBlade 完整的线上解决方案(企业开发必备):https://gitee.com/smallc/SpringBlade
微信关注我们
转载内容版权归作者及来源网站所有!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。
马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。
为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。
Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。