您现在的位置是:首页 > 文章详情

java写爬虫获取京东售价

日期:2018-09-19点击:417

在互联网这个圈子,每每说起爬虫,大家总是会说起python , 但是除了python , 我们用Java也是可以完成的。最近生活比较拮据,买东西总想买凑一波打折,在现在生活中, 我们可以一家超市一家超市的跑, 然后看哪家最便宜,但习惯网购的我们,可能更多的会选择打开淘宝或者京东看看。但并不是每次都凑巧想要的东西都在打折,那我们就会不停的去刷新页面,看看有没有打折,有没有降价。

如以前几篇文章所说,人力能在电脑上完成的,计算机也一定可以帮我们完成。今天就来试一下,用java程序来帮我们进行价格的监控。

思路:

我们是通过打开浏览器,然后输入京东的官网,找到自己想要的东西,然后看价格。发现不是自己想要的价格就先放那,过段时间再来刷新一次。

那用程序来做也是这么一个思路。 打开京东的网址,然后去找到价格,看看是不是我们想要的价格。

技术选型:承接上文的maven项目,我们用Jdk10自带的HttpClient去模拟浏览器的请求。用jsoup去分析html页面(需要引入jsoup的pom依赖)。

在页面上人工获取价格的方式如下图所示:

img_d4440069641e4b79f2ab7c24d4954419.png
image.png

在pom.xml的 dependencies节点下添加:

<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency> 

jdk10 HttpClient相关用法参考:

<u>https://developer.oracle.com/java/jdk-http-client</u>

实现代码如下:

public static void main(String[] args) { //我们想监控价格的商品url String url = "https://item.m.jd.com/product/5444550.html"; HttpClient client = HttpClient.newHttpClient(); //构造我们的请求 HttpRequest request = HttpRequest.newBuilder() .uri(URI.create(url)) .build(); try { HttpResponse<byte[]> response = client.send(request, BodyHandler.asByteArray()); byte[] responseStr = response.body(); //对返回值进行解码 String str = new String(responseStr,"gbk"); //对页面的Html转换成java对象 Document doc = Jsoup.parse(str); //通过id获取到对应的元素 Elements eles =doc.select("#priceSale"); String text = eles.get(0).text(); //输出元素的值,即我们想要的价格 System.out.println(text); } catch (Exception e) { e.printStackTrace(); } } 

注:因为使用到jdk10的实验室功能httpclient,所以需要在启动时加上jvm参数:

--add-modules=jdk.incubator.httpclient

程序的输出结果:

img_492831b1177c907998d535c3f474328a.png
image.png

有兴趣的小伙伴可以自己试一试,以此程序为蓝本,可以扩展成一个全网比价的小程序,就可以便宜的买买买啦

欢迎大家关注公众号:java技术大本营, 质量内容号,专心写好每一篇技术文。欢迎留言一起讨论


img_cc95e3aa55556fd0456938998a78dee8.jpe
qrcode_for_gh_cb04da16e26d_258.jpg
原文链接:https://yq.aliyun.com/articles/646634
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章