(ElasticsSearch学习)歌词检索Demo的实现:一. 爬取歌词信息,写入ES
1.说明
- 爬虫采用Java的Jsoup
- ElasticSearch请在阿里云官网购买,采用客户端x-pack-transport
- 歌词网站来源:http://www.kuwo.cn/artist/index
2. 歌词网站分析
此处采用了比较笨的一种方式,即逐个分析每个请求的url,这样可以方便代码编写,就不用模拟器了(如需使用模拟器可参考使用cdp4j模拟点击事件等,但简单试了下不是很好用,且效率低)
a) 歌手获取分析
在http://www.kuwo.cn/artist/index 查看分页按钮的click事件,从js中找到分页请求的url
从click事件的artist.js中找到相关url如下图所示
其中pn参数即为页码参数
var b = host + "/artist/indexAjax?category=" + index + "&a

