Java调用Python爬虫
用java调用python的爬虫程序,是一件很有意思的事情, 但解决方法大多不靠谱,作者花了两天的时间,动手实践,最终完全解决了问题
java-python
Java调用Python爬虫需要解决的问题:
参数传递问题
由python脚本通过,
sys.argv[1]
读取参数
依赖包的问题
用virtualenv构建虚拟环境,在虚拟环境安装所有相关依赖包, 用虚拟环境内的python解释器去执行python脚本, 可以完美解决依赖包问题
java与python数据传递
python脚本负责将爬取的内容保存为文件, 文件保存完成后, 由java程序读取文档内容
import java.io.IOException;
import java.io.File;
public class BPython {
public static void main(String[] args) {
// 获取当前路径
File directory = new File("");//设定为当前文件夹
String dirPath = directory.getAbsolutePath();//获取绝对路径
Process proc;
try {
// python解释器路径
String pyPath = "/Users/lijianzhao/.virtualenvs/py3/bin/python3";
// python脚本文件路径
String pyFilePath = dirPath+ "/bdindex.py";
System.out.println(pyFilePath);
// 传给python的参数
String argv1 = "一人之下";
proc = Runtime.getRuntime().exec(pyPath + " "+ pyFilePath + " " +argv1);
proc.waitFor();
} catch (IOException e) {
e.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
# coding=utf-8
import requests
from lxml import etree
import os
import sys
def getData(wd):
# 设置用户代理头
headers = {
# 设置用户代理头(为狼披上羊皮)
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
}
# 构造目标网址
target_url = "https://www.baidu.com/s?wd="+str(wd)
# 获取响应
data = requests.get(target_url, headers = headers)
# xpath格式化
data_etree = etree.HTML(data.content)
# 提取数据列表
content_list = data_etree.xpath('//div[@id="content_left"]/div[contains(@class, "result c-container")]')
# 定义返回的字符串
result = ""
# 获取标题, 内容, 链接
for content in content_list:
result_title = "<标题> "
bd_title = content.xpath('.//h3/a')
for bd_t in bd_title:
result_title += bd_t.xpath('string(.)')
result_content = "<内容>"
bd_content = content.xpath('.//div[@class="c-abstract"]')
for bd_c in bd_content:
result_content += bd_c.xpath('string(.)')
try:
result_link = "<链接>"+str(list(content.xpath('.//div[@class="f13"]/a[@class="c-showurl"]/@href'))[0])
except:
result_link = "<链接>: 空"
result_list = [result_title, "\n" , result_content , "\n", result_link]
for result_l in result_list:
result += str(result_l)
return result
# 保存为文件
def saveDataToFile(file_name, data):
# 建立文件夹
if os.path.exists("./data/"):
pass
else:
os.makedirs("./data/")
with open("./data/"+file_name+".txt", "wb+") as f:
f.write(data.encode())
def main():
wd = ""
print(wd)
try:
wd = sys.argv[1]
except:
pass
if (len(wd) == 0):
wd = "Hello"
str_data = getData(wd)
saveDataToFile(wd, str_data)
print("end")
if __name__ == '__main__':
main()
小结
python可能是最好用的爬虫语言, 以后遇到采集数据的需求时, 可以用java直接调用python的爬虫, 人生苦短, 我用python

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
java学习笔记--增强for循环
什么是增强for循环? 原来的for循环是这样子的: for(int i=0;i<10;i++) 那我们来看一下增强for循环: for(object a:x)//不只是object 数组存储的是什么类型的就填什么类型 x是数组或者集合 里面是Interator迭代器实现的 注意:遍历的时候不能用集合增删元素 只能通过迭代器进行操作 因为迭代器创建的时候会创建一个单链表 如果是通过集合来操作元素数量的话那么 实际的数量是变化了 可是迭代器创建的那个单链表却还是原来的样子 这样子 迭代器往下遍历的时候 就找不到实际的值 重点: 增强for循环的适用范围: 如果是实现了Iterable接口的对象或者是数组对象(包括int)都可以使用增强for循环。 //注意: Map集合没有实现Iterable接口,所以map集合不能直接使用增强for循环,如果需要使用增强for循环需要借助于Collection // 的集合。 HashMap<String, String> map = new HashMap<String, String>(); map.put("001"...
-
下一篇
给迷茫的JAVA员一些中肯建议,不然你就废了,快速成为架构师
最近好多人私信问我,该怎样才能成为高薪架构师,还有一个就对当前的状态感到迷茫。我在此做一个简单的说明,或者对迷茫中的你来说有些许帮助。 当前你感到迷茫吗? 有很多人对现在的工作感到很没意思,因为当前的工作,完全是实现业务,技术上没有任何提高。在这种状态下就会感到迷茫,特别是一想到将来这种迷茫感就更强烈了。 与其说迷茫还不如说是担忧,随着时间的推移,自己的技术又没有长进,所以感觉忧心忡忡。 这里分为二种人: *混日子,过一天算一天 这一种的我就不过多讨论了,没有意义。我也碰到过很多这样的同事,此类程序员已经废啦。 *想提高自己的技术,往架构师方向努力。 给我发私信的人,大部分是这一种。首先,可以看出来,这些人都是有自己理想的人,也会付诸实践的。想往架构师方向走,但是却苦于没有人带,自己也不知道如何成为框架师。再不改变,此类程序员可能会也废。 我想借这个文章和大家聊聊架构师这个话题,纯属个人理解,与对错无忧。 架构师的定义? 个人觉得架构师需要具有以下几特点: 知识广度:需要知道主流技术为什么诞生,能解决什么问题?如果同一种业务用不用的技术来实现,会有什么哪些优缺点?比如:流行的ORM框架...
相关文章
文章评论
共有0条评论来说两句吧...