手把手教学 Android用jsoup解析html
1.jsoup介绍,文档http://www.open-open.com/jsoup/
很多时候,我们需要从各种网页上面抓取数据,而jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup官方文档:
https://jsoup.org/cookbook/
中文文档:
http://www.open-open.com/jsoup/
2.使用场景
下面是一张关于美食的截图,可以留意到这是一个html网页,当我们想要抓取里面的数据的时候,jsoup就能帮到我们很多。
接下来开始手把手教学
-
首先,也是很重要的一步,就是下载jar包,丢到libs里面
jar包下载地址:
http://jsoup.org/download -
Android studio玩家可以不下载jar包,在Gradle里面加入
dependencies { compile 'org.jsoup:jsoup:1.9.2' }
-
然后,找到你心仪的网页去抓取数据
这里我们我继续使用美食的网页,然后右键查看网页源码,或者按F12,接下来可以看到一大堆标签:
找到需要的,例如上图这个 “美食天下” ,可以看到 “美食天下” 是放在以 <div class="top-bar" id="J_top_bar"> 为节点的 <a title="美食天下" 中,要获取这个“美食天下”,代码可以这样写:
try { //从一个URL加载一个Document对象。 Document doc = Jsoup.connect("http://home.meishichina.com/show-top-type-recipe.html").get(); //选择“美食天下”所在节点 Elements elements = doc.select("div.top-bar"); //打印 <a>标签里面的title Log.i("mytag",elements.select("a").attr("title")); }catch(Exception e) { Log.i("mytag", e.toString()); }
接下来看一下打印出来的结果:
Jsoup.connect(String url)方法从一个URL加载一个Document对象。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。
一旦拥有了一个Document,你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。
public class Element extends Node public class Document extends Element
很多文章都是说一大堆原理然后放出一个简单的例子,就跟我上面简单的打了一个log一样,然后发现用起来的时候是没那么简单的。为了大家能不看文档也可以直接使用(并且看不懂那一大堆标签也可以用),我决定再举一个例子(其实也就是比上面多打几个log):
下图红色框框是我们要获取的数据,可以看到他们对应的节点就是蓝色圆圈里面的<div class="xxx">
废话不多说上代码
try { //还是一样先从一个URL加载一个Document对象。 Document doc = Jsoup.connect("http://home.meishichina.com/show-top-type-recipe.html").get(); //“椒麻鸡”和它对应的图片都在<div class="pic">中 Elements titleAndPic = doc.select("div.pic"); //使用Element.select(String selector)查找元素,使用Node.attr(String key)方法取得一个属性的值 Log.i("mytag", "title:" + titleAndPic.get(1).select("a").attr("title") + "pic:" + titleAndPic.get(1).select("a").select("img").attr("data-src")); //所需链接在<div class="detail">中的<a>标签里面 Elements url = doc.select("div.detail").select("a"); Log.i("mytag", "url:" + url.get(i).attr("href")); //原料在<p class="subcontent">中 Elements burden = doc.select("p.subcontent"); //对于一个元素中的文本,可以使用Element.text()方法 Log.i("mytag", "burden:" + burden.get(1).text()); }catch(Exception e) { Log.i("mytag", e.toString()); }
大功告成,接下来看看log
没有问题!那么教学可以结束了!
注意:
Jsoup.connect(String url)方法不能运行在主线程,否则会报NetworkOnMainThreadException
最后上一张应用在项目的效果图:
有没有发现熟悉的椒麻鸡?很酷炫有木有!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Appium Android Driver 简单修改
【注】文中提起的 Appium 版本為 v1.6.5 对 Appium Driver 进行简单的修改,并更新方式如下: 修改 appium-android-driver 中文件,比如去掉对 app 依赖的错误日志 $ vim appium-android-driver/lib/driver.js 具体修改如下: diff --git a/lib/driver.js b/lib/driver.js index 2e60375..fbe2035 100644 --- a/lib/driver.js +++ b/lib/driver.js @@ -444,7 +444,8 @@ class AndroidDriver extends BaseDriver { if ((!caps.browserName || !helpers.isChromeBrowser(caps.browserName)) && !caps.app && !caps.appPackage) { let msg = 'The desired capabilities must includ...
- 下一篇
Android 事件分发机制详解
TouchEvent 事件分发机制算作是 Android 开发中很重要的知识点了,以前一直对这个传递过程有点模糊,现在来仔细研究下这整个过程 一、概念解释 触摸事件对应的是 MotionEvent 类,触摸事件的类型分为如下三种: Action_Down :用户手指的按下操作,标志着一次触摸事件的开始 Action_Move:用户手指按压屏幕后,在松开手指之前如果移动距离超出一定的阈值,则发生了Action _ Move 事件 Action_Up:用户手指离开屏幕时触发的操作,标志着当前触摸事件的结束 在一次屏幕触摸操作中,Action_Down 和 Action_Up 这两个事件是必需的,Action_Move 事件则视情况而定 通过 MotionEvent 对象可以得到点击事件发生的 x 和 y 坐标。系统提供了两组方法: getX / getY 和 getRawX / getRawY 。两组方法之间的区别在于:getX / getY 返回的是相对于当前 View 左上角的 x 和 y 坐标,而 getRawX / getRawY 返回的是相对于手机屏幕左上角的 x 和 y 坐标 ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS6,CentOS7官方镜像安装Oracle11G
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装