您现在的位置是:首页 > 文章详情

jsoup 1.16.1 发布,Java HTML 解析器

日期:2023-05-05点击:402

jsoup 1.16.1 现已发布。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。

下载地址:https://jsoup.org/download

具体更新内容包括:

Improvements

  • Jsoup.connect(String url)中,原生支持在路径或查询字符串中包含 Unicode 字符的 URL,而无需由调用者进行转义。#1914
  • 在没有父节点的节点上调用Node.remove()现在是不可行的,会出现验证错误。#1898

Bug Fixes

  • 使 HTML Tree Builder 对AfterBodyAfterAfterBody的处理步骤与更新的 WHATWG 标准保持一致,以不弹出堆栈以关闭<body><html>元素。这可以防止错误地</html>关闭前面的结构。在这种情况下还添加了适当的错误消息输出。#1851
  • 纠正对 ruby​​ 元素(<ruby><rp><rt><rtc>)的支持,以符合当前的规范。#1294
  • 使用Node.before(Node)Node.after(Node)时,如果传入节点是上下文节点的兄弟节点,则传入节点可能会插入到错误的相对位置。#1898
  • Jsoup.connect(String url)中,如果输入的 URL 中有已经被%转义的组件,它们将再次被转义,导致抓取时出错。#1902
  • 在跟踪输入源位置时,被培养的表格中的文本具有无效位置。#1927
  • 如果Document.OutputSettings类被初始化,然后Entities.escape(String)被调用,则可能会由于类加载循环依赖而抛出 NPE。#1910
  • 在 pretty-printing 时,如果一个块中的第一个内联ElementComment前面有一个空白文本节点,它就不会被 wrap-indented。​​​​​​​#1906
  • 在 pretty-printing 一个包含 block tags <pre>时,这些 tags 缩进不正确。#1891
  • 当 pretty-printing 嵌套的可内联块(例如<td>中的<p>)时,内部元素应该缩进。#1926
  • <br>tags 在 block tags 中时应该 wrap-indented(而在 inline tags 中时则不需要)。#1911
  • 足够大的<textarea>的内容和未转义的 HTML closing tags 可能会被错误地解析为一个空节点。#1929

更新说明:https://github.com/jhy/jsoup/releases/tag/jsoup-1.16.1

原文链接:https://www.oschina.net/news/239650/jsoup-1-16-1-released
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章