Web 爬虫 Apache Nutch 1.16 发布
Apache Nutch 1.16 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。
此版本包含 100 多个错误修复和改进,主要更新内容如下:
新特性
- [NUTCH-2676] - 更新至最新的 selenium,并添加代码以通过远程 Web 驱动程序使用 chrome 和 firefox 无头模式
Bug 修复
- [NUTCH-1063] - OutlinkExtractor 测试会生成异常,但不会失败
- [NUTCH-1842] - crawl.gen.delay 在 nutch-default.xml 中具有错误的默认值,或者被错误地解析
- [NUTCH-2279] - 使用 Hadoop MR 输出压缩时 LinkRank 失败
- [NUTCH-2381] - 在某些情况下,类 TextProfileSignature 为同一文本“配置文件”页面提供不同的签名
- [NUTCH-2387] - Nutch 不应使用 “noindex” 元索引文件
- [NUTCH-2457] - Tika 可能无法正确解析嵌入的文档
- [NUTCH-2475] - If 和 else-if 分支的条件相同
- [NUTCH-2482] - index-geoip 不向文档字段添加空值
- [NUTCH-2585] - TrieStringMatcher 中的 NPE
- [NUTCH-2598] - URLNormalizerChecker 在输入中的无效 URL 上失败
- ……
详情见更新说明。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Boostnote 0.13.0 发布,跨平台 Markdown 编辑器
Boostnote 0.13.0已经发布了,该版本内容有: 添加对 plantUML Mindmap、WBS、Gantt 的支持 NPM‘test’脚本包含 JEST 测试 添加使用热键组合排序行的能力 修复了对多个实例抛出异常的问题 在查看标签列表时向侧边栏添加侧边栏折叠按钮 修复:无法在带有“#”的外部链接的 Markdown 预览中打开外部浏览器 添加选项,以禁用自动删除未引用的附件 更新中文翻译 修复无法滚动到编辑器窗格的底部 添加 CodeEditor::setLineContent 方法来操作行内容 修复设置 HotKey 后应用程序空白的问题 修复 PDF 导出后的 XSS错误 如果“switch preview”未设置为“on right click”,则仅显示上下文菜单 路径名匹配中更严格的正则化模式 优化:突出显示任何非空的搜索查询 支持自动生成[TOC]标记的 toc 内容 调整 Markdown 预览样式优化溢出滚动条显示 发布说明
- 下一篇
A-Keyboard v1.0.0-alpha 发布,JS 虚拟键盘插件
A-Keyboard A-Keyboard是一个小型的 JavaScript 虚拟键盘。 访问 A-Keyboard Github Demo 网站查看在线键盘、数字键盘Demo。 图片 Default: Classic: Dark: GrassGreen: Default数字键盘: Classic数字键盘: Dark数字键盘: GrassGreen数字键盘: 安装 首先导入 CSS 文件: <link rel="stylesheet" href="css/index.css"> 你也可以使用 CDN: <link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/akeyboard@version/css/index.css"> 之后你需要导入 JS 文件: 使用<script>引入 <script src="index.js"></script> CDN <script src="https://cdn.jsdelivr.net/npm/akeybo...
相关文章
文章评论
共有0条评论来说两句吧...