基于java的分布式爬虫-低调大师

基于java的分布式爬虫

2017-07-31 613

分类

分布式网络爬虫包含多个爬虫，每个爬虫需要完成的任务和单个的爬行器类似，它们从互联网上下载网页，并把网页保存在本地的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务，可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中，或者分散在不同的地理位置。

根据爬虫的分散程度不同，可以把分布式爬行器分成以下两大类：

1、基于局域网分布式网络爬虫：这种分布式爬行器的所有爬虫在同一个局域网里运行，通过高速的网络连接相互通信。这些爬虫通过同一个网络去访问外部互联网，下载网页，所有的网络负载都集中在他们所在的那个局域网的出口上。由于局域网的带宽较高，爬虫之间的通信的效率能够得到保证；但是网络出口的总带宽上限是固定的，爬虫的数量会受到局域网出口带宽的限制。

2、基于广域网分布式网络爬虫：当并行爬行器的爬虫分别运行在不同地理位置（或网络位置），我们称这种并行爬行器为分布式爬行器。例如，分布式爬行器的爬虫可能位于中国，日本，和美国，分别负责下载这三地的网页；或者位于CHINANET，CERNET，CEINET，分别负责下载这三个网络的中的网页。分布式爬行器的优势在于可以子在一定程度上分散网络流量，减小网络出口的负载。如果爬虫分布在不同的地理位置（或网络位置），需要间隔多长时间进行一次相互通信就成为了一个值得考虑的问题。爬虫之间的通讯带宽可能是有限的，通常需要通过互联网进行通信。

大型分布式网络爬虫体系结构图

分布式网络爬虫是一项十分复杂系统。需要考虑很多方面因素。性能可以说是它这重要的指标。当然硬件层面的资源也是必须的。

架构

下面是项目的总体架构，第一个版本基于此方案来做。

上面的web层包括：控制台、基本权限、监控展示等，还可以根据需要再一步进行扩展。

核心层由控制者统一调度，将任务发给工人队列中的工人进行爬取操作。各个结点动态的向监控模块发送模块状态等信息，统一由展示层展示。

项目目标

众推，开源版的今日头条！

基于hadoop思维的分布式网络爬虫。

目前已经将fourinone、jeesite、webmagic整合进来，并且进一步进行改进。想最终做成一个基于设计器的动态可配置的分布式爬虫系统，这个是第一阶段的目标。

项目目前情况

目前项目进展情况：

1、sourceer，可以接入多种数据源，接口已经定义（加入builder封装，可以使用简单爬虫）。

2、web架构工程（web工程上传并测试成功，权限、基础框架改造，导入等已经录成视频，删除activiti，删除cms部分）。

3、分布式框架研究（分布式项目分包，添加部分注释，测试单机单工人爬取）。

4、插件化整合。

5、文章等各种去重方式及算法（目前已实现bloomfilter，指纹算法去重，已经实现simhash，分词算法（ansj））。

6、分类器测试（bayes，文本分类单机测试成功）。

来源：51CTO

微信关注我们

原文链接：https://yq.aliyun.com/articles/201840

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Node.js对于Java开发者而言是什么？

我们都知道Node.js现在得到了所有的关注。每个人都对学习Node.js感兴趣，并希望可以工作于Node.js。在开始工作之前了解技术背后的概念总是不会错的。但对初学者来说，可能会因为不同的人使用的不同定义而晕头转向。Node.js究竟是什么?它是新的语言还是新的框架，是新的工具抑或只是一个简单的JavaScript文件?即使对于有经验的Java开发人员来说，也很难快速了解Node.js。因此，在本文中，我将尝试为Java开发人员诠释Node.js。运行时环境我们知道Java需要一个称为JRE的运行时环境来运行Java程序。JRE有一个称为Java Virtual Machine(JVM)的虚拟机。JVM有许多组件，如垃圾回收器(GC)，即时(JIT)编译器，解释器，类装载器，线程管理器，异常处理器，用于在不同时间执行不同的任务。除了JVM之外，JRE还有一系列的库(例如，rt.jar)来帮助运行时的Java程序。我们有单独的JRE用于不同的平台，如Windows，Macintosh和Linux，以及还有JVM。好吧，就试着记住如何编译和执行一个Java程序。我们有源代码(....

2017-07-31

573

有时候我们说，“实现这个功能，我只花了几个小时”。但是完成之后，我们发现每隔几周，我们要么在修复该功能的bug、向另一个工程师解释，要么做客服回答问题、以解释其工作原理。维护该功能总的投入时间要远远超过最初开发的几个小时。软件开发中内化的最艰难教训之一就是额外复杂度所带来的隐形成本。有时候，复杂度在问题领域只是固有的。为了匹配乘客和司机，通过调整价格来平衡供求是一个复杂和痛苦的问题。因此，在扩大一个社区和维护社区质量的时候，把问题和答案疏通到喜欢回答和看问题的人们那里，也是如此。或者像是开发一个兼容所有设备的富文档编辑器以支持实时协作。这是固有的复杂度，我们需要根据产品做出调整以取得成功。但是其它时候，和我们较劲的复杂度恰恰是我们自己产生的复杂度。我们用新编程语言写代码，很少人了解它，现在我们不得不维护它。或者我们增加了额外的基础架构，因为我们尝试从Hacker News看到的、热门新技术，但是它失败了，这是我们当初没有想到的。或者我们引入了一个很少人使用的功能，但是修复和bug报告就花掉了极不对称的大把时间。额外的复杂度暴露了很多隐形成本。在开发软件时，我们所做的决定不只是决定...

2017-07-31

745

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。