关于爬虫，首篇

2018-07-01 741

补充基础知识

爬虫，毋庸置疑就是爬去互联网的网页，理论上，只要是互联网中存在的web页面，都可以爬取。用来做数据采集非常合适，尤其是现在大数据领域，爬虫必不可少。

爬虫种类有很多，了解概念可以参考百度百科

这里采用Java语言做爬虫，没有什么特别的原因，第一我用Java多，第二Java效率也挺好，第三我们的很多项目都Java的，做互相集成非常方便。当然pyhton的很多爬虫也很优秀。

爬虫框架：

java的爬虫也很多，我选了一个简单易用，方便扩展，完全开源的爬虫为基础来修改。

壁虎：https://github.com/xtuhcy/gecco

爬虫原理

爬虫无非就是模拟浏览器和一些人们操作浏览器的动作，自动的访问网站，下载网页，然后抽取有用的网页内容，当采集的数据量达到一定数量级时，便会产生非常壮观或有价值的效果。麻烦的地方就在于很多网站有登陆、验证码、ajax、js等等技术防止你进行数据爬取。

使用爬虫基础要求：
1.了解网络基础，了解从浏览器输入网址到看到数据经历了什么，整个过程是什么。
2.可以分析web网页，可以抓包。开发过网页前端的具有css基础的即可。
3.Java语言
4.常用的一些Java框架，Spring，HttpClient，FastJson，HtmlUnit等等
5.一般一个2-3年经验的开发者，可以几个小时就能上手一个爬虫，熟练几天便可使用的游刃有余。

废话不多说，开始

分析Gecco框架，并简单改进

从今天开始，准备做一个爬虫，最简单的方式，找一个合适的开源的项目为基础，进行修改。我选了Gecco。
代码： https://github.com/xtuhcy/gecco
文档：http://www.geccocrawler.com/

先跑起来

maven引入

<!-- https://mvnrepository.com/artifact/com.geccocrawler/gecco -->
<dependency>
    <groupId>com.geccocrawler</groupId>
    <artifactId>gecco</artifactId>
    <version>1.3.0</version>
</dependency>

微信关注我们

原文链接：https://yq.aliyun.com/articles/659436

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

机器学习实战之线性回归

线性回归原理与推导如图所示，这时一组二维的数据，我们先想想如何通过一条直线较好的拟合这些散点了？直白的说：尽量让拟合的直线穿过这些散点（这些点离拟合直线很近）。目标函数要使这些点离拟合直线很近，我们需要用数学公式来表示。首先，我们要求的直线公式为：Y = XTw。我们这里要求的就是这个w向量（类似于logistic回归）。误差最小，也就是预测值y和真实值的y的差值小，我们这里采用平方误差：求解我们所需要做的就是让这个平方误差最小即可，那就对w求导，最后w的计算公式为：我们称这个方法为OLS，也就是“普通最小二乘法” 线性回归实践数据情况我们首先读入数据并用matplotlib库来显示这些数据。 def loadDataSet(filename): numFeat = len(open(filename).readline().

2018-07-01

719

教您使用java爬虫gecco抓取JD全部商品信息教您使用DynamicGecco抓取JD全部商品信息 Gecco+Spring+Mybatis完整例子，下载妹子图美女图片结合spring的插件gecco-spring 结合htmlunit的插件gecco-htmlunit 结合reids的插件gecco-reids

2018-07-01

682

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。