苏宁百万级商品爬取简述

2018-07-08 636

代码下载链接苏宁百万级商品爬虫

声明

本系列文章+代码案例时对爬虫的内容学习概括，希望更多的人知道如何使用c#进行简单爬虫项目的开发，并不存在恶意工具部分电商网站的观念。分享的的代码中对网页爬取都做了休眠等待（200-500）毫秒的限制，希望大家不要恶意使用。

学习回顾

首先简单概述一下自己的学习计划，在爬虫这个模块的学习过程中。可以了解到很多的知识，例如

Xpath语法(网页解析)，css(网页解析)，正则表达式(文本处理或网页解析)
.net 第三方爬虫类库 html agility pack +第三方爬虫框架（用的相对较少）学习的时候还是趋向于写一些底层的东西
异步多线程，主要用在苏宁百万数据爬取时。多线程爬取，多线程存储。
Lucene索引和分词简单使用，并未深入。主要时对爬取的百万数据建立索引库，做一个简单的查询。

运行环境+技术选型

ide 使用 vs 2017
数据库 sqlserver 2008r2 或mysql
语言 c#

一、开发预估周期和安排

1、开发周期

因为工作时无聊想到的东西，所以在不耽误工作的情况下，编码周期为1个礼拜。

2、程序模块抽象描述

数据库相关

实体
数据库访问层
业务逻辑层

网页爬取

分析器（包含取数据功能）
服务层（取分析器数据，调用业务逻辑层方法，将数据入库）

索引

分词帮助(盘古分词器)
索引帮助

界面描述

采用winform程序的形式，分首页+4个子页面
首页是对主要功能的概述，添加4个按钮，每个按钮触发新的页面，按钮分别为：

数据初始化（进行数据初始化功能）
商品类别(对商品类别的爬取和更新)
商品内容(对商品内容的爬取和更新)
建立索引（使用Lucene+分词器建立索引）
查询产品

三、开发中可能遇到的问题

因为之前都是对单页面的爬取，或者是对某些分页数据爬取，都只是一个小demo。所以在设计程序结构的过程中一定会存在问题。当我已经完成项目后，重新回顾自己的代码也觉得好多地方存在可以修改的地方。
对很多技术的生疏，异步多线程在工作中不长使用，没有踩过坑，所以一定会跌的很惨。xpath，正则这些语法的遗忘
界面设计可能会很丑，不美观

四、功能设计图

在新建解决方案后，我首先建立一个demo项目，这个项目只是用来做效果图，用来让自己对所做的程序有个大概的布局。
首页设计图：
首页是对功能的详细抽象描述，所以定义三个模块，每个模块再放置自己的内容。
“初始化数据”只是一个按钮，点击弹出提示框，点击确认清理所有产品数据

首页.png

商品类别设计图.png

商品内容设计图.png

建立索引设计图.png

查询产品设计图.png

五、程序准备：

对商品进行爬取，首先要知道有多少类别，不同类别数据性展示是否为不同形式。如果为不同形式，那就要区分爬取，如果相同，那就更加方便。
产品有那么多属性，取哪些字段，百万的数据量应该如何存储，同样的百万数量应该如果查询，这都是在前期应该考虑好的问题。不然等开始编码再修改就很麻烦

微信关注我们

原文链接：https://yq.aliyun.com/articles/662592

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

7月9日云栖精选夜读丨阿里首家「FashionAI 概念店」入驻香港，里面还是淘宝的配方店

近日，阿里全球首家 AI 服饰店「FashionAI 概念店」正式入驻香港，用 AI 跨界时尚圈，拓展淘宝生态。FashionAI 将基于淘宝上 50万+ 潮人的搭配方案，结合消费者的搭配需求，从服饰的风格、颜色、细节等维度来为消费者进行穿搭推荐。热点热议阿里首家「FashionAI 概念店」入驻香港，里面还是淘宝的配方店作者：技术小能手你们看尽世界杯的快乐忧伤，他们负责稳定流畅作者：樰篱大数据告诉你：学历真的能改变命运作者：技术小能手知识整理咱们一起聊聊Java异常作者：技术小能手微博python爬虫，每日百万级数据作者：技术小能手游戏AI设计经验分享——行为树研究作者：技术小能手 Promise之你看得懂的Promise 作者：a独家记忆精研3道简单的网易2018校招编程题作者：snailclimb 美文回顾聊聊阿里社招面试，谈谈“野生”Java程序员学习的道路作者：中间件小哥【漫画】关于容器，你是否踩过很多坑，要吐好多苦水？作者：云栖机器人 webpack 快速构建 React 学习环境（1）作者：a独家记忆 Vue CLI 3 配置中 ...

2018-07-08

651

Web应用，最常见的研发语言是Java和PHP。后端服务，最常见的研发语言是Java和C/C++。大数据，最常见的研发语言是Java和Python。可以说，Java是现阶段中国互联网公司中，覆盖度最广的研发语言，掌握了Java技术体系，不管在成熟的大公司，快速发展的公司，还是创业阶段的公司，都能有立足之地。有不少朋友问，除了掌握Java语法，还要系统学习哪些Java相关的技术，今天分享一个，互联网Java技术学习路线图。一：常见模式与工具学习Java技术体系，设计模式，流行的框架与组件是必不可少的：常见的设计模式，编码必备Spring5，做应用必不可少的最新框架MyBatis，玩数据库必不可少的组件二：工程化与工具工欲善其事必先利其器，不管是小白，还是资深开发，玩Java技术体系，选择好的工具，提升开发效率和团队协作效率，是必不可少的：Maven，项目管理Jenkins，持续集成Sonar，代码质量管理Git，版本管理三：分布式架构高并发，高可用，海量数据，没有分布式的架构知识肯定是玩不转的：分布式架构原理分布式架构策略分布式中间件分布式架构实战四：微服务架构业务越...

2018-07-08

694

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

苏宁百万级商品爬取简述

目录

声明

学习回顾