数据挖掘敲门砖--Python爬虫入门
Python爬虫.jpg WHAT 数据挖掘是一门综合的技术,随着Ai的兴起,在国内的需求日渐增大。 数据挖掘的职业方向通常有三个,顺便概要地提一下所需的技能(不仅于此) 数据分析方向:需要数理知识支撑,比如概率论,统计学等 数据挖掘方向:需要懂得主流算法的原理及应用,数据库的原理和操作 科学研究方向:通常是科学家们在深入研究数据挖掘的相关基础理论和算法 但是看完简介,好像和爬虫没什么关系? 接着往下看。 要开始数据挖掘之路,可以先从培养数据分析能力开始。 数据分析的常见步骤是: 数据准备 数据观察(找规律) 数据建模 数据挖掘(将得到的模型选择合适的算法应用到数据上,验证并得出结论) WHY 据统计,数据准备占整个数据分析70%的时间. 我们把数据准备的步骤进行细分: 数据获取: 数据爬虫, 数据仓库 数据清洗: 去掉无用的数据 数据整理: 将数据规格化 数据存储: 先存储为CSV等文件, 最后再将数据进行整理和归档 注释: CSV, 全称Comma-Separated Values,即逗号分割值. 是将数据以逗号分隔开的一种纯文本文件, 实际上逗号可以是用其他符号代替. 数据仓库通...