学了这么久,你知道Python机器学习全流程是怎样的么?
首先介绍一下机器学习的概念和地位,和其他的区别是?
机器学习的核心任务是?
机器学习的全流程是?
我们将上述流程拆解出来看:
1.需求来源是?需求天上来?被提需求到底是接还是不接?
2.老板说没有数据!还不舍得花钱买!让我自己想办法获取!还得谢谢老板点明方向,这可怎么办?
那你得会数据采集!
Python网络爬虫就是一种数据采集手段,简单来说就是个请求&解析的过程
那如何快速上手网络爬虫呢?
你需要掌握以下内容并灵活选择应用:
常用的请求库:urllib、requests
常用的解析库:BeautifulSoup、lxml
还有灵巧的信息提取方式:css选择器/xpath表达式
静态网页 & 动态网页爬取方法等等
3.需求方给的数据一团糟,我该如何搞?
这就涉及脏数据的处理,所谓的脏数据,就是数据不够整洁。
常见的问题有:
● 数据串行、尤其是





