重磅干货丨互联网数据挖掘导论
本文说的主题是关于「数据挖掘」,以下为内容大纲,让大家对互联网搜索与挖掘有一个宏观的了解,即知道要做什么和怎么做。注:本文的框架来源于北京大学万小军开设的互联网数据挖掘 Web Data Mining 课程,笔者对内容进行了筛选和编排,用来作为『不周山之数据挖掘』系列的导论部分。 任务目标 了解搜索和自然语言处理的基本知识 熟悉数据挖掘的流程与各个步骤所用的技术 对数据挖掘的应用场景有基本的认识 写在前面 随着互联网的日益蓬勃发展,如何从广袤的信息海洋中提取出有价值的信息、模式和关系,逐渐成为了一门新的领域 —— 数据挖掘。作为一门交叉学科,数据挖掘融合了信息检索、互联网、数据库、机器学习、自然语言处理等不同的学科,用多样技术完成具体的数据挖掘应用。常见的应用有:垂直搜索、推荐系统、智能问答、机器翻译、舆情监测、情报收集等等,可谓是深入到了我们日常生活的方方面面。 接下来我们会从基础技术说起,从以下三个方面来了解数据挖掘: 搜索技术 数据挖掘技术 具体应用 搜索 搜索其实是一个很大的主题,但是核心问题其实并不复杂,一是如何去表示文档,二是在这样的基础上如何去检索文档。具体的评价标准是『...