Spark机器学习实战 (十一) - 文本情感分类项目实战

2019-04-18 753

0 相关源码

将结合前述知识进行综合实战，以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联，使大家能够对Spark的具体应用有一个整体的感知与了解。

1 项目总体概况

2 数据集概述

数据集

3 数据预处理

4 文本特征提取

官方文档介绍

提取，转换和选择特征
本节介绍了使用特征的算法，大致分为以下几组：

提取：从“原始”数据中提取特征
转换：缩放，转换或修改特征
选择：从中选择一个子集一组更大的特征局部敏感散列（LSH）：这类算法将特征变换的各个方面与其他算法相结合。
(TF-IDF) 是在文本挖掘中广泛使用的特征向量化方法，以反映术语对语料库中的文档的重要性。

用t表示一个术语，用d表示文档，用D表示语料库。术语频率TF（t，d）是术语t出现在文档d中的次数，而文档频率DF（t，D）是包含术语的文档数T

如果我们仅使用术语

微信关注我们

原文链接：https://yq.aliyun.com/articles/699053

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

想学习大数据？这才是完整的大数据学习体系

干货走起，闲话不多说，以下就是小编整理的大数据学习思路在这里还是要推荐下我自己建的大数据学习交流群:199427210，群里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入,大家都是软件开发党，不定期分享干货（只有大数据软件开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴加入。第一阶段：linux系统本阶段为大数据学习入门基础课程，帮大家进入大数据领取打好Linux基础，以便更好的学习Hadoop、habse、NoSQL、saprk、storm等众多技术要点。另：目前企业中无疑例外是使用Linux来搭建或部署项目的第二阶段：大型网站高并发处理本阶段的学习是为了让大家能够了解大数据的源头，数据从而而来，继而更好的了解大数据。通过学习处理大型网站高并发问题反向的更加深入的学习Linux，同事站在了更高的角度去触探架构第三阶段：Hadoop学习 1、Hadoop分布式文件系统：HDFS 详细解剖HDFS，了解其工作原理，打好学习大数据的基础 2、Hadoop分布式计算框架：MapReduce MapReduce可...

2019-04-18

755

2006 年10 月Google 发布三架马车之一的《Bigtable：A Distributed Storage System for Strctured Data》论文之后，Powerset 公司就宣布 HBase 在 Hadoop 项目中成立，作为子项目存在。后来，在2010 年左右逐渐成为 Apache 旗下的一个顶级项目。可能是实际应用中包装得太好，很多人对于 HBase 的认识止步于 NoSQL 。今天，蚂蚁金服的南俊从基础开始讲起，希望有助于增强大家在实际业务中对 HBase 的理解。一、 HBase 简介 HBase 名称的由来是由于其作为 Hadoop Database 存在的，用来存储非结构化、半结构化数据。对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习交流裙：%52%21【89】最后307，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深...

2019-04-18

715

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。