Kaggle word2vec NLP 教程 描述
原文:Bag of Words Meets Bags of Popcorn
译者:飞龙
自豪地采用谷歌翻译
描述
在本教程竞赛中,我们对情感分析进行了一些“深入”研究。谷歌的 Word2Vec 是一种受深度学习启发的方法,专注于单词的含义。 Word2Vec 试图理解单词之间的意义和语义关系。它的工作方式类似于深度方法,例如循环神经网络或深度神经网络,但计算效率更高。本教程重点介绍用于情感分析的 Word2Vec。
情感分析是机器学习中的一个挑战性课题。人们用语言来表达自己的情感,这种语言经常被讽刺,二义性和文字游戏所掩盖,所有这些都会对人类和计算机产生误导。还有另一个 Kaggle 电影评论情绪分析竞赛。在本教程中,我们将探讨如何将 Word2Vec 应用于类似的问题。
在过去的几年里,深度学习在新闻中大量出现,甚至进入纽约时报的头版。这些机器学习技术受到人类大脑架构的启发,并且由于计算能力的最新进展而实现,由于图像识别,语音处理和自然语言任务的突破性结果,已经成为浪潮。最近,深度学习方法赢得了几项 Kaggle 比赛,包括药物发现任务和猫狗图像识别。
教程概览
本教程将帮助你开始使用 Word2Vec 进行自然语言处理。 它有两个目标:
基本自然语言处理:本教程的第 1 部分适用于初学者,涵盖了本教程后续部分所需的基本自然语言处理技术。
文本理解的深度学习:在第 2 部分和第 3 部分中,我们深入研究如何使用 Word2Vec 训练模型以及如何使用生成的单词向量进行情感分析。
由于深度学习是一个快速发展的领域,大量的工作尚未发表,或仅作为学术论文存在。 本教程的第 3 部分比说明性更具探索性 - 我们尝试了几种使用 Word2Vec 的方法,而不是为你提供使用输出的方法。
为了实现这些目标,我们依靠 IMDB 情绪分析数据集,其中包含 100,000 个多段电影评论,包括正面和负面。
致谢
此数据集是与以下出版物一起收集的:
如果你将数据用于任何研究应用,请发送电子邮件给该论文的作者。 该教程由 Angela Chapman 在 2014 年夏天在 Kaggle 实习期间开发。
什么是深度学习
术语“深度学习”是在2006年创造的,指的是具有多个非线性层并且可以学习特征层次结构的机器学习算法[1]。
大多数现代机器学习依赖于特征工程或某种级别的领域知识来获得良好的结果。 在深度学习系统中,情况并非如此 - 相反,算法可以自动学习特征层次结构,这些层次结构表示抽象级别增加的对象。 虽然许多深度学习算法的基本要素已存在多年,但由于计算能力的提高,计算硬件成本的下降以及机器学习研究的进步,它们目前正日益受到欢迎。
深度学习算法可以按其架构(前馈,反馈或双向)和训练协议(监督,混合或无监督)进行分类[2]。
一些好的背景材料包括:
[1] “Deep Learning for Signal and Information Processing”, by Li Deng and Dong Yu (out of Microsoft)
[2] “Deep Learning Tutorial” (2013 Presentation by Yann LeCun and Marc’Aurelio Ranzato)
Word2Vec 适合哪里?
Word2Vec的工作方式类似于深度方法,如循环神经网络或深度神经网络,但它实现了某些算法,例如分层 softmax,使计算效率更高。
对于 Word2Vec 以及本文的更多信息,请参阅本教程的第 2 部分,以及这篇论文:Efficient Estimation of Word Representations in Vector Space
在本教程中,我们使用混合方法进行训练 - 由无监督的片段(Word2Vec)和监督学习(随机森林)组成。
库和包
以下列表并不是详尽无遗的。
Python 中:
Theano 提供非常底层的基本功能,用于构建深度学习系统。 你还可以在他们的网站上找到一些很好的教程。
Caffe 是 Berkeley 视觉和学习中心的深度学习框架。
Pylearn2 包装了 Theano,似乎更加用户友好。
OverFeat 用于赢得 Kaggle 猫和狗的比赛。
Lua 中:
Torch 是一个受欢迎的包,并附带一个教程。
R 中:
截至 2014 年 8 月,有一些软件包刚刚开始开发,但没有可以在教程中使用的,非常成熟的包。
其他语言也可能有很好的包,但我们还没有对它们进行过研究。
更多教程
O’Reilly 博客有一系列深度学习文章和教程:
什么是深度学习,为什么要关心?
如何构建和运行你的第一个深度学习网络
网络广播:如何起步深入学习计算机视觉
如果你想从零开始创建神经网络,请查看 Geoffrey Hinton 的 Coursera 课程。
对于 NLP,请查看斯坦福大学最近的这个讲座:没有魔法的 NLP 的深度学习。
这本免费的在线书籍还介绍了用于深度学习的神经网络:神经网络和深度学习。
配置你的系统
如果你之前没有安装过 Python 模块,请查看此教程,提供了从终端(在 Mac / Linux 中)或命令提示符(在 Windows 中)安装模块的指南。
运行本教程需要安装以下软件包。 在大多数(或所有)情况下,我们建议你使用pip
来安装软件包。
Word2Vec 可以在gensim
包中找到。 请注意,到目前为止,我们只在 Mac OS X 上成功运行了本教程,而不是 Windows。
如果你在 Mac Mavericks(10.9)上安装软件包时遇到问题,本教程包含正确配置系统的说明。
本教程中的代码是为 Python 2.7 开发的。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
传统联络中心已死?看“小A云”如何为企业提升商机转化效率丨科技云·视角
在互联网新型业务的进攻下,传统联络中心该如何跨入数字化转型的快车道,转变为传统企业全新的商业利器? 这样一组数据大家一定不陌生: 2013年,支付宝的诞生开启移动支付时代,至2017年中国移动支付已超过202.9万亿元,蚕食了传统银行卡和信用卡的半壁江山。 2016年,盒马鲜生凭借线上线下一体化经营模式开启“新零售”模式的新风口。与此同时,零售巨头沃尔玛在全球关闭269家门店,裁员1.6万人。 2018年,在线教育公司VipKid成立4年营收即破50亿,老牌教育机构新东方实现这一目标则用了19年。 互联网新物种的快速诞生,令金融、零售、教育等传统行业应接不暇。在残酷的市场竞争下, 传统行业感到了前所未有的冲击和压力。 数字化转型势在必行,但是如何“互联网+”,如何用技术赋能业务,提高自身竞争力,却是传统企业高层们最大的焦虑,尤其是保险、金融、教育培训等这类以联络中心为核心业务拓展和服务模式的企业,被互联网的新兴玩家打得措手不及,该如何在现有模式上提升商业效率? 智能化的云联络中心成未来趋势 值得注意的是,一个新的趋势正在诞生。据艾瑞数据显示,联络中心系统正在经历本地部署到云端部署的迁移...
- 下一篇
【云周刊】第189期:在云栖大会上服务了12万人的“刷脸”技术,将如何赋能零售行业?
本期头条 在云栖大会上服务了12万人的“刷脸”技术,将如何赋能零售行业? 你的脸就是通行证!今年的云栖大会对AI刷脸技术做了最好的阐释。在线完成实名认证的嘉宾,在通过云栖大会人脸闸机时,只需对着摄像头,刷一下脸,就能无感通过。据悉,在9月19日至22日的2018年云栖大会期间,共有12万人通过刷脸进场。如今,阿里安全图灵实验室的人脸识别技术已应用在100多个业务场景,无论是景区入园、菜鸟快递智能柜取件、酒店入住,还是飞猪在线办理签证、顺风车注册、婚恋网站认证,都可靠刷脸完成,成功率可达到98%以上,并能实现全黑环境可识别。点击查看 马云现身阿里造物节,向店主颁发签名“板砖” AliOS正在研究人脸识别上车,提供个性化服务 大繁至简,首度揭秘阿里云飞天洛神系统 重磅丨阿里宣布全面开放城市大脑平台 深度 | 蚂蚁金服AI首席科学家漆远:用AI和爱,
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Mario游戏-低调大师作品
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2配置默认Tomcat设置,开启更多高级功能