深度学习与中文短文本分析总结与梳理
1.绪论 过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有,但没有开源)本文暂且梳理一下,尝试围绕深度学习和 短文本处理的方方面面就最简单的概念进行一次梳理,并且试图思考一个问题: 深度学习处理中文短文本的最终效果是什么? 我思考后的答案是: 答:是一种模型,可以无需任何语言学知识或手工特征设计,就可被用于中文分词、词性标注以及命名实体识别等多种中文自然语言处理任务,甚至直接改造为分布式大数据可以使用的框架。 2.短文本 姑且认为200字以内的都叫短文本 2.1 短文本的研究范围 - 搜索引擎的搜索结果 - 锚文本 - 互联网聊天信息 - 电子邮件主题 - 论坛评论信息 - 商品描述信息 - 图片描述 - 微博 - 手机短息 - 文档文献摘要 2.2 短文本特点 短文本具有特征稀疏性、奇异性、动态性、交错性等特点 ①稀疏性。每条短文本形式信息的长度都比较短,都在...

