如何在java中去除中文文本的停用词
1. 整体思路
第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。
第二步:使用停用词表,去除分好的词中的停用词。
2. 中文文本分词环境配置
使用的HanLP-汉语言处理包进行中文文本分词。
·HanLP-汉语言处理包下载,可以去github上下载
·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。
·官方环境配置步骤也可以在github上查询到。
·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html
3. 下载停用词表
停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!
4. 去除停用词工具类
使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。
5. 工具类测试
5.1 测试代码
public class test {
public static void main(String args[]) {
try {
System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));
} catch (IOException e) {
e.printStackTrace();
}
}
5.2 测试结果
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
JS常用正则表达式备忘录
摘要: 玩转正则表达式。 原文:JS常用正则表达式备忘录 作者:前端小智 Fundebug经授权转载,版权归原作者所有。 正则表达式或“regex”用于匹配字符串的各个部分 下面是我创建正则表达式的备忘单。 匹配正则 使用 .test() 方法 let testString = "My test string"; let testRegex = /string/; testRegex.test(testString); 匹配多个模式 使用操作符号 | const regex = /yes|no|maybe/; 忽略大小写 使用i标志表示忽略大小写 const caseInsensitiveRegex = /ignore case/i; const testString = 'We use the i flag to iGnOrE CasE'; caseInsensitiveRegex.test(testString); // true 提取变量的第一个匹配项 使用 .match() 方法 const match = "Hello World!".match(/hello/i); // ...
- 下一篇
Python爬虫入门教程 16-100 500px摄影师社区抓取摄影师数据
1. 500px摄影师社区-写在前面 今天要抓取的网站为 https://500px.me/ ,这是一个摄影社区,在一个摄影社区里面本来应该爬取的是图片信息,可是我发现好像也没啥有意思的,忽然觉得爬取一下这个网站的摄影师更好玩一些,所以就有了这篇文章的由来。 基于上面的目的,我找了了一个不错的页面 https://500px.me/community/search/user 不过细细分析之后,发现这个页面并不能抓取到尽可能多的用户,因为下拉一段时间,就不能继续了,十分糟心,难道我止步于此了么,显然不可能的,一番的努力之后(大概废了1分钟吧),我找到了突破口,任意打开一个用户的个人中心页,就是点击上述链接的任意用户头像,出现如下操作。 用户个人中心页面,竟然有关注列表唉~~,nice啊,这个好爬啊,F12分析一下。 哒哒哒,数据得到了。URL是 https://500px.me/community/res/relation/4f7fe110d4e0b8a1fae0632b2358c8898/follow?startTime=&page=1&size=10&type...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- CentOS8编译安装MySQL8.0.19
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Mario游戏-低调大师作品
- CentOS6,CentOS7官方镜像安装Oracle11G