基于 Ansj 的 elasticsearch 2.3.1 中文分词插件-低调大师

基于 Ansj 的 elasticsearch 2.3.1 中文分词插件

2017-06-07 550

前言

这是一个elasticsearch的中文分词插件，基于Ansj中文分词。发起者Onni大神。

2.3.1插件安装

进入Elasticsearch目录运行如下命令

进入es目录执行如下命令

./bin/plugin install http://maven.nlpcn.org/org/ansj/elasticsearch-analysis-ansj/2.3.1/elasticsearch-analysis-ansj-2.3.1-release.zip

更新内容

elasticsearch更新2.3.1

ansj_seg升级至3.7.3

elasticsearch更新2.1.1

ansj_seg升级至3.5

新增http的_ansj接口，用于查看ansj分词词性

新增http的_cat/ansj接口,作用同上，显示为cat方式

新增http的_cat/[index]/analyze接口，和_analyze作用一样，显示为cat方式

更方便的配置

测试

创建测试索引

curl -XPUT 127.0.0.1:9200/test -d '{
    "settings" : {
        "number_of_shards" : 1,
        "number_of_replicas" : 0

    },
    "mappings" : {
        "type1" : {
            "_all" : { "enabled" : false },
            "properties" : {
                "name" : { "type" : "string", "analyzer" : "index_ansj", "search_analyzer" : "query_ansj" }
            }
        }
    }
}'

添加索引内容

curl -XPUT 'http://127.0.0.1:9200/test/test/1' -d '{
    "name" : "中国人民万岁",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}'

查询索引

浏览器访问:

http://127.0.0.1:9200/test/test/_search?q=name:%E4%B8%AD%E5%9B%BD

如果你想把ansj作为你的默认分词需要在elasticsearch.yml加入如下配置:

#默认分词器,索引 index.analysis.analyzer.default.type: index_ansj #默认分词器,查询 index.analysis.analyzer.default_search.type: query_ansj

关于分词器不得不说的那点小事

目前默认内置三个分词器

当然如果你有心仔细观察日志看到了实例化了n多分词器如下

 regedit analyzer named : index_ansj
 regedit analyzer named : query_ansj
 regedit analyzer named : to_ansj
 regedit analyzer named : dic_ansj
 regedit analyzer named : user_ansj
 regedit analyzer named : search_ansj

why????

额只有三个其他都是别名
索引分词

index_ansj 是索引分词,尽可能分词处所有结果 example

http://127.0.0.1:9200/_cat/test/analyze?text=%E5%85%AD%E5%91%B3%E5%9C%B0%E9%BB%84%E4%B8%B8%E8%BD%AF%E8%83%B6%E5%9B%8A&analyzer=index_ansj

六味          0       2       0       word        
地         2       3       1       word        
黄丸软       3       6       2       word        
胶囊          6       8       3       word        
六味地黄        0       4       4       word        
地黄          2       4       5       word        
地黄丸       2       5       6       word        
软胶          5       7       7       word        
软胶囊       5       8       8       word
搜索分词 (search_ansj=to_ansj=query_ansj)

query_ansj 是搜索分词,是索引分词的子集,保证了准确率 example

http://127.0.0.1:9200/_cat/test/analyze?text=%E5%85%AD%E5%91%B3%E5%9C%B0%E9%BB%84%E4%B8%B8%E8%BD%AF%E8%83%B6%E5%9B%8A&analyzer=query_ansj

六味      0       2       0       word        
地             2       3       1       word        
黄丸软       3       6       2       word        
胶囊      6       8       3       word

用户自定义词典优先的分词方式 (user_ansj=dic_ansj)

dic_ansj 是用户自定义词典优先策略

http://127.0.0.1:9200/_cat/test/analyze?text=%E5%85%AD%E5%91%B3%E5%9C%B0%E9%BB%84%E4%B8%B8%E8%BD%AF%E8%83%B6%E5%9B%8A&analyzer=dic_ansj

六味地黄        0       4       0       word        
丸         4       5       1       word        
软胶囊       5       8       2       word

====================================分割线================================
文章转载自开源中国社区[http://www.oschina.net]

微信关注我们

原文链接：https://yq.aliyun.com/articles/116331

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

机器学习和深度学习的最佳框架大比拼

在过去的一年里，咱们讨论了六个开源机器学习和/或深度学习框架：Caffe，Microsoft Cognitive Toolkit（又名CNTK 2），MXNet，Scikit-learn，Spark MLlib和TensorFlow。如果把网撒得大些，可能还会覆盖其他几个流行的框架，包括Theano（一个10年之久的Python深度学习和机器学习框架），Keras（一个Theano和TensorFlow深度学习的前端），DeepLearning4j（Java和Scala在Hadoop和Spark之上的深度学习软件）。如果你有兴趣使用机器学习和神经网络，你从来没有像现在这样多的选择。机器学习框架和深度学习框架之间有区别。本质上，机器学习框架涵盖用于分类，回归，聚类，异常检测和数据准备的各种学习方法，并且其可以或可以不包括神经网络方法。深度学习或深度神经网络（DNN）框架涵盖具有许多隐藏层的各种神经网络拓扑。这些层包括模式识别的多步骤过程。网络中的层越多，可以提取用于聚类和分类的特征越复杂。 Caffe，CNTK，DeepLearning4j，Keras，MXNet和TensorFlow...

2017-06-08

629

[Hadoop]Hadoop本地调试

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/SunnyYoona/article/details/72912058 1. Maven依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> 2. 调试设置本地调试需要设置两点： conf.set("fs.default.name", "file:///"); conf.set("ma...

2017-06-08

582

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Eclipse

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。