给全文搜索引擎Manticore (Sphinx) search 增加中文分词-低调大师

给全文搜索引擎Manticore (Sphinx) search 增加中文分词

2019-03-10 634

Sphinx search 是一款非常棒的开源全文搜索引擎，它使用C++开发，索引和搜索的速度非常快，我使用sphinx的时间也有好多年了。最初使用的是coreseek，一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎，可惜后来不再更新，sphinxsearch的版本太低，bug也会出现；后来也使用最新的sphinxsearch，它可以支持几乎所有语言，通过其内置的ngram tokenizer对中文进行索引和搜索。

但是，像中文、日文、韩文这种文字使用ngram还是有很大弊端的：

当Ngram=1时，中文（日文、韩文）被分解成一个个的单字，就像把英文分解成一个个字母那样。这会导致每个单字的索引很长，搜索效率下降，同时搜索结果习惯性比较差。

当Ngram=2或更大时，会产生很多无意义的“组合”，比如“的你”、“为什”等，导致索引的字典、索引文件等非常大，同时也影响搜索速度。

基于以上弊端，为中日韩文本加入分词的tokenizer是很有必要的。

于是决定来做这件事。先去Sphinxsearch网站去看看，发现它已经发布了新的3.x版本，而且加入了很多很棒的特性，然而它从Sphinxsearch 3.x 开始，暂时不再开源. 不过，部分前Sphinxsearch的开发人员跳出来成立新团队，在Sphinx 2.x版本基础上开发自己的Manticoresearch。这两者很像，从它们的名字就可以看出来，这俩都是狮身怪兽。

Sphinx 是（古埃及）狮身人面像，Manticore 是（传说中的）人头狮身龙（蝎）尾怪兽

Manticoresearch 从Sphinxsearch 继承而来，并做了性能优化. 因此，我选择了Manticoresearch 来添加中日韩分词。

首先从Manticoresearch的github仓库pull最新的代码来谈价，后面我也会尽力与Manticoresearch的主分支保持同步。

算法实现

算法基于字典，具体是cedar的实现的双数组trie。cedar是C++实现的高效双数组trie，也是分词字典的最佳之选。cedar的协议是GNU GPLv2, LGPLv2.1, and BSD;或者email联系作者所要其它协议。

通过最小匹配（而非单字）来匹配字典和字符串，把字符串分割成最短（而非单字）的词。如果遇到处理不了的歧义时，以单字做词。这样的目的是，保证搜索时能找到这些内容而不丢失。

稍微解释一下，对于搜索引擎的分词为什么这么做：

搜索引擎要能找到尽可能全内容：最彻底的方法是ngram=1，每个字单独索引，这样你搜索一个单字“榴”时，含有“榴莲”的文本会被找到，但缺点就如前面所说。
搜索引擎要能找到尽可能相关的内容：分词就是比较好的方法，对词进行索引，这样你搜索一个单字“榴”时，含有“榴莲”的文本就不会被找到。但分词的粒度要小，比如“编程语言”这是一个词组，如果把这个分成一个词，你搜索“编程”时，就找不到只含“编程语言”的文本，同样的，“上海市”要分成“上海”和“市”，等等。所以，“最小匹配”适用于搜索引擎。
编译安装

从github仓库manticoresearch-seg获取源码，编译方法跟Manticoresearch一样，具体看官方文档。

使用方法

准备词表把所有词写到一个txt文件，一行一个词，如下所示：

# words.txt
中文
中国語
중국어

创建字典成功编译代码后，就会得到创建字典的可执行程序make_segdictionary. 然后执行命令:

./make_segdictionary words.txt words.dict

这样就得到了字典文件: words.dict

配置索引只需在配置文件的 index {...} 添加一行即可：

index {
    ...
    seg_dictionary = path-to-your-segmentation-words-dictionary
    ...
}

提醒: 分词对批量索引和实时索引都起作用。

吐槽

添加分词最初的想法是，我的代码作为新增文件加入项目，只在原有文件个别处添加就好。这样做分得比较清楚，后面对manticore官方仓库提交代码也比较清晰。于是就尝试这样做。

然而，Sphinx的代码组织的真是有点乱，Manticore沿用Sphinx的代码所以架构是一样的。最大的一个cpp文件sphinx.cpp 竟然有3万多行代码，很多类的声明直接放在这个.cpp 文件里面，而没有放到头文件sphinx.h里面。因为我实现的分词tokenizer必须要继承它的类保持接口一致。尝试着把cpp文件的一些声明移到.h文件，结果是越移越多，要对原始文件做很大改动，甚至可能要重新架构源代码。不是不可以重新架构，一来会很费时间，二来向官方提交代码很难被接受，三是跟官方代码保持同步就很费劲，最终还是在原来sphinx.cpp文件中添加分词tokenizer: CSphTokenizer_UTF8Seg 。

当然，Sphinx的代码的类的继承关系比较清晰，继承原来的tokenizer实现新的也不算费事，修改了4个源码文件就添加好了分词tokenizer。

文章来自于猿人学博客：Python教程

微信关注我们

原文链接：https://yq.aliyun.com/articles/693130

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

go微服务框架go-micro深度学习(五) stream 调用过程详解

上一篇写了一下rpc调用过程的实现方式，简单来说就是服务端把实现了接口的结构体对象进行反射，抽取方法，签名，保存，客户端调用的时候go-micro封请求数据，服务端接收到请求时，找到需要调用调用的对象和对应的方法，利用反射进行调用，返回数据。但是没有说stream的实现方式，感觉单独写一篇帖子来说这个更好一些。上一篇帖子是基础，理解了上一篇，stream实现原理一点即破。先说一下使用方式，再说原理。当前go-micro对 rpc 调用的方式大概如下：普通的rpc调用是这样： 1.连接服务器或者从缓存池得到连接 2.客户端 ->发送数据 -> 服务端接收 3.服务端 ->返回数据 -> 客户端处理数据 4.关闭连接或者把连接返回到缓存池当前 rps stream的实现方式是这样子: 1. 连接服务器 2. 客户端多次发送请求-> 服务端接收 3. 服务端多次返回数据-> 客户端处理数据 4. 关闭连接当数据量比较大的时候我们可以用stream方式分批次传输数据。对于客户端还是服务端没有限制，我们可以根据自己的需要使用strea...

2019-03-10

800

Java后端学习路线图，你真的只需要这一张！前言学习路线图往往是学习一样技术的入门指南。网上搜到的Java学习路线图也是一抓一大把。今天我只选一张图，仅此一图，足以包罗Java后端技术的知识点。所谓不求最好，但求最全，学习Java后端的同学完全可以参考这张图进行学习路线安排。当然，有一些知识点是可选的，并不是说上面有的你都要会啦。我在复习秋招的过程中就是基于此图进行复习的，感觉效果还是不错的。闲言少叙，我们还是看看这张图上都包含哪些有价值的信息吧。再次说明，本文只对路线图做一个简单地解读，仅供参考。大家可以根据自身情况来指定合理的学习计划，相信也会大有裨益。 1 计算机基础这部分内容是计算机相关专业同学的课程，但是非科班的小伙伴（譬如在下）就需要花时间恶补了。特别是计算机网络，操作系统，数据结构这三门课程。至于编译原理，个人大概懂一点就行了，我也只看过简单的概念和状态机相关的内容，并不是特别重要。 2 Java编程这里的Java编程部分包含了很多内容。我们可以分别看看，大概归纳一下就是这几个部分。 Java基础这里的Java基础包括基本语法，集合类框架，以...

2019-03-10

634

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。