使用sphinx search打造你自己的中文搜索引擎

2019-05-07 623

Google搜索引擎建立至今已经快20年了，之后全球各类大大小小类似的搜索引擎也陆续出现、消亡。国内目前以百度为大，搜狗、360、必应等也势在必争。搜索引擎技术也发展的相当成熟，同时也就出现了很多开源的搜索引擎系统。比如，Solr、Lucene、Elasticsearch、Sphinx等。

本文以sphinx search为例来介绍如何打造自己的搜索引擎。该搜索引擎的架构大致如下：

Sphinx search

Sphinx search 是俄罗斯人用C++写的，速度很快，可以非常容易的与SQL数据库和脚本语言集成，内置MySQL和PostgreSQL 数据库数据源的支持。其官方网站是： http://sphinxsearch.com/

可以说Sphinx支持包括英文、中文等所有语言的搜索。英文是以空格、标点符号来分割单词的，很容易切分。而中文词汇之间是没有空格的，很难区分，所以才有了自然语言处理中的“中文分词”技术的研究。Sphinx默认把中文按字拆分的，但这样就会产生搜索出不相干的内容来。比如，搜索“中国”，它会把同时包含“中”和“国”但不包含“中国”的文档搜出来。因此，有人就给Sphinx打了中文分词的补丁。

如果没有搞错的话，最早添加中文分词的是Coreseek，好像也是中文圈用得最广的支持中文分词的Sphinx，其它还有sphinx-for-chinese。然而这二者基于的Sphinx版本都太低了，有好多年没有更新。其中存在的一些Sphinx的bug也没有解决。

github上有一个基于Sphinx 2.2.9版本的代码库添加了中文分词： https://github.com/eric1688/sphinx 经测试，该版本稳定性和速度都要好于coreseek。当然它依然支持英文等其它语言的搜索，只是对中文搜索更加准确了。

Sphinx 安装

git clone https://github.com/eric1688/sphinx 
cd sphinx

#编译（假设安装到/usr/local/sphinx目录，下文同） 
./configure --prefix=/usr/local/sphinx
# 说明： --prefix 指定安装路径 --with-mysql 编译mysql支持 --with-pgsql 编译pgsql支持
make 
sudo make install

安装好后，在/usr/local/sphinx目录下有以下几个子目录：
etc/ sphinx配置文件，不同的索引可以写不同的配置文件
bin/ sphinx程序，其中有建立索引的程序：indexer，搜索守护进程：searchd
var/ 一般用了放置indexer索引好的文件

Sphinx索引的建立

MySQL数据库表结构
从上面的架构图可以看出来，我们要搜索的数据都存放在MySQL数据库中。假设我们的数据库名称叫blog_data，其中有个表叫article，表结构如下：

字段名说明
id 文章唯一id（主键）
title 文章标题
content 文章内容
created_time 文章创建时间
该article表可以是你本身网站的文本内容存放的表格，也可以是你的网络爬虫抓取到的数据存储表。

还有建立另外一个表sph_counter用来存储indexer已经索引的最大doc id

字段名说明
counter_id 标记是对哪个表做记录
max_doc_id 被索引表的最大ID
note 注释，可以是表名
update_at 更新时间
建立索引配置文件：
新建或修改/usr/local/sphinx/etc/blog.conf 配置文件：

source blog_main
{ 
    type          = mysql
    sql_host      = localhost
    sql_user      = reader
    sql_pass      = readerpassword
    sql_db        = blog_data
    sql_port      = 3306
    sql_query_pre = SET NAMES utf8mb4
    sql_query_pre = REPLACE INTO sph_counter SELECT 1, MAX(id), 'article', NOW() FROM article

    sql_query     = SELECT id, title, content,  \
                    UNIX_TIMESTAMP(created_time) AS ctime, \
                    FROM article \
                    WHERE id <= (SELECT max_doc_id from sph_counter WHERE counter_id=1)
    sql_attr_timestamp = ctime  #从SQL读取到的值必须为整数，作为时间属性

}

index blog_main
{
    source       = blog_main #对应的source名称
    path         = /user/local/sphinx/var/data/blog_main
    docinfo      = extern
    mlock        = 0
    morphology   = none
    min_word_len = 1 
    html_strip   = 0 

    charset_type     = utf-8
    chinese_dictionary = /user/local/sphinx/etc/xdict  #中文分词的词典
    ngram_len = 0 
    stopwords        = /user/local/sphinx/etc/stop_words.utf8
}

#全局index定义
indexer
{
    mem_limit = 512M
}

#searchd服务定义
searchd
{
    listen          = 9900
    listen          = 9306:mysql41  # 实时索引监听的端口
    read_timeout    = 5 
    max_children    = 90
    max_matches     = 100000
    max_packet_size = 32M 
    read_buffer     = 1M
    subtree_docs_cache = 8M
    subtree_hits_cache = 16M 
    #workers        = threads•
    dist_threads    = 2 
    seamless_rotate = 0 
    preopen_indexes = 0 
    unlink_old      = 1 
    pid_file  = /usr/local/sphinx/var/log/blog_searchd_mysql.pid
    log       = /usr/local/sphinx/var/log/blog_searchd_mysql.log
    query_log = /usr/local/sphinx/var/log/blog_query_mysql.log
}

编辑好以上配置文件，就可以开始建立索引了：

cd /usr/local/sphinx/bin
./indexer -c ../etc/blog.conf

如果已经有searchd在运行了，就要加 --roate 来进行索引

索引建立后，就会在var/data/下面有名称前缀为blog_main.XXX的索引文件生成。

建立实时索引
上面的配置文件是建立一个静态索引，把当时数据库里面的所有数据进行索引。但是，你的数据库往往是不断增加新数据的。为了及时索引并搜索到最新加入的数据，就需要配置实时索引了。

index rt_weixin                                                                                                     {
    type = rt
    path = /usr/local/sphinx/var/data/rt_blog
    rt_field = title
    rt_field = content

    rt_attr_timestamp = pubtime
    ngram_chars = U+3000..U+2FA1F #为了支持中文
    ngram_len = 1
}

该仓库代码的作者可能是忘了给实时索引加中文分词，如果不配置ngram_chars 参数就不能搜到中文，添加后搜索是按单字匹配的，可见作者确实是忘了给实时索引部分加中文分词。

添加以上实时索引后并不能搜索到实时数据。实时索引的更新/添加只能通过SphinxQL（一个类似MySQL的协议），所以还要写一个Python脚本，从数据库读取最新的数据并通过SphinxQL更新到实时索引。

import MySQLdb
# 连接实时索引
db_rt = MySQLdb.connect(
    '127.0.0.1',
    'nodb',  # 对于实时索引来说，db，user，password都是不需要的，随便写。
    'noname',
    'nopass',
    port=9306,  # 实时索引监听的端口
)  

# 向实时索引更新数据的函数
def into_rt(index_name, item):
    cursor = db_rt.cursor()
    fields = item.keys()
    values = item.values()
    fieldstr = ','.join(fields)
    valstr = ','.join(["'%s'"] * len(item))
    for i in xrange(len(values)):
        if isinstance(values[i], unicode):
            values[i] = values[i].encode('utf8')
        elif isinstance(values[i], datetime):
            try:
                values[i] = int(time.mktime(values[i].timetuple()))
            except:
                traceback.print_exc()
                print values[i]
                values[i] = int(time.time())
    sql = 'INSERT INTO %s (%s) VALUES(%s)' % (index_name, fieldstr, valstr)
    # print sql
    sql = sql % tuple(values)
    try:
        cursor.execute(sql)
        db_rt.commit()
    except Exception, e:
        if e[0] == 1064:
            # ignore duplicated id error
            pass
        else:
            traceback.print_exc()
            raise 'realtime index error'
    finally:
        cursor.close()

以上是及时建立实时索引的python程序的主要部分。可以把它设置成后台一直运行的守护程序，也可以在crontab里面配置每隔几分钟运行一次。

索引的更新
静态的主索引如果只建立一次，实时索引的数据量会越积越多，对实时索引的搜索带来很大压力，所以我们要定时重新建立主索引，清理实时索引。
清理实时索引的程序可以参考上面建立实时索引的python程序。

crontab 设置每天凌晨1点运行 indexer
crontab 设置indexer运行完毕后清理实时索引，并从新的max_doc_id开始建立实时索引
以上就是建立一个自己的搜索引擎的过程。更多配置细节可到官方网站参考文档。

文章来源于：猿人学网站的python教程。
版权申明:若没有特殊说明，文章皆是猿人学原创，没有猿人学授权，请勿以任何形式转载。

微信关注我们

原文链接：https://yq.aliyun.com/articles/701570

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

用python实现新词发现程序——基于凝固度和自由度

互联网时代，信息产生的数量和传递的速度非常快，语言文字也不断变化更新，新词层出不穷。一个好的新词发现程序对做NLP（自然预言处理）来说是非常重要的。 N-Gram加词频最原始的新词算法莫过于n-gram加词频了。简单来说就是，从大量语料中抽取连续的字的组合片段，这些字组合片段最多包含n个字，同时统计每个字组合的频率，按照词频并设置一个阈值来判断一个字组合片段是否为词汇。该方法简单处理速度快，它的缺点也很明显，就是会把一些不是词汇但出现频率很高的字组合也当成词了。凝固度和自由度这个算法在文章《互联网时代的社会语言学：基于SNS的文本数据挖掘》里有详细的阐述。凝固度就是一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样的词的凝固度就非常高，而“华为”、“组合”这样的词的凝固度就比较低。自由度就是一个字组合片段能独立自由运用的程度。比如“巧克力”里面的“巧克”的凝固度就很高，和“巧克力”一样高，但是它自由运用的程度几乎为零，所以“巧克”不能单独成词。 Python实现根据以上阐述，算法实现的步骤如下： n-gram统计字组合的频率如果文本量很小，可以直接用P...

2019-05-07

661

阿里妹导读：近日，蚂蚁金服副 CTO 胡喜正式宣布开源机器学习工具 SQLFlow，他在大会演讲中表示：“未来三年，AI 能力会成为每一位技术人员的基本能力。我们希望通过开源 SQLFlow，降低人工智能应用的技术门槛，让技术人员调用 AI 像 SQL 一样简单。” SQLFlow 能够抽象出端到端从数据到模型的研发过程，配合底层的引擎及自动优化，具备基础 SQL 知识的技术人员即可完成大部分的机器学习模型训练及预测任务。 SQLFlow 由何而来？蚂蚁金服对于 SQLFlow 未来还有哪些规划？一起来深入了解。 SQLFlow 的目标是将 SQL 引擎和 AI 引擎连接起来，让用户仅需几行 SQL 代码就能描述整个应用或者产品背后的数据流和 AI 构造。其中所涉及的 SQL 引擎包括 MySQL、Oracle、Hive、SparkS

2019-05-07

791

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

使用sphinx search打造你自己的中文搜索引擎

如果已经有searchd在运行了，就要加 --roate 来进行索引

用python实现新词发现程序——基于凝固度和自由度

蚂蚁金服开源的机器学习工具 SQLFlow，有何特别之处？

相关文章

发表评论

资源下载

腾讯云软件源

Rocky Linux

Sublime Text

WebStorm

欢迎您来访！