elasticsearch 分词
analysis
分析是将文本 text 转化为 token 或 term 的过程。token 或 term 随后被添加至倒排索引(inverted index)用于检索。分析(analysis)过程是由分词器(analyzer)来完成的,分词器包括内置(built-in)分词器和自定义(cutsom)分词器。
分析(analysis)可以在以下两种情况下发生:
- index time
- search time
analyzer (分词器)
一个分词器由以下三部分组成,内置分词器主要是为了适应特定语言和文本类型,打包了不同组合的组件,组成了若干种预置分词器。以下组件还能单独暴露,自由组合成自定义分词器。
-
character filters
- 以字符流的形式接收原始文本,增加、删除或修改字符,例如:剥离html标签,转换 (٠١٢٣٤٥٦٧٨٩) 为阿拉伯数字 (0123456789) 等。
- 一个分词器可以包含0到多个character filters
-
tokenizers
- 以字符流的形式接收文本,将它拆分成单个的 token (英文单词、中文单字或词语),输出 token stream (分词流)。
- tokenizer 还负责记录每个分词的位置顺序,每个分词的首末字母的偏移量(offsets)
- 一个分词器有且仅有一个 tokenizer
-
token filters
- 以 token stream (分词流)的形式接收文本,增加、删除或修改分词,例如:单词大写转为小写,去除英文停用词 the,同义词 synonym 替换等操作
- token filter 不修改分词的位置(position)和字符偏移量(character offsets)
- 一个分词器可以包含0到多个token filters
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
HBaseConAsia2019圆满落幕,一文带你看遍HBase以及大数据行业最新动态
HBaseCon是Apache软件基金会官方授权,Apache HBase社区支持举办的技术会议,主要目的是分享,交流HBase这个开源分布式大数据存储的使用和开发以及发展。HBaseCon发起于2012年。为了满足中国用户和开发者的热情,HBaseCon从2017年开始每年在中国举行。今年的HBaseCon,由小米主办,作为HBase社区国内的主要贡献者,阿里巴巴联合小米等国内主流互联网企业一起协办了此次会议。2019年7月20日,HBaseConAsia2019在北京金隅喜来登酒店举行,并圆满落幕。此次会议中,不仅有来自Cloudera、Intel、阿里、小米、华为等研发大厂给大家分享了在HBase内核方面的改进和优化,还有像Pinterest、滴滴、快手等一线互联网公司带来了HBase及大数据技术生态的最新洞察和行业实践。除
- 下一篇
基于Knox登录Yarn UI查看SparkStreaming作业兼容性问题说明
问题背景 1.登录EMR集群节点,运行SparkStreaming示例,如下所示(不同版本EMR集群spark-examples_xxx.jar的路径略有差异): [root@emr-header-1 ~]# spark-submit --class org.apache.spark.examples.streaming.NetworkWordCount --master yarn --deploy-mode cluster /opt/apps/ecm/service/spark/2.3.2-1.0.2/package/spark-2.3.2-1.0.2-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.3.2.jar 192.168.0.211 9999 参数说明:192.168.0.211: 监听流数据源地址9999: 监听流数据源端口 2.提交作业后,通过EMR集群提供的Yarn UI来查看运行在yarn上面作业。 3.点击“ApplicationMaster”,跳转spark界面查看作业详情,切换到“Streaming”可以看到...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS8编译安装MySQL8.0.19
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Windows10,CentOS7,CentOS8安装Nodejs环境