用ElasticSearch实现基于标签的兴趣推荐-低调大师

用ElasticSearch实现基于标签的兴趣推荐

2020-08-14 935

前言

本文将通过ElasticSearch（简称ES）倒排索引的特性实现基于标签的兴趣推荐

前提

操作系统：ubuntu 20.04
Docker version 19.03.8
ElasticSearch 7.X

用到的工具

Curl工具，推荐Insomnia
ES GUI工具，推荐appbaseio/dejavu

安装ES

docker环境安装单机版ES，用来测试

docker run -d --name elasticsearch -v /home/cherokee/docker-data/es-data:/usr/share/elasticsearch/data -e http.cors.enabled=true -e http.cors.allow-origin="*" -e http.cors.allow-headers=X-Requested-With,X-Auth-Token,Content-Type,Content-Length,Authorization -e http.cors.allow-credentials=true  -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" successage/es-ik

在本地启动了ES服务，通过 http://localhost:9200 可以访问

创建索引

创建一个名为rcmd的索引

curl --request PUT \
  --url http://localhost:9200/rcmd

申明索引

curl --request PUT \
  --url http://localhost:9200/rcmd/_mapping \
  --header 'content-type: application/json' \
  --data '{
	"properties": {
		"tags": {
			"type": "keyword",
			"store": true
		},
		"update_time": {
			"type": "date",
			"store": true
		}
	}
}'

两个字段：

tags，文章的兴趣标签，keyword类型就是不需要全文检索，标签以数组的形式存放
update_time，更新时间，这是给兴趣推荐加一个额外的排序条件，实际项目中往往是需要结合时间和匹配度来排序的

模拟数据

插入一些数据

curl --request POST \
  --url http://localhost:9200/rcmd/_doc \
  --header 'content-type: application/json' \
  --data '{
	"tags": [
		"布料",
		"抹布",
		"裤子",
		"衣服",
		"生活"
	],
	"update_time": "2020-06-01T00:02:11.030"
}'

再插入一条，同样标签，但是时间不一样，后面例子中有妙用

curl --request POST \
  --url http://localhost:9200/rcmd/_doc \
  --header 'content-type: application/json' \
  --data '{
	"tags": [
		"布料",
		"抹布",
		"裤子",
		"衣服",
		"生活"
	],
	"update_time": "2020-07-01T00:02:11.030"
}'

curl --request POST \
  --url http://localhost:9200/rcmd/_doc \
  --header 'content-type: application/json' \
  --data '{
	"tags": [
		"啤酒",
		"米酒",
		"饮料",
		"餐饮",
		"生活"
	],
	"update_time": "2020-06-02T00:02:11.030"
}'

curl --request POST \
  --url http://localhost:9200/rcmd/_doc \
  --header 'content-type: application/json' \
  --data '{
	"tags": [
		"火锅",
		"自助餐",
		"外卖",
		"烧烤",
		"餐饮"
	],
	"update_time": "2020-06-03T00:02:11.030"
}'

curl --request POST \
  --url http://localhost:9200/rcmd/_doc \
  --header 'content-type: application/json' \
  --data '{
	"tags": [
		"太阳",
		"月亮",
		"大海",
		"星星",
		"自然"
	],
	"update_time": "2020-06-01T00:02:11.030"
}'

curl --request POST \
  --url http://localhost:9200/rcmd/_doc \
  --header 'content-type: application/json' \
  --data '{
	"tags": [
		"人类",
		"动物",
		"植物",
		"地球",
		"自然"
	],
	"update_time": "2020-06-01T00:02:11.030"
}'

curl --request POST \
  --url http://localhost:9200/rcmd/_doc \
  --header 'content-type: application/json' \
  --data '{
	"tags": [
		"男人",
		"女人",
		"小孩",
		"老人",
		"人类"
	],
	"update_time": "2020-06-02T00:02:11.030"
}'

最终数据如下

固定分数查询

curl --request POST \
  --url http://localhost:9200/rcmd/_search \
  --header 'content-type: application/json' \
  --data '{
	"query": {
		"bool": {
			"should": [
				{
					"constant_score": {
						"boost": 1,
						"filter": {
							"match": {
								"tags": "生活"
							}
						}
					}
				},
				{
					"constant_score": {
						"boost": 1,
						"filter": {
							"match": {
								"tags": "衣服"
							}
						}
					}
				},
				{
					"constant_score": {
						"boost": 1,
						"filter": {
							"match": {
								"tags": "火锅"
							}
						}
					}
				}
			]
		}
	}
}'

should表达式的意义是匹配“生活”、“衣服”、“火锅”三个标签中任何一个的文章都可以返回。用constant_score查询，如果某个文章涵盖标签越多分值就越高。也就是说如果某个文章标签完全涵盖了这三个标签，那么它的分值最高的。查询结果如下：

{
  "took": 2,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 4,
      "relation": "eq"
    },
    "max_score": 2.0,
    "hits": [
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "brQO63MBTdXKc2eArv9A",
        "_score": 2.0,
        "_source": {
          "tags": [
            "布料",
            "抹布",
            "裤子",
            "衣服",
            "生活"
          ],
          "update_time": "2020-06-01T00:02:11.030"
        }
      },
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "b7QP63MBTdXKc2eAPf_Y",
        "_score": 2.0,
        "_source": {
          "tags": [
            "布料",
            "抹布",
            "裤子",
            "衣服",
            "生活"
          ],
          "update_time": "2020-07-01T00:02:11.030"
        }
      },
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "cLQQ63MBTdXKc2eA6_8v",
        "_score": 1.0,
        "_source": {
          "tags": [
            "啤酒",
            "米酒",
            "饮料",
            "餐饮",
            "生活"
          ],
          "update_time": "2020-06-02T00:02:11.030"
        }
      },
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "cbQS63MBTdXKc2eAcP-N",
        "_score": 1.0,
        "_source": {
          "tags": [
            "火锅",
            "自助餐",
            "外卖",
            "烧烤",
            "餐饮"
          ],
          "update_time": "2020-06-03T00:02:11.030"
        }
      }
    ]
  }
}

有两篇文章涵盖了其中两个标签“生活”和“衣服”，得分为2，排到了前面。这个排序基本满足了兴趣匹配的要求。

兴趣标签权值

实际的项目中往往是用户的兴趣标签的权值不一样，假设用户的兴趣标签是["火锅","生活","衣服"]，排在越前面的权重越高，查询的时候需要给关键词设定权重，上面的查询语句所有boost都是默认值1，现在根据需求改动权值再查询。

curl --request POST \
  --url http://localhost:9200/rcmd/_search \
  --header 'content-type: application/json' \
  --data '{
	"query": {
		"bool": {
			"should": [
				{
					"constant_score": {
						"boost": 1,
						"filter": {
							"match": {
								"tags": "生活"
							}
						}
					}
				},
				{
					"constant_score": {
						"boost": 4,
						"filter": {
							"match": {
								"tags": "衣服"
							}
						}
					}
				},
				{
					"constant_score": {
						"boost": 6,
						"filter": {
							"match": {
								"tags": "火锅"
							}
						}
					}
				}
			]
		}
	}
}'

分别给三个词加上权重6、4、1，查询结果如下：

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 4,
      "relation": "eq"
    },
    "max_score": 6.0,
    "hits": [
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "cbQS63MBTdXKc2eAcP-N",
        "_score": 6.0,
        "_source": {
          "tags": [
            "火锅",
            "自助餐",
            "外卖",
            "烧烤",
            "餐饮"
          ],
          "update_time": "2020-06-03T00:02:11.030"
        }
      },
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "brQO63MBTdXKc2eArv9A",
        "_score": 5.0,
        "_source": {
          "tags": [
            "布料",
            "抹布",
            "裤子",
            "衣服",
            "生活"
          ],
          "update_time": "2020-06-01T00:02:11.030"
        }
      },
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "b7QP63MBTdXKc2eAPf_Y",
        "_score": 5.0,
        "_source": {
          "tags": [
            "布料",
            "抹布",
            "裤子",
            "衣服",
            "生活"
          ],
          "update_time": "2020-07-01T00:02:11.030"
        }
      },
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "cLQQ63MBTdXKc2eA6_8v",
        "_score": 1.0,
        "_source": {
          "tags": [
            "啤酒",
            "米酒",
            "饮料",
            "餐饮",
            "生活"
          ],
          "update_time": "2020-06-02T00:02:11.030"
        }
      }
    ]
  }
}

可以看到包含“火锅”的文章排到了第一，包含“衣服”和“生活”的文章虽然两个词都命中，但是在权值的弱化之下排到了第二第三位。

多条件排序

curl --request POST \
  --url http://localhost:9200/rcmd/_search \
  --header 'content-type: application/json' \
  --data '{
	"query": {
		"function_score": {
			"query": {
				"bool": {
					"must": [
						{
							"range": {
								"update_time": {
									"from": "2020-06-01",
									"to": "2020-08-01"
								}
							}
						},
						{
							"bool": {
								"should": [
									{
										"term": {
											"tags": {
												"term": "火锅",
												"boost": 2
											}
										}
									},
									{
										"term": {
											"tags": {
												"term": "衣服",
												"boost": 1
											}
										}
									},
									{
										"term": {
											"tags": {
												"term": "生活",
												"boost": 1
											}
										}
									}
								]
							}
						}
					]
				}
			},
			"functions": [
				{
					"gauss": {
						"update_time": {
							"scale": "3d",
							"origin": "2020-07-02T00:01:00.000"
						}
					}
				}
			]
		}
	},
	"_source": {
		"include": [
			"tags",
			"update_time"
		]
	},
	"from": 0,
	"size": 10
}'

以上是相对完整的一个查询，首先对update_time发布时间做了限制，只选择一定范围内的数据，随后是标签的匹配，多个标签匹配条件之间是"OR"的关系，标签具有不同的权重，接下来用衰减函数gauss对update_time做衰减排序，衰减函数的意义是越近越好，scale": "3d"就是以3天为一个阶梯先对数据进行排序，相同阶梯内的数据再按照标签匹配度排序。注：gauss中的origin可以不指定最终的查询结果：

{
  "took": 2,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 4,
      "relation": "eq"
    },
    "max_score": 3.6649413,
    "hits": [
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "b7QP63MBTdXKc2eAPf_Y",
        "_score": 3.6649413,
        "_source": {
          "update_time": "2020-07-01T00:02:11.030",
          "tags": [
            "布料",
            "抹布",
            "裤子",
            "衣服",
            "生活"
          ]
        }
      },
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "cbQS63MBTdXKc2eAcP-N",
        "_score": 4.4511746E-28,
        "_source": {
          "update_time": "2020-06-03T00:02:11.030",
          "tags": [
            "火锅",
            "自助餐",
            "外卖",
            "烧烤",
            "餐饮"
          ]
        }
      },
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "cLQQ63MBTdXKc2eA6_8v",
        "_score": 1.764942E-30,
        "_source": {
          "update_time": "2020-06-02T00:02:11.030",
          "tags": [
            "啤酒",
            "米酒",
            "饮料",
            "餐饮",
            "生活"
          ]
        }
      },
      {
        "_index": "rcmd",
        "_type": "_doc",
        "_id": "brQO63MBTdXKc2eArv9A",
        "_score": 2.8566082E-32,
        "_source": {
          "update_time": "2020-06-01T00:02:11.030",
          "tags": [
            "布料",
            "抹布",
            "裤子",
            "衣服",
            "生活"
          ]
        }
      }
    ]
  }
}

同样是匹配了“衣服”和“生活”的两篇文章，一篇在最前面，一篇在最后面，是因为update_time的缘故，一篇是7月1日发布的，另一篇在6月1日，不在同一时间阶梯内，日期久远的排到了后面。中间的两篇，各自匹配了一个标签，分别是“烧烤”和“生活”，两篇文章时间阶梯没有明显的区别，然而匹配“火锅”的排到了前面，是因为“火锅”的关键词加了较高的权重。至此，我们实现了按照标签匹配文章，并且结合了时间因素和匹配度评分的兴趣推荐。

后续问题

本文仅仅实现了推荐中信息的匹配和排序，实际的推荐系统中还有信息流中过滤已推文章的问题，取备选文章和历史文章的交集是比较耗时的运算；此外还要解决用户Feed流推拉问题。
在本文中没有提及用户兴趣标签的累积操作，理论上来说只要用户读了相应的文章，就根据文章的标签给用户兴趣标签累计加分，实际项目中往往需要处理兴趣标签截断统一降权，例如标签库有1万个标签，用户进行多次阅读行为之后，一个用户和1万个标签都会有关系，分值大小不同的区别而已，如果一直根据高分的兴趣标签给用户推荐文章，兴趣标签就形成了马太效应，新的兴趣标签没有机会超过累积高分的标签，兴趣推送会越来越窄，这时候就需要截取一定数量的兴趣标签，例如截取前100个，然后统一降分，给用户的新兴趣超赶机会。
以上例子没有在超大数据环境下测试过，还没有具体的性能指标。

微信关注我们

原文链接：https://my.oschina.net/waterbear/blog/4493422

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Chrome 86 改进地址栏隐藏/显示完整 URL 功能

谷歌认为，在当今的网络环境中，URL 仍然是用户确定站点身份和真实性的主要方式，但URL 又非常容易骗过人们的眼睛。例如：攻击者可以通过多种方式操纵 URL 来使用户混淆网站的身份，从而实现网络钓鱼、社交工程和网络诈骗。一项研究显示，当 URL 中出现误导性品牌名称时，超过 60％的用户会被欺骗。为避免此类问题的发生，谷歌选择了在地址栏隐藏完整 URL 的做法。虽然此方案遭到不少批评，但这并没有阻止谷歌继续推进此计划。此前在 Chrome 85 的 Dev 和 Canary 通道中引入了名为“Omnibox UI Hide Steady-State URL Path, Query, and Ref”的新特性，提供了两项变化：一是将鼠标悬停在地址栏上时显示完整 URL，而其余时候隐藏整个 URL，具体来说是隐藏除域名之外的所有内容（比如完整 URL “https://www.oschina.net/news/117949/about-opensource-microsoft-com”仅显示为“oschina.net”）；二是与网页互动后隐藏 URL。在 Chrome 86 中，谷歌...

2020-08-16

736

前言本文收录于专辑：http://dwz.win/HjK，点击解锁更多数据结构与算法的知识。你好，我是彤哥。上一节，我们一起学习了如何将递归改写为非递归，其中，用到的数据结构主要是栈。栈和队列，可以说是除了数组和链表之外最基础的数据结构了，在很多场景中都有用到，后面我们也会陆陆续续的看到。今天，我想介绍一下，在Java中，如何构建一个高性能的队列，以及我们需要掌握的底层知识。学习其他语言的同学，也可以看看，在你的语言中，是如何构建高性能队列的。队列队列，是一种先进先出（First In First Out，FIFO）的数据结构，类似于实际生活场景中的排队，先到的人先得。使用数组和链表实现简单的队列，我们前面都介绍过了，这里就不再赘述了，有兴趣的同学可以点击以下链接查看：重温四大基础数据结构：数组、链表、队列和栈今天我们主要来学习如何实现高性能的队列。说起高性能的队列，当然是说在高并发环境下也能够工作得很好的队列，这里的很好主要是指两个方面：并发安全、性能好。并发安全的队列在Java中，默认地，也自带了一些并发安全的队列：队列有界性锁数据结构 Arra...

2020-08-14

536

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。