KTV歌曲推荐-深入浅出协同过滤-低调大师

KTV歌曲推荐-深入浅出协同过滤

2019-11-14 867

前言

推荐算法有很多，最基础的就是协同过滤，前段时间对KTV数据比较感兴趣，大家去唱歌也只是唱熟悉的歌，那是不是有办法给大家一些建议拓展一下唱歌的宽度呢。KTV推荐可能要考虑很多因素，比如唱歌者的音域，年龄，地区，喜好，等等。第一版算法暂时只从item base的角度出发去给用户推荐。由于是个人兴趣，所以没有模型反馈迭代的过程，有兴趣的可以自己实现。

协同过滤算法

协同过滤又叫行为相似召回，其实就是基于共现的一种相似度计算。 Item Base的协同过滤算法有几个关键概念：

相似度计算

相似度计算有很多种：共现相似度，欧几里得距离，皮尔逊相关系数，等等这里使用的是共现相似度，公式如下：

其中N(i)为喜欢i歌曲的用户数，同样N(j)为喜欢j歌曲的用户数，分子为同时喜欢i,j的用户数。该公式为改良公式，分子中加入了N(j)对相似度进行惩罚。这里不细讲。

ItemBase和UserBase

UserBase

寻找兴趣相似的用户，然后将偏好相同的用户的歌曲推荐给被推荐用户，表中发现A和C用户都喜欢i和k歌曲所以两个用户相似，所以将C用户的歌曲l推荐给A用户。如果用共现的方式去表述就是。这里细节计算的时候会涉及到用户打分和相似用户数据排序汇总。我这里都是概述。

用户/歌曲	歌曲i	歌曲j	歌曲k	歌曲l
用户A	1		1	推荐
用户B		1
用户C	1		1	1

ItemBase

与UserBase类似，计算相似的时候使用的是歌曲矩阵找到相似的歌曲，然后根据用户历史数据进行推荐，大概原理如下表。表中发现i,k歌曲同事被A,B两个用户喜欢，所以i,k相似，如果C用户喜欢i歌曲那么他应该也喜欢相似的k歌曲.

用户/歌曲	歌曲i	歌曲j	歌曲k
用户A	1		1
用户B	1	1	1
用户C	1		推荐

这里使用的是ItemBase

算法实现

得到用户对歌曲的one hot矩阵

将歌曲去重，按歌名排序
得到歌曲和索引的转换字典

计算得到歌曲对歌曲的共现度矩阵

计算共现矩阵

计算单个歌曲的出现次数

计算共现率值公式计算共现度

代码实现

获取数据

import elasticsearch
import elasticsearch.helpers
import re
import numpy as np
import operator

def trim_song_name(song_name):
    """
    处理歌名，过滤掉无用内容和空白
    """
    song_name = song_name.strip()
    song_name = re.sub("-?【.*?】", "", song_name)
    song_name = re.sub("-?（.*?）", "", song_name)
    song_name = re.sub("-?(.*?)", "", song_name)
    return song_name

def get_data(size=0):
    """
    获取uid=>作品名list的字典
    """
    cur_size=0
    ret = {}
    
    es_client = elasticsearch.Elasticsearch()
    search_result = elasticsearch.helpers.scan(
        es_client, 
        index="ktv_works", 
        doc_type="ktv_works", 
        scroll="10m",
        query={}
    )

    all_songs_list = []
    all_songs_set = set()
    for hit_item in search_result:
        cur_size += 1
        if size>0 and cur_size>size:
            break
            
        item = hit_item['_source']
        work_list = item['item_list']
        ret[item['uid']] = [trim_song_name(item['songname']) for item in work_list]
        
    return ret

def get_uniq_song_sort_list(song_dict):
    """
    合并重复歌曲并按歌曲名排序
    """
    return sorted(list(set(np.concatenate(list(song_dict.values())).tolist())))

相似度计算

import math

# 共现数矩阵
col_show_count_matrix = np.zeros((song_count, song_count))
one_trik_matrix = np.zeros(song_count)
for i in range(song_count):
    for j in range(song_count):
        if i>j: # 对角矩阵只计算一半的矩阵
            one_trik_matrix = np.zeros(song_count)
            one_trik_matrix[i] = 1
            one_trik_matrix[j] = 1
            
            ret_m = user_song_one_hot_matrix.dot(one_trik_matrix.T)
            col_show_value = len([ix for ix in ret_m if ix==2])
            col_show_count_matrix[i,j] = col_show_value
            col_show_count_matrix[j,i] = col_show_value

# 相似度矩阵
col_show_rate_matrix = np.zeros((song_count, song_count))

# 歌曲count N(i)矩阵
song_count_matrix = np.zeros(song_count)
for i in range(song_count):
    song_col = user_song_one_hot_matrix[:,i]
    song_count_matrix[i] = len([ix for ix in song_col if ix>=1])

# 相似度矩阵计算
for i in range(song_count):
    for j in range(song_count):
        if i>j: # 对角矩阵只计算一半的矩阵
            # 相似度计算 N(i)nN(j)/sqart(N(i)*N(j))
            rate_value = col_show_count_matrix[i,j]/math.sqrt(song_count_matrix[i]*song_count_matrix[j])
            col_show_rate_matrix[i,j] = rate_value
            col_show_rate_matrix[j,i] = rate_value

结果

[('三生三世', 0.5773502691896258), ('下个路口见', 0.5773502691896258), ('不分手的恋爱', 0.5773502691896258),...]

微信关注我们

原文链接：https://my.oschina.net/u/1240907/blog/3129574

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Rancher 2.3实现K8S一键式升级！再也不用同步升级Rancher啦！

在Rancher 2.3之前，Rancher的新版本总是随着Kubernetes的新版本一起发布，如果你想要使用最新版本的Kubernetes，那么你需要先升级Rancher才能使用。Rancher 2.3改变了这一模式——现在，可以为可用的Kubernetes版本更新元数据存储，从而使Rancher服务器的升级过程与Kubernetes集群的升级过程解耦。 Kubernetes 版本控制关于发行版的版本控制在Kubernetes文档中已经有详细的介绍，值得一提的是，每个Kubernetes的版本都遵循X.Y.Z的格式： X=主要版本 Y=次要版本 Z=修复版本（补丁版本） Kubernetes社区大致每三个月会发布一个次要版本（1.14->1.15），这些发行的版本会更新许多所需功能以及改进。尽管被标记为“次要版本”，但这些版本依旧十分重要！补丁版本（1.15.1->1.15.2）的更新会更加频繁并且十分重要，因为它们包含了及其重要的安全性和适用于最新次要版本的bug修复。它们解决了：安全漏洞修复影响大部分用户无法解决的问题基于Kubernetes的客户和产品拦...

2019-11-14

818

我们正接近发布日期，今天我们准备为您提供IntelliJ IDEA 2019.3的第二个Beta！ IntelliJ IDEA Ultimate Beta构建是免费使用的，但它们会在构建日期的30天内过期。我们正在对即将到来的IntelliJ IDEA 2019.3进行最后润色，并且此版本进行了一些显着更改。首先，只是为了防止您措手不及，GitHub Pull Requests的时间表不会包含在此即将发布的版本中。我们将继续增强对GitHub Pull Requests的支持，并计划在我们的未来版本之一中提供它。说到“版本控制”子系统中的更改，现在在合并，变基或“自动选择”操作期间发生冲突时，IDE将使您能够查看有关显示在“版本控制”子系统右侧窗格和左侧窗格中的更改的更多信息。合并对话框。只需单击“显示详细信息”链接。另外，即将发布的IntelliJ IDEA版本将允许您与队友共享调试器渲染器。现在，JetBrains批注库包含Debug.Renderer批注，您可以使用它在源代码中直接指定渲染器。立即尝试IntelliJ IDEA 2019.3 Beta2！并且不要忘记与我...

2019-11-14

998

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。