MindSpore：基于本地差分隐私的 Bandit 算法-低调大师

MindSpore：基于本地差分隐私的 Bandit 算法

2021-03-09 710

摘要：本文将先简单介绍Bandit 问题和本地差分隐私的相关背景，然后介绍基于本地差分隐私的 Bandit 算法，最后通过一个简单的电影推荐场景来验证 LDP LinUCB 算法。

老虎机（Bandit）问题是强化学习中一类重要的问题，由于它定义简洁且有大量的理论分析，因此被广泛应用于新闻推荐，医学试验等实际场景中。随着人类进入大数据时代，用户对自身数据的隐私性日益重视，这对机器学习算法的设计提出了新的挑战。为了在保护隐私的情况下解决 Bandit 这一经典问题，北京大学和华为诺亚方舟实验室联合提出了基于本地差分隐私的 Bandit 算法，论文已被 NeurIPS 2020 录用，代码已基于 MindSpore 开源首发。

本文将先简单介绍 Bandit 问题和本地差分隐私的相关背景，然后介绍基于本地差分隐私的 Bandit 算法，最后通过一个简单的电影推荐场景来验证 LDP LinUCB 算法。

大家都有过这样的经历，在我们刷微博或是读新闻的时候，经常会看到一些系统推荐的内容，这些推荐的内容是根据用户对过往推荐内容的点击情况以及阅读时长等反馈来产生的。在这个过程里，系统事先不知道用户对各种内容的偏好，通过不断地与用户进行交互（推荐内容 — 得到反馈），来慢慢学习到用户的偏好特征，不断提高推荐的精准性，从而最大化用户的价值，这就是一个典型的 Bandit 问题。

Bandit 问题有 context-free 和 contextual 两种常见的设定，下面给出它们具体的数学定义。

【Context-Free Bandit】

【Contextual Bandit】

传统的差分隐私技术（Differential Privacy，DP）是将用户数据集中到一个可信的数据中心，在数据中心对用户数据进行匿名化使其符合隐私保护的要求后，再分发给下游使用，我们将其称之为中心化差分隐私。但是，一个绝对可信的数据中心很难找到，因此人们提出了本地差分隐私技术（Local Differential Privacy，LDP），它直接在客户端进行数据的隐私化处理后再提交给数据中心，彻底杜绝了数据中心泄露用户隐私的可能。

Context-Free Bandit

我们可以证明，上述算法有如下的性能：

根据上述定理，我们只需将任一非隐私保护的算法按照算法 1 进行改造，就立即可以得到对应的隐私保护版本的算法，且它的累积 regret 的理论上界和非隐私算法只相差一个

因子，因此算法 1 具有很强的通用性。我们将损失函数满足不同凸性和光滑性条件下的 regret 简单罗列如下：

上述算法和结论可以扩展到每一轮能观测多个动作损失值的情况，感兴趣的可以参见论文（https://arxiv.org/abs/2006.00701）。

Contextual Bandit

【定理】依照至少为

的概率，LDP LinUCB 算法的 regret 满足如

上述算法和结论可以扩展到 gg 不是恒等变换的情况， 感兴趣的可以参见论文（https://arxiv.org/abs/2006.00701）。

MovieLens 是一个包含多个用户对多部电影评分的公开数据集，我们可以用它来模拟电影推荐。我们通过src/dataset.py 来构建环境：我们从数据集中抽取一部分有电影评分数据的用户，然后将评分矩阵通过 SVD 分解来补全评分数据，并将分数归一化到[−1,+1]。在每次交互的时候，系统随机抽取一个用户，推荐算法获得特征，并选择一部电影进行推荐，MovieLensEnv会在打分矩阵中查询该用户对电影对评分并返回，从而模拟用户给电影打分。

class MovieLensEnv:    def observation(self):        """random select a user and return its feature."""        sampled_user = random.randint(0, self._data_matrix.shape[0] - 1)        self._current_user = sampled_user        return Tensor(self._feature[sampled_user])    def current_rewards(self):        """rewards for current user."""        return Tensor(self._approx_ratings_matrix[self._current_user])

import mindspore.nn as nn
class LinUCB(nn.Cell):    def __init__(self, context_dim, epsilon=100, delta=0.1, alpha=0.1, T=1e5):    ...        # Parameters        self._V = Tensor(np.zeros((context_dim, context_dim), dtype=np.float32))        self._u = Tensor(np.zeros((context_dim,), dtype=np.float32))        self._theta = Tensor(np.zeros((context_dim,), dtype=np.float32))

每来一个用户，LDP LinUCB 算法根据用户和电影的联合特征x基于当前的模型来选择最优的电影a_max做推荐，并传输带噪声的更新量：

import mindspore.nn as nn
class LinUCB(nn.Cell):...    def construct(self, x, rewards):        """compute the perturbed gradients for parameters."""        # Choose optimal action        x_transpose = self.transpose(x, (1, 0))        scores_a = self.squeeze(self.matmul(x, self.expand_dims(self._theta, 1)))        scores_b = x_transpose * self.matmul(self._Vc_inv, x_transpose)        scores_b = self.reduce_sum(scores_b, 0)        scores = scores_a + self._beta * scores_b        max_a = self.argmax(scores)        xa = x[max_a]        xaxat = self.matmul(self.expand_dims(xa, -1), self.expand_dims(xa, 0))        y = rewards[max_a]        y_max = self.reduce_max(rewards)        y_diff = y_max - y        self._current_regret = float(y_diff.asnumpy())        self._regret += self._current_regret
 # Prepare noise        B = np.random.normal(0, self._sigma, size=xaxat.shape)        B = np.triu(B)        B += B.transpose() - np.diag(B.diagonal())        B = Tensor(B.astype(np.float32))        Xi = np.random.normal(0, self._sigma, size=xa.shape)        Xi = Tensor(Xi.astype(np.float32))
 # Add noise and update parameters        return xaxat + B, xa * y + Xi, max_a

系统收到更新量之后，更新模型参数如下：

import mindspore.nn as nn
class LinUCB(nn.Cell):...    def server_update(self, xaxat, xay):        """update parameters with perturbed gradients."""        self._V += xaxat        self._u += xay        self.inverse_matrix()        theta = self.matmul(self._Vc_inv, self.expand_dims(self._u, 1))        self._theta = self.squeeze(theta)

我们测试不同的 \varepsilonε 对累积 regret 对影响：

x 轴：交互轮数
y 轴：累积 regret

相关模型代码已上线 MindSpore Model Zoo：https://gitee.com/mindspore/mindspore/tree/master/model_zoo感兴趣的可自行体验。

1. Kai Zheng, Tianle Cai, Weiran Huang, Zhenguo Li, Liwei Wang. "Locally Differentially Private (Contextual) Bandits Learning." Advances in Neural Information Processing Systems. 2020.

2. LDP LinUCB 代码：

https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/rl/ldp_linucb

本文分享自华为云社区《MindSpore 首发：隐私保护的 Bandit 算法，实现电影推荐》，原文作者：chengxiaoli。

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/4975690

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

越来越受欢迎的Vue想学么，90后小姐姐今儿来教你

摘要：Vue的相关技术原理成为了前端岗位面试中的必考知识点，掌握 Vue 对于前端工程师来说更像是一门“必修课”。本文原作者为尹婷，擅长前端组件库研发和微信机器人。我们发现， Vue 越来越受欢迎了。不管是BAT大厂，还是创业公司，Vue都被广泛的应用。对比Angular 和 React，三者都是非常优秀的前端框架，但从 GitHub 上来看，Vue 已经达到了 170 万的 Star。Vue的相关技术原理也成为了前端岗位面试中的必考知识点，掌握 Vue 对于前端工程师来说更像是一门“必修课”。为此，华为云社区邀请了90后前端开发工程师尹婷带来了《Vue3.0新特性介绍以及搭建一个vue组件库》的分享。了解Vue3.0先从六大特性说起 Vue.js 是一个JavaScriptMVVM库，是一套构建用户界面的渐进式框架。在2019年10月05日凌晨，Vue3的源代码alpha。目前已经发布正式版，作者表示， Vue 3.0具有六大特性：Tree Shaking；Composition；Fragment；Teleport；Suspense；渲染Performance。渲染Perfo...

2021-03-09

540

作者 | 王科怀（行松）来源 | 阿里巴巴云原生公众号微服务治理面临的挑战在业务初期，因人手有限，想要快速开发并上线产品，很多团队使用单体的架构来开发。但是随着公司的发展，会不断往系统里面添加新的业务功能，系统越来越庞大，需求不断增加，越来越多的人也会加入到开发团队，代码库也会增速的膨胀，慢慢的单体应用变得越来越臃肿，可维护性和灵活性逐渐降低，维护成本越来越高。这个时候很多团队会把单体应用架构改为微服务的架构，解决单体应用的问题。但随着微服务越来越多，运维投入会越来越大，需要保证几十甚至几百个服务正常运行与协作，这给运维带来了很大的挑战，下面从软件生命周期的角度来分析这些挑战：开发测试态如何实现开发、测试、线上环境隔离？如何快速调试本地变更？如何快速部署本地变更？发布态如何设计服务发布策略？如何无损下线旧版本服务？如何实现对新版本服务灰度测试？运行态线上问题如何排查？有什么工具可以利用呢？对于服务质量差的节点如何处理？对于完全不工作的实例我们如何恢复？面对以上问题，Serverless 应用引擎在这方面都做了哪些工作？ Serverless 应用引擎...

2021-03-09

753

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。