数据可用不可见,百度新版本联邦学习PaddleFL来了
伴随着智能化时代的迈进,AI无处不在,万事皆可智能化,很多企业走到了时代的风口,也不断有着更多的企业想跻身队伍,跨上AI大时代的战车。大家都深知人工智能的三大基石是:算法、算力与数据。传统企业有着丰富的数据基础,却缺乏技术能力;新型企业的技术能力紧跟时代步伐却苦于数据贫瘠。算力可以花钱买到,算法可以通过培养招聘技术人才来补齐,但是数据匮乏却使人在人工智能赛道上举步维艰。
在国内外监管环境日渐完善的今天,大家都在加强数据保护意识,很多有巨大价值的数据即使在公司内部都无法流通,从而形成数据孤岛。我国在今年9月推行的《中华人民共和国数据安全法》、将在11月1日起施行《中华人民共和国个人信息保护法》,都进一步要求数据在安全合规的前提下进行流动,这也让联邦学习再次掀起一波浪潮。
百度点石提供数据安全融合与应用服务、大数据核心技术能力,基于联邦学习、多方安全计算、可信执行环境等主流隐私计算技术,安全高效实现数据赋能,助力客户提升数据价值。
其中,基于百度飞桨开发的开源联邦学习框架PaddleFL,让企业之间的合作能够在数据层面安全开展。开发人员很容易在大规模分布式集群中部署PaddleFL联邦学习系统。PaddleFL提供多种联邦学习策略(横向联邦学习、纵向联邦学习)及其在计算机视觉、自然语言处理、推荐算法等领域的应用。
最近,PaddleFL新版本PaddleFL v1.1.2版本正式发布,在前期三方安全计算协议之上,新增了面向两方场景的安全计算协议以及安全联邦学习实现。新增特性描述如下:
1. 两方安全计算协议PrivC实现
PrivC协议实现总体参考了ABY协议,支持两方peer-to-peer计算模型以及外包计算模型,提供了半诚实模型下的计算安全性。在ABY协议混合电路计算的思想上,PrivC进行了一系列实现优化,如以tensor为单位聚合通信提升吞吐量,使用FreeXOR、HalfGate等方法降低加密电路运算开销,使用全同态加密计算乘法三元组等,并对非线性机器学习算子进行了近似实现,有效地提升了两方安全学习的性能。
2. 基于PrivC的两方安全联邦学习
PaddleFL在PrivC协议的基础上,为只有两个参与方情况下的联邦学习场景提供了针对性的解决方案。PaddleFL目前提供了纯两方的矩阵乘法、fc、relu、sigmoid、softmax等机器学习常用算子及其梯度计算实现,支持两方场景下的线性回归、对率回归、多层感知机等模型的训练与预测,具有优良的性能。
图 1 PaddleFL with PrivC运行示意图
PaddleFL在两方条件下的训练性能如下:
2.1 场景一 线性回归:
数据集与训练参数:
UCI波士顿房价,epoch = 20,batch_size = 10,lr = 0.1;
数据量:506行,80%用于训练,20%用于测试
epoch=20, lr=0.1, batchsize=10 机器信息:38核 Intel(R) Xeon(R) Gold 6148 CPU @2.40GHz,LAN | ||
PaddleFL with PrivC | ||
通信协议 | 总训练耗时(sec) | 总预测耗时(sec) |
gloo | 8.16785 | 0.0701 |
grpc | 10.0905 | 0.0776 |
2.2 场景二 逻辑回归:
数据集与训练参数:
MNIST数据集(label修改为二分类,“1”为1,其余为0),epoch = 1,batch_size = 128,lr = 0.01;
数据量:50 000条训练样本,10 000条测试样本
epoch = 1, batch_size = 128,lr = 0.01 机器信息:38核 Intel(R) Xeon(R) Gold 6148 CPU @2.40GHz | ||
PaddleFL with PrivC | ||
通信协议 | 训练耗时(sec/epoch) | 预测耗时(sec/epoch) |
gloo | 1363.0835 | 125.1553 |
grpc | 1515.89075 | 139.7041 |
3. 在线数据切片与分发
在1.1.2版本中,新增了对数据在线切片(secret-share)与分发的支持。在以前版本中,各实体间只能通过离线方式对数据进行切片,然后单独传输到计算方上。而在PaddleFLv1.1.2中,各实体间可以通过在线方式对明文数据进行切片与分发,免去了中间数据存储的步骤。
4. 增加对gRPC通信模式的支持
在1.1.2版本中,新增了对gRPC协议的支持,用户可以根据需要指定采用Gloo通信模式或是gRPC通信模式。利用gRPC通信协议,可以有效应对网络不稳定造成的闪断等情况,并对未来实现网络隔离条件下的端口收敛与单向通信提供了条件。
百度点石联邦学习平台兼容PaddleFL,为跨机构数据流通提供“可用不可见,相逢不相识”的极致安全体验。以此解决金融、政府、医疗、互联网等客户在联合风控、联合营销、联合分析等场景的数据安全和隐私保护需求,实现数据价值极大释放。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
白话版《openEuler 21.09 技术白皮书》
2021国庆前一天,欧拉操作系统按照既定的半年发布一个创新版本的节奏,发布了第三个创新版本openEuler 21.09。在前不久召开的 “华为全连接2021 大会” 上,我听到了欧拉即将进行 “全新” 发布的消息。作为一名长期观察欧拉发展的业内人士,我对这 “全新” 的说法是好奇的,这究竟是一种宣传的手法,亦或是真的有了很大不同? 怀着这个疑问,我对在 “华为全连接2021” 后几天发布的 openEuler 21.09www.openeuler.org 是颇为关注的,希望可以第一时间拿到它的白皮书一窥究竟。几天后,我提前拿到了欧拉的技术白皮书。我在翻阅后感觉,与其说欧拉是一辆粉饰一新的新车,不如说是它在引擎盖下做了颇多改进。 在这份几十页的《openEuler 21.09 技术白皮书》之中,颇有一些值得重视的技术变化被掩盖在了枯燥的技术术语之中,因此,本着一飨读者的想法,我对其中值得关注的地方,用更浅显的语言进行了一些解读。 openEuler 发布 首先回顾一下欧拉的基本情况。欧拉最初脱胎于华为内部的 Linux 发行版 EulerOS,后于 2019 年底宣布开源,成为open...
- 下一篇
腾讯开源 | CherryMarkdown-更友好的编辑器前端组件
导语 作为一种轻量便捷的文本标记语言,Markdown已在互联网等行业得到广泛的应用。Markdown语法没有强制统一的标准,不同平台使用的Markdown编辑器在语法和功能特性上都各有差异,使用者和开发者都面临不小的对齐、适配成本。 CherryMarkdown是一款使用者和开发者友好的Markdown编辑器前端组件,具有开箱即用、易于扩展、语法和功能丰富等特点,致力于帮助使用者和开发者降低编辑、开发成本,快速聚焦到编辑和创作中。 现将CherryMarkdown对外开源,为开源社区贡献力量。 主要设计目标 1. 开箱即用 接入成本低,开发者能便捷地调用并实例化编辑器;适配成本低,支持全屏、嵌入、移动端等多形态引入。 2. 易于扩展 由原生ES6实现,开发者可以快速进行二次开发和功能扩展;可以方便地使用vue/react等主流框架进行二次封装。 3. 语法和功能丰富 支持主流Markdown语法,支持实用的扩展语法和便捷的功能特性。 4. 性能优秀 通过局部渲染和局部更新机制,达到业界领先的渲染性能,让编辑体验更加流畅。 (CherryMarkdown组件架构图) 亮点特性简介 1....
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS关闭SELinux安全模块