一文详解隐私保护计算技术MPC协议,及基于隐语SecretFlow隐私框架的应用探索
打开链接点亮社区Star,照亮技术的前进之路。每一个点赞,都是社区技术大佬前进的动力
Github 项目群仓库地址: https://github.com/secretflow
作者:哈尔滨工业大学(深圳)副教授、博导 蒋琳
隐私保护计算技术
首先,隐私保护计算这一概念的提出,实际上是对当前学界广泛讨论的隐私计算的一个更为精准的界定。
隐私,这一看似简单却内涵丰富的词汇,在社会学、法学以及更广泛的信息学领域都有着不同的理解和定义。
它不仅延伸出计算机的伦理学,甚至在如今火热的人工智能安全讨论中,也占据着不可忽视的地位。
因此,明确隐私的范畴,对于我们后续的隐私保护或隐私保护计算工作至关重要。
隐私保护计算,这一概念的起源,我曾在《隐私计算理论与技术》一书中得到启示。书中提到的知情权、删除权、被遗忘权和延伸授权等权利,都是我们在进行隐私保护计算时需要考虑的因素。
当我们对隐私有了清晰的认识后,再来讨论隐私保护计算,才能更为准确和深入。
- 为什么隐私保护计算很重要
那么,为什么隐私保护计算如此重要呢?最近提出了一个新质生产力的概念,新质生产力具有高科技、高效能、高质量的特征,符合新发展理念,是先进生产力的具体体现形式。
随着信息技术的飞速发展,数据的流动、交易、利用和开发已经成为常态,但与此同时,隐私保护的需求也日益凸显。
隐私保护计算,正是为了破除这张不平衡,即数据流动、交易、利用和开发,与数据隐私保护之间矛盾的不平衡,实现数据利用与隐私保护的双赢。
- 隐私保护计算技术路线分类
接下来,我想从几个角度对隐私保护计算进行技术路线分类。
网上对相关技术路线多数只是一个技术的罗列,缺乏系统、有逻辑的分解。
这个分类是我们团队经过深入讨论后提出的,希望能为大家提供一个新的视角。如上图所示,横坐标强调原始数据是否流出本地,这样就可以区分出来左右。
中间的纵轴是从数据计算的角度,就是参与方是集中式的计算还是协同式的计算,从这两个维度把现在的技术路线分成了四个象限。
- 隐私保护计算业务分类
除了技术路线上的分类,我们还可以从业务角度对隐私保护计算进行分类,如分析类、检索类和模型类,分析类包括联合统计等,检索类包括查询等,模型类则与AI关系最大,包括模型训练和模型预测。
根据我们与合作伙伴的需求分析沟通以及一些白皮书中的信息,分析类和检索类的隐私需求较大,而模型类的需求可能更多关注在模型预测方面。
虽然分析类和检索类的计算相对简单,但实际上需要做的工作更多。这是我们对隐私计算业务粗略的理解。
- 隐私保护计算架构分类
我们尝试对计算架构进行分类,但目前我们的分析还有待提高,需要持续地进行调整和改进。以下是我们目前的分类情况:
-
最传统的数据发布隐私保护框架是左上角的框架,包括差分隐私和传统脱敏等技术路线。
-
右上角的2是指代单方外包,即同态加密算法,数据通过单密钥同态加密算法加密后可以提供给云端。第二个框架是在云出现后开始做的,包括将数据放在云端的各种云计算环境中。
-
左下角的3是传统的 MPC 在无信任中心架构下,用于保护数据隐私。
-
右下角是结合了云和多方的框架,包括联邦学习和集合了 MPC 或多密钥同态加密的框架。
安全多方计算协议简介
- 安全多方计算的定义
讲到安全多方计算,我们可以将左侧的图理解为存在可信第三方的场景,所有多方数据可以汇总在一起。
如果我们将安全多方计算协议视为一个模块,该模块可以代替可信第三方执行计算,从而实现无需可信中心的计算。这是对安全多方计算的定义。
- 安全多方计算基本设计方法
近年来,在安全多方计算领域,我们一直在努力探索不同的技术路线,其中包括秘密分享和混淆电路,这两种技术各有其优势与劣势。
例如,秘密分享的优点恰好是混淆电路的缺点,反之亦然。尽管如此,我们并未止步,而是在这条道路上继续探索前行。
- 技术框架
在技术框架方面,基于混淆电路和秘密共享的方法都可以支持我们之前提到的隐私保护计算业务分类,如模型训练与预测、联合统计及隐匿查询等。
我们从这个框架中可以看出,有些人在专心做基础工具,如混淆电路、不经意传输等。
也有人在基础工具之上来做右边中间的各种基础运算,这些基础运算进而支持了更高层的协议,这些协议又能为各种业务场景提供支撑。
- 安全多方计算的两种架构模式
在探讨安全多方计算时,架构的设计至关重要。如果架构不清晰或设计不当,可能会导致技术路线错误,甚至引发安全问题。
因此,我们通常在深入研究之前,都会对架构进行详细的讨论。
左边是最经典的安全多方计算的计算架构,简单理解为我们的计算方一和计算方二的原始数据并没有出来,它是以随机数的形式在 MPC 的组件之间进行交互。传统的安全多方计算模式虽然经典,但受到理论上的限制,性能上一直存在瓶颈。
右边的代理模式则将数据的拥有和计算分离,使得数据拥有方更具拓展性,不再受到 MPC 中 M 的技术限制。
然而,代理模式也有其局限性,即代理计算方之间不能同谋,这是一个较强的假设。因此,在选择应用场景时,我们需要明确需求方的底线和可能的风险。
安全多方计算应用
接下来,我想分享两个安全多方计算的典型应用案例。
应用场景------拍卖场景安全需求
安全在线拍卖,看似与隐私计算无直接关联,但实际上,MPC 的根源之一就隐藏其中。
最初的 MPC 起源于"百万富翁"问题,即两个富翁如何在不透露各自财富具体数额的情况下,确定谁更为富有。在线拍卖场景则是这一思想的延伸,当有多个竞拍者参与时,他们如何确保自己的出价不被其他竞拍者所知,同时又能确定谁是出价最高者,从而赢得拍卖。这一过程不仅考验着技术的复杂性,更体现了 MPC 在保护隐私方面的独特价值。
在这个过程中,MPC 展现了五个关键的安全性质:隐私性、输入独立性、正确性、保证输出交付、公平性。这些性质看似简单,但要将其用数学语言精确表达,并确保设计的协议符合这些性质,却是一项极具挑战性的任务。
例如,竞拍者需要确保自己的出价不被泄露,这看似简单的要求,实际上需要精心的数学设计和协议验证。
这样的工作从 1982 年开始,至今已有近 40 年的发展历程,它不仅仅是一个技术问题,更是一个关于信任和隐私保护的深刻思考。
- 应用场景------机器学习隐私需求及技术路线
在金融领域,我们经常可以看到两个银行或一个银行与一个保险公司需要联合处理数据,以获取更有价值的模型。
在这个过程中,MPC 发挥了不可替代的作用。即使在没有可信第三方的情况下,MPC 也能确保数据的安全性和隐私性,使得合作成为可能。
然而,我们也必须正视目前存在的一些问题。尽管 MPC 在理论上已经相当成熟,但在实际应用中,特别是在处理大规模数据时,其性能往往受到限制。
例如,在百万级参数的情况下,MPC 的预测速度可能只能达到秒级水平,这与实际需求还有较大差距。此外,硬件设备的性能也是制约 MPC 应用的一个重要因素。
为了解决这个问题,我们探索了从完全分布式到代理式的架构转变。在代理式架构中,数据提供方可以无限扩展,通过秘密共享的方式将数据分布在云端。
这样,云端之间通过执行 MPC 协议,可以有效地规避 MPC 在技术上的限制,为更广泛的应用场景提供可能。
安全多方计算在隐语中的应用探索
此外,我想分享一些个人的理解和体会。作为学术界或科研团队的成员,我们在开发过程中常常担心能力范围有限,无法从头至尾完成整个项目。
然而隐语平台为我们提供了极大的便利,使我们的算法能更好地展示和应用。我们也期待通过合作和探讨,为隐语框架添加更多更新的模块,共同推动其发展。
同时我们意识到现有算法在理论和实际需求上还有很大差距,实际应用中的偏差导致效果不佳。我们关注性能瓶颈,因为许多产品无法上线是因为性能问题而非安全问题,希望能通过合作共同解决性能问题。
最后,我想就互联互通问题表达一些期望。目前,不同公司可能采用不同的隐私计算框架,如 A 公司采用隐语,而B公司则可能选择其他框架,这导致了平台之间的互联互通障碍。我们期待能够借鉴 C++、Java 等语言的成功经验,实现不同隐私计算框架之间的顺畅互通,从而为整个行业带来更大的便利与效益。
本文由隐语社区统一发布,欢迎大家点 Star

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
(二)3.1.9 生产“稳”担当:Apache DolphinScheduler Worker 服务源码全方位解析
作者 | 李杰 移动云,Apache DolphinScheduler贡献者 在现代数据驱动的企业中,工作流调度系统是数据管道(Data Pipeline)的"中枢神经"。从 ETL 任务到机器学习训练,从报表生成到实时监控,几乎所有关键业务都依赖于一个稳定、高效、易扩展的调度引擎。 笔者认为 Apache DolphinScheduler 3.1.9 是稳定且广泛使用的版本,故本系列文章将深入其源码核心,剖析其架构设计、模块划分与关键实现机制,帮助开发者理解 Master 和 Worker "如何工作",并为进一步二次开发或性能优化打下基础。 我们之前解读了 Apache DolphinScheduler 3.1.9版本源码的 Master server 启动流程,感兴趣的可以去查看。本文是 Apache DolphinScheduler 3.1.9 版本源码解读的第二篇:Worker Server 启动流程源码解读以及相关流程设计。结尾处附有相关流程图,供大家参考。 Worker Server启动核心概览 ====================== 代码入口:org.apache...
-
下一篇
GOSIM 开源出海工作坊:给开源创业者的忠告
在这个数字机遇无限的时代,开源不仅是技术创新的象征,更是全球商业扩张的关键驱动力。本次分享将带你走过开源项目从诞生到跨越国界、进入全球市场的完整历程。 作为一位从开源社区起步、并成功将其发展为全球化业务的创始人,白鲸开源 CEO 郭炜在近日于杭州落幕的 GOSIM 开源出海工作坊上分享了白鲸开源如何借助开源创新打破区域壁垒,赢得全球企业与投资者的支持;如何构建可持续的开源商业模式,应对不同市场的挑战,实现全球商业化。通过真实案例,郭炜剖析了如何把技术热情与社区支持转化为长期的商业成功。 在圆桌会议上,大家还与众多开源出海领域的专家畅谈了开源出海的机会与挑战。 如果你正面临“从本地到全球”扩张的挑战,或想了解开源创业如何规模化走向世界,这篇文章将为你提供实用的洞察与策略。 全球市场 or 中国市场:先选战场,再谈打法 “出海”两个字,在开源语境里不是浪漫叙事,而是生死抉择。软件一旦开源,代码本身就不再设防,谁能把同一份代码变成最让当地客户肯掏钱的商业形态,谁就能吃到那块蛋糕。于是,第一个必须回答的问题不是“产品怎么做”,而是“我到底先喂饱哪一片海”。 开源到商业的市场选择——商业价值三角...
相关文章
文章评论
共有0条评论来说两句吧...