document.write('
')

当前位置:   金科网 > 人工智能 > 正文

对话微众银行杨强:联邦学习的问题何解、前景何方

对话微众银行杨强:联邦学习的问题何解、前景何方

蔡鹏程

蔡鹏程

· 2022.11.23 14:25

微信扫码

26.7万

15

11

“长远来看,随着社会数智化的发展、数据要素的流通、数据交易所的落地,数据的定价、数据知识产权的认证,数据安全隐私的保护等环节都离不开联邦学习,这也是联邦学习发展的最大机遇。”

播放

暂停

对话微众银行杨强:联邦学习的问题何解、前景何方

00:00 11:11

对话微众银行杨强:联邦学习的问题何解、前景何方

数据安全、隐私保护、数据孤岛是AI时代遇到的普遍难题。

在人工智能的发展道路上,除了算法、算力的要求,“喂养”人工智能模型需要海量、多维数据进行模型训练。在此过程中,数据安全、个人数据隐私等风险事件频发,数据孤岛现象频现。隐私与数据保护越发得到重视,相关的法律法规日渐严格和完善。

在此背景下,“联邦学习”为以上问题的解决提供了一个可行方案。

所谓“联邦学习”,其基本思想是建立一个共有模型,各个参与者的身份和地位相同,通过加密机制下的参数交换方式,实现不同企业、不同部门所拥有的数据不交换、不移动。在不违反数据隐私保护法律法规的前提下,模型利用全量数据进行训练和模型优化,从而得到最优模型结果。

香港科技大学计算机与工程系讲座教授和前系主任、中国人工智能学会(CAAI)荣誉副理事长、微众银行首席人工智能官杨强教授曾以羊与草为喻,形容联邦学习的思路所在。

假设用一只羊来类比机器学习模型,我们希望羊吃了草以后能够长大。过去的做法是,把草买到一起来建立模型。羊不动,但是草被购买到中心。相当于用简单粗暴的办法来获取数据,形成大数据,来建立模型。

但我们希望能够保护各自的隐私,所以让草不动,让羊动。也就是说,我们带着模型到不同的草场去访问,那么久而久之羊就长大了——这个就是联邦学习的新思路,就是让草不出草场,本地主人无法知道羊吃了哪些草,但是羊还是长大了。

“联邦学习”在解决数据共享和数据隐私保护领域展现出强大的吸引力。到目前为止,联邦学习已在金融、广告营销等方面获得落地。

比如,互联网平台推送“千人千面”式的营销信息时,其背后的推荐模型就需要大量用到用户的特征数据。但单一企业只拥有用户的一部分特征数据,如果可以接入更多其他互联网企业的数据或者是投放广告主关于用户的数据,那么将大幅提升广告推荐的效果,既能提升点击率也可以提升广告主的ROI,联邦学习的出现就很好的解决了这个问题。

金融领域同样如此,单个金融机构掌握的用户信息较少,除了个人征信系统之外,各平台数据之间彼此是不互通的。联邦学习的出现同样让各大金融机构之间可以联合建模,对于用户的资质进行全面客观的评价,降低贷款的违约率和资产的不良率。

不过在现实中,“联邦学习”商业应用仍然面临一些问题,且其在技术研究中也仍然存在一些难点有待突破。

比如,如何在效率、性能与安全性之间取得平衡是一个难题。目前“联邦学习”系统严格保护用户本地数据不外泄,只传输模型更新,而且即使是模型更新,也会对模型进行加密后再传输。对于更复杂的加密系统,就意味着回传也需要更多的资源和实践去解密。效率、性能与安全性之间有此存在冲突。

再如,“联邦学习”面临着的“数据下毒”的威胁。联邦学习的分布式特点以及安全聚合机制往往让数据造假变得更容易,更难被发现和举证。每一方都有可能通过构造“数据下毒”来控制整个模型的训练结果。

经过数年发展,“联邦学习”究竟在技术和商业应用层面有何发展?