• IIANews微官网
    扫描二维码 进入微官网
    IIANews微信
    扫描二维码 关注微信
    移动客户端
  • English
IMS2024中国智能制造发展论坛

杨强:打破数据孤岛穿越人工智能寒冬

  2022年12月26日  

随着5G、物联网、云计算、工业互联网等技术发展,数据量已然进入爆发增长期,如何在遵守更加严格、新的隐私保护条例前提下,解决数据碎片化和数据隔离的问题,是当前人工智能研究者和实践者面临的首要挑战。

倘若不能很好地解决这个问题,将会很可能导致新一轮的人工智能的寒冬。微众银行首席人工智能官杨强称,在人工智能领域,隐私保护技术联邦学习作为一种分布式的机器学习新范式,具有数据不动模型动,数据可用不可见的核心特征,已成为推动人工智能产业应用深化、数据要素流通、数据价值释放的关键技术。

杨强还是香港科技大学计算机与工程系讲座教授和前系主任,AAAI-2021大会主席,国际人工智能联合会(IJCAI)理事会前主席,香港人工智能与机器人学会(HKSAIR)理事长,智能投研技术联盟(ITL)、开放群岛(OI)开源社区、联邦学习FATE开源社区主席,华为诺亚方舟实验室首任主任。他于20137月当选为国际人工智能协会(AAAI)院士,是第一位获此殊荣的华人,之后又于20165月当选为AAAI执行委员会委员,是首位AAAI华人执委。20178月他当选为国际人工智能联合会(ICAI,国际人工智能领域创立最早的顶级国际会议)理事会主席,是第一位担任ICAI理事会主席的华人科学家。

杨强所在的微众银行是国内首家提出联邦学习解决数据孤岛与数据隐私保护难题的机构,联邦学习为人工智能落地中数据孤岛与数据隐私保护难题提供了通用解决方案。


从实验室中走向工业化

杨强擅长机器学习和数据挖掘领域,是该方向的领军人物。2012年,杨强将主要精力转向大数据的产业化,与华为公司联合组建诺亚方舟实验室,并担任首席主任。

人工智能有一个特点,就是离不开实际的应用场景。刚开始我一直在学校研究人工智能,再逐渐接触到华为、微众等企业。后来我逐渐感觉到,人工智能在特定的场景中仍遇到一些挑战。2018年时我已在微众银行担任独立董事,接触了很多微众的金融场景,感触特别深的是微众需要很多模型来支持各种金融方面的操作。这个场景刚好适合我,就选择了来到微众。杨强称,机器学习的技术本身已经很成熟,只不过是从实验室中走向工业化。而联邦学习则是从零开始,全球都没有成功案例。

回溯最初,谷歌在2016年发表的论文中提出了联邦学习概念,从此联邦学习成为人工智能社区里一个非常活跃的研究领域。杨强团队在2018年提出系统化的联邦学习理论,2019年发布了FATE开源系统,2020年出版了首本联邦学习中英文专著《联邦学习》。

经过多年的探索,目前微众银行新一代的联邦学习在理念和实践上已走在了全球前列。

早在2018年之前,人工智能已在很多领域开展应用,但训练人工智能应用模型所需要的数据量非常庞大。在很多领域中,人们发现满足这样规模的数据量是难以甚至无法达到的。尤为重要的是,人们对用户隐私和数据安全的关注度也在不断提高。用户开始更加关注他们的隐私信息是否未经自己许可,便被他人出于商业或其他目的而利用,甚至滥用。在此趋势下,包括中国在内的全球多地政府相继出台数据保护法律和法规,使得数据孤岛效应进一步显现。在这样的法律环境下,收集和分享不同组织间的数据将会变得越来越困难。更加重要的是,某些高度敏感的数据(例如,金融交易数据和医疗健康数据等)的拥有者也会极力反对无限制地计算和使用这些数据。在这种情况下,数据拥有者只允许数据保存在自己手中,进而会形成各自孤立的数据孤岛。杨强称,如何在更加严格的、新的隐私保护条例的前提下,解决数据碎片化和数据隔离的问题,是当前人工智能研究者和实践者面临的首要挑战。倘若不能很好解决这个问题,将会很可能导致新一轮的人工智能的寒冬。


联邦学习奠基者

我们把联邦学习到今天的发展分为1.0阶段和2.0阶段。1.0阶段是从2018年开始的。杨强称,按照数据集合维度相似性构成的特点,业界普遍将联邦学习分为横向联邦学习、纵向联邦学习。目前大部分手机等终端应用公司在使用横向联邦学习,而在其他领域,大概是70%-80%的应用,是使用由微众银行发展出来的纵向联邦学习。2019年发表的一篇纵向联邦学习概述论文,目前已有超过3000个引用,这在学术界是非常惊人的。

20221214日,中国移动发布的《中国移动隐私计算应用白皮书2.0》显示,纵向联邦学习适用于各个参与方有大量的重叠样本,但其特征空间不同的情形。典型的案例是跨行业、跨机构的数据联合建模,如同一地区的银行和电信运营商,其用户重叠度高,数据维度差异大,通过纵向联邦学习可以在保护数据隐私的条件下构建满足各种需求的模型。

当有着相同特征的样本分布于不同的参与方时,在能够实现综合运用各方数据的同时,保证各方数据隐私的算法称为横向联邦学习。横向联邦学习的目的是要利用分布于各方的同构数据进行机器学习建模,其典型应用场景包括医疗数据建模、业务相似的同行业、不同用户的数据联合建模等。现在联邦学习已经发展到2.0阶段。2.0阶段和1.0阶段的重大区别就是可信联邦学习。其本质是能够满足用户和监管等各方面需求的分布式机器学习范式。可信联邦学习将助推隐私计算应用在各种场景上,降低隐私计算的成本,提升隐私计算应用质量,从而加速推动隐私计算行业的发展。在2022年初我们发表了一篇论文叫做《联邦学习中隐私与模型性能没有免费午餐定理》,就论证了隐私保护、模型性能、算法效率三者需要平衡,且可以平衡。杨强称。

2022年,微众银行与上海交通大学、中山大学等机构联合撰写的《联邦学习中隐私与模型性能没有免费午餐定理》《FedCG:联邦条件对抗生成网络》《FedIPR:联邦学习模型所属权验证》多篇论文被IJCAI2022TPAMI2022ACMTIST国际人工智能顶级学术期刊和顶级学术会议收录发表。

其中,《联邦学习中隐私与模型性能没有免费午餐定理》提出了隐私与模型性能的“No-free-lunch安全-收益恒定定律,首次从信息论的角度分析揭示了联邦学习的模型效用与隐私保护之间的内在约束关系,利用该定律可实现可信联邦学习的安全、效用、效率三者的协调,在保证数据隐私保护的同时,也最大化模型效用和学习效率。有效运用该定律能够量化分析隐私计算各种技术保护方案的优劣,进一步优化隐私保护算法设计,为设计可信联邦学习算法提供有效的指导。

据清华大学发布的《联邦学习全球研究与应用趋势报告(2022)》统计,在论文研究方面,全球高被引论文领先的机构依次是谷歌、卡内基·梅隆大学、北京邮电大学及微众银行。从论文发布及高被引用论文数量、全球专利受理量及开源框架热度等几个方面来看,中国与美国正在引领全球联邦学习发展。微众银行在联邦学习领域处于全球领先地位。杨强称,从论文、专利、场景应用和生态发展等多维度来比较,微众银行已成为联邦学习领域的领头羊,但他更希望看到多个领头羊的出现。多个企业和机构都在探索和实践联邦学习是非常好的现象,对于促进行业生态的发展有着至关重要的意义。

而在应用方面,基于在金融领域的实践,微众银行的联邦学习已在联合风控、联合营销、反洗钱和反欺诈以及医疗领域获得一系列的探索成果。全球知识产权综合信息服务提供商IPRdailyincoPat创新指数研究中心联合发布的全球隐私计算技术发明专利排行榜(TOP100显示,入榜前10名企业主要来自中国和美国,其中,微众银行以204件专利位列排行榜第八名,在所有入选榜单的银行当中,微众银行名列全球第一。


构建联邦学习生态

数据基础制度建设事关国家发展和安全大局。”1219日发布的《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》强调,完善治理体系,保障安全发展。统筹发展和安全,贯彻总体国家安全观,强化数据安全保障体系建设,把安全贯穿数据供给、流通、使用全过程,划定监管底线和红线。加强数据分类分级管理,把该管的管住、该放的放开,积极有效防范和化解各种数据风险,形成政府监管与市场自律、法治与行业自治协同、国内与国际统筹的数据要素治理结构。数字安全技术标准与国际规则的制定,已经成为了大国角逐的新战场。杨强表示,数据流通的关键是价值流通,数据流通的目的是价值释放。安全、可信的数据跨境流通体系顶层设计过程,不仅包括数据安全和隐私计算技术的不断发展,还包括持续推进跨境数据审计和确权制度的完善,并构建完整的跨境数据价值交易平台,从而让数据在不出境、不可见的情况下,仍能达到价值流通与价值释放的根本目的。隐私计算、区块链等新兴技术赋能多样化场景,是实现数据跨境可信流通的主要方法。

为推动安全隐私技术蓬勃发展,微众银行早在2019年,将其自研的全球第一个联邦学习工业级开源框架FederatedAITechnologyEnablerFATE)捐赠给了Linux基金会,并持续丰富和补充联邦学习开源产品版图,扩大以FATE开源生态为核心的联邦学习生态。截至目前,FATE开源社区吸纳了电信运营商、金融机构、大型互联网与科技企业在内的多家成员单位,包括工商银行、中国银联、微众银行、中国电信、中国联通、中国银行、中银金科、建信金科、光大科技、易方达基金、腾讯云、美团、第四范式、VMware、星云Clustar、亚信科技、绿盟科技、医渡云等。如果隐私计算和联邦学习技术只是掌握在少数机构的手里,数据还是得不到真正的流通,也难以大力支持数字经济发展,因此必须把门槛降低,其中一个有效手段就是开源,让人人都能够使用这样的技术,人人都能在实践中为技术做出贡献。杨强说。

20224月,杨强又有了一个新身份——开放群岛(OpenIslands)开源社区执行主席。开放群岛(OpenIslands)是由深圳数据交易有限公司联合国家智库、国家单位、高校、大型金融机构、大型互联网公司等多家发起单位牵头成立的国内首个国际化自主可控隐私计算开源社区。联邦学习和传统的计算技术的区别,就是它不仅仅是一方变好就可以了。一方很有很强的技术、很强的人才,在联邦学习的场景下还不够,这只是其中的50%。另50%是构建一个网络,构建一个联邦学习的生态,所以就涉及到两方或者多方。目前已经有很多非常令人振奋的信号,比如各地数据交易所的挂牌等。杨强最后称,随着大量应用案例落地以及执法、立法机构的加入,联邦学习正迎来蓬勃发展的新机遇,随着数据规模、技术复杂度、应用场景等丰富,进而进一步打破数据孤岛,并为更多行业创造更高价值。

标签: 数据 我要反馈
最新视频
赋能全电气社会 - 智慧能源   
赋能全电气社会 - 智能工厂   
魏德米勒30周年
施耐德电气接触器Tesys项目
剑维软件-重构传统人机界面(HMI)
《边缘计算助推IT/OT融合,加速共享数字计划》白皮书
施耐德电气:中压配电和电网自动化
大族机器人
专题报道
第三届EESA储能展
第三届EESA储能展为加快适应储能规模化发展的步伐,促进储能行业进一步良性发展,共促新能源产业的融合,第三届EESA储能展将于2024年9月2-4日在国家会展中心(上海)举办。
企业通讯
2024中控新加坡全球新品发布会超强剧透
2024中控新加坡全球新品发布会超强剧透

新一代科技革命汹涌澎湃,正在重塑全球工业格局。中控技术历经三十余载的创新积淀,勇攀AI时代之巅,凭借颠覆性、前沿性的智能

新工业时代,开关电源如何加速赋能工业设备发展?
新工业时代,开关电源如何加速赋能工业设备发展?

随着《中国制造2025》等政策的推进,新一代工业浪潮来临,工控行业迅猛发展,自动化设备需求与日俱增。众所周知,电源是设备

在线会议
热门标签

社区

ABB 菲尼克斯电气 威图 三菱电机社区 西门子社区 罗克韦尔自动化社区 恩德斯豪斯自动化
施耐德电气 图尔克 伊玛 欧姆龙 巴鲁夫 魏德米勒 唯恩电气
西克 堡盟 ifm 纳博特斯克 万可 凯本隆 山洋电气
施迈赛 皮尔磁 菲力尔 浩亭 劳易测 伦茨 英威腾
海格电气 威琅电气 VEGA 康耐视 item 仙工智能 KUKA
ODU 倍仕得电气 雄克社区 天机机器人 倍福 MiR 海康机器人
优傲机器人 SRT软体机器人 灵动科技 科尔摩根 快仓智能 ATI 艾利特机器人
安歌科技 大族机器人 奥托尼克斯 研祥金码 雷尼绍 Nidec CT FDT
威强电 霍尼韦尔 迦智科技 Basler社区 史陶比尔连接器 湾测 节卡机器人
研祥智能
Baidu
map