微型银行利用联邦学习和图形处理器突破

2020-04-03 15:11　来源：科创网

数据岛牵绊人工智能登陆金融业？微型银行利用联邦学习和图形处理器突破

智东西（：zhidxcom）文 | 心缘

近两年来，越来越多的企业在思考如何应用人工智能来挖掘更多的数据价值。然而，人工智能的训练需要大量的数据，而且越来越难以获得。

即使是信息化起步较早、数据丰富的金融业，也缺乏高质量的数据。

金融行业似乎有大量的数据，但事实上许多数据并没有经过专业标注，有效数据也很少。对大量数据的控制分散在不同的机构和部门。“数据孤岛”问题很严重。此外，数据隐私保护立法日益严格，数据交换和共享受到严格限制。

如何结合高智能和高隐私安全性？只有拥有海量数据的组织才能享受人工智能带来的效率和成本优化吗？

业内讨论的解决问题的方法已经逐渐集中在新技术——联邦学习（Federated Learning）上。

联邦学习使多方能够在数据是本地的前提下协作建立共享模型。它比任何一方单独训练的人工智能模型更精确，并且不侵犯隐私。

这项技术在中国的先驱是金融业的“科技代表”微型银行。它率先应用联邦学习来解决跨部门和跨企业的数据融合问题。借助从滕循云转移过来的NVIDIA GPU资源，利用联邦学习技术解决了70%以上没有历史信用信息的小微企业的贷款困难问题。企业贷款总额超过10亿元。

作为中国第一家私人银行和互联网银行，伟众银行一直通过人工智能、大数据和区块链等科技创新，积极推动普惠金融落地。由国际著名人工智能科学家杨强教授领导的伟众银行人工智能团队，在金融研究和应用方面有着传统机器学习和联邦学习的深厚积累。

目前，数据孤岛和隐私保护是传统行业人工智能应用面临的共同问题。

少数人探索的方法也可以为传统金融机构和其他走向情报的企业所借鉴。

一、消弭数据鸿沟，微众的另辟蹊径之道

为了充分了解联邦学习的技术难点、应用价值和落地经验，最近我们与卫中银行人工智能部高级算法研究员黄进行了深入的交流。

第一个问题是，联邦学习方法如何平衡数据聚合、数据保护和性能改进？

黄告诉我们联邦学习与传统机器学习最大的区别，就是交换的数据是密态的。

传统的机器学习通常会将数据转移到云数据中心来训练模型，但这种方法在隐私合规性问题上不起作用。

联邦学习不会移动所有各方的数据。通过信息和模型参数的加密交换，结合多方数据的优势，构建虚拟公共模型。该虚拟模型等于或接近于通过直接聚集各方的数据而训练的模型。

▲联邦学习系统架构

微银行提出了三种联邦学习模式:横向联邦学习、纵向联邦学习和联邦转移学习。

横向联邦学习的各参与方共同用户少，但共同用户特征多。谷歌，举例来说，分别为每个手机建模，然后加密模型参数并传输到云，更新通用模型，然后传输到每个手机。

纵向联邦学习正好相反，各参与方的共同用户特征少，但共同用户多。例如，银行A有用户的信用评级，电子商务B有同一组用户的购买记录。通过交换加密的模型参数，两者可以合成一个更完整的模型。

然而，该方法仍处于研究阶段，实际工业应用需要进一步发展。

▲联邦学习分类

从理论上来看，联邦学习可以取得双赢的结果。但是仅仅谈论理论是不够的，联邦迁移学习适用于各参与方既没有共同用户，也缺少共同特征。

2018年至2019年初，伟众银行人工智能团队逐步建立了理论研究、工具软件、技术标准和行业应用的多层次联邦学习生态框架，吸引了腾讯、华为、京东、平安等生态合作伙伴加入。

2019年1月，美光推出了全球f

该框架提供了一系列“开箱即用”的联合学习算法、完善的建模辅助工具和模型评估工具，以及友好的跨域交互式信息管理方案，解决了联合学习信息安全审计难的问题。

换句话说，希望应用联邦学习的企业可以在保护数据隐私的前提下，享受多方数据组合带来的业务水平提升，而无需在底层技术上投入太多精力。

怎么让它在实际应用场景中发挥更多作用呢？

▲基于命运的联合建模

2019年6月25日，伟众银行成为Linux基金会黄金会员中唯一的金融机构，并向Linux基金会捐赠了命运项目。今天，FATE开源社区已经变成了信贷风控、反洗钱、客户权益定价……自FATE推出后，它在金融领域的落地愈发深入。，吸收了128个机构、企业和145所大学进行应用和合作建设。

据黄，以前的联邦学习框架的GitHub主要是在横向联邦学习方向，而业界规模最大的联邦学习开发者社区

由于联邦学习基础设施平台和架构不同于其他平台，美光专门设计了一个分布式计算和存储框架，并支持跨站点传输。

目前，FATE已经成功地在一台机器上实现了与TensorFlow、PyTorch等深度学习框架的对接，并计划在未来尝试分布式系统。

二、加密带来数据暴增，微众联邦学习如何抗住重压？

无论算法和安全技术多么强大，或者工程经验多么丰富，微型银行都是中国联邦学习领域的领导者。

然而，推动联邦政府的学习并非一帆风顺。在联邦学习交换加密的状态下，数据量急剧增加，这需要更高的计算和通信能力。

在纵向联邦学习方面达到可用级别的框架，唯有FATE。传统的机器学习由32位芯片指令支持，而联邦学习的派利尔/RSA算法依赖于2048位甚至更长的复杂运算，如大整数模幂运算和模乘法。

计算方面，传统的机器学习参数聚合使用内部网传输，而联邦学习加密数据超过30次，需要多轮传输。

如果计算和通信能力不足，算法性能将会损失，传输方面，

让我们先看看联邦学习算法的一些特性:

那么，微众是怎么考量加速计算的基础架构，来支撑暴涨的计算和通信需求呢？数据密度计算，不同的数据计算互不影响；

（1）计算高度并行：计算公式并不复杂，但会重复执行多次。

（2）重复轻量级运算：数据输入/输出时间小于计算时间的0.1%；

（3）计算密集型任务：数据是成批生成的，数据量巨大。

这些特性与擅长多线程并行计算的GPU非常一致。

然而，仅仅关注加速方案的性能是不够的。还需要考虑操作的灵活性、便利性和稳定性。

一般来说，企业选择基础设施有两种方式。本地部署或私有云服务对数据安全性有更高的控制，而云服务可以缩短开发周期，灵活分配计算资源，并降低初始启动成本。

目前，少数民族联邦学习所采用的方案是（4）批量大数据：。

“联邦学习需要很高的计算能力。只要硬件方案价格合理，能够满足加速任务的需求，我们就愿意尝试。”黄对说道。

在他看来，NVIDIA V100已经是一个非常成熟的方案，其应用效果相当不错。测试表明，与使用单个英特尔至强6100系列处理器相比，通过腾讯云平台基于NVIDIA Tesla V100 GPU，结合GPU高速互联技术NVLink，来加速联邦学习计算任务。。

不仅如此，黄说，英伟达的软件也对联邦的微观公共学习有很大帮助。

使用1台8卡GPU服务器可以替换20台以上CPU服务器在进行联邦研究时，黄和他的同事主要参考了NVIDIA实验室的图书馆，该图书馆主要用于大量操作。

此外，NVIDIA软件平台提供了丰富的机器学习和深度学习开源库。，并在系统设计和优化方面给予了很多指导和参考。据黄介绍，NVIDIA还提供有完整的GPU编程开发环境和各种满足需求的开发工具

例如，在编写算法之后，如果您发现GPU加速不如预期，您可以使用SDK中包含的Profile工具进行详细分析。它不仅会直接告诉你问题所在，比如使用过多的寄存器，还会引导你一步一步地解决问题，比如如何优化寄存器的应用，如何平衡并行性和寄存器占用之间的关系。

黄回忆说，问题解决后，“效果立刻提高了2-3倍”

这对降低开发成本颇有帮助。

第一步是做元素级的

在第三步中，使用中间剩余定理来减少中间计算结果。

优化后的评估结果表明，与传统方法相比，星云星座基于GPU的优化方案提高了同态加密效率5.8倍，同态解密效率5.93倍，密集乘法效率31.4倍，密集加法效率419倍。

▲联邦学习优化方案的GPU加速效果

黄表示，卫中银行人工智能团队也希望进一步探索更高的计算支持。

三、从金融防控到精准医疗，联邦学习应用日趋丰富

随着学术界的研究热潮，联邦学习技术已逐渐渗透到更多的行业应用中，解决了金融、零售和医疗等典型人工智能应用场景中效率较低的数据和数据合规性问题，并促进了跨域数据共享和集成。

在NVIDIA GPU平台的基础上，微众联邦学习还提出了三种优化方法，进一步挖掘GPU的加速潜力。

在金融领域，联邦学习有助于显著提高量化风险的能力，并降低金融产品的总体价格。

例如，对于给小型和微型企业的贷款，银行通常只有一些国家政策允许的信贷报告和税收数据，但超过70%的小型和微型企业是没有任何信贷记录或税收记录的白人家庭。发票(官方税务收据)对评估企业的信用风险非常有帮助，但目前70%-80%的发票数据都是通过税控发票机登记的，敏感且不便直接向银行披露。

▲小微企业信用风险管理的难点

在保证原始数据不交换的前提下，伟众银行联合对贷款客户信用数据和发票登记信息进行建模，优化了风控模型，解决了70%以上没有历史信用信息的小微企业贷款难的问题。1、金融风控：破解小微企业贷款难题.

伟众银行还与腾迅云盾沙盒携手，帮助严重依赖数据的组织进一步挖掘数据价值，同时保护数据隐私并推广人工智能登陆应用。

目前通过这种联合建模所支撑的企业贷款发放量已超过10亿

智能零售中的个性化产品推荐、定向广告和其他服务对于吸引客流和培养用户习惯至关重要。然而，在实际应用中，这些业务所涉及的数据特征通常分散在不同的部门或企业。

例如，银行具有购买力特征，社交平台具有用户个人偏好特征，电子商务平台具有产品特征。如果将这些数据结合起来，就可以建立更精确的营销模型和推荐模型，但隐私问题已经超出了门槛，联邦学习成为一条可行的途径。

在保护三方数据不相互通信的基础上，联邦学会了建立比单独建模更精确的人工智能模型。通过联邦研究，伟众银行将采购和库存的准确性提高了21.4%。

2、精准引流：提升信息和资源匹配的效率

医疗领域的数据具有高度隐私和分散数据的特点，单个组织往往缺乏足够的样本。

数据标注也严重缺失。有人估计，将医疗数据贴在第三方公司的标签上来收集有效数据，将需要10年之久的时间。

联邦学习可以从多个医院和部门收集患者数据资源，在确保无数据交换的前提下构建一个共享模型。它的效果远远好于每个医院只用自己的数据集训练出来的人工智能模型，所有医院都从中受益。

▲联邦学习解决医疗大数据的棘手问题

结语：联邦学习，普惠AI行之有效的新路径

与此同时，人工智能已经登陆到更多的行业，隐私安全问题也随之而来。考虑到数据隐私保护和优化人工智能模型的联邦学习方法具有巨大的发展潜力。

随着NVIDIA V100图形处理器的加速发展，美光联邦学习逐渐开启了更多的人工智能应用场景，如智能旅行和工业质量检测，从而从技术角度突破了数据孤岛，实现了合规性。

现在联邦学习刚刚进入批量登陆的新阶段，更多的企业和学术机构正在加入联邦学习生态。随着安全合规性、攻击防御、算法效率和联盟机制的进一步提高，联邦学习将促进人工智能的健康着陆和授权。

标签：联邦微众金融业

热点图文