量子小样本学习技术应用 — 基于银行智能风控领域

2022-10-18 14:45:08  来源: 《银行家》2022年第10期


作者:吴永飞 王彦博

 

习近平总书记在中央政治局第二十四次集体学习时强调,“量子科技发展具有重大科学意义和战略价值,是一项对传统技术体系产生冲击、进行重构的重大颠覆性技术创新,将引领新一轮科技革命和产业变革方向”。2021年3月发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出,“加强关键数字技术创新应用”“加快布局量子计算、量子通信、神经芯片、DNA存储等前沿技术”。作为量子科技中的重要领域,量子计算近年来迅猛发展,并已经在我国银行业取得应用突破。当前国内已有商业银行开始在运营管理、资产管理等业务条线探索应用量子计算技术。本文面向银行智能风控场景,运用量子神经网络算法开展小样本学习技术创新应用探索,在样本量极小且“坏”样本量极小的苛刻条件下,实现良好的智能建模效果,为商业银行智能风控在小样本数据量下的创新发展提供有益借鉴,并为解决小样本学习这一世界性难题提供全新思路。

 

小样本学习研究发展

 

自图灵提出机器也可以像人类一样进行学习和思考的想法以来,国内外研究人员便开始致力于让计算机从数据中学习规律并形成智能。随着信息时代的高速发展,数据量爆发式增长,数据挖掘、机器学习、深度学习等研究方向应运而生。依托于大量样本数据,上述领域得到了高速发展。目前来看,当样本量充足时,存在于数据中的规律更容易被归纳出来,并且在测试数据上可以得到具有更小泛化误差的知识模型。然而与人类智能相比,机器智能仍存在诸多难题:人类可以从极少数的案例中进行学习和总结,快速地建立具有泛化能力的认知体系,即使只有少量数据样本输入,也能较为快速准确地建立认知,并且面对一定的噪声影响,依然不会改变最终的判断和预测结果;而机器在样本量较小时往往难以训练出泛化性很强的模型。小样本学习要实现的目标正是在样本量不充足的苛刻条件下,仍可以训练出具有良好泛化能力的模型。

 

针对小样本学习,国内外学者展开了一系列研究。2022年7月,在轴承故障诊断场景中,吕云开、武兵、李聪明等人基于小样本数据建模,输入定义为一对带有正负标签的原始振动信号样本,在样本数量仅为140个时,采用基于SNN-LSTM的故障诊断方法实现了80.57%的模型准确率。2022年1月,王登峰、郭通过引入工业小样本模型和灰色分析模型,探索出了基于优化算法和灰色理论的小样本学习方法。2022年5月,吴永飞等人在商业银行100—500学习集样本量的小样本智能风控场景中,采用创新的关联规则挖掘分类算法构建模型,为小样本学习提供了新思路。

 

本文参考质量管理中的“人-机-料-法-环-测”六要素,提出了小样本学习技术发展的“6M”框架方法论。一是基于专家经验的小样本学习(Man-based few-shot learning),即依托业务专家经验形成规则来构建模型,常见的技术方法包括规则模型、评分卡模型、层次分析法模型、社交网络与知识图谱模型等。二是基于数据的小样本学习(Material-based few-shot learning),即通过增加数据量将样本扩充为大样本,常见的技术方法有两类:一类是基于数据本身,通过样本增强的方法(如SMOTE、GAN等)扩充样本量进行建模;另一类是在“数据可用不可见”的思想下,利用联邦学习技术来实现扩充样本进行建模。三是基于模型的小样本学习(Model-based few-shot learning),即从模型的角度入手,利用某类数据集学会一种学习的机制(如每个类别分类器参数的产生机制等),然后迁移到目标小样本数据集中,通过参数微调使得模型具有更强的泛化性,能够快速进行新类的学习,常见的技术方法包括迁移学习、元学习等。四是基于算法的小样本学习(Method-based few-shot learning),即聚焦算法创新,选择合适的嵌入方法将数据的原始特征嵌入一个可分的空间,在新空间构造特征后进行建模,常见的技术方法包括支持向量机中的核函数法、分类关联规则挖掘中的频繁项集法和利用网络进行特征嵌入法等。五是基于仿真环境的小样本学习(Environment-based few-shot learning),即在极少样本甚至无样本的条件下,通过梳理业务传导逻辑,构建端到端的数字孪生仿真模拟环境,并通过强化学习技术进行建模。六是基于计算机发展的小样本学习(Machine-based few-shot learning),即基于量子科技发展将经典计算机升级为量子计算机,从而对小样本数据集直接构建量子算法模型。实证表明,该类技术方法在解决小样本学习问题上较传统机器学习算法有着明显的优势。

 

小样本学习不仅在学界被认为是从现有的智能走向真正人工智能的重要一步,在业界应用中同样具有重要意义。以商业银行智能风控场景为例,当前以逻辑回归、决策树、集成树模型、Transformer、循环神经网络、因子分解机、高斯混合模型、孤立森林、图卷神经网络、BERT等为代表的算法已得到广泛应用。然而,基于上述算法所构建的智能模型往往需要对大规模数据样本进行学习,而在商业银行的实际业务场景中,往往存在很多小样本学习建模需求。例如:当银行开拓一个新的业务领域时,总是需要一个逐渐积累业务数据样本的过程,我们称为业务的“冷启动”阶段;相比银行零售业务板块数以千万计或更大规模的样本量,对公业务板块的数据样本量呈数量级锐减之势,若按照行业、区域、规模进行细分后,相关业务的数据样本量则变得十分有限;银行智能风控场景中还经常遇到“好”“坏”标签的样本数量很不平衡的问题,特别是在开拓新业务领域的初期,能够积累到的“坏”样本数量极少;从而导致传统算法模型应用效果受限。综上,如何面向少量数据样本,尤其是“坏”样本数量极少的情况,来构建相对准确可靠的风控模型,是商业银行智能风控领域亟待突破的重要难题。

 

面向银行智能风控的量子小样本学习

 

业务理解与数据准备

 

本文参考发表于《银行家》2022年5月刊《数字金融领域小样本学习技术创新》一文中所介绍的银行业务场景,并采用文中所描述的“加盟平台型”数字金融业务数据。在“加盟平台型”数字金融业务中,本文进一步聚焦物流类客群,从之前的数据集中进一步提取了相关数据样本,开展量子智能风控算法建模的数据准备工作:选取近年来产品类型为个人经营性贷款且贷款额度在50万元以下、还款期限为3—6个月、贷款利率在8%以下,同时借款人在该银行的累计经营性贷款总金额不超过500万元、贷款逾期不超过2.5个月、借款人信用卡总授信金额大于50万元、正常贷记卡共享额度不超过40万元,且借款人的央行信用评分在675—935之间,提取相关样本作为实证分析数据进行建模研究。通过上述条件筛选,在这个更小规模的数据集中,定义逾期10天及以上为“坏”样本,“坏”样本浓度约占5%。经过数据清洗、特征工程等预处理过程后,最终形成10个变量作为建模的解释变量,其中包含历史逾期类变量2个、历史额度类变量4个、时间和查询类变量4个。

 

模型构建与模型评估

 

本文使用的量子神经网络是一种参数化的量子线路,其训练过程主要是利用量子线路不断预测类别标签并计算损失函数,而后使用梯度下降、反向传播的方法得到最小化损失函数下的最优量子线路参数。这保证了量子线路能够充分借鉴经典神经网络的思想进行参数优化。本研究中的量子机器学习算法可以理解为应用量子门线路将数据嵌入一个易于区分的量子态空间,以量子态的测量值作为样本分类的依据,其中量子门线路包含12个旋转门、3个受控门和1个测量门,整个模型包含12个参数。

 

在基于量子神经网络算法构建量子智能风控模型的基础上,为进一步验证算法模型的有效性,本文基于相同数据集进一步构建了传统的逻辑回归模型、决策树模型、随机森林模型、XGboost模型、神经网络模型和分类关联规则挖掘模型,并将各类模型结果进行对比分析。本研究将数据集按照1∶1的比例随机划分为训练集和测试集,并且针对训练集样本量从60下降至10的11种情况(即60、55、50、45、40、35、30、25、20、15和10)进行模型验证(见表1)。为了排除模型结果的偶然性,在每个验证样本量下采取50次随机抽样,根据大数定律,多次抽样数据形成的模型平均评估指标(AUC、KS、Recall等)依概率收敛于最终结果(见图1、图2、图3)。