量子SVM算法在小样本学习智能风控领域的应用

2023-03-14  来源: 《银行家》2023年第2期


作者:吴永飞 王彦博

 

2022年可谓是“量子金融科技的元年”。2022年10月16日,党的二十大报告中提到了在量子信息领域取得重大成果,2022年10月4日,三位量子信息领域科学家获得了诺贝尔物理学奖,标志着量子科技新时代已经来临。

 

量子金融科技时代的开启

 

我国金融行业积极响应党和国家发展量子科技的战略部署,在量子金融科技领域积极开展了一系列相关工作。2022年1月,中国人民银行正式公布了2020年度金融科技发展奖获奖项目名单,其中由华夏银行申报的《量子计算机及量子AI算法在银行业务领域的应用研究与实践》,荣获了一等奖。2022年2月,中国银行保险业监督管理委员会数据治理高层专家指导协调委员会通过了由华夏银行申报的《量子算法在资产管理领域的应用研究》(2022年度)研究课题立项。2022年7月,中国人民银行主管的中国金融学会金融科技专业委员会开始开展量子计算金融行业应用研究专项工作,国内多家商业银行和量子科技相关机构形成了专项工作组推进相关研究工作。当月,由北京玻色量子科技有限公司与北京朝阳国际科技创新服务有限公司主办的“2022首届量子计算+金融科技应用研讨会”在北京举行。2022年8月,中国人民银行主管期刊策划了技术应用栏目的量子科技专题,工商银行、华夏银行、建信金科、光大科技等机构就量子金融科技应用发展情况发表专业文章。2022年8月,北京金融科技产业联盟成立了量子技术专委会,针对量子算法在金融风控与定价管理领域的应用、量子最优化算法在金融业的应用、量子安全威胁及其对国内金融行业的影响、量子通信技术在金融领域的应用等一系列重要课题开展专题研究。2022年11月,《银行家》期刊策划了“量子金融科技”专题,英国皇家工程院、欧洲科学院、香港工程科学院郭毅可院士,以及多家金融机构的专家领导分别发表专业文章,回顾了量子金融科技发展取得的关键成果。2022年12月,“2022国际产学研用合作会议(北京)量子计算与量子信息技术分论坛”在清华大学成功举办。2022年末,中国人民银行主管期刊将华夏银行、北京量子信息科学研究院、清华大学、龙盈智达(北京)科技有限公司合作的量子直接通信在银行领域全球首次应用评为“2022金融信息化10件大事”。此外,相关项目还荣获了多项荣誉。尤其是2023年1月,中国人民银行公布了2021年度金融科技发展奖获奖项目名单,其中《量子直接通信技术创新及其在银行业务领域中的应用》项目荣获了二等奖,这是量子通信类项目在该奖项历史上荣获的最高奖励等级。

 

回首2022年,量子金融科技如星星之火,在以商业银行为代表的我国金融行业逐渐形成了燎原之势。量子金融科技不仅在银行业务场景应用方面不断开拓,还在基于量子算法的小样本学习等关键技术方面实现了一系列重要突破。本文将量子SVM算法创新应用于商业银行小样本学习智能风控领域,旨在为量子小样本学习研究与应用提供新的解决方案,以期助力商业银行量子金融科技创新发展。

 

基于量子SVM算法的小样本学习技术方案

 

小样本学习

 

小样本学习是充分利用较少的数据样本进行机器学习智能建模,并将智能模型加以有效应用来解决实际问题。它可以解决由于样本量不足导致的传统模型效果不佳等问题,因此在推动“通用型AI”的发展方面意义非凡(陈良臣、傅德印,2022)。以商业银行智能风控场景为例,“冷启动”是银行开展新业务时不可逾越的一个阶段,此阶段,由于业务数据样本正处在逐渐累积的过程中,因此需要构建小样本学习模型。如何面向少量数据样本来为各类客群构建有应用价值的智能风控模型,已经成为商业银行智能风控领域亟待解决的痛点问题。

 

近年来,国内外学者已对小样本学习开展了相关研究。2022年10月,吴永飞等人面向银行智能风控领域开展了量子小样本学习技术研究与应用,创新提出了小样本学习技术发展的“6M”框架方法论,从“人—机—料—法—环—测”六个方面阐述了发展小样本学习的方法论,具体涵盖基于人类专家经验的小样本学习(Man-based Few-shot Learning)、基于计算机发展的小样本学习(Machine-based Few-shot Learning)、基于数据资料增强的小样本学习(Material-based Few-shot Learning)、基于算法改进的小样本学习(Method-based Few-shot Learning)、基于仿真环境的小样本学习(Environment-based Few-shot Learning)、基于预测模型调整的小样本学习(Model-based Few-shot Learning)等内容;实证表明,运用量子计算机和量子算法对于解决小样本学习问题具有明显优势。2022年10月,王琛等人验证了小样本学习算法的有效性,并将其应用于结构钢材精细弹塑性的研究中,实证表明,模型在小样本环境下具有一定的泛化能力。2022年11月,蒋博等人通过卷积操作,实现了数据特征提取,并通过小样本学习建模方法实现配电网亚健康工况的识别。

 

量子SVM算法

 

1995年,克里娜·柯尔特斯(Corinna Cortes)和弗拉基米尔·万普尼克(Vladimir Naumovich Vapnik)改进了支持向量机(Support Vector Machine,SVM)的概念和算法。该算法在解决高维、非线性的小样本学习问题上有一定的优势。但是在模型的求解过程中,需要消耗较高的算力资源,时间复杂度为样本数量和特征数目的多项式级别。量子科技时代,多种量子算法已经在理论和实践层面实现了不同级别的运算加速,量子支持向量机则是被认为能够实现指数加速的重要量子机器学习算法之一。

 

量子支持向量机(Quantum Support Vector Machine,QSVM)于2003年由Anguita等人提出。随后,Rebentrost等人在2014年提出的QSVM,其本质是利用量子优化算法加速SVM中的内积计算问题。Li等人(2015)利用核磁共振量子计算机,在真实的环境下实现了4个量子比特的QSVM,基于该算法可以实现对手写数字的识别,且精度可达99%。2019年,Havlek等人提出瞬时量子多项式嵌入法(Instantaneous Quantum Polynomial,IQP),目前在量子核函数上有着广泛的应用,可以应用于量子SVM算法模型的构建。2020年,Park等人探索了量子支持向量机算法在葡萄酒、乳腺癌和手写数字等数据集上的应用;实证表明,在上述数据集上,使用量子SVM算法构建的模型效果优于传统SVM算法模型。

 

本文创新使用量子SVM算法模型,面向商业银行智能风控领域小样本学习场景,开展数据挖掘与机器学习建模。由于建模的数据样本量极小,且存在正负样本比例极度不均衡的情况,故本文综合运用前文提到的6M框架方法论中基于数据资料增强的小样本学习、基于计算机发展的小样本学习和基于算法改进的小样本学习,通过运用SMOTE技术实现数据样本增强,并在量子计算机上构建基于量子SVM算法的小样本学习模型。

 

量子SVM算法在小样本学习智能风控领域的实证分析

 

业务与数据理解

 

本文实证分析部分所使用的业务数据主要参考《银行家》2022年第10期《量子小样本学习技术应用——基于银行智能风控领域》文章中的数据,其特征范围如表1所示。



 

通过以上贷款业务筛选条件形成的数据集中,当客户逾期时间大于10天时,将其认定为“坏”客户。经数据加工处理后,共形成10个用于违约风险预测的特征变量。

 

模型构建

 

基于SMOTE算法的数据样本增强。因数据中“坏”样本占比仅约为5%,属于正负样本比例极度不均衡的情况,故本文使用SMOTE(Synthetic Minority Over-sampling Technique)算法对“坏”客户样本进行数据增强,使得少数类样本数量增加,从而产生新的训练集。

 

量子SVM模型构建。本文基于IBM平台的数据嵌入方法ZfeatureMap将经典数据进行量子态嵌入,而后使用量子SVM算法对量子态数据进行模型构建;模型主要运行在IBM Quantum Experience模拟量子计算机环境。为进一步拓宽模型验证的维度及其有效性,本文使用相同的数据在量子支持向量机模型(Quantum SVM)、量子神经网络模型(Quantum Neural Network)、逻辑回归模型(Logistic Regression)、随机森林模型(Random Forest)、决策树模型(Decision Tree)、极限梯度提升模型(XGBoost)、分类关联规则挖掘模型(Classification Association Rule Mining)和传统神经网络模型(Traditional Neural Network)上进行实证分析。研究按照等比例将数据进行训练集和测试集的划分,其中训练集样本量为40—70(相应的测试样本量为40—70),以5个样本作为模型构建的样本量增长步长。在实证分析过程中,针对每个建模样本量进行了50次抽样,并求得50次抽样下模型评估指标的平均值,以支持模型对比分析。

 

模型评估

 

本文采用业界通用的模型评估指标AUC(Area Under Curve,受试者工作特性曲线下的面积)、KS(Kolmogorov-Smirnov,洛伦兹曲线中两条曲线间的最大间隔距离)和Recall(查全率,亦称为“召回率”)开展模型对比分析,实验结果如表2所示。


 


实证分析结果表明,在训练集样本量从40增加到70的过程中,量子SVM模型的效果在三个指标上不仅均优于经典的Logistic Regression、Random Forest、Decision Tree、XGBoost、Classification Association Rule Mining、Traditional Neural Network等模型,而且优于量子神经网络(Quantum Neural Network)模型,这说明量子SVM算法模型在解决小样本学习问题方面具有显著优势。面向本文的商业银行智能风控业务场景,在训练集样本数量从40增加到70的过程中,量子SVM算法模型的AUC值在不同样本量下均达到0.75及以上且KS值均达到0.59及以上,能够满足相关银行对模型效果评估指标的基本要求(见图1、图2、图3)。

 


结语

 

展望2023年,量子金融科技有望进一步蓬勃发展。本文立足于商业银行智能风控业务场景,通过相关实证研究分析,验证了基于SMOTE样本增强的量子SVM算法模型在面对商业银行风控业务小样本学习时应用效果明显,且在相应的评估指标上优于其他机器学习算法模型。未来,我们将进一步聚焦其他量子计算技术应用研究,以期为银行业的量子金融科技发展提供新思路,助力银行业向数字经济时代迈进。

 

【参考文献】

 

[1]陈良臣,傅德印.面向小样本数据的机器学习方法研究综述[J/OL].计算机工程:1-11[2022-11-08].DOI:10.19678/j.issn.1000-3428.0065347.

 

[2]Li Z,Liu X,Xu N,et al. Experimental realization of a quantum support vector machine[J]. Physical review letters,2015, 114(14): 140504.

 

(龙盈智达〔北京〕科技有限公司王杰、周晓君、刘慧萍对本文亦有贡献)

 

(作者单位:华夏银行股份有限公司,龙盈智达〔北京〕科技有限公司)

 

责任编辑:魏敏倩