大数据风控助力新市民服务

2022-06-27 15:01:19  来源: 《银行家》2022年第5期

作者:林亚臣 


2021年10月18日,习近平总书记在主持中央政治局第三十四次集体学习时强调,发展数字经济是把握新一轮科技革命和产业变革新机遇的战略选择。在数字经济、共同富裕等国家战略布局下,我国金融业正向着高质量数字化转型迈进。银保监会主席郭树清指出:“为促进经济金融良性循环和高质量发展,3亿新市民将成为重要的活力源泉。”银保监会、中国人民银行于2022年3月联合印发了《关于加强新市民金融服务工作的通知》,明确新市民范围,鼓励引导银行保险机构积极做好与现有支持政策的衔接,强化产品和服务创新,高质量扩大金融供给,提升金融服务的均等性和便利度,不断提升新市民的金融服务水平。


数字金融服务新市民大有可为


帮助新市民在城市落地生根的重要举措之一,是更好地满足其金融需求,为其做好金融服务。这既对我国构建新发展格局、实现高质量发展具有重大意义,也是推进金融供给侧结构性改革、促进共同富裕的必要举措。这其中金融机构的作用不言而喻。然而,目前许多传统金融机构尚无充足的技术能力为新市民提供与其需求匹配的金融服务。例如,金融机构更倾向于为有抵押担保或有征信记录的客户提供信贷服务,但大量新市民是无征信记录的“白户”。因此,消费金融公司这类具备大数据风控技术的“能力者”,在帮助新市民获得高质量金融服务方面的重要性越发凸显。


数字化与数字金融的异同


基于当前科技发展水平,数字化主要包括三方面:可度量化(将非结构化数据,如语音、视频、图画、文字等,转化为可测量和进行数学计算的数据)、可定量实施最优化、可实施全自动化决策管理。可以说,数字化是指可度量化、可定量的实施最优化决策、可自动化执行的实施过程。


金融的发展可以用六个维度进行概括:一是业态环境,即金融机构的营业形式(实体或虚拟);二是运营基础,即如何服务客户;三是信息处理,即如何获取和处理交易信息;四是交互模式,即人人交互、人机交互、人人与人机组合交互;五是管理模式,即手工管理、手工与系统结合管理、系统自动管理;六是决策模式,即基于契约模式、信用、法律保障等制定决策规则。


纵深来看,金融的发展可划分为三个阶段:传统金融、数字金融和智能金融。对应上述六个维度,传统金融的特征可以大致描述为:业态环境基于实体社会,运营基础依靠机构网点,信息处理基于客户提供纸制材料,交互模式为人人交互,管理模式以手工干预的管理为主,决策模式主要为人工参与决策机制。同样,数字金融的六个维度特征可描述为:业态环境由实体社会、互联网、物联网、元宇宙组成,运营基础是在业态环境中数字化全面运用,信息处理以数字化自动处理为主,交互模式为数字化交互,管理模式为系统全自动数字化管理,决策模式为系统全自动数字化决策。


基于此,可对数字金融进行初步定义,即在现实环境(包括现实物理社会环境、互联网虚拟社会环境、物联网环境、元宇宙)中,以大数据为基础,以数字化交互、信息处理、决策、管理为主要运营模式的金融业态。


数字金融与大数据风控


当金融进入数字金融阶段,其根本特征就是数字化。从前述六个维度来看,数字金融在每个方面都有质的飞跃。其一,数字金融所服务的业态环境不再局限于实体社会,互联网、物联网及元宇宙等都属于其服务的范畴。其二,数字金融的运营环境取代了传统的实体环境,使得金融运营方式借助数字化手段产生了更多创新,如通过数据驱动及时触达客户的服务方式,大幅提升了金融服务质效。其三,数字金融在信息处理上也有质的飞跃,从过去仅限于数据扩展到文字、语音、图片等。其四,交互模式方面,数字金融也从依赖于人的交互发展到如今的数字化交互,使业务效率呈指数增长。其五,由于各环节数字化的实现,数字金融客户管理模式能够顺畅地转型至系统全自动数字化管理。其六,决策机制也逐渐数字化,金融机构可以采用科学量化的方法进行预测和实施最优决策,并及时追踪和迭代调整,真正做到系统全自动数字化决策。


站在数字金融的浪潮之上,金融机构要提升竞争力和服务能力,除了要实现前四个维度的数字化之外,还须具备实现数字化管理和数字化决策的能力。具体到风险管理方面,须实现全流程风险管理数字化。因此,在拓宽金融服务边界、提升服务新市民质效方面,大数据风控是大势所趋。


凭借扎实的科技实力和创新能力,马上消费金融自成立以来就将自主研发的智能风控、智能获客、智能营销、智能客服等一系列系统,以多元化产品为依托,通过零物理网点、线上自动化服务拓展到全国各地,提升金融服务的触达性和便利性。截至2021年12月末,马上消费金融的服务已覆盖全国31个省(自治区、直辖市),实现3C数码、旅游运动、生活服务等全场景覆盖,累计服务县域用户和农村用户分别达到3362万人和2778万人。


值得一提的是,消费金融服务的客群与新市民高度重合,而持续满足并服务好3亿新市民的金融需求,不仅是金融机构的社会责任和发展机遇,更关乎我国城镇化发展、共同富裕战略的实施成效,进而为数字金融加速推进、经济高质量转型升级贡献砥柱之力。


大数据风控助力解决新市民服务痛点


大数据风控实现了信息的度量化


大数据风控,可以简单理解为全流程风险管理数字化,即以大数据为基础,以数据驱动的方式,系统自动化执行各环节风险管理策略的风险管理机制。换句话说,大数据风控可以将各种信息度量化,在预测和决策中综合使用这些信息进行量化的最优决策,并部署在系统平台上全自动实施执行。现实生活中,由于部分新市民工作不稳定,缺乏收入及房产等资质证明,导致金融机构难以用传统的风控模式衡量其信贷资质,造成服务空白。不仅影响金融机构拓展市场细分领域,也影响普惠金融的落实和渗透。而大数据风控在技术层面提供了解决之策,使金融机构拓宽服务客群、提升服务质量有了更多可能。


目前,马上消费金融通过运用数字金融技术已为超过650万新市民建立了信用记录,通过线上线下融合的方式不断提高普惠金融的服务效率,与多家银行及保险公司合作,借助网点功能实现线下服务新市民的金融和消费需求。大数据概念形成于2010年前后,大数据风控概念在2013年以后慢慢成形,并自2015年起在信贷市场逐渐落地应用。随着众多电商金融陆续推出网络信贷产品,民营银行相继成立并推出多项服务,以马上消费金融公司为代表的消费金融公司先后成立并推出多种信贷产品,我国大数据风控市场基本形成。 


大数据风控的数据基础和技术层次


不同于传统风险管理,大数据风控有着完全不同的数据基础和技术层次。首先,大数据具有“4V”特性:一是量大(Volume),达PB级;二是数据类型多(Variety);三是产生速度快(Velocity),以每月大于多个BP的速度产生,某种程度上也标志着新技术的发展速度;四是密度小但价值高(Value)。其次,在大数据整合方面,“4V”特性使传统的数据处理技术很难直接应用,因此,新的处理方法——分布式处理方式Hadoop、Spark和Mapreduce等应运而生。由于大数据种类多,传统经典分析方法也面临挑战,因此机器学习、人工神经网络深度学习等人工智能方法被加速引进应用。


事实上,大数据风控最本质的含义在于风险管理策略的有效性在大数法则下成立,不合理个案虽可能发生,但均为小概率事件。同时,风险管理策略数字化、数据驱动的方式以及自动化执行包含的内容也十分丰富。首先,大数据风控中的“风控”是风险管理的简称,是在收益风险中寻求平衡以达到投资回报的极大化,而非字面意义上的简单风险控制。其次,整合大规模数据需要以结构化数据、半结构化和非结构化数据作为决策基础,需要有一个快速处理和整合数据的分布式处理数据仓库作支撑。再次,系统自动快速执行策略的前提是具备决策变量生成平台,用以简单、稳定且高效地计算自定义的大规模决策变量(基于结构化、半结构化和非结构化数据);此外,风险管理策略的数字化要求有一个强大的规则引擎,可部署机器学习和AI深度学习风险模型。最后,数据整合处理、决策变量计算、策略和规则部署实施执行各部分和账务核心系统须无缝连接,使风控策略在数据驱动下自动运转执行。


金融机构如何实施大数据风控


在现阶段,大数据风控的实施方式丰富多元。以信贷业务为例,在客户触达、核身、计算评分、授信等环节,部署的方式和重点各有不同。


如何触达客户


客户触达即授信机构和流量渠道的交互。如今流量可以发生在多种渠道,如电商消费场景,租车、自媒体、专业会员等细分市场领域,搜索、支付、朋友圈等互联网应用基础平台,苹果、安卓等手机应用市场,BAT第三方平台等。


对于风险管理而言,客户触达是大数据整合、基本模型和评分计算的环节。无论哪种触达模式都包含两个步骤:一是与流量通道建立联系,这是第一步,可登录公司网页或下载公司App进行简单注册,使用电话号码即可完成;二是与账务系统建立联系,这是获得授信的必备条件。


如何核身


经过触达环节,大数据风控有了基础数据,并将这些数据进行整理关联后变为信息,下一步最重要的是判别信息的主体资格,核身是第一关。因此,在触达环节收集足够的核身相关要素就变得尤为重要。埋点的设计要全面和完整,考虑各种可能情况,覆盖触达的各个节点。


在线上信贷业务中,申请环节的身份信息最小集是“四要素”,即姓名、身份证号、电话号码、银行卡号;除系统性“四要素”鉴权外,通常还需做人脸识别,以确认客户真实存在且为申请者本人,而且不存在身份被盗用、团伙使用等情况。核身步骤要求极高的严谨性,这是为后续环节构建的基础防线。


如何计算模型评分


在触达客户并核身后,要用评分技术构建模型估测客户预期损失概率。根据客户触达的不同形式所产生的不同信息(即产生不同的数据流和变量),进行不同精度的估计。由于数据的丰富程度不同,预先计算精度或存在出入;新信息接入后,预测变量将被进一步更新,精度将会提升,进而有助于提高授信准确率。


为尽可能准确估计预期损失概率,除结合平台本身的信息之外,金融机构通常还会借助征信或增信数据进行优化。通常情况下,个人客户在网上申请授信时,金融机构能够获得该客户的个人基本信息、在平台的行为信息、经授权的App信息及其他相关信息,如征信、银行卡使用、手机运营商、多头借贷等信息。


如何授信


首先,需要建设可靠的大数据处理IT系统。在关联所有可以依法合规获得的数据后,进行整合、实时计算评分变量和评分,进而准备好所有决策变量运行策略。此过程须在一两秒钟内完成。其次,运用机器学习构建预期损失概率估计。大数据风控更多采取机器学习的算法来构建模型评分,目前大多采用GBDT及其改良的Xgboost算法。构建模型的方法主要有分段式、分层式、综合式、模型校验四种。


大数据风控中的授信决策基本为系统全自动决策,大数据的作用在于,通过分析客户的历史行为、资信状态等数据,尽可能全面准确地了解客户的还款能力和还款意愿,并将此与历史损失数据相关联,从而预估损失概率。由此得出对客户还款能力的近似判断,结合同类客户的历史信贷表现数据,利用聚类或有监督的分类办法、复杂网络等聚类方法作出进一步判断。根据这些判断设计决策规则,如是否授信、授信额度及期限等,实现风险可控且回报率最大化。


大数据风控的“十大矛盾”与“十大原则”


“十大矛盾”


目前,我国金融业在信息处理方面仍然面临以下“十大矛盾”:一是垄断和竞争的矛盾;二是目标不一致的矛盾;三是“困栏”造成的矛盾;四是平台转化率极大化和共债风险的矛盾;五是因融资渠道单一的矛盾;六是“普”和“惠”的矛盾;七是多头监管之间的矛盾;八是数据碎片化和信息不充分的矛盾;九是关键信息缺失和有效数据闲置的矛盾;十是降价引发的矛盾。


事实上,这“十大矛盾”对尚处于商业化落地进程中的大数据风控也造成了不少挑战。例如,由于缺乏系统性征信数据,传统的平衡卡等信用评级方法难以发挥作用,必须借助结构化、半结构化和非结构化数据进行信用风险判断。但目前我国政府数据开放性欠佳、碎片化严重,数据整合能力也存在短板,因此数据的合规性和来源可靠性也需仔细甄别。同时,大数据风控还面临技术层面的挑战。例如,决策平台方面,经典规则引擎局限性,机器学习、复杂网络、深度学习部署问题,环境操作风险问题,都仍待解决;算法方面,构造变量、算法细节分解等也都存在短板。


“十大原则”


挑战当前,大数据风控重任在肩。作为一直在此领域耕耘的金融机构,马上消费金融结合自身经验,总结了实施大数据风控的“十大原则”:一是数据的收集和使用必须严格遵循《数据安全法》等法律法规,这是开展业务的红线,不能有丝毫松懈。二是必须保障核身的可靠性。数字金融时代,金融机构与客户的人人交互频率降低,作为风险控制的基础防线,核身环节必须严谨有效。三是必须保障在线实时信息传输的合规性和安全性,这是从业机构共同的责任。四是所有用于决策的信息必须不能也不应有任何民族、性别方面的歧视,且需取得客户授权。五是整合多种数据、构造预测模型和评分是大数据风控的基础,但须在非开发样本上得到可靠验证后才能部署实施。六是利用模型、评分、变量等所设计的策略,需要在足够大的验证数据集进行模拟,以检验策略目标指标的合理性和可行性。七是大数据风控是全流程风险管理数字化,必须具备完善的回顾机制,这需要各环节运行细节具备可追踪机制。八是大数据风控所用的方法以机器学习为主,机器学习在理论上尚无法确保模型的稳健性,因此要求模型或评分必须及时回顾和迭代。九是必须保障在线自动运行时各环节实时监控和预警,预防造成较大业务损失。十是必须保障在线自动运行触发预警时,可以及时有效干预。


最后需要强调的是,我国金融数字化工作在部分市场、业务种类和业务环节中,人工干预仍必不可少,切不能“为了数字化而数字化”。数字金融发展是一个长期的过程,只要我们认清方向并且坚定不移的走下去,定将水到渠成。


(作者系马上消费金融公司副总经理)


责任编辑:魏敏倩