登录 注册 下载

谭波、滕光进、王浩:基于大数据的客户关联关系及风险预警研究

1234 views

0

本文描述了在银行业数据现实情况下,基于大数据的客户关联关系族谱及风险预警模型构建方法,并以国家开发银行实际应用为案例进行实证剖析,分析了其关键技术环节,同时结合“集团客户”等重点业务运用领域进行讨论。本文从知识图谱算法来进行客户关联关系的描述,为银行客户管理与风险控制给出了新的视角。

 近年来,伴随着大数据技术日趋成熟,银行业对于数据的需求愈发迫切,运用不断深入。一方面监管部门要求各家银行以客户、集团客户为中心,报送授信、贷款、债券投资、中间业务等各业务条线的明细数据,并在此基础上进一步进行深入分析,开展审慎监管工作;另一方面,银行内部也改变客户数据主要来自尽职调查、或客户提供的传统模式,广泛开展外部数据收集和内外部数据整合,并逐步尝试与行内业务流程结合,为贷前、贷中、贷后重点业务环节提供更为全面的参考信息支持。而在大数据运用过程中,客户关联关系以及风险预警的相关问题是金融机构始终未能有效解决的痛点。国家开发银行以近年来积累的大量内外部数据为基础,结合开发性金融开展实际情况,对于客户关联关系和风险预警进行了一系列有益的探索和实践。

研究客户关联关系范围

客户关联关系可包括股权关系(其中将股权投资比例大于50%或可以对被投资企业经营决策进行控制的为“强股权投资关系”,否则称为“弱股权投资关系”)、控制人关系、担保关系、交易关系(以《企业会计准则第36号》定义的关联方交易为主,担保因为特别重要,在本文研究中单独列及)、地址关系(具有相同注册地址或者实际经营地址)、事件关系(如涉诉、生产事故、资产重组及其他与企业相关的重大事项)6种。

其中股权、控制人、担保是本文研究的基本关系。对比《商业银行集团客户授信业务风险管理指引》(以下简称 《指引》)要求,可以发现股权、控制人关系是实现指引规定“集团客户”认定的重要组成部分。同样,担保关系也是银行开展单一法人、集团客户信贷管理工作不可或缺的内容,监管部门近年来也反复强调防范担保圈、过度担保相关风险。相比于上述三种基本的关系,交易关系、地址关系、事件关系数据的获得相对困难,但相关关系的获得会有利于银行进一步开展相关客户的评级、授信、风险管理,在监管要求和各银行实际业务操作中,也不同程度有所涉及。

 客户关联关系的描述

本文使用知识图谱(Knowledge Graph)来进行客户关联关系的描述。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Vertex)和边(Edge)组成,可以借用图G = ( V, E ) 的方式进行定义。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。例如,节点(实体)可以代表单一法人企业,边可以代表上述的股权关系、控制人关系、担保关系等,边的方向可以用来进一步描述上述关系,例如使用起点描述担保方,终点描述被担保方。采用知识图谱的方式进行多维度的客户关系建模,可以获得不同维度下的企业之间的“关联图谱”。例如,企业之间股权、控制人和担保关系可以分别形成一个独立的关联图谱,可以根据需要进行叠加。股权和控制人关系的叠加可以实现简单意义上的集团客户自动识别,担保关系叠加可以进一步考虑集团内部的担保行为对于集团整体情况的影响。

 客户关联关系的数据获得和初始化

在广泛收集和整合内外部数据,并对不同来源的数据情况做了细致的比对和充分听取业务人员意见的基础上,机构可对不同来源的相关类型关系数据设置不同的优先级和预处理逻辑。以股权、控制人和担保关系为例,每次关联关系分析涉及整合前后的关联关系数量级如表1所示。研究和探索阶段,整个内外部数据样本的时间跨度为2013年3月至2016年12月的月度数据。后续随着相关外部数据的不断完善,将进一步扩大关联关系的数据来源,持续提升数据质量。

 客户关联关系的分组

股权、控制人、担保、交易、地址、事件6种关系形成的企业群称为“系客户”。基于整合的内外部关联关系,获得“系客户”图谱的步骤如下:

一是确定龙头企业。遍历所有节点,找出图论算法中所有入度为零且出度不为零的企业,即找到所有的“龙头”企业(处于股权投资最顶端的企业)。如果特别考虑到国资委等特殊情况,需要事先制定“龙头”企业例外名单,进行特殊处理。

二是确定骨架企业图谱。以“龙头”企业为起点向下判断,采用深度递归算法,找出通过强股权关系相关联的企业,得到股权关系图谱。在得到股权关联图谱的基础上叠加控制人关系,将没有在股权关联图谱中出现的存在控制人关系的企业纳入图谱中。至此,我们得到了“骨架”企业图谱。“骨架”企业图谱是判定《指引》要求集团客户的重要组成部分。

三是确定外延企业图谱。以“骨架”企业图谱为基础,向外延伸一层强股权投资关系、弱股权投资关系、交易关系、事件关系、担保关系,最后从全局数据中补充完善“骨架”客户涉及担保圈中的所有客户。

至此,得到“系客户”图谱,“系客户”可以认为是在集团客户近似实现(“骨架”客户)的基础上进行了一层的股权、交易、事件、担保关系外延,并进行了担保圈关系的扩展。之所以在“骨架”客户(集团客户)的基础上做进一步的拓展,从风险管理的角度出发更容易理解。“骨架”客户的识别,主要服务于集团客户的日常管理以及评级、授信相关工作,从风险管理的角度看,将集团客户体系做适当的扩展到“系客户”体系是适宜的,特别是担保圈、涉诉、资产重组等情形并不一定发生在集团客户内部,“系客户”视角有助于风险管理部门在集团客户的基础上获得更为全面的信息。

1

 基于关联关系的客户风险预警模型探索

银行客户信用评级对于客户授信、贷款定价有着直接的影响,客户风险预警对测算结果的准确性有更加大的容忍程度,对时间更为敏感,更可能探索和使用新的技术、方法和数据。而当前银行业客户风险预警主要是基于企业自身的基本情况,或基于资产负债率等传统的客户财务指标,或基于KMV模型等对市场数据相对敏感的算法,近期也有银行尝试通过舆情等互联网信息的收集和分析,进一步提升客户风险预警的及时性。因此,如果尝试采用企业自身信息和关联企业信息两方面的指标变量,亦可构建客户预警框架。

以国开行为例,在风险预警建模过程中,经过单变量逻辑回归、共线性检测、逐步回归和业务判断等方法,反复迭代和优化,从接近300个原始指标中,最终得到了15个风险指标变量,其中部分关键指标变量如表2所示:

2

上述变量主要分为3类,企业行内自身变量(A开头指标),同业及征信变量(B开头指标)、关联变量(C开头指标)。可以看出,A类和B类变量属于内外部的企业自身信息,C类变量为企业关联信息。在补充关联变量的指标体系下,通过使用逻辑回归、支持向量机等算法进行建模,并最终选取逻辑回归算法,测试结果同样表明,基于企业自身及企业关联信息的客户风险预测结果优于只使用企业自身信息的预测结果。

 建立客户关联关系及风险预警机制的下一步工作

目前,基于大数据技术的银行客户关联关系及客户风险预警工作思路及研究成果均已在国家开发银行客户关联关系分析系统中上线投产,应用于总分行信贷管理、风险管理、合规审计领域。

这项研究与应用工作的意义,一是基于行内外大数据进行系客户关联分析,为国家开发银行项目开发、授信评审、贷后管理、风险审计各方面提供更为全面的内外部参考信息支持,帮助业务人员从更高的层次,基于更广的数据处理业务问题,客观上提升了总分行人员对于大数据应用的认识;二是基于客户关联关系的客户风险预警,不仅依据客户个体的信息,而是将个体放在关系网络中,建立客户之间的关联图谱,从全局角度考虑企业的风险传导,从一个新的角度为相关业务部门提供参考,受到了总分行相关业务部门的关注,后续模型将在实践中得到不断完善;三是客户关联关系及风险预警研究和应用不仅是国家开发银行在大数据和数据挖掘领域的探索和尝试,在银行同业内也属于创新,为整个银行业如何将大数据、数据挖掘等前沿技术与业务融合探索了道路。

下一步,基于大数据的客户关联关系及风险预警系统的建立,工作重点还应该包括:一是要充分利用现有系客户关联分析成果,为集团客户认定、风险预警等相关工作提供支持,进一步将研究成果纳入业务流程;二是要进一步拓展外部数据源,将银行内部数据、政府数据、互联网数据有机整合起来,形成更加完整的客户画像和行业知识库;三是要研究多层级关联关系的客户风险预警模型,同时进一步开展担保圈、担保链等对违约概率(PD)、违约损失率(LGD)计量的理论研究工作,为基于大数据的单一法人客户、集团客户评级和风险计量工作做准备。

(谭波为国家开发银行科技局局长,滕光进为国家开发银行信息科技局副局长、王浩为国家开发银行信息科技局数据管控处副处长,本文编辑/王蕾)

分享到:0
^
激活兑换码
关闭
请输入您的兑换码:
姓名:
单位:
职位:
邮箱:
手机号:
地址:
验证码:
激活
提示:
1、您的订阅周期将从兑换码被激活的当日开始计算。
2、同时激活多个兑换码,订阅期限会自动向后叠加。
3、如果您不想立即使用兑换码,可以在稍后任意时间激活,订阅码可赠予他人,但只能激活一次。
4、兑换码激活后,所绑定的授权用户仅限一人使用,不可多人分享账号。若发现违规使用,官方将做销号处理。