传统个人征信机构的大数据征信——以环联为例（下）

清华金融评论 2015-10-19 16:28:53 3474 views 个人征信

文/中国人民银行征信中心博士后研究员刘新海

2015年6月25日，全球第三大个人征信机构环联（TransUnion）在纽交所正式上市，开盘当日即以日上涨13%结束交易。本文以环联为例，剖析大数据在全球个人征信机构的应用情况，为系统性地理解大数据征信提供一个视角。

大数据采集: 越来越多分散的、不同领域的数据源

大数据为征信活动提供了一个全新的视角，基于海量的、多样的、交叉互补的数据，征信机构可以获得信用主体及时、全方位的信息。环联运营多年，已经建立了包含信息量丰富而且独特的数据源。环联目前拥有30P数据，包括金融数据、信用数据、可替代数据（Alternative Data，包括电信预付费、电商、社交网络、心理数据等）、身份数据、破产数据、抵押物数据、法院判决数据、保单数据、汽车数据以及从近90000个数据源抽取的其他数据，有全球超过10亿人的消费者客户的信息，从2010年开始以超过25%的速度扩张。环联的大数据资产，主要由四个方面组成。

传统的信用数据：环联最基础的数据资产是信用数据库，基本上涵盖了所有美国信用活跃（有信用交易）人口的姓名、地址、现有信用关系和支付债务时间表。该数据库中的信息是由成千上万的信用授予机构和数据提供商自愿提供的，传统的信用数据库支撑环联的基础的征信业务。

替代信用数据：替代信用数据是指除了消费者信贷数据之外的信用交易相关数据，可以在消费者的信贷数据缺失的情况下，代替作为消费者信用描述和信用评估的手段，也可以作为一种增强信用评估的方法。替代信用渠道（如租赁支付和公共设施支付）拓宽了传统信用数据库的范围。例如环联拥有巴西最大的替代数据库，包括巴西联邦税务署的税务记录信息等上百个数据库和邮政编码（有1.9亿个人和2900万公司数据）。

消费者公共记录：在国内央行个人征信系统，替代信用数据和消费者的公共记录统称为非银行征信数据。环联从法庭、政府机构和其他公共记录（如诉讼、抵押、判决、破产、专业许可、房地产、车辆所有权、其他资产、违规驾驶、犯罪记录和联络信息）中获取数据。例如在印度可以获得国家选举登记处（7.5亿记录）、国家ID数据库（超过5亿记录）的信息。2013年12月，环联收购了TLO公司的资产（该公司利用个人鉴定、欺诈保护和债务找回的公共记录数据开发了数据产品）。2014年11月，环联收购德国DHI公司（交通违纪和犯罪审判的数据提供商）。在南非，环联获得交通设备数据库（包括超过1800万车辆记录和特殊车辆识别码，是南非最全面的车辆数据库）。

专有数据库：环联用复杂的算法生成自己专有的数据库（proprietary database），提炼并对数据进行标准化。这些数据是区别于其他竞争对手的，包括驾驶员违章记录、医疗资格信息、商业数据和房租交付信息等信息。这些数据库更准确的说并不是环联自己生成的，而是和其他机构合作获取的，比如房租交付信息是和美国一家房屋租赁公司合作而取得它们的数据的。

上述征信数据库受到监控，定期更新、复核。环联通过每月近36亿条记录的更新量来保持数据的鲜活度。环联在选择这些大数据时，起码要满足以下标准：（1）合规性，满足征信机构监管要求（包括信息安全和消费者个人隐私方面的规定）；（2）数据是活数据，可以及时更新；（3）数据是可以信赖的数据（Trust data），从可靠的、具有公信力的数据源获得；（4）数据质量要保证数据能够正常使用。此外征信机构的数据或信息在被商业机构使用的时候常常要和本地的大数据做进一步的整合才能更好发挥作用。

大数据处理：强大的匹配连接能力和下一代技术

征信数据规模变大，更新加快，类型复杂，需要有别于传统工具的新技术方法来完成数据处理和分析任务，环联有以下大数据处理能力：

基础大数据技术：环联自主研发了基础征信大数据技术，这为快速执行环联的应用和解决方案的更新提供了灵活性。环联目前已经利用Ab Initio（大数据处理软件平台技术）、Hadoop（开源分布系统的基础架构，适合处理超大量的数据）、Netezze（IBM 基于数据仓库的分析技术）和其他一些大数据分析和可视化技术来应对海量的数据（30PB）、分散的数据源（90000个数据源）和不同的数据格式（超过4000多种数据格式）。环联的大数据技术可以处理、组织和分析跨越多个运行系统、数据库和文件类型的海量数据，同时处理快速变化的结构化和非结构化数据，加上每天数十亿的交易和数以兆计的数据交换。环联的大数据技术提供了高度的适应性、高效率和客户定制化，对于环联的解决方案，配合一些专业技术（例如图形化开发和业务规则环境），可以方便地和客户的工作流程整合起来。

增强的数据匹配连接能力：大数据的商业价值实现关键技术之一就是匹配、连接和整合不同类型、不同来源的数据，其原理如下：首先找到多个数据源中信息对应的消费者，然后匹配消费者具体的信息项，将可能存在冗余的信息项进行合并或剪裁，得到消费者的全面、统一的视图。

环联的数据匹配技术能够整合多个数据源，连接多种信息，产生新的数据集，更好地评估风险和进行数据挖掘。例如，环联TLOxp解决方案利用数据匹配能力（来自于不同数据源）来确认和调查不同人之间、资产之间、位置之间和业务之间的关系，提供尽职调查、威胁评估、身份验证、欺诈预防和检测的解决方案。在巴西，环联利用数据匹配技术连通巴西联邦税务署（税务记录信息）等上百个公共数据库和邮政编码。在印度，环联通过独特的匹配算法获得征信机构CIBIL（Credit Information Bureau [India] Limited，该信用数据库包括超过两亿的个人消费者和超过1000万的企业主体的信息）的消费者风险信息。

下一代技术：环联正在投入研发以大数据为特征的下一代征信技术，希望通过下一代技术的转型继续提供面向企业和消费者的服务，使得数据吞吐量增加，数据匹配能力提高，有较高的适应能力和较低的运营成本、更高的效率，保证更快的市场响应，可以实现使数据建档、数据清洗、数据入库的速率提高10倍，并由非IT人员自助完成，大幅度降低新产品的生产周期。

新技术探索：近期，环联和南非一家高科技公司共同筹建南非国家声纹库，研发声纹识别技术进行消费者身份识别和反欺诈。据称，这种基于声纹技术的身份验证技术比传统基于知识（也称为“钱包外问题”）验证消费者身份方法效率高80%。环联对生物识别的前沿探索目前还处于早期的研发阶段。

大数据挖掘和分析：挖掘潜在信息和模式，释放大数据价值

征信机构早期的征信数据挖掘外包给费埃哲公司（Fair Isaac Corporation，简称FICO），最成功的案例是FICO信用评分。随着数据分析技术的提高和普及，环联和其他几家征信机构开始建立自己的分析师队伍，开发自己的评分产品。但是由于历史传统的原因，征信机构还和FICO公司继续合作，向商业机构提供信用评分服务。具体来说，环联和FICO的合作只是在某些国家，如美国和加拿大。但在其他国家和地区，如中国香港、南非，环联提供的所有包括信用风险分数在内的产品都是由环联自主开发的。

理论上讲，信息更多可以提供更好的风险评估；但在实际操作中，随着平台的多样化、商业模式多元化的不断深入，商业实体之间关联性的加强，风险和商业机会的复杂性也在不断地增加。大数据技术可以在消费者或信贷产品（组合）水平上进行风险测量和管理，使信用审批和定价更加精确。《经济学人》曾对大数据在金融风险方面应用的调查，结果发现大数据在防范信用卡欺诈和减少违约率方面效果最好。环联利用大数据分析技术解决来自于多个信息渠道、复杂海量的信息处理问题，提高风险模型的预测能力和稳定性，以及实时响应速度，帮助顾客在信用和风险管理中做出及时的决策。

为了充分释放征信大数据的价值，环联已经通过在技术、工具和人力资源方面的投入来研发复杂和灵活的分析和决策能力。

开发新的分析技术：环联的分析师利用下一代技术和数据匹配能力实时读取来自于不同数据源的数据并分析这些数据。一般来说，分析师配备有不同的建模和分析工具箱（例如可视化和机器学习），目标能够在一天之内利用自服务的数据接口产生模型开发、模型验证和用于客户分析的数据样本。例如利用大数据分析工具，环联Credit-Vision解决方案中对一个新的贷款组合建模，只需要不到一天的时间，而传统工具和技术则需要开发4~5星期。

分析团队：在大数据时代、征信业发展涉及海量数据的存储、加工、处理、分析，需要大量的经济学、数学、计算机等各类型的高级综合型专业人才。环联拥有经验丰富的分析团队（一般都是高级专业人士或者是博士学位获得者），拥有大量的行业经验并且对消费者信用数据有着深厚的知识储备。

研发分析工具：数据分析工具是挖掘和分析征信数据的通用的基础软件组件。环联开发的分析工具包括基本预测模型和评分、消费者细分、业务标杆比较、欺诈建模和运营最优化等，能够满足特定的客户需求。

大数据服务：丰富多元化的数据产品、个性化

征信大数据使提供更多的信息服务、面向更多领域成为了可能，大数据之间的交叉融合拓宽了征信产品和服务的广度和深度。环联通过提供综合的数据，先进的分析技术和决策能力的服务，帮助客户提高效率、管理风险、降低成本和增加收入。大数据使环联征信产品更加丰富、多元、及时和动态化，考虑不同客户群体的细分需求，提供更加个性化、客户体验更好的征信信息服务。大数据使环联的服务范围更广阔，从面向金融服务业转向在保险、汽车、医疗护理、电信、零售、出租审查、消费和法律执行等经济和社会领域帮助顾客做出关于信用和风险管理的及时决策。

基于特别的数据资源、分析和决策服务，环联近期研发的征信大数据产品和服务示例如下：

面向金融机构的征信产品Credit-Vision：不同于传统的个人信用报告只提供当月时点数据的服务，该产品基于30个月的时间序列数据，向金融机构客户提供个人消费者风险随时间变化的速度和严重程度，更精确地划分了风险。Credit-Vision和传统的信用分析产品的最重要区别在于它利用的不仅仅是当月的数据，而且是包括过去30个月的数据。因此对顾客信用各个方面的预测性更为准确。

面向保险公司的征信产品Driver-Risk：整合至少三年的司机驾驶的违规记录和其他大数据，高效地识别司机违规的可能性，从独特的视角来考察司机风险，降低保险公司的成本。

面向商业机构的市场营销产品Ad-Surety: 基于环联自身的大数据，利用O2O（互联网数据和数据库数据）匹配技术，帮助机构用户从包含1.35亿美国消费者网络中识别潜在顾客，显示其个人信息并且测算效果，增加了找到目标顾客的可能性。

面向商业机构用户的决策分析产品Decision-Edge：是一款软件即服务的产品，允许商业机构客户在和消费者交互情况下识别并验证消费者用户，对数据和预测模型的结果进行解释，根据机构客户定义的消费者标准帮助实现实时和自动化的决策。

总结

全球个人征信机构是典型的大数据公司。尽管对于大数据的定义工业界和学术界众说纷纭，但是无论按照哪种定义，环联和其他全球征信机构都是典型的大数据公司：拥有典型的大数据（30P的数据量，每年以25%的速度增加，超过10亿人的信用记录）；数据类型丰富（90000多个数据源，超过4000种的数据格式）；数据更新速度快（每月差不多36亿条记录）；最重要的是环联的征信数据中蕴含着商业价值极大的消费者的消费模式和信用信息，可以用于信用信息服务、市场营销、决策分析以及为消费者本人提供信用管理服务等。环联大数据技术的应用是一个综合性的过程，是从数据采集、数据处理、数据分析与挖掘到数据服务的一个一体化的过程。随着业务的发展，今后环联的征信大数据增长主要从两个维度延伸：海外征信业务的发展增加消费者的数目；数据源的不断扩充并快速增加消费者的信用描述，如图1所示。

20151019162840

征信大数据主要是结构化的大数据。目前环联的大数据是以结构化（存储在数据库中、可用二维表结构来逻辑表达）数据为主，基本不涉及社交网络、微博、论坛、互联网行为数据等非结构化数据，这一方面与美国的数据专业化运营和数据开放的大环境有关，另外一个重要的原因是世界本质上是结构化的，风险和商业信息主要隐含在结构化的数据中。因此，本文认为征信大数据的研发应首先解决好结构化大数据的处理和分析问题，挖掘出主要的风险和商业信息。虽然和国内流行大数据征信比较起来略显保守，但是由于其深厚的数据资产和征信技术的积累，环联对大数据技术的应用整体来看是一个自然的过程，根据数据的信用相关性逐步扩张。目前环联已经开始研发以声纹为代表的生物识别等这些与征信相关的未来大数据。

大数据技术并未改变全球个人征信机构的商业模式。虽然大数据技术给环联等全球个人征信机构带了很多变化，例如数据量的增大、数据类型的增多、处理技术的提升、分析能力的加深、服务范围扩大和征信产品的丰富，但是并没有带来业务上颠覆性的改变，商业模式并没有发生变化，主要商业内容还是基础信用信息服务、市场营销、决策分析及消费者的信用管理与反欺诈服务等。不过每一次数据技术的突破都会为征信机构带来更多的创新和颠覆，例如数据库技术和数据挖掘技术，未来的大数据技术不仅会延伸以环联为代表的全球个人征信机构的信用信息服务的广度和深度，而且可能会带来一些商业模式上的变革。

本文编辑/张浅

分享到：

传统个人征信机构的大数据征信——以环联为例（下）

Copyright © （京ICP备10035462号-6）

没有权限查看付费内容的提示