网站首页| 资中县| 经开区| 网络电视| 新闻中心| 内江新闻| 国内国际| 房产| 旅游| 教育| 美食| 汽车| 医卫| 体育| 娱乐| 团购| 囧图|

【早餐会之294】“数据的连接”--大数据征信的探索

【发表时间:2019-05-14 11:18:13 来源:】

【早餐会之294】“数据的连接”--大数据征信的探索

点击页面下方“阅读原文”欢迎加入千人会社区平台,与业内人士沟通交流。

主题:“数据的连接”--大数据征信的探索

时间:2015年3月24日

主讲人:曹禹

与会:互联网金融千人会数百位核心会员

【嘉宾介绍】

  曹禹,亚信大数据事业群解决方案资深咨询顾问,参与电信业计费等核心系统、以及电信、电商等行业商业智能系统的规划与建设超过十年的经验,多次参与三大电信运营商重点项目的前期咨询规划与技术实践工作,对商业智能与大数据在电信、金融等领域有深厚的积累与认知。目前主要针对电信、金融、互联网等领域进行大数据规划与市场策划工作。

  亚信是中国领先的通信软件和软件服务提供商,经过20多年的发展,亚信拥有中国电信运营商38%的商业智能系统市场份额,是中国最大的电信级商业智能及大数据厂商。亚信提供具备海量数据处理、实时数据分析、丰富数据应用、扎实数据资产管理为核心产品的大数据基础与应用平台。亚信目前正在为大数据时代的产业互联网发展模式而努力奋进!

【主要内容】

  首先想先稍微解释一下征信是什么。按照官方的说法,征信系统是专业化的、独立的第三方机构为个人建立信用档案和基础数据库,依法采集、客观记录个人的信用信息,并依法对外提供个人的信用报告的系统。

  这里有几个关键词,一个是第三方机构,现在的利益相关方做的征信的比较多,失去了第三方的三公基础。当然,国家发放的8家牌照,网上也有详细的分析,就不在此赘述了。第二个关键词是档案,征信与个人档案一样,是长期留存的,能够被多方使用的。所使用的载体就是基础数据库。这个很重要,必须是有IT系统支持的。第三个关键词依法,征信的法律基础目前还是比较薄弱的。更多的我们需要依据行业标准和实际经验来推广。数据的收集要依法,对外的服务要依法。数据收集的方式目前还是比较粗放的状态。这个比较受制约于社会目前的数据大环境。

  亚信的观点,从社会学的角度去看征信这个事情,会有很多的意味。如果社会是一个网,每个个人或者组织是一个节点,信用是决定了个人或者组织,在社会连接中的强度。这个强度决定了节点的传播效能,也就是商业效率。所谓无信不立既是如此。

  用大数据来衡量社会学实践是一个趋势,也正是大数据的价值所在。我们认为,征信这个事,事实上是需要重新以大数据的方式建立起个体的社会活动,以及社会活动的影响。征信工作,实际上是对社会运营实体进行识别,勾勒的过程。这个过程是长期的,需要持续做的。将是我们数据社会这个大厦的基座。

  那么具体如何来做,如何利用大数据这样的一个工具来实现。接下来上第二道菜。

  对商业社会而言,不真实的信息不具备太大的商业价值。如何识别一直是一个难题。而,大数据的价值在哪里?大数据有一个特性叫交叉验证,就很有意义了。能够帮助我们从更多的片面中得到真实的情况。举例而言,金融机构的核心模式是放贷,放贷的核心是判定贷方的偿付能力。信用也是偿付能力其中之一。但是很多金融机构,包括银行也只能从自己的业务数据中去寻找线索,再加上大量的线下工作去评估。这样是否足够?

  根据《中国征信业发展报告(2003—2013)》,到2012年底,央行征信中心为8.2亿自然人建立信用档案,包含信贷记录、公共记录和查询记录,但尚无个人信用评分。且在这8亿有信用档案的人里,真正和银行有信贷关系的只有3亿人。即有5亿人跟银行从来没有信贷交易关系。问题来了,这5亿人,不管实际情况是如何,在提出金融需求的时候,我们都需要花大量的投入从零开始去识别。那是因为这5亿人在银行的风控中属于无法识别的状态。这5亿人是金融部门以及所有的放贷机构,包括P2P在内的市场机会,也是挑战。如果,我们可以期待能够有一种线上的方式能够完成这样的一个评估工作。能够降低尽职调查的主观性影响,能够以较低成本的方式来实现对贷方的描述。相信会是大家都乐于接受的。

  这里会有几个路径,从银行本身的密集数据相结合。一个是互联网数据,社会实体会在互联网上公开大量的信息,这些信息会跟踪到实体的实际行为,进而判定出信用情况。另一个路径,是依托于有组织的垂直行业数据,特别是细分领域的,高质量的、有组织的数据,来从侧面反映和印证社会实体的活动情况。阿里的芝麻信用就是一个典型的案例,评估的方式是基于电商消费。

  所谓大数据在征信的应用,应该与我们之前玩数据的方式不一样。分享几个亚信的实践:

  其一,是在数据上。上面提到了两个实现征信的路径。亚信现在在做的数据聚合,是从征信这样一个具体化应用出发,拿互联网数据和运营商的数据,来与银行的数据结合。亚信在运营商服务了很多年,是非常清楚这张网里沉淀数据的价值的。综合所有可采集数据源来看,我们认为,运营商数据是和银行数据、公安数据一样,具有大数据“锚”属性。运营商的数据能够在横跨10年、保留下社会实体的几乎最大量和全面的活动信息,包括,在哪里,做过什么,与哪些对象有联系。这样的数据在其他行业中几乎不存在。所以,亚信做大数据征信,以运营商的数据为主,辅以互联网数据,来与银行业数据结合。通过长跨度的社会活跃程度、行为模式、消费记录、人群价值来综合评估贷方对象。

  这个是选择数据的问题。还有一个,是如何利用大数据的方法进行信用评估。用模型来评估应该是常态了。模型有两种,一种我们叫规则型模型,是可以用人的经验来解读的;还有一种,也就是亚信在采用的模式。用比较复杂的数据挖掘算法来完成的。我们称之为“养数据”来完成的模型。模型的组织方式,从经济活动角度看,对象越稳定也就越好控制。稳定的工作,稳定的收入,稳定的伴侣,都是银行愿意相信你的原因,大家办过信用卡的应该都有体会。

  同样的,我们也遵从这个目的,角度可能比银行更多,有很多社会活动的数据参与进来评估。亚信征信的模型体系中,采用了2000~5000个变量。举个栗子。我们需要评估人的交往圈,来确定其稳定性。我们可能会选择通话记录中对端的采样号码,考察其在设定的时间段内通话的频次、具体时间、时长,双方的相对位置。也可能做双方通话群体的交集程度,也可能做双方交往圈重要度(排名)的差距。这些都可以作为“它是否是它重要的人”这一命题的依据。这个命题的回答,当被评估有不稳定因素发生时,是有传导效应的。能够进一步回答“它是否有点不靠谱了”。这个答案就是征信所需要的。

  在模型上,我们更接近于ZestFinance。ZestFinance采用的变量则多达70000个,采用的算法也不是FICO常用的线性回归模型,而是来自Google的大数据模型。这个模型是否是可以用规则解释的。我们尝试过,很难。有意思的是,ZestFinance也碰到了这个情况。我们把这个叫大数据的化学反应。例如,一个人在网上填表喜欢用大写还是小写就是一个信号。ZestFinance模型发现,填表喜欢全部用大写字母的人违约率更高。此外,ZestFinance通过机器学习发现,在月收入经过验证的情况下(ZestFinance有一些渠道可以大概获知一个人的收入状况),收入越高,违约率越低。然而,在月收入没有经过验证的情况下,自己填写月收入7500美元的人违约率是最低的,填写7500美元以上则数字越大违约率就更高。

  亚信也在不断的丰富这个模型的数据来源,后续会有税务、公安、交通、汽车销售、房屋等等数据不断加进去。

若感兴趣往期的早餐会内容精华,可回复下列早餐会标题数字:

【早餐会之266】孙雷:中外p2p风控模式对比与p2p盈利困局破解感悟

【早餐会之267】浦繁强:互联网与汽车行业的结合

【早餐会之268】丁妤倩:汽车与互联网的探讨

【早餐会之269】陈碧豪:对互联网保险的理解


【早餐会之294】“数据的连接”--大数据征信的探索

点击下方“阅读原文”欢迎加入千人会社区平台,与业内人士沟通交流
↓↓↓


相关阅读:
捕鱼电玩城 gdhsidc.com
最新新闻
图片新闻
新闻推荐
TOP