1. 首页 > 头条

蚂蚁信贷图风控实践

一、信贷图风控业务背景及案例

首先简单介绍我们的业务场景。

我们做的信贷图风控主要用于反骗贷和反套现的防控:

常见的套现骗贷手法包括:

基于信贷的业务特色,我们设计了事前、事中到事后的全面防控,各环节的主要内容为:

我们基于事前、事中、事后的业务体系,设计了对应的技术框架。

上述模块会用到的图技术包括:图的多度关系聚合特征(Traversal&Aggregate)、模式匹配(Pattern Matching)、图社区检测算法(Community Detection)、图学习、图推理等。

下面我们通过花呗反套现的案例来说明事后和事中的防控。

事后

由于风控场景的Y标稀缺,如果依赖人工专家打标,对于专家未识别到的套现模式会出现无法覆盖的情况。所以我们通过T+1的离线数据和实时数据开发了风险大图,基于“近朱者赤近墨者黑”的思想,将Pattern Matching中识别到的黑、灰种子,进一步在图上扩散传播,从识别更多风险用户,并将风险由单点转换为社团。

事中

传统事中实时风控计算,多使用Flink产出统计型特征,它无法刻画多度关系。另外,如果图Pattern全部依赖专家定义存在效率和覆盖度的问题。所以我们使用了在线子图,包括买家子图、卖家子图、买卖家连通子图,作为神经网络的输入并在线打分,从而进行实时的防控。

图风控技术规模化的业务落地,一开始我们只是简单的尝试,效率比较低,因为信贷场景较为严谨,上线需要进行离线测算、旁路验证。这就需要保证离线在线的数据源头一致、计算语义一致,实现图仿真功能。否则只能通过离线表JOIN的方式进行构图,很难支持3-6个月的图回测。

我们通过技术验证后,沉淀了一套能力,包括:

统一图资产在分析,仿真和上线的语义一致、三线一体,保证了图风控规模化的效率。

做完规模化后,我们发现业务流程前面的模块都是离线T+1跑批、或基于事件触发,都是自动的。只有最后这一步需要人的分析,这个环节对人工的依赖,阻碍的图的大规模应用,所以我们下一步的工作是自动挖掘风险。

我们之前的业务分析测算,都基于专家给出了明确的风险模式后进行处置,但其实这样的流程周期很长,效率较低。所以我们目前正在自动挖掘风险模式,然后推荐给专家分析。

整体技术方案分为以下几步:

在这套流程中,有两个比较大的挑战:

对于信息混杂问题,当我们基于原始大图进行挖掘时,首先图的规模比较大,难以进行挖掘。另外,图中有许多噪音,比如我们每天购买咖啡、早餐,当我们基于频繁度进行挖掘时,这种模式很容易被挖掘出来,但没有提供风险信息,应该被剔除。

我们的做法是基于完整的底图,计算节点表征向量。然后根据节点p-value和业务指标,计算节点的重要度,最后裁剪低于一点重要度的节点,我们目前通常挖掘的图在10亿规模左右。这样做可以剔除噪声,并且提升挖掘的效率。

对于这个问题,我们有两个解决办法。第一是基于业务语义,对不合理的pattern进行剪枝。这种从业务应用的角度对图进行剪枝,得到了比较好的效果。第二,从技术的角度,引入图的外部存储,缓解了大规模图挖掘的内存压力。

子图自同构,原本需要遍历所有子图进行对比,是一个np问题,比较难找到最优解。我们与高校合作,使用了数学的思路,将子图映射成一个数学函数,然后通过数学函数可以比较快速的对比。这个方法不能解决所有问题,但是能解决大部分问题。我们基于这个思路进行了分布式的实现,从而更好地做图挖掘,以及图模式的匹配。

我们的信贷图风控建设从2018年开始,基于专家总结的风险模式,转换成图模式匹配进行风险挖掘,它的特点是准确率高,但风险覆盖度比较低。所以在2019年我们做了团伙算法,用于解决聚集性风险。2020年,我们从图的静态切面,分析图的当前信息,推进到分析图的时序演进状态,进一步捕捉团伙的发展以及变化的信息。21年,我们做了图平台规模化的落地,实现三线一体。22、23年,我们的主要工作是做图的自动挖掘和分析。

Q1. 刚刚提到事中阶段会在线进行拦截,时延是120毫秒,线上用了什么样算法,还是用专家系统进行模式匹配?怎么做到120毫秒?

A:模式匹配和团伙发现是事后做的,社团的计算需要几十秒。事中主要是在图数据库中查了买家子图、卖家子图、买家卖家连通子图,主要做Traversal&Aggregate,进行表征向量抽取,然后进行深度学习模型的打分,这个过程大概消耗20毫秒左右。当然我们也在风控链路上做了许多优化,整套流程大概在70-80毫秒。

Q2. 20毫秒的查询会涉及到几度邻居查询?

A:买家和卖家子图往外扩两度,买家卖家连通子图则是各扩两度,并且各扩充两度后可以连通。

Q3. 事中查询时,图的切片如何选取?

A:图是有多个线程持续更新写入数据的,当有访问请求时,实时对被访问节点进行Traversal&Aggregate。

Q4. 图中节点表征的更新频率是什么?

A:图节点的表征是实时抽取计算的。

Q5. 子图挖掘整体方案中,蓝色模块的评估任务,是自动化评估还是有业务专家介入评估?

A:这部分的评估是自动化评估,我们会基于风险的候选集,在3-6个月的图上进行回测,然后根据历史数据上匹配到的pattern,计算用户、商户的各种风险及业务指标,然后根据业务给出的口径进行自动化的评估。

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/toutiao/34684.html

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息