主页 >  市场>正文
企查查专业版:金融机构反洗钱 | 可疑交易模型评估(下)
时间 : 2022-03-14 16:34:59   来源 : 企查查

上篇从“模型”的概念解析开始,对“评估”过程中的输入和转换环节分别做了阐述。下篇继续展开对“输出”环节的评估与分析,并对全文进行总结。

3. 输出环节

3.1 评估指标从业务人员的角度,假设以可疑交易的预测“准确率”为评估的主要指标。评估指标的确立需要考量:无论是单一指标触发预警的模式,还是组合触发模型生成案例的模式,“准确率”评估的结果,是“证实”的结果更大一些,还是“证伪”的结果更大一些。对两种不同的结果仍需采取辨证思考的方式。所谓“证实”,举例来说,假设现实当中的可疑案例编号为001,通过模型可以精确预测出001案例,那么我们可以说模型预测与现实情况相符,或者说与预期目标相符,即可“证实”;而所谓“证伪”,即指依然是相同的情形,但模型未能预测出001案例。

从理论上来说,可“证伪”说明模型的最终效用与预期结果之间存在偏差。但现实中案例的情况往往较为复杂,我们不建议单一从“准确性”角度考量。模型预测的“准确性”是大的方向,但仍需考量外部多重因素影响。这中间案例样本的选择也有一定的作用,案例样本的选择将在以下3.2章节<样本选择>中进行论述。

从技术人员的角度而言,类似ROC曲线和AUC指标对于模型的评估,业务人员较难理解。这里转换一下说法,下文将从业务人员可理解的角度来进行描述。现实当中存在“可疑”和“不可疑”两种类型的案例,模型在进行结果的预测时,存在以下四种可能性:

延伸以下两个技术指标的解释:

1.ROC曲线。根据百度百科中的简介,ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(True Positive Rate)为纵坐标,假阳性率(False Positive Rate)为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如“正常”、“大致正常”、“可疑”、“大致异常”和“异常”五个等级再进行统计分析。因此,ROC曲线评价方法适用的范围更为广泛。对于分类后得到的概率可以使用不同的阈值将同样的样本归结于不同的类。因为实验结果可能对分类的阈值比较敏感,因此可以判别模型在不同阈值情况下的所有表现。【38】

2.AUC指标。表示ROC曲线下的面积,主要用于衡量模型的泛化性能,即分类效果的好坏。AUC是衡量二分类模型优劣的一种评价指标,表示正例排在负例前面的概率。一般在分类模型中,预测结果都是以概率的形式表现,如果要计算准确率,通常都会手动设置一个阈值来将对应的概率转化成类别,这个阈值也就很大程度上影响了模型准确率的计算。【21】

3.2 样本选择“输出”视角下的评估,拆分成以下三个步骤解析。

第一步,先从模型(或者说反洗钱系统)最终预测的结果来看。例如统计2020年全年口径,A模型触发了监测预警10000份,最终形成可疑交易报告10份,余下9990份排除。《义务机构反洗钱交易监测标准建设工作指引》银发〔2017〕108号文中也有关于“报告率”的表述:报告率=可疑交易报告数/监测预警报告数。则上例中的报告率为0.1%(10/10000)。

第二步,思考这个报告率低的原因是什么?首先,报告率低说明“预测错误”的结果更多一些,从上例当中,预测错误的占比为99.9%(9990/10000);其次,预测错误来自于两种情况:一种情况是未有效预警真正的可疑案例,即“漏报”,另一种是将正常案例错误预警成了可疑案例,即“错报”,上述例子中的99.9%均属于“错报”。

第三步,从“输出”的视角来评估模型,其最终目标是为了降低“漏报”且控制“错报”。那么如何实现这一目标?从技术角度来说,通过召回率(Recall)和精确率(Precision)的测算以及调整可实现,但这些模型评估的指标从业务人员角度非常难以理解。因此,从业务人员角度,建议给到技术人员一定的测试样本集,所谓的“测试样本集”,就是指“案例集合”。但这个案例集合的选择需要保证一定的“均衡”。

假设有100条案例数据提供给技术人员用于验证,需要保证这100条数据均是系统预警为“可疑”的案例。这100条案例中,有50条是系统正确预警的,另有50条是系统错误预警的。示例如下图:

如果出现样本不均衡的状态,例如提供了100条验证的案例数据,其中99条数据都属于系统正确预警的,这时候的模型精准度结果为99%(99/100),然后拿99%精准度的模型去预测今后的新数据,大概率一个正常案例都预测不出。因为这个模型只会识别可疑案例,对正常案例没有识别能力,这样的模型也体现不出其价值和意义。

举个通俗的例子来说,一个技术专业并且没有任何业务领域经验的人,去从事业务文档的撰写,文档的最终内容可能跟业务诉求存在一定的偏差。模型也一样,模型的“能力”边界需要事先有个大致的衡量。

综上,选择正确的测试样本,对模型预测的结果进行评估有着重要的影响,这是业务视角下的评估方法和策略选择。

3.3 问题分析从技术角度,技术人员通过类似于准确率、召回率等相关指标的测算,大致可以定位一个模型的优势和劣势,并以此进行技术参数的调整等等。在此不做展开,以下仍从业务视角予以论述。 3.3.1 时间角度分析

从业务角度,通过定位误报率过高的特征指标,查找并分析其参数、分值或者权重设计的合理性。我们仍以时间为例,举例来说,大部分的交易监测指标是衡量了一定周期内的客户交易,这个时间周期可能跟客户全段交易形态(开户至今)所体现的特征有着较大的偏差。

类似“分散转入集中转出”这项特征,指标之一“回顾交易周期”的参数值为10天。而“分散转入集中转出”是否可以构成对“可疑”的初步判断,往往在实践中,需要展开对客户全段交易形态的分析,才能初步得出判断,短短的10天周期并不足以形成对“可疑”的定性。

3.3.2 维度完备性与频率分析

反洗钱可疑交易监测包括“身份特征”“交易特征”“行为特征”三个基本维度,在模型或者关键指标的创建时,避免出现基本维度的缺失。如何理解?从风险的角度,风险的形成往往是多因素共同作用的结果。同时,对于风险信号的出现,需要鉴别是属于偶发还是经常性出现。

关于多因素共同作用,我们以“疑似非法集资”为例。实务当中,该类型案例往往是线上系统监测、线下人工调查等多种方式共同配合,而最终得出的结论。如果单从“交易对手众多”这个方向对交易进行预测,大概率出现误报。而实务中类似于这种“单交易特征”、“单身份特征”或“单行为特征”的指标存在不少,这类指标如果在模型层面没有很好地加以组合,不可避免地会影响模型的最终预测结果。

关于风险信号的“频率”分析,以“午夜或凌晨交易”为例。在类似双十一等特殊时点的小额高频交易,可能就属于一种偶发现象。“频率”属于对事物发展过程特征的一种衡量,而“概率”往往是对事物发展结果的衡量。从“频率”推导至“概率”,需要对整体的客户情况尤其身份背景有着较为完整和深入的认知,再通过模型加以应用。在进行逻辑设计时,避免出现两种极端情况,一种情况是从简单的“高频”维度直接推断为可疑,另一种情况是完全无视频率对预测结果的影响,如上述特殊场景下的偶发性案例。

由于金融机构自身并无专门的可疑案例数据库,或者类似的数据仅可能通过系统取数的方式获得,但由于系统的初始架构设计以及上游系统的数据质量等一系列问题,均可能导致取数结果的偏差,这更进一步加剧了可疑案例数据的匮乏。

从模型评估的角度,离不开可疑案例的数据支撑。因此,日常工作中注重以洗钱风险提示、洗钱类型指引等作为案例特征的信息来源,这也契合了《金融机构大额交易和可疑交易报告管理办法》(中国人民银行令〔2016〕第3号)中交易监测标准的参考因素这一要求。

对于可疑案例样本的分析,特征的提取是关键,其次是特征的识别问题。为什么“特征”的识别会成为问题?对于金融机构而言,原始业务系统中“数据”可支撑的特征,是建立模型的基础,然而上游数据质量较差仍是不容忽视的问题。

与此同时,依然存在一些可能无法通过系统准确定位的特征,例如“地下钱庄呈现家族式特点,其账户持有人多为家族成员”、“部分公司名称中出现生僻字眼”等特征,家族成员关系如何定义,生僻字本身亦无官方标准,系统层面对于生僻字的定位更多属于一种弱特征的识别。

类似于这种无法明确给出标准业务定义的特征,对系统识别同样存在一定的难度。尽管现有技术可通过一定的“强关联”或“弱关联”锁定目标群体,但这种锁定更倾向于一种概率事件,跟现实情况可能还是存在一定的偏离。

结 语

本文从“模型”和“评估”两个不同层面,分别对模型评估中存在的问题和方法进行了一定的探讨。总结以下两点:

1. 横向从模型单一视角来看,以最终的输出结果反推模型设计等合理性,是实务当中可运用的方法之一,但需注意样本案例的选择。

2. 纵向从模型涉及的关联模块来看,需考虑上游系统数据质量、客户分类等直接影响模型框架的一些大的维度是否可支撑后续的计算。

模型评估这项工作复杂程度较高,不仅涉及政策规定、业务理解、实践落地,还涉及数据治理、技术选型等多个领域。因此,实务当中建立对模型的充分认识和理解至关重要,以此为基础再进行模型评估。不论是业务评估还是技术评估,需对评估目标有个初步的方向定位。

目前交易监测实践中,普遍存在的牺牲准确率来降低漏报可能的做法,随着交易和数据体量的不断增大,面临着资源制约的瓶颈,甚至对资源配置的经济效益产生一定的负面影响。可疑交易的分析与判断,借助模型对于大数据的预处理是无法回避的处理环节,但适当降低该环节对人力资源的消耗也是需要重点考虑的。因为实务中往往一个案例的甄别与分析,都需要投入大量的人力、时间、沟通与协调成本,何况每天面对大量的系统预警。

最后结合实践经验给出两点建议:

1.在“计算能力”方面,系统模型(或称之为“机器”)具有人工无法比拟的优势,那么也可以尝试将这种能力“优势”做进一步的延伸。例如针对一定周期内、多次被人工甄别后最终排除的客户案例,交由系统处理,再定期(如三个月或六个月)让人工轮询进行复检,防止随着时间的推移原先的判断结果发生变化。这种经由“系统→人工→系统→人工”的模式,可以避免未对模型做充分评估论证的前提下,直接以人工去消化每日大量的系统预警,而造成的人力资源瓶颈。

2.可疑交易的甄别分析对人工经验的依赖度是高还是低,不同的立场可能观点不同。但不论高低,在建立系统模型时仍建议采取自上而下的方式,纵向从交易模式、客户身份、异常行为等不同的维度出发,横向仍需考虑维度之间的相互影响。单一地从一条链路自上而下地进行推导和预测,往往偏离现实情况。根据所在机构的所处地域、业务现状、产品类型和客户群体,设计更有针对性、更适合自身实际情况的交易监测模型,亦是未来可探索的方向。

反洗钱,从更广义的层面来看,属于一门跨领域跨学科的知识体系,在充分领会监管政策等文件精神的前提下,整合业务、技术和数据等资源优势,合理认识并评估风险、科学设计并运用模型,是适应“风险为本”新形势下反洗钱可疑交易监测与报告的基础。2016年3号令明确了以“合理怀疑”为基础的可疑交易报告新标准,展望未来,希望借助科学和技术的力量,让知识与经验在可疑交易监测领域发挥更大的优势。

标签: 金融机构

相关文章

X 关闭

X 关闭