企查查专业版：金融机构反洗钱 | 可疑交易模型评估（上）

基于业务、技术和数学三重视角下的可疑交易模型评估探讨。

在金融机构的日常反洗钱业务中，可疑交易监测上报是其中一个基础而重要的环节。作为监测的核心—“模型”，不仅对交易监测结果的全面性和准确性有着重要的影响，同样影响着反洗钱人员及各项管理资源在未来的合理化配置。

什么是“模型”，本身就是个较为复杂的问题。业界关于模型的讨论很多，不论从业务人员角度，或者从技术人员角度，对于模型概念及其本质可能存在理解上的模糊和偏差。因此，如果在此模糊和偏差的基础上探讨”模型评估“，则更加是一个难度系数高、充满不确定性和结论未知的工作。模型不仅涉及业务需求的理解，也涉及技术方法的选择，同时还关乎技术背后的数学原理，现实当中兼具这三重背景且达到一定高度的人非常少。因此，不同主体各自学术背景和主观理解上的偏差，也给模型的评估带来了一定的挑战。

本文将从两个部分展开对于模型评估的论述：第一部分尝试厘清现有的各类模型，及其背后的大致原理；第二部分在第一部分的基础之上，结合业务视角和技术视角，探讨模型评估的方法。

同时，本文将摒弃一些所谓流行但模糊不清的概念，力求以简洁和通俗的语言进行描述。不论是技术模型，还是业务经验，在不了解概念本质的前提下，过多的概念只会带来不必要的干扰。

第一部分. 模型

一. 模型的“层次”划分

目前，市面上应用较多的模型有线性模型、树模型、图模型等等。从业务人员角度，可能较为熟知的是机器学习、深度学习（神经网络）、有监督（决策树）/无监督学习、联邦学习、知识图谱等一系列概念，我们试着将这些概念从模型角度，界定为不同的“层次”。

“层次”可以分为哪些？笔者按照个人的理解梳理了一下模型的两个层次，仅供参考。

二. 模型的“类型”划分

从业务场景来看，假设我们将模型按照“用途”来进行分类，大致可以分为“现状描述型”和“未来预测型”两种。“现状描述型”是指模型描述了过往的业务形态或者是现实场景，而“未来预测性”是指模型基于对过往的业务形态等一系列给定条件，生成的对于未来的预测或者判断。

反洗钱可疑交易模型属于后者，通过输入给定的条件，以“预警”或者“案例”的形式最终生成对“可疑”的未来预测。

三. 模型的“内涵”理解

为什么需要理解模型的“内涵”？由于模型本身更倾向于技术语言的表达，对于业务人员而言，在不能完整理解技术语言的前提下，对实际的模型构建过程并不能够完全掌控。而技术人员在构建模型的过程中，由于业务需求理解上的偏差，在底层的代码实现上也不一定能够完全表达业务需求的真实目标。

从没有模型构建经验的业务人员角度，实际最终看到的只是模型输出的结果，但中间的过程是基于什么原理而得出的结论，其实并不清楚。从技术人员角度，需要达成业务人员的最终诉求，对于一些参数、指标和特征维度的创建，在没有原始数据或者足够样本支撑的前提下，也是勉为其难。

因此，模型在现实业务当中，更多体现为一种类似“黑箱”的运作方式，这种黑箱式的运作方式，客观上导致了模型误报率过高或漏报等一系列问题，这也是需要进行后续评估和调整的原因之一。

这里切换下视角尝试理解模型的“内涵”。模型从根本上来说，是用来为人工“服务”的，这里的“服务”也可以体现为上述的两种用途分类。要么是用来刻画现状，要么是用来预测未来。但为什么能够刻画现状或者描述未来呢？需要借用数学当中“概率”这一概念。

概率，是现实世界中解释很多客观现象或者人工主观经验的底层逻辑。为什么？以可疑交易甄别为例，具备一定甄别分析经验的业务人员，基于过往的经验，在面对当下出现的类似可疑交易往来时，往往会形成一定的初步判断。这种判断是基于过去经验所形成的概率推论，“折射”到当下的一种反馈。因为以往见过，当再次见到同类的交易形态时，据此推测是属于“可疑”，还是属于“正常”。

因此，技术模型也好，人工经验也罢，“概率”是作为其底层逻辑而存在。只是“模型”将这种“概率”以图形化或者信息化的形式输出，让人可以通过图形或者信息加以认知。

上述对于模型的层次、类型以及内涵做了简要的分析。如开篇中所述，模型这一概念本身仍在业界存有一定的争议。因此，上文中提出的观点仅作为下文模型评估的基本假设，不代表任何立场或者观点。

四. 现状及问题

金融机构的可疑交易监测模型，传统的方法是基于规则建立的监测模型，进阶版的是以机器学习为基础建立的监测模型。

反洗钱系统中的可疑交易模型，在现实业务场景中的问题，体现为诸如漏预警大额或可疑交易、可疑交易（案例）误报率过高、成案率低等问题。下表列举了《2019年中国反洗钱报告》中与之相关的数据：

业务人员在日常可疑交易处理中，遇到的类似场景如下：ⅰ.存款排名前十的客户由于资金交易量大，经常性触发交易警报，特别是一些单独针对资金交易设计的指标，预警频繁；ⅱ.定期及理财类产品客户由于年龄偏大，触发“年龄与网银渠道不匹配”等指标预警；ⅲ.业务人员较为熟悉身份背景的客户，因为偶发的一次清晨交易，触发系统预警；ⅳ.预警客户占存量客户比例过高，例如10名自然人客户中，近一半曾经触发过系统预警等。

产生误报率高或错报等现象的原因有多种，从模型的输入输出角度来看，包含了：ⅰ前道“输入”、ⅱ中间“转换”和ⅲ结果“输出”三个不同的环节，每个环节当中存在的问题均可能导致模型预测结果的偏差。

因此，下文将基于模型的“输入”、“转换”和“输出”三个不同的环节，从“评估”的视角分别予以阐述，同时文中所探讨的模型将基于线性模型的逻辑展开。

所谓线性模型，是指通过赋予多重指标（体现为可疑交易的具体特征）不同的权重和分值，加权汇总以后触发模型预警的阈值界限，亦可称之为“规则模型”。举例来说，A模型的设计分值为50分，在某一时间点，客户甲的账户及其身份特征对应的多项指标计算总分为54分，则触发模型，并生成最终的案例。示例如下图：

以上为简要的模型设计图，实际在模型应用的过程中，可能还包含了一些关键特征的组合触发预警。例如上图中的“身份特征2”和“交易特征2”同为关键性特征，当这两者同时被触发时，也会导致系统预警可疑案例。

第二部分. 评估

由于该部分涉及业务和技术两个不同领域的术语，先行将个别术语及其解释列出，供读者参考。具有模型建构经验的人员亦可跳过该表。

一. 政策要求

根据《义务机构反洗钱交易监测标准建设工作指引》(银发〔2017〕108号）要求，义务机构应当至少每年对监测标准及其运行效果进行一次全面评估，并根据评估结果完善监测标准。触发场景包括以下五种：

可疑交易报告的触发，从源头上追溯，多是由于系统模型预警的结果，现实中也存在一些可疑交易报告的触发，是源自于外部有权机关或者监管机关的指令等。

本文探讨的重点是系统模型预警触发的可疑交易报告。

二. 评估意义与目标

模型评估的意义在哪里？从一个相对的时间周期来看，模型属于一种“静态”的判断。但风险其实是“动态”变化的。随着时间和外部风险状况的不断变化，新型的洗钱行为也需要及时对现有的静态模型进行评估和调整，以适应不断变化的外部风险状况。模型的时效性是需要对之进行评估的原因之一。

模型评估，离不开业务人员和技术人员的理解与配合，当下做一次充分且完整的模型评估和论证过程，在面对未来交易和数据体量不断扩大的趋势之下，对各项管理资源的有效配置具有长远的意义。

模型评估的目标，最终是为了实现提高可疑交易模型预测的准确率。准确率的提高具体表现为：ⅰ.降低漏报（漏报属于合规漏洞）；ⅱ.控制误报（误报过高导致资源瓶颈）。这部分内容将在第三部分“输出”环节的评估进行详细讨论。

三. 评估类型

从不同的人员视角，模型评估分为两类。一类为“业务评估”。业务人员对于可疑交易的判断，往往是基于客户身份背景、交易行为等分析基础之上，结合自身经验判断，通俗称之为“专家经验”。依据专家经验对指标设计、分值权重合理性进行评估；还有一类为“技术评估”，侧重于从技术方法和代码实现等角度，诸如参数配置、技术指标观测等等，通俗称之为“技术调参”。

以下的评估过程章节当中，是从业务人员角度出发，予以的分析和阐述。涉及到的技术语言，例如ROC曲线（Receiver operating characteristiccurve）、AUC指标（Area Under Curve）、召回率recall、精确率Precision等，尽量转化为业务人员可理解的表达形式，例如通过示例和图片等形式予以展现。

四. 评估过程

模型的评估，由于同时涉及业务和技术两个不同的层面，下文着重从业务视角层面展开论述。因为现实中可疑交易案例的样本数量，相对金融机构总体的客户交易体量而言，仍属于“小样本”范围，即占比较少。这也是为什么需要进行特征指标分值或权重调整的原因。因为样本范围有限，其代表性不够强，会导致由此得出的模型不能够完全反映实际情况，所以需要进行特征指标的权重或者分值的评估以及调整。

此外，模型评估中涉及的技术调参部分，建议由行内科技（自研系统）或外部厂商（系统外包）进行，下文中不对技术调参做具体论述，仅从业务视角展开。

1. 输入环节

模型在进行后续的运算之前，首先需要考虑的是“输入”的问题。

假设从“渠道来源”的角度来定义“输入”，将“输入”分为“来自上游系统的输入”和“系统（例如反洗钱）自身的输入”两种类型。

• 来自上游系统的输入，如上游交易系统的交易数据、客户系统的客户数据等。

• 系统自身输入，包括了内设参数的配置、规则编码的定义等。例如交易模型中有关交易周期的回溯时间周期定义为10天，这里的10天可能成为一个公共的参数定义。

从上述两种类型的“输入”出发。

问题表现一：上游系统的原始数据字段不支持后续的模型逻辑计算。

例如，有一条交易监测规则为“交易对方账户是POS商户签约账户”，那这个“POS商户签约账户”是否可以从《交易对手表》中取到对应的字段值需要考虑。如果《交易对手表》中本身并不存在“POS商户签约账户”这一字段，则可能无法在后续的模型逻辑中进行有效计算。

问题表现二：“客户”是否进行了有效的分类？

针对“系统自身输入”的初始参数的评估，例如其中一项初始参数的内容为“交易周期的回溯时间周期为10天”。交易，源自于客户触发，而客户又分为新客户和存量客户，对新客户而言，其账户交易形态不能跟存量客户同日而语。换言之，新客户的交易可能在短短的10天内尚不具备加载到后续逻辑判断的条件。在未对“客户”进行有效分类的前提下，直接将“交易”按照固定参数和逻辑进行计算，必然导致误报率过高等问题。

从技术角度而言，不论是基础的线性模型，还是类似于决策树的树模型，均需要进行样本群体的划分，将“同质性”更高的群体分类之后（技术语言称之为“特征工程”），再进行后道的逻辑计算。

举例来说，位于行业头部的大型企业和末端的小微企业，资金交易体量不能同日而语，在进入逻辑计算前，需要先进行“客户”群体的有效分类。但目前应用较多的线性模型由于具备较高的灵活性，并不需要事先进行“客户”群体的分类，间接导致无效预警占比过高的模型，使得模型的预警筛选功能失效。

从技术角度来看，线性模型的底层算法本身并不存在问题，问题出在业务需求的转化上。比如，业务需求要将客户先行分类，再进行逻辑计算。那么“客户的分类”如何在进行计算之前，进行有效的分类逻辑设计，这个环节成为了最终模型判断结果出错的原因。换言之，算法本身并没有错，错在模型的整体构建上可能存在的维度缺失。

2. 转换环节

这里所说的转换，是指系统在经过上述的“输入”步骤以后，将数据加工处理成最终的预警或者案例的形式对外输出，这个加工处理的过程称之为“转换”。

2.1 分值层面

依据文章开篇中给到的流程图示例，线性模型本质上是在处理“相关性”的概率大小。

何为“相关性”？相关性是指：第一，各种身份、可疑交易或者行为特征（以数据形式体现）被“输入”模型以后；第二，最终是否构成对“可疑”的判断，上述两者之间是否相关。如果相关性高，触发预警或者案例的可能性越大。反之，相关性低，触发预警或者案例的可能性越小。

例如“午夜或凌晨交易”是一项可疑交易行为的特征，并且这个特征在多个模型中均有应用。这项特征与可疑交易行为的相关性较大，被赋予的权重和分值也较大。通俗一点来说，也可以用“概率”来比喻这种“相关性”。类似上述的午夜或凌晨交易，这项特征出现时，异常交易行为的概率相对较大。那么在模型当中，又是如何体现这种“概率”大小的呢？具体到模型当中，以“分值”或者“权重”的形式将特征赋值，并纳入后期的计算。

上述三者的逻辑关系如下图所示：

因此，评估“相关性”大小是否合理，更进一步说权重以及指标分值的赋值是否合理，成为评估中间“转换”环节的关键所在。

2.2 逻辑层面

系统生成最终的可疑交易案例，存在两种不同的逻辑判断方式。一种判断方式，为上文中所提到的“模型”触发，即组合多项指标加权汇总以后，满足模型设计的分值条件将触发最终的可疑交易案例。

还有一种判断方式为，以“特征”作为案例生成的判断条件，特征满足即触发最终的案例生成，例如统计“十天内对公客户转入（转出）笔数八笔以上，金额120万以上的”，这项特征的参数阈值均为固定值，同样在不考虑客户特性以及业务背景的前提下，直接进行逻辑判断，必然导致误报。

对于中间“转换”环节的评估与控制，建议关注模型逻辑构造的完备性。在分值和权重等参数的合理性考量方面，建议通过最终模型的输出结果反向进行论证。正如开篇中<现状及问题>章节所述，预警客户占全量客户比例过高，从常理角度判断与现实情况存在偏离。

下篇将从“输出”环节进行阐述，并对全文进行总结。

参考及注释

1.《义务机构反洗钱交易监测标准建设工作指引》(银发〔2017〕108号）

2.中国人民银行《2019年中国反洗钱报告》

3.Feature engineering is the process of using domainknowledge of the data to create features that make machine learning algorithmswork.from Wikipedia特征工程是利用数据领域的相关知识，来创建能够使机器学习算法达到最佳性能的特征的过程。

4.《金融机构大额交易和可疑交易报告管理办法》(中国人民银行令〔2016〕第3号)

5.精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么？

https://www.zhihu.com/question/30643044/answer/554917862

6.罗璠.对武汉市金融机构可疑交易监测工作的思考.2019

7.赵肖杭.反洗钱可疑交易报告有效性评估研究.2019

8.夏浩淳.邓红.宋疆.瞿清华.基于机器学习的洗钱可疑交易监测实践

9.高增安.基于交易的可疑洗钱行为模式与反洗钱对策研究.2007

10.吴玉霞.牟援朝基于两阶段聚类的洗钱行为识别.2010

11.刘鸿斌.基于纵向联邦逻辑回归的可疑交易监测方法及装置.2021

12.汪加才.谷瑞军.金融机构可疑交易监测分析的策略与方法研究.2012

13.刘鸿斌.可疑交易监测模型特征提取方法及装置.2020

14.徐姗姗.我国反洗钱可疑交易报告工作困境与改进建议.2015

15.黄守成.我国金融机构可疑交易监测的有效性分析.2011

16.刘鸿斌.一种反洗钱可疑交易监测方法和装置.2020

17.周春英.朱明杰.闵薇.唐溶.胡宸章.一种基于半监督图神经网络的智能可疑交易监测方法.2019