文 / 中国农业银行研发中心 杨宁 尚思超 王海林
研究背景和目标
2022年1月,国务院印发《“十四五”数据经济发展规划》,指出“充分发挥数据要素作用”“强化高质量数据要素供给”“培育壮大数据服务产业,推动数据资源标准体系建设,提升数据管理水平和数据质量,探索面向业务应用的共享、交换、协作和开放”。加快推动各领域通信协议兼容统一,打破技术和协议壁垒,努力实现互通互操作,形成完整贯通的数据链。2022年1月,银保监会印发《中国银保监会办公厅关于银行业保险业数字化转型的指导意见》,指出“加强数据源头管理,形成以数据认责为基础的数据质量管控机制。建立企业级数据标准体系,充分发挥数据标准对提升数据质量、打通数据孤岛、释放数据价值的作用。强化共用数据和基础性数据管理。”
在上述背景下,农业银行启动了企业级数据标准建设,按照“急用先行、协调推进”的总体原则,以数据统一为目标,制定了机构、客户、产品三大标准的全行统一规范。如何保障数据标准的落地应用,强化高质量数据要素供给,进一步提升数据质量,对数据标准实施的质量把关就显得尤为关键。本项目基于此进行了探索和研究,旨在提出一套完整的、标准化的数据标准贯标测试方法论以及具体的实践应用。
贯标测试方法
1.数据标准数字化(机器可读性)。数据标准为了保证可读性以及可扩展性,一般是以文字的形式进行描述,但是不利于计算机直接读取,本项目由此提出通过对数据标准数字化,将自然语言转化为机器可读的技术语言,形成了一套统一的标准化处理方式,有助于各相关方从源头上对齐数据标准的理解认识。其大致实现方式是通过正则表达式对数据标准进行标准化解析,成为与之对应的技术语言形式的规则,在数据管理系统中作为基础数据属性信息进行统一存储管理,逐渐形成可复用于数据标准实施到应用的全生命周期的组织级规则库。
2.测试方法。数据标准贯标测试方法核心是通过复用统一的数据标准检查规则,从系统接口和数据内容两方面一前一后形成闭环进行自动化检查,确保其完备性。整体上包括数据标准数字化、接口合标测试和数据合标测试三大部分,首先对待贯标数据标准项进行结构化解析并形成数据标准规则库,然后通过数据合标测试工具和接口合标测试工具进行自动化检查,最终输出相应的测试结果。具体如下。
一是贯标数据标准的结构化解析。将发布的贯标标准以正则表达式的方式进行标准化解析,并将解析结果存储至数据库中,逐渐形成规则库。
二是接口合标测试工具自动化检查。对涉及需要贯标的数据标准项,首先通过接口文件中各待检查项的贯标标准编号,在规则库中进行匹配,然后依据匹配到的规则生成反向用例和可执行脚本,再将其导入到自动化测试平台自动化执行,最终生成接口合标测试结果。
三是数据合标测试工具自动化检查。在系统开发阶段,项目组根据数据项标准需求进行物理表字段的设计,同时填写《数据项标准执行情况表》的技术实施部分内容。在数据内容检查阶段,根据该表要求进行数据内容自动化检查,检查系统物理表字段和数据项标准需求的一致性,最终生成数据合标测试结果。
3.测试工具。数据标准贯标测试工具(见图1)包括接口合标测试工具和数据合标测试工具,并且与行内其余相关上下游系统交互形成组织级工具链。两工具复用统一的数据标准检查规则,分别从系统接口和数据内容两方面进行检查,一前一后形成闭环,确保其检查的完备性。下面分别对两工具加以概述。
一是接口合标测试工具。接口合标测试工具主要包括以下功能,以便于开展接口合标检查(见图2):支持多接口、多字段涉及数据标准的接口合标检查;支持对多个数据标准同时进行合标检查;支持对接特定接口格式,确保检查接口的准确性;支持通过数据标准编号匹配规则库中的正则表达式检查规则,或者自定义正则表达式检查规则进行接口合标检查;支持与资产管理系统对接,积累反向测试用例资产;支持与自动化测试平台对接,复用自动化测试平台接口案例管理、接口案例执行等功能展示接口合标检查结果和明细。
二是数据合标测试工具。数据合标测试工具主要包括以下功能,以便于开展数据合标检查(见图3):支持多种主流数据库存储表数据的合标检查;支持并发执行各贯标表字段的数据内容合标检查;支持通过数据标准编号匹配规则库中的正则表达式检查规则,或者自定义正则表达式检查规则进行数据内容合标检查;支持通过自定义查询条件和自定义分段查询条数等方式提高数据内容合标检查效率;支持测试报告导出数据内容合标检查结果和不合标数据明细。
4.管理制度。在贯标测试的实践过程中,先后总结形成了一系列的制度规范及要求,主要包括《数据标准贯标测试工作指南》《接口合标测试工具操作手册》《数据合标测试工具操作手册》和《贯标最佳实践案例》等。
实践情况及效果
本项目提出了一套完整的、标准化的数据标准贯标测试方法论,并实现了配套的组织级工具链以及管理制度,实践应用效果良好,主要体现在以下几个方面。
一是方法创新性高。在同业内首次创新提出专门应用于数据标准实施的完整方法论,有效填补了数据标准贯标测试的空白,发表专利两项。
二是数据标准数字化,降本增效效果明显。通过采用正则表达式的方法可以对任意数据标准进行标准化解析,并逐渐形成可复用于全生命周期的组织级规则库,从源头上对齐了相关方对数据标准的理解认识,实现了数据标准从发布到应用再到线上监测的全生命周期的统一化、标准化和规范化的持续跟进管理机制,有效解决了以往数据边污染边治理以及架构腐化的困境。
三是实用性强。实现了配套的组织级工具链和管理制度,在137个系统214个项目中应用效果良好,共涉及1600余项数据标准和规则,累计节省人力100人月以上。
四是业务应用效果显著。依托信息管理部数据标准管理系统开展线上监测,累计检测137个系统,核心重要标准监测字段累计662项,合标率趋近98%,为量化数据质量提供支撑依据。
通过本项目的研究和实践,极大提升了数据标准落地实施的质效,为数据高质量供给把好关守好门,进一步为充分发挥数据要素作用奠定了坚实基础。
(此文刊发于《金融电子化》2024年8月下半月刊)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有