文 / 中国银联信息总中心 梁克会 徐锋 孙晓良
在当下信息技术快速发展的背景下,各行各业都在加速数字化转型,特别是金融行业,面临着业务增长和技术创新带来的双重挑战。同时,人民银行制定了一系列指引和规范,要求金融机构建立健全业务连续性管理体系,数据库作为金融信息系统的关键技术组件,直接关系业务连续性的保障。
数据库运维作为金融业务连续性计划的重要组成部分,面临巨大的挑战,主要体现在金融业务规模的扩大和场景复杂化,导致数据库管理难度增加。云计算、大数据、大模型等新技术的应用,对数据库运维提出了新的要求。金融产品用户体验和时效性的提升,要求数据库运维更加高效和精准。随着迁移到开源数据库工作的深入开展,企业数据库产品数量和数据库实例数量呈指数级增长,增加了数据库管理的难度和工作量,同时对数据库运维人员技能提出更高的要求。
标准化探索
数据库运维标准化是实现高效、稳定和安全运维工作的关键途径。
为了应对数据库运维中的挑战,中国银联信息总中心不断开展数据库运维的标准化探索,主要包括以下三个方面。
一是数据库运维操作标准化。根据长期运维实践经验,我们提出数据库运维的标准化、自动化、智能化理念,旨在通过制定规范、流程和制度来提升数据库运维的标准化程度。通过建设若干自动化和智能化场景降低操作风险并提高运维效率。在标准化方面,根据操作的范围、数量、操作对象的等级、操作本身的风险程度等因素,采用标准化流程将数据库运维涉及的所有操作分为ABCD四个等级,其中A级操作风险最大,D级风险最小。为每个运维操作制定详细的流程和操作标准化步骤,明确数据库申请、扩容、备份、高可用、参数修改、执行SQL等各个环节的责任和要求,提高运维工作的质量和效率。
二是数据库PaaS平台建设。数据库云PaaS平台通常又称为DBaaS平台(Database as a Service),其功能是提供一套完整的解决方案,用于开发、部署、管理数据库,简化运维工作并提升资源利用效率和开发部署速度。在数据库运维标准化的基础上,DBaaS平台提供跨多云架构以及跨数据中心部署,实现数据库运维自动化、自助化;提供实现关系型、分布式、缓存、消息中间件等各种类型的数据库全生命周期管理,实现跨多类数据库的一站式数据库管理服务。
图 DBaaS平台架构图
三是数据库运维智能化。数据库运维智能化是指通过应用人工智能、机器学习和自动化技术来提高数据库管理的效率和效果。基于DBaaS平台上数据库运维标准化、自动化和自助化阶段成果,通过大模型、资源预测算法等,打造数据库自感知、自修复、自优化、自运维及自安全等多个智能化应用场景,有效降低了数据库管理的复杂性,减少了由人工操作引发的故障风险,使数据库服务更为稳定、安全和高效。
标准化实践成果
中国银联信息总中心自2015年开始探索数据库运维标准化,实现数据库运维操作标准化,制定并发布数据库部署、开发、设计和运维规范。通过规范和标准化操作合理规划数据库架构,确保数据安全性和完整性;遵循SQL语言规范进行开发,保证代码的可读性和可维护性;设计合理的索引和查询优化,提高系统性能;实施严格的权限管理和安全策略,防止数据泄露和攻击;定期进行备份和恢复演练,确保数据的可靠性和可用性。
中国银联信息总中心建成基于容器技术的数据库云平台(简称DBaaS平台,见图),在标准化的基础上,实现数据库运维操作平台化和自动化。平台使用Docker容器技术,制作并存储镜像至仓库。当安装部署时,从仓库获取数据库镜像,批量部署至目标服务器,利用镜像初始化容器并启动数据库,实现数据库安装部署标准化、平台化和自动化。在被监控资源上部署Agent,实现数据库部署完成后就开始对性能指标阈值,如响应时间、事务量、内存和CPU使用率,以及磁盘I/O监控。监控管理器根据数据采集结果以及预设的标准化阈值,产生事件记录和警报通知,实现数据库监控和告警的标准化、平台化和自动化。利用开源的备份工具,DBaaS平台在数据库实例部署完毕后,自动根据业务特性为数据库制定并生效标准化的备份策略,实现数据库从数据、表结构、配置文件、参数等全方位的备份标准化。根据业务系统等级以及标准的数据库恢复步骤,自动备份文件异机还原和表状态检测,完成数据库备份文件可用性检测标准化。预定义数据库扩缩容规则和流程,标准化流程要求扩缩容过程需要确保数据一致性和可用性,同时通过在线调整容器资源和数据库配置,平滑地实现数据库在线扩缩容。平台使用统一的软件仓库,配置模板和容器镜像,将各个版本的软硬件资源管理起来,通过图形界面提供统一的升级窗口,并且控制版本升级的范围和影响性,完成数据库版本升级标准化、自动化和自助化。
根据中国银联业务发展和技术路线演进,DBaaS平台不断扩大标准化数据库服务的数量,近年先后完成分布式缓存UPRedis、分布式数据库UPDRDB和TiDB、分布式消息中间件UPKafka、UPZooKeeper和数据同步组件Moray等十余种数据库和中间件的标准化、平台化和自动化。通过DBaaS平台建设,我们已经具备人均管理1万个数据库的能力,1小时部署1000套数据库的能力,1分钟内数据库在线扩缩能力,数据库按需横向和纵向的弹扩能力,数据库全生命周期管理能力以及一个初级管理员管理10种以上数据库能力。
运维标准化为运维智能化提供了必要的基础架构和规范,使得智能化能够在标准化的框架下顺利进行。在标准实践化的过程中,DBaaS平台不断扩大标准化应用范围,建设若干自动化和智能化应用场景,包括数据库服务器宕机、复制关系异常、CPU冲高等告警自愈场景,实现告警自动处理,无需运维人员介入,预计每年可以节省超过100人月。根据数据库运维规范和标准,DBaaS平台完成数据库健康报告、健康度评分、资源弹扩、故障自动迁移、高可用切换等10个智能化场景建设,目前每周完成超过600份数据库健康报告以及评分,预计每年可以节省超过300人月。
智能运维是信息技术服务领域的一个重要发展方向,是运维标准化的高级阶段。基于前期数据库运维标准化的成果,我们正积极拓展新的技术边界,通过引入人工智能、大模型、机器学习预测算法等先进运维技术,致力于将数据库运维智能化提升到更高的层次。在这一背景下,中国银联凭借其多年的运维经验,与多家单位共同携手,针对智能运维领域制定了《信息技术服务智能运维第1部分:通用要求》的国家标准。该标准确立了智能运维的能力框架,规定了智能运维组织的组织治理、场景实现和能力域的通用要求,为智能运维的组织构建和持续改进服务能力提供了指导。
中国银联在数据库运维的标准化实践中取得了显著的成果,制定了详细的数据库运维标准,建设了标准化的数据库运维平台并且参与智能运维的国家标准制定。通过标准化的运维流程和自动化的运维工具,数据库运维人员能够更快速响应和处理各种运维问题,提高了运维效率。通过制定详细的运维流程和操作规范,数据库运维工作更加规范化和专业化,降低了运维风险,提高了运维质量。用户体验得到提升。随着运维效率和质量的提高,中国银联的业务系统能够更加稳定、高效地运行,提升了用户体验和满意度。
总结与展望
中国银联在长期的运维工作中不断探索和实践,提炼和固化数据库运维管理的最佳实践,形成一套科学、规范的运维标准和流程,可以确保运维活动按照既定的高标准执行,从而减少人为错误并提升服务质量。同时,中国银联还通过DBaaS平台实现数据库运维标准的落地实践,提升数据库运维的自动化以及智能化率,不断提高数据库的稳定性和安全性。
未来,中国银联将引入更先进的运维技术和管理方法,提升运维标准化能力和智能化水平。不断加强与同业的交流和合作,共同推动数据库运维技术的发展和应用。关注新兴技术的发展趋势,如人工智能、区块链、大语言模型等,探索将其应用于数据库运维领域,持续推动运维工作不断向标准化、自动化、智能化方向发展,为金融行业的智能化运维贡献宝贵经验和范例。
(此文刊发于《金融电子化》2024年8月下半月刊)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有