当前,金融科技迅猛发展,引发金融服务方式、管理模式、价值链条和竞争格局的深刻变革,推动现代金融业朝着数字化转型不断推进,随之而来的是数据中心的蓬勃发展,数据中心的运维规模也同步快速增长,系统的运行风险、人员的操作风险凸显,对业务系统的稳定运行带来较大威胁,任何服务中断都可能带来不可估量的经济损失。同时,金融行业必须遵从法规性要求,合规审查的复杂性显著增加,给金融机构运维团队带来了巨大压力。
与此同时,大模型技术的飞速发展正引领着一场深刻的行业变革,金融机构也纷纷开始研究大模型,但目前为止主要聚焦在对内场景的工作效能提升上,如何将多年积累的金融运维数据与大模型技术相结合,持续提升运维效率,正逐步成为金融机构重要的探索方向。
传统的大模型,是基于深度学习的技术通过大规模数据训练而成,具备强大的生成能力和转移学习能力,主要用于自然语言处理任务,如文本分类、情感分析等;而AI Agent也称作AI代理,是一种能够感知环境、进行决策和执行动作的智能实体。它从感知环境开始,经过信息处理、规划和决策,然后执行行动,最后根据执行结果和环境反馈进行调整,从而优化未来的行动和决策。AI Agent能够有效地处理信息,做出决策,并在复杂环境中执行任务。
比如在运维场景,使用大模型只能进行部分运维的知识问答等工作,大模型无法实时感知各个应用、系统、硬件的状态变化,更不会快速解决问题。如上图所示,借助基于AI代理的大模型技术,可以和各种运维工具进行交互,提升故障预测精准度并完善系统自愈水平,不断降低运维过程中的人为失误,全面推动运维向更高效、更可靠、更安全的模式迈进。
以下将对运维中三个常见的场景进行深入探讨。
日常故障处理
在数据中心运维的浩瀚征途中,故障排查如同一场没有硝烟的战争,其效率直接关系到金融机构的业务连续性,一次服务中断会带来经济效益、客户信任、品牌声誉等多方面的消极影响。面对故障的突发甚至并发,传统的人工排查、工具辅助模式已难以满足金融机构对故障处理快速与精准的双重追求。
日常故障处理,首先是要实时、全面的监控IT系统状态,并及时发现系统异常。通过AI代理技术,将大模型与各种运维工具进行集成,如监控系统、自动化脚本系统、日志分析工具等。AI代理作为整个大模型运维系统的核心,负责从IT系统中持续收集海量数据,包括但不限于系统日志、事件记录、性能指标等,再通过大模型的深度学习算法,对预处理后的数据进行深度挖掘;通过构建时间序列分析、聚类分析、异常检测等模型,大模型能够自动发现数据中的隐藏规律和潜在异常,实现对系统状态的实时监控和异常预警。
在发现异常后,AI代理迅速触发大模型的智能诊断流程。基于大模型学习到的海量运维信息、专家经验,大模型通过构建故障树、因果图等逻辑推理模型,结合系统日志、配置信息等上下文信息,对故障现象进行多维度解析。最终,大模型能够给出准确的故障定位和诊断依据,为运维人员提供清晰的建议,将故障恢复时间从小时级缩短到分钟级,大幅加快故障处理速度。
业务变更保障
随着金融业务的快速创新和迭代,各类系统变更也更加频繁,运维的复杂度也成指数增长。变更方案的设计、评估、操作和验证都需要耗费大量人力,而“人”也是导致变更问题最重要的因素。通过大模型技术,可实现业务变更不再强依赖运维人员的经验,大幅提高业务变更的准确性。
以网络变更为例,首先,在知识外挂+RAG(信息检索和自然语言生成)技术的加持下,基于自然语言方式交互,大模型对用户输入的业务变更意图进行深度理解,对业务变更方案进行精准推荐,避免对人记忆的强依赖;其次,结合AI代理对外界工具的调用,实现变更方案的事前仿真评估,提前发现100%配置问题;最后,再基于AI代理对业务接口的调用,实现网络配置自动化下发给生产环境,避免管理员通过命令行、脚本等方式出现人为的疏忽遗漏或者错误在变更操作完成后,AI代理可按运维人员指示,自动调用业务接口完成相关变更校验工作,和传统依靠人力+非智能化工具实现的变更方式相比,系统变更的效率提升90%, 同时也确保了变更后系统的运行稳定性。
例行系统巡检
ICT系统例行巡检工作就像是人的例行体检、车的定期保养,其重要性不容小觑。例行巡检不仅是保障金融机构业务连续性、提升系统性能、加强安全防护和促进合规的关键手段,也是提高运维管理水平、降低运维成本的有效方式。然而,在复杂多变的技术环境中,面对大量的系统检查工具,需要决定合适的时间、选择合适的工具以及对哪些系统进行巡检,随后还需分析巡检结果并生成报告,这些环节都需要大量的人力投入。AI代理通过预训练的语言模型,深入解析用户输入的巡检指令,提取关键信息,如巡检目标、范围和要求。同时,AI代理能够理解用户的上下文信息,确保在复杂对话中保持连贯和准确,并通过深度学习算法不断优化决策能力。
在准确把握用户意图后,AI代理运用内置的决策引擎,结合大模型的知识库和规则库,根据巡检任务的性质、系统特点和工具性能等因素,选取最适合的工具组合进行全面检查分析,并且巡检结果准确性、全面性和系统故障可预测能力也会随之获得极大的提升。
以上是新华三对三个重要运维场景的探索,我们相信,金融大模型在运维场景的应用不止于此,随着研究的不断深入,将来会发现并落地更多的价值场景,不断提升运维效能。未来,新华三将继续秉承“精耕务实为时代赋智慧”的理念,以创新的金融解决方案,协同金融机构一起探索更高效、更安全的运维模式,为金融行业的数字化转型和可持续发展注入强大的动力。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有