巨杉:十年聚焦分布式技术,开辟“湖仓一体”新赛道

巨杉:十年聚焦分布式技术,开辟“湖仓一体”新赛道
2022年11月23日 17:49 福布斯中文网

2011年,几位年轻人敲下了第一行代码,并在一年后创立了巨杉数据库。彼时,第三代分布式数据库迎来了商业化开启的元年,海外的Snowflake、Databricks均在这一年成立。

巨杉数据库的创始团队都是数据库行业的“老兵”,来自IBM DB2北美实验室及华为分布式存储核心团队,具备20年的数据库行业经验。团队在成立之初就洞察到,未来数据量的爆发将对数据的实时可用提出更高的要求,于是,他们毅然决定自研分布式数据库内核,而当时全球都没有可供参考的成熟产品。

巨杉数据库前瞻性地布局了分布式技术的细分赛道,瞄准了大数据实时可用的技术方向,踩中了国内金融银行业的数字化转型节点。创业十年,巨杉服务的大型银行及金融机构超过100家,其中合作时间最长的已有8年。与此同时,数字经济也已经成为继农业经济、工业经济之后的主要经济形态之一,数据资源正作为关键要素渗入社会生产的每一个毛孔。

“在数字化时代,数据成为新的‘石油、电能’,分布式数据库将大大提升数据挖掘和应用的效率,释放全量数据价值。”近日,巨杉数据库(下称:巨杉)公司董秘兼副总裁陈晓静在接受采访时表示,“就好比工业化时代的燃油发动机以及电机,数据库技术就是让数据发挥价值的关键工具。数字化没有天花板,那么数据库也没有。”

(巨杉数据库公司董秘兼副总裁陈晓静。受访者供图)

陈晓静判断,中国基础软件行业正迎来黄金时代,数据库产品既需要企业长期投入与积累,也需要政府、企业、客户一起聚焦新兴业务,打造数据库行业生态,一起发展才能站稳脚跟。

01

前瞻布局“大数据+实时”新赛道

陈晓静介绍,巨杉一开始就选择金融银行领域,是因为该领域严监管、高标准、高要求的特性最适合打磨产品。

2013年前后,正是中国传统银行业加快布局线上零售业务,正面迎接互联网金融冲击的关键节点。银行业加快上马掌上银行、无纸化柜台、远程银行等项目,交易业务也呈现出金额小、频率高、场景全覆盖、实时反馈要求高等全新特点。

当时如日中天的Oracle、DB2都是集中式数据库,无法大规模横向扩展;而刚刚兴起的Hadoop因延迟太大只能做离线数据处理。“我们押注在了一条新赛道上,利用分布式技术强大的横向拓展能力来处理海量数据的实时存取、分析等需求,实践证明这条路可以走通。”陈晓静介绍,巨杉的“多模”“实时”“全量”的数据管理功能迎合了这一转型需求。

巨杉的“多模”功能,即能够支持结构化、半结构化、非结构化的数据存储,帮助银行唤醒海量沉睡的存储内容,这为进一步的数据挖掘分析打开了空间。

以个人客户办理开户业务为例。在客户填写开户表格、提交身份证明材料、预录人脸信息等过程中,银行收集了图片、音频、视频、文字、数字等信息。在过去,很多图像、音频内容分散在不同的业务系统中,难以统一管理,在集中式架构下也面临扩展成本高、无法实时查询和调用的问题,大量有价值的内容只能静静地散落在某个储存器内。

通过多模的能力,巨杉实现了数据的统一管理、实时查询和调用,为后期机器学习、数据调取和应用提升了效率。在全球银行监管趋严的当下,多模数据功能可以支撑客户信息交叉查验分析,为金融安全工作保驾护航。

在多模数据湖的基础上,巨杉于2016年又向前迈进了一步,落地实现了万亿数据量下高并发的结构化实时数据湖;近年来,巨杉在客户需求的推动下,结合数据湖及数据仓的特性,协助客户落地湖仓一体结构。

目前,巨杉已经为银行内部的核心下移流水查询平台、全量数据平台、非结构化数据平台、影像系统平台等多个系统提供数据库服务,覆盖了国有大行、股份制银行、省级农信社、城商行、保险、证券、监管机构等100多家金融银行客户。其中,单客户最大规模的集群达到400台物理服务器,超过1.4万亿行记录,数据量达到数PB级别;稳定运行巨杉数据库最长时间的客户业务长达8年。

02

十年持续聚焦技术和行业

中国数字经济的迅猛发展,为信息技术产业创造了巨大风口,其覆盖了基础硬件(芯片、服务器等)、基础软件(操作系统、数据库、中间件等)、应用软件(OA、ERP、办公软件等)和信息安全等领域,并在政务、科技、通讯、金融、医疗等终端有广阔应用。

在软件产业链中,数据库、操作系统、中间件并称为三大基础软件。如今在大数据时代,众多企业对数据库的依赖程度也越来越高,其市场规模也在快速发展。据中国信息通信研究院测算,中国数据库2021年市场规模约合305.8亿元,占全球5.2%,预计在未来5年增速保持20%以上,并将在2023年增速达到峰值30%,市场规模接近500亿元。

风口之上,巨杉选择聚焦技术和行业。10年来,巨杉始终坚持“两个聚焦”:10年聚焦技术,从“多模数据湖”“实时数据湖”发展到“湖仓一体”构架,实现技术通道的螺旋式迭代发展;10年聚焦行业,抓住了中国数字化发展的机遇,基于中国金融银行业领先全球的数据创新需求,不断夯实海量数据的实时应用能力。

巨杉提供的数据显示,目前,巨杉数据库技术广泛应用于金融、证券、保险、政府、能源、电信、交通等领域,企业总数超过1,000家,其中在金融银行业付费客户已经超过100家。

长久以来,市面上大多数数据库都源于国外,国产优秀数据库数量并不多,原因在于基础软件是长周期的行业,需要数十年的发展才能成功,可国内起步较晚,在基础软件人才、数据库生态等多方面存在差距。不过,随着数据库公司的技术积累、客户积淀,类似巨杉这样的国产数据库厂商正在商业落地上取得进展。

“创业不应该是赌博,应该是基于长期积累,在洞察未来行业方向和想清楚商业模式之后的持续深耕和聚焦发展。”陈晓静表示,“数据库产品的生命周期非常长,像IBM在1960年代推出的一款数据库软件,依靠持续运维服务在去年还有过亿美元的全球营业收入。”

03

深耕中国市场,实现全球领跑

“在数据库领域,中国企业可能过去是在跟跑,但是在分布式数据库,特别是‘湖仓一体’赛道上,我们与全球企业是同步起跑,这得益于中国数字经济规模更大、应用面更广,而我们在部分技术领域已经实现领跑。”陈晓静形容中国基础软件行业正迎来“黄金时代”,而巨杉将扎根中国创新,助力中国的数据库技术走向世界。

从全球来看,湖仓一体已成为大数据深化发展的方向,各独立厂商都在积极推动湖仓一体的产品建设。过去,数据仓库缺乏对多元化数据的管理能力和数据深度分析能力,而“数据湖”能够实现对结构化数据、半结构化数据、非结构化数据等多类型原始数据的无差别存储,但仍存在对存储对象缺少加工、查询性能较弱等短板。

据介绍,“湖仓一体”可打破数据仓库/数据湖独立建设的架构局限,满足海量数据无差别存储、实时查询、流式分析等需求,降低企业数据管理成本,提升运营效率。Snowflake、Databricks、巨杉则是“湖仓一体”这条新赛道上的领跑者。作为较早投入产品研发及商用的厂商之一,巨杉先后被艾瑞咨询、IDC选为“湖仓一体”代表厂商,其在海量数据下的实时查询能力,已是业界的佼佼者。

陈晓静称,公司已率先实现在超过万亿级数据量的生产系统中,稳定提供高达一万并发压力下、百毫秒内查询响应的能力。比如,一家使用巨杉的大型银行查询五年流水的历史数据只需要几秒钟,其他银行则还需要数分钟以上。

“2017年,道琼斯(Dow Jones)报道称:‘中国移动支付规模达美国的90倍,领跑全球’。巨杉在银行领域实战十年,这些经验打磨了巨杉的持续创新能力,在海量多模数据的实时处理能力上,我们部分技术已经达到先进水平。”陈晓静说。

在终端应用的规模化效应之外,巨杉也期待着产业生态的逐步完善。

陈晓静认为,数据库的发展不但需要技术的创新迭代,同时也需要建立良好的技术生态。在产业生态方面,巨杉积极推动行业标准、团标及生态联盟的建设,以形成一个开放的基础软硬件企业级生态。目前,其已经与鲲鹏、飞腾、海光、麒麟、统信等厂商的200多款上下游产品完成了相互认证。

在最新发布的《国务院关于数字经济发展情况的报告》中,巨杉也看到了数字产业化、产业数字化的更多机会。陈晓静相信,底层技术进步虽然周期更长,但是能够带动上层应用创新产生质变,随着国内付费软件的市场接受度更广、软件专利的保护力度更强、产业生态更完善,巨杉也将在深耕金融银行服务的基础上,深度参与更多产业的数字化进程。

声明:品牌之声相关资讯均属创意内容,非福布斯编辑内容。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部