人工智能时代,基础的数据计算对模型的结果产生着深刻的影响。而数据库的虚拟化将成为基础计算能力的核心突破口,将带来更深层次的智能。这种基础设施的突破,让企业能够访问更多的数据、灵活地调配数据资源、获取更好的数据计算的结果。

大浪淘沙中,计算平台已历经三代演进:早期,服务器计算资源昂贵,彼时的大型计算机主要用于金融账户的自动化;随着CPU资源不断丰富,PC机开始用于提升企业效率,迎来了ERP、CRM软件的大爆发,诞生了一批影响一代人的操作系统、数据管理工具和IT设施企业;而在云时代,新的互联网巨头开创了全新的商业模式、商业体验,也诞生了新的需求,这意味着需要重构IT和传统的数据库体系。

正如服务器虚拟化技术的突破引领了云计算时代的到来,数仓云原生虚拟化的技术突破也将引领数据计算时代的到来。

市场规模与国产化双双提速

大数据分析、数仓软件巨头Teradata出走中国市场,使数据库国产化这一话题再度升温。

因产品定位、营销策略的水土不服以及价格过高等原因,在中国市场纵横了40多年的Teradata即将结束在中国的逐步运营并最终关闭中国公司。据测算,Teradata在国内通信、金融、航空等领域的数据库服务方面占据了约10%的市场份额,其在中国的产品和服务收入达到30亿元。而Teradata的退出也为众多国产数据库企业留出了替换机会。

向下调用底层硬件资源、向上支撑应用软件,数据库作为信创三大基础软件之一,是完整的信创生态中最核心的环节。与操作系统和芯片等其他高壁垒、高附加值产业相比,数据库领域的国产化已有明显进展。据中金公司测算:大数据基础软件国产替代空间广阔,年均释放市场空间约150亿元。

当数字经济成为国内经济发展的主要驱动力,我国的数据库市场规模也持续快速增长。CCW Research数据显示,2021年国内数据库市场规模达297.5亿元,在全球市场中占比较小,但增速远高于全球市场,达到为22.3%。

行业早期,国内数据库市场一度被国外厂商垄断。2007年时,仅Oracle、IBM、微软、Teradata四家国外厂商市场规模就达到91.3%。

云时代到来后,国外传统数据库厂商转型缓慢,受限于现有技术架构和商业模式,其高昂的部署和运维成本以及自主可控制约,使得中国本土客户主动选择国产厂商。2013年~2021年,我国数据库产品提供商数量增长迎来高速发展期。

随着数据库国产化进程加速,甲骨文和IBM等外资厂商在中国的市场份额逐年下降。《中国数据库追梦之路》报告显示,截至2021年,国外厂商的市场份额已下降至43.9%。目前,国产数据库供应商主要包括华为、阿里、达梦、人大金仓等。

信通院数据显示,截至2022年6月,我国数据库产品提供商共计116家,在全球占比32%,仅次于美国。规模方面,我国数据库企业从业技术人员不足2万人,员工数量平均约200人。部署模式方面,预计2022年公有云市场占比将首次过半达到51.9%,规模达到198.64亿元,本地部署模式市场增速放缓达到14.1%,规模为183.84亿元。

公有云部署突破存算分离

从融资环境来看,数据库产业受资本关注度较高,整体投融资环境向好。截止至2023年3月2日,我国数据库技术行业共发生投融资事件276起,其中发生的A轮投资事件最多,达到89起,占比约为32%;其次为种子天使,达到57起,占比约为32%。

2022年我国数据库技术行业发生投融资事件20起,投资金额达35.62亿元。这一年6月,一家成立不到一年的国产数据库厂商拓数派也完成了数亿元Pre-A轮融资。

拓数派成立于2021年,成立当天即获得了头部产业基金天使轮投资。目前,拓数派已在中国的北京、杭州、广州以及加拿大温哥华建立研发中心。

作为一家初创型数据库企业,拓数派的团队浸染在云原生、虚拟化的创新氛围之中。其研发团队凭借国际顶级数据库的内核研发能力,将PC时代的数据库架构创新性地实现了分析型数据数仓上云虚拟化。运用元数据-计算-数据分离的三层架构,实现云上存算分离,将元数据放置于快存储中,将用户数据放置于对象存储中,将计算资源直接运行于虚拟机和容器中,构建了高在线、高安全、高可靠的云原生虚拟数仓

基于PC架构的传统MPP存在木桶效应,后期升级部署中拓展困难,而拓数派首创的全新eMPP(elastic Massive Parallel Processing,弹性大规模并行计算)分布式技术,突破性地实现了数据在云上的计算和存储分离,存储和计算作为两个独立变量,可以各自在云端进行独立的弹性伸缩,同时可以实现瞬间扩缩容,从而做到灵活弹性,避免资源的浪费。

目前,为满足不同用户的需要,拓数派的分析型数据库PieCloudDB包含三种版本和部署方式:支持裸硬性部署的软硬件一体机、支持私有云部署的企业版和社区版和支持阿里云等公有云部署的云上云版本。

其中,拓数派于3月14日最新发布的新一代云原生虚拟化数据库PieCloudDB(CoC)版在计算、数据用量、账单方面,与专有部署相比显示出了非常高的优越性。

据拓数派CTO郭罡透露,PieCloudDB(CoC)是极少数在国内的公有云领域实现存算分离的真正云原生数据库,对数据库SQL支持满分度高,部分技术指标方面超过对标国外头部厂商。拓数派COO陆公瑜指出,新型架构的PieCloudDB可以打通数据孤岛、消除数据冗余,从而为企业节约成本。云上无限的存储和计算资源可以支撑企业进行各种海量数据的复杂计算,提高数据的价值。

未来,拓数派还将继续围绕云上数据和数据计算领域,构建数仓虚拟化的数据库产品矩阵。

硬核研发与产品力是竞争核心

过去,国产数据库的销售主要依靠政策扶持和价格优势。但随着国家对基础软件国产替代的重视,一批数据库专业技术人才逐渐成长起来,国内数据库产品与国际头部企业的差距正逐渐缩小。

在郭罡看来,国产数据库产业已经行驶过最艰难的路段,其未来的发展还需要长期的市场培育以及持续的人才供应,最重要的是要将产品做硬,用时间打磨出优质的数据库产品。

陆公瑜认为,数据库产业的发展少不了硬核的数据库内核的创新和突破的能力,而当前国内只有极少的团队具备这种能力,国产数据库产品在更多创新产业的大规模锻炼和应用也有助于其能力的提升。产品方面,国产数据库厂商还需在稳定性、性能、安全性、生态方面多多发力。

当前,行业头部公司的布局也体现出国内数据库产业的几大发展趋势:一是需求的融合,如HTAP、多模;二是云原生化,公有云部署的占比正不断提升;三是一些跨界的创新,例如数据库产业与AI的结合、异构计算等。

“数据是生产要素,要打破隔离,加速数据流通创造价值,”郭罡认为,在数据网格、数据治理等多种观念的碰撞中,未来数据库产品的最终形态将完全不同于传统的数据联邦,也将超越纯粹的数据库产品。