3倍ROI,腾讯云卷出一个降本增效神器

发布于: 雪球转发:0回复:0喜欢:2

既省,又可靠。

@科技新知 原创

作者丨樱木 编辑丨伊页

从粗放到精细化,是企业在数字化转型中的必修课。

Forrester的研究表明,在复杂多变的国际国内形势为我国经济发展带来巨大的不确定性的宏观背景下,我国数字化转型进程也已经进入了深水区。特别是在后疫情时代,竞争的激烈让每一个身处其中的企业,都不得不节约每一发“子弹”。

当IT成本开始逐年走高,成为企业的重要支出时,如何有效降本就成了决策者不得不面对的问题。

回顾历史,云计算的高速发展,带动了企业上云需求的快速走高,调研机构 Gartner 指出,到 2025 年,超过 85%的企业将采用云原生技术。与此同时,据 IDC 的数据,全球云计算市场规模在过去几年中持续增长,预计到 2025 年将达到 1 万亿美元。企业需求与行业规模的扩张,直接导致行业将降低成本与高灵活性服务作为发展共识。

于是,基于Kubernetes的云原生生态体系正在成为一种趋势。从物理服务器到虚拟机,再到通过Kubernetes编排调度的容器,资源分配颗粒度越来越小,更加高效与灵活的云原生技术正在加速企业数字化转型,同时,云原生技术实现了从头部企业向中型、小规模企业的下沉,提高应用开发和部署的自动化水平。

规模的扩张和适用场景范围的延伸,无疑加速了企业数字化转型的效率,但随之而来的,则是需求的进一步细化。高速发展之下,作为企业决策者,更渴望从数据和可量化的方向上,更进一步了解具体降本增效的程度。

而作为对该需求的回应,5 月28 日,腾讯云委托Forrester Consulting 撰写的《腾讯云容器服务总体经济影响™报告》 发布,作为国内首份聚焦云原生的总体经济影响™报告,该报告以实际数据为基础,通过展现了真实收益、成本和风险等数据,呈现投资容器服务的对企业总体经济影响。

作为国内云服务的领先者,腾讯云容器服务(Tencent Kubernetes Engine, 以下简称TKE)在真实案例中的表现究竟表现如何?可以从多个维度一探究竟。

Part.1

神器的诞生

作为企业级的PaaS服务,TKE是基于原生的K8s容器编排引擎,结合腾讯云的计算、存储、网络等基础设施打造。具体来说,TKE覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,支持单个集群兼容多种计算节点的容器资源管理模式。同时产品在云原生FinOps 领域推出开源项目Crane,帮助客户实现资源优化、成本控制。简单来说,通过使用TKE,企业和开发者可以更轻松地部署、管理和扩展容器化应用程序,提高应用的可移植性、可扩展性和可靠性。它简化了应用的部署和运维过程,使企业能够更快地推出新的应用和服务,提升竞争力。

那么TKE在具体场景上降本增效的表现是如何呢?

为收集不同企业或组织在投资和应用TKE的过程中产生的真实收益、成本和风险等数据,全球知名独立咨询机构Forrester抽取了一批不同行业、不同规模的 TKE 现有客户的企业代表,并由此整合形成了一家复合式组织,作为本次TEI(Total Economic Impact)案例研究的基础。

在这场以真实数据为基础的模拟演练中,该组织是一家业务遍布全国、年营业收入约 4.5 亿元人民币的大型企业。在使用 TKE 之前,根据真实员工采访,企业通常使用虚拟机,技术人员为应对众多冗余繁琐的传统运维工作而疲惫不堪。

这种技术困境不仅导致资源浪费,还影响了产品和服务的稳定性,尤其在流量高峰期无法满足客户需求,业务增长受到限制。

当TKE被应用之后,基础设施成本、运维成本、应用开发的效率以及系统稳定性,都得到了大幅提升。

首先,最为突出的部分,即为计算资源成本节省超过70%。在具体场景之中,由于TKE容器的弹性调度能力,让企业可以精准弹性调整资源用量,无需额外购买备用机器,减少资源浪费。同时,TKE提高了计算资源的利用率。在容器化不断加深的过程中,企业的TKE用量逐步增加,机器成本节省也逐年增加,三年累计现值高达1771万元。

“我们的机器成本减少了40%,之后我们还会进一步增加TKE的使用,并且再进行几轮调优,预计成本还会再降低10% 到20%。”一位知识付费行业的高管在使用后直言。

其次,日常运维负担降低50%以上,峰值运维负担降低98%。TKE的加入使运维人效成倍数增长,分钟级的自动化、平台化操作,让企业不再需要借调技术人员或额外雇佣外包团队,用更少的人力即可支撑更大体量的业务运转。“(使用TKE后)业务高峰期的扩容也只需要不到五分钟时间,以前两三个人加班加点才能完成的工作,现在只需要一个人就能操作”某通讯行业运维负责人表示。三年间,运维负担减轻带来的量化价值为914万元。

与此同时,企业应用开发迭代效率提升90%。使用TKE后,技术团队缩短了构建发布的时间,不再受困于繁琐流程,实现新应用、新功能的快速部署上线,由此产生的三年收益现值为3092万元。

除此之外,服务稳定性也进一步提升。企业借助TKE向客户提供更加稳定的产品服务,这意味着更短的服务中断时间,并由此对营业收入产生积极影响。三年间,企业由此得以增加的运营利润达到183万元。

综合来看,这家年营收4.5亿元的复合式组织,该组织三年内扣除风险因子后的总收益现值为5960万元,总成本现值为1541万元,由此产生的净收益现值(NPV)共计4419万元,投资回报率(ROI)为287%。近3倍ROI对于普通企业来说,无疑意味着降本增效质的飞跃。

但除了量化可视的改变之外,TKE也在看不见的地方,加速着降本增效的变革,简单来说,这是一场连锁反应,比如服务稳定性提升,对应的客户投诉减少,有利于企业在业界建立和扩大产品影响力;而技术团队效率提升能带来更好的团队工作状态和员工体验,也减少了技术团队之间和技术与业务团队之间的摩擦。

所以,从整体来看,这份数据非常具有参考意义,而企业决策者,更不必担心,数据是否含有水分,这套模型并不是简单粗暴的叠加计算,而是充分参考了各行各业的真实客户在使用TKE容器化服务前后的特点和效果。考虑到企业在现实业务中的复杂性和各种风险因素,Forrester给每项收益下调了10%,成本则调高了10%。除此之外,在具体业务端充分考虑了容器化改造的不同阶段,对收益和成本进行了细致的拆分。同时未将不可量化的收益纳入其中。但即便在如此严苛的条件之下,容器化和非容器化的收益对比依然非常明显。3倍ROI作为可量化的指标,无疑体现出了TKE降本增效的高效。

此外,因企业 IT 投资回报分析渐趋复杂,腾讯云委托 Forrester Consulting 推出腾讯云 TKE ROI 计算器,企业可利用其分析框架,依自身情况开展 TKE 投资决策评估。

Part.2

从微信到贝壳

TKE如此的高效,从历史范畴来看,离不开腾讯内部自研业务的全面上云。在2022年,腾讯内部的海量自研业务实现了全面上云,这一战略举措为腾讯带来了显著的增益。在上云之前,各业务部门独立部署,服务器资源分散,难以形成规模效应。业务部门间技术共享有限,难以形成快速的技术迭代和创新。

在自研业务上云初期,腾讯面临着许多企业都会遇到的困境,如将物理机原封不动搬到云上,或直接把容器当虚拟机使用,导致云价值未充分发挥。

腾讯基于腾讯云TKE开始了真正的云原生之旅,先对离线业务进行容器化,再逐步推进在线业务的容器化,以实现云原生架构的优化。腾讯内部95%的业务已放在可调度的公共集群里,实现了高度自动化的资源调度和管理。即便面对腾讯庞大且复杂的业务体量,TKE平台始终保持着高度的稳定性,未发生过重大故障。

而在上云之后,成本节省效应突出,腾讯的自研业务上云规模已经突破5000万核,而且累计节省成本超过30亿元。这意味着腾讯的内部业务,如QQ、微信、腾讯视频、王者荣耀等,都在基于公有云的模式进行开发和运营。

正是基于这一大规模,超级数量级的实践,腾讯云创建了中国规模庞大的云原生。其中,腾讯云的TKE平台拥有了中国领先的Kubernetes集群和先进的在离线业务混部能力,成功打造了国内最大规模的云原生实践。在这一个过程之中,产品效率不断被打磨,通过腾讯云的TKE平台,实现了在离线业务的混部能力,服务器资源利用率从30%提升至65%,有效提高了资源的使用效率。

与此同时,通过腾讯自研业务的上云过程,将近100项成果得以复用到公有云,从而带动了腾讯云整体产品和技术能力的全面提升。而腾讯云作为连接内外部业务的桥梁,促进了腾讯内部业务与外部客户的生态协同,共同构建了一个更加开放、共享的生态系统。

内部完成了超级规模的实践之余,腾讯云TKE在外部的服务中,也将高效产品力进行复制。

其中与贝壳的合作就是一个典型的案例。

作为国内最大的房地产中介平台,在后疫情时代,压抑的需求不断爆发,房产交易量激增在2023年,总交易额达到了31429亿元,同比增长20.4%。同时,贝壳在多个条线业务规模激增,包括存量房、新房、家装家居以及新兴业务等。面对如此规模的增长,在贝壳内部,提质增效的需求成了企业的首要目标。2023年初,贝壳打响了云原生攻坚战,提出了“4321”的技术口号,其中4指的是计算集群利用率提升到40%。但年初时,这一数值不足25%。

面对如此目标,贝壳在前期小范围合作试验之后,最终选择了与腾讯云深度合作。从结果来看,“去年底超额约10%至 12%完成全年节约目标。容器化和云原生,是提升利用率,尤其是提升在线业务利用率的一个技术达成路径。”贝壳云技术中心系统研发部高级经理杨菁伟说。

达到这个目标,TKE具体做了什么?

在此案例中,贝壳应用了TKE原生节点这一产品,作为一款集成了标准K8S形态与混部技术的产品,TKE原生节点能够对云上云下、任意位置的服务器资源实现7*24小时极致利用。通过,智能请求推荐、调度增强、高优任务与低优任务混部等几项定制增强,实现了降本与增效的双收益。比如,腾讯云TKE原生节点的“成本大师”推出了Request智能推荐工具,可以通过分析客户业务实际利用率和历史数据,给客户推荐最合适的Request配置,确保资源得到合理利用。

在调度增强方面,原生K8S集群,有时会出现调度不均(某些节点负载过高、其他节点负载又很低)。不仅资源利用率提不上来,也容易发生故障。腾讯云TKE原生节点,支持根据客户节点的实际负载,把任务智能调度到负载较低的节点上,确保负载均衡。而且,TKE还提供重调度机制,支持把高负载节点的任务转移到低负载节点上。

通过使用 TKE 原生节点调度能力,大幅优化集群装箱率及利用率,让整体资源利用率提升60%;借助水位控制能力,有效兼顾稳定性和资源效能。

而当企业得到如此好的效果之后,企业决策更加坚定了在此方向上的投入。杨菁伟表示,容器化为贝壳真正迈向云原生打下了基础,未来将推进两件事:一是让自建的容器逐渐迁移到公有云的底座上,增加腾讯云TKE在贝壳的算力供给比重;二是针对应用以外的组件进行云原生的适配,实现数据的云原生和缓存的云原生等。

提质增效,协同共赢,一直是腾讯云试图带给企业的结果。

而在更大范围的协同合作上,腾讯云也做出了表率。据悉,腾讯云基于FinOps推出了国内首个云原生成本优化开源项目Crane(Cloud Resource Analytics and Economics),能够助力云原生用户充分发挥云上资源的最大价值,帮助企业提质增效。

Crane遵循FinOps标准,旨在为云原生用户提供云成本优化一站式解决方案,也是领先的纯开源、免费的应用于云原生领域降本增效的解决方案。以腾讯某部门集群优化为例,通过使用FinOps Crane,该部门在保障业务稳定的情况下,资源利用率提升了3倍;腾讯另一自研业务落地Crane后,在一个月内实现了总CPU规模40万核的节省量,相当于成本节约超1000万元/月。

目前,Crane已经被腾讯、小红书、网易、思必驰、酷家乐、明源云、数数科技等公司部署在生产系统,其主要贡献者来自腾讯、小红书、谷歌、eBay、微软特斯拉等知名公司。

Part.3

写在最后

在Forrester 2022年全球云基础设施调研中,72%的中国云决策者表示,使用以云原生为代表的新计算架构进行现代化改造将是其组织未来12个月的技术架构和交付优先事项之一,而世界其他地区的这一比例为53%。

腾讯作为国内最早上线容器服务TKE的企业之一。今年4月,腾讯云入选Gartner容器客户之声亚太区“卓越表现者”象限。在8家获评的容器管理厂商中,腾讯云成为唯一入选的中国企业。

降本增效在未来一段时间,都将成为IT企业的主基调,而作为行业领先的TKE,无疑也将扮演更为重要的角色。

/ THE END /

Follow Us