运维观点|优云金融行业「可观测性」落地方案探索之路

发布于: 雪球转发:0回复:0喜欢:0

可观测性的概念及趋势解析

In control theory, observability is a measure for how well internal states of a system can be inferred by knowledge of its external outputs. The observability and controllability of a system are mathematical duals.

The concept of observability was introduced by American-Hungarian scientist Rudolf E. Kalmanfor linear dynamic systems.

可观测性从控制理论的数学概念发展,到如今越来越多地应⽤于提⾼分布式 IT 系统的性能。其背后一方面是信息技术的高速更新变革,催生了大量的信息技术产品,像Serviceless、多云混合、容器化、微服务等新型技术架构。另一方面这些技术架构在构建分布式系统时需要在云上、云下或两者同时运⾏的数千个进程。但是传统的监控技术和⼯具很难跟踪这些分布式架构中的通信路径和相互依赖关系。

监控与可观测性有什么区别呢?

监控和可观测性是相互依赖的不同概念。

|监控:是为提高系统的可观测性而执行的操作,是为了能够观察到发生的所有问题,通过监控应用程序栈信息以及日志记录,并绘制成监控指标、异常事件探测、主动报警和升级。所以监控的技术框架是以事件、日志、指标为对象,告警处置为目标的模型。其监控框架模型如下:

|可观测性:是该系统的一个属性,如功能性或可测试性,除了监控以外还包括:调试、剖析、依赖性分析、构建可扩展性场景。为问题分析与根因定位,提供更全面,更系统的框架。也就是说,监控可以发现问题,可观测性可以帮助更好地定位问题。有一个相当有表达力的示意图,是这样的:

那么可观测性的数据来源是什么?

Google Cloud在OpenTelemetry介绍中,首先提到了telemetry data的概念:The information that you will use to determine whether an application is healthy and performing as designed is called telemetry data.

事实上,我们进行可观测性,就是主要是通过telemetry data来进行的。早在2017年,Peter Bourgon就把telemetry data分为三类,并写成了著名的博文《Metrics, tracing, and logging》,精华都在这张图里。

可观测性使⽤三种类型的遥测数据:指标、⽇志和跟踪来提供对分布式系统的深⼊可⻅性,并允许团队找到⼤量问题的根本原因并提⾼系统性能。

可观测性技术的国内发展现状

为推进业界可观测性技术理念的普及、填补可观测性理论与实践的鸿沟,今年,中国信通院推出了《可观测性技术发展白皮书》。并对业界可观测性建设做出了深刻的剖析:

 在Serviceless、多云混合、容器化、微服务等新型技术架构背景下,技术决策者在如何管理其技术堆栈的复杂性方面面临着一个关键的决策点。基于此,可观测性也成为当前国内各大企业关注的重点。

广通优云可观测性体系建设突破点

广通优云首先从规划方向和框架上定义可观测性的探索路径,结合用户的监控告警管理现状、构建业务的多维度联系,充分应用研运一体化趋势、结合优云的产品能力实现可观测性方案规划路径建设。

1.传统监控告警管理现状改造:需要实现对多系统,多工具的集中纳管,集中处置,优云通过构建统一Agent方式,实现多种监控数据、运维场景统一打通(OS、DB、Network等对象采集,以及CMDB、监控、自动化多场景打通)。通过集成第三方系统数据,实现告警、事件的集中管理与处置。

2.构建监控标准化体系:通过业务系统动态横向链路连接设计(用户全旅程分析、链路架构还原、故障根因定位等)、及静态纵向资源关联设计(全流程连接、组织部门连接、CMDB资源数据连接),实现对业务全栈式可观测性体系构建。

3.广通优云融合了CNCF标准化可观测方案OpenTelemetry:将Metrics、Tracing、Logging的common schema统一,做到三者的无缝打通。实现应用全链路监控(性能指标、告警数据、链路追踪、拓扑数据)。

某国有大行顺应数字时代用户行为线上化、场景化趋势,依托金融科技手段与互联网平台模式,推出了一款面向大众百姓的生活服务APP──“某行生活”,作为企业级生态运营平台,改变了传统的金融服务模式,将金融服务延伸到衣食住行等生活的方方面面,持续助力企业经营、激发市场活力、惠泽百姓民生。

“某行生活”使用优云应用监控产品,采用了CNCF标准化可观测方案OpenTelemetry,将Metrics、Tracing、Logging的common schema统一,做到三者的无缝打通,通过对业务指标监控、应用指标监控、全链路追踪、应用拓扑分析、指标阈值告警等多维度数据采集与观测,实现了“某行生活”业务全链路追踪,初步构建了可观测体系框架。最终,帮助“某行生活”发现应用性能瓶颈,改善服务效率,提升应用体验,极大提升运维效率。

广通优云通过构建应用全链路监控场景结合传统监控能力,为金融行业开辟新路径,实现了可观测性体系构建的技术落地探索与实践。为客户在故障定位难、容量评估、链路梳理、性能分析等问题,提供一种 “洞见”能力,从而极大地提升运维效率,推动数字化转型。