发表于

弥合云原生网络和云基础设施之间的可视性差距


关于云原生网络人们有一个迷思,那就是它们不依赖硬件。原生云网络带来的好处有很多,但人们很容易忘记在云的下面还有一个物理基础设施。虽然保障和闭环编排解决方案可以让网络运行保持最佳状态,这些系统可能会注意不到服务器和软件基础设施出现的问题——但客户却可以注意到。

原生云网络带来了一个新的故障域,即云基础设施,这个域在很大程度上对网络和服务运营团队都是不可见的。我们将种情况称为“可视性差距”。

传统上,有四个不同的运营团队,每个团队在很大程度上都独立运营。从电信公司的角度来看,有网络运营团队和服务运营团队。顾名思义,他们分别负责网络(在本例中是虚拟网络)和客户的“健康”状况。

网络运营(NetOps)团队利用传统的电信服务质量(QoS)指标和关键性能指标(KPI),努力让网络运行保持最佳状态。

服务运营(SrvcOps)团队利用传统的电信体验质量(QoE)指标和关键质量指标(KQI),努力让客户服务运行保持最佳状态。

IT运营(ITOps)团队利用传统的IT可观测性指标(曲线、日志和告警),努力让服务器基础设施运行保持最佳状态,而云运营(CloudOps)团队则努力让云软件(Kubernetes、Linux OS等)运行保持最佳状态。

由此造成的挑战是,这些团队通常成为一个个“孤岛”,彼此间缺少配合与合作,因此难以共享信息和了解全貌。而电信和IT/云运营团队使用不同的工具和指标,且各个团队使用不同的语言,这使得问题更加复杂。

为了帮助解决这一困境,EXFO与英特尔密切合作,将英特尔平台遥测技术和洞察(Intel® Platform Telemetry Insights)集成到EXFO的自适应服务保障(ASA)平台中。ASA平台利用先进的电信机器学习(ML)算法来自动检测和关联异常状况,从而有效地弥合云原生网络和服务层与云基础设施层之间的差距。通过获取这种综合且完全关联的网络视图,所有四个运营团队都可以确切地了解自己所负责的域内出现的问题如何影响其它域内的问题,或被其它域内的问题所影响,从而弥合可视性差距并帮助打破妨碍排障并损害客户体验的管理“孤岛”。

这就是我们所说的全栈保障。

这就是我们所说的全栈保障

嘈杂的邻居

没有人喜欢嘈杂的邻居,云原生网络也是如此。那么,到底什么是“嘈杂的邻居”?目前的服务器以多核CPU为基础,允许并发执行多个工作负载,从而更好地利用空间和功率,并更好地利用内存、缓存和I/O资源,而单个工作负载可能无法充分利用这些资源。所有这些都意味着服务器可以使用更少的空间和更少的功耗完成更多的任务。

然而,将很多CPU紧密地组合在一起并共享资源可能会带来意想不到的后果。今天,服务器的每个CPU可以有多达128个不同的核心。这些核心中的一半将是超线程实例——一个核心运行两个不同的工作负载——这些物理核心将与相邻的核心共享一些资源,如L1缓存。

当一个工作负载在共享资源,或者应该说是占用资源时,可能会影响到另一个工作负荷,从而造成“嘈杂的邻居”问题。运营商面临的挑战是,即使在花时间将与劣化问题有关联的服务器、核心和Kubernetes工作负载隔离完毕后,却可能不会注意到造成劣化问题的是一个无关联的“相邻”工作负载。

但是,通过全栈保障提供更强大的可视性,ASA平台可以检测出客户QoE的劣化问题,将这些问题与特定服务器中检测到的问题关联起来,并将这些问题与其它相关问题关联起来,“查看”其它工作负载对服务劣化造成的影响,换句话说,找到“嘈杂的邻居”。

该平台可以通过自动检测、关联并分析“嘈杂的邻居”问题,从而为相应的团队或编排器提供必要的洞察力来纠正问题。此外,由于可以从网络边缘到核心测量QoE,而云服务器也可以从网络边缘扩展到核心,因此该解决方案可提供从基础设施到客户体验以及端到端的服务与网络保障!