发表于

基于机器学习建立预见性服务保障


回传网中的连接故障是造成许多服务问题的罪魁祸首,会导致客户满意度降低以及收入减少。找出这些问题的根源是一个相当复杂的过程。在找出这些问题根源后,解决它们对于达到服务等级目标至关重要。


由于回传性能问题可能会成为成功部署5G架构和物联网的主要障碍,因此网络运营商现在就需要实施自动的解决方案。在这个新的动态环境中,需要新的流程和工具才能保障体验质量(QoE)。运营商需要解决方案,使其能够在混合的网络环境中高效地检测并隔离与连接有关的问题——在这种环境中,服务拓扑和网络拓扑间不再有1:1的对应关系。“始终在线的”宽带连接意味着传统的故障诊断和服务保障方法不再适用于这些新环境。

通过主动测试检测连接问题

主动测试是在回传网络环境中检测连接问题的理想方法,其原因有多个。首先,由于综合测试流量和服务流量会沿着同一个路径传输,因此测试可以精确地反映出真正的网络性能。其次,由于测试和真实流量联系在一起,因此在测试虚拟或混合网时,不需要重新配置测试。此外,主动测试可以扩展,这意味着将其作为主动测试VNF部署到虚拟或混合网中时,运营商可以获得100%的网络服务可视性,即使在添加更多的端点测试设备时也同样如此。这最后一个优点显示要确保新创建的SDN/NFV网虚拟服务及功能正常运行,主动测试为何至关重要的原因。

机器学习让服务保障从被动变为主动

服务保障必须从一种只能在发生问题后触发相关措施的被动方法,变为使用机器学习来自动学习网络行为,以便主动发现并避免可能导致故障的问题。在这样的背景下,有两个主要的故障原因场景,每种场景造成的后果严重程度不同:突发的短时间中断和长时间中断。

在出现短时间中断时,服务会暂时中断,没有任何告警。网络会自动做出反应,服务会迅速恢复过来,不需要任何干涉。与之相比,长时间中断会需要人工干预才能让服务恢复过来。长时间中断比短时间更加严重,由网络中不可恢复的故障所导致,会出现一些预警迹象,如移动回传网性能降低。

机器学习系统要成功,它们必须能够做两件事:预测中断并确定具体类型(短时间或长时间)以便向相关人员示警。具体而言,它们必须能够执行以下任务:发现中断、找出性能下降的原因、给中断分类并采取正确的补救措施。

如何处理所有数据——两种方法

许多回传保障和监测系统使用RFC 5357——双向主动测试协议(TWAMP),通过丢帧、帧时延变化(抖动)等关键性能指标来测试网络连接并评估性能。在进行TWAMP主动测试时,会在两个端点间发送测试数据包,每个测试点会产生数十个KPI。机器学习算法需要庞大的数据集,以便获得准确的结果,因此TWAMP的庞大数据集是理想选择。但这也意味着基础设施必须能够实时处理以TB计的海量数据。

那么机器学习系统如何处理并使用所有数据?有两种常用的方法。

 ——无监督的异常检测:向机器学习系统提供未标记的数据,由算法找出数据中的异常,以便找出数据中存在的联系,而如果没有这些算法就无法发现。  

优点:

  • 由于不需要进行数据标记,因此设置更加简单,且需要进行较少的数据准备工作
  • 训练不需要单独的数据集
  • 在有多种不同类型的数据来源时会特别有用

——有监督的故障预测:将数据标记为“正常”或“异常”,使得算法可以自动区别这两种类型的数据,并将导致网络行为“异常”的问题标出来。

优点:

  • 学会以良好的准确度和较高的成功率来预测庞大数据集中的故障
  • 在调查所预测的事件时,分析起因可以提供另一种方法来对事件进行自动分类

带专有标签的有监督学习算法比无监督的学习算法更适用于保障和预测目的。然而,这需要做出更多的努力来标记数据,并可能需要其它数据源,才能发现异常的网络行为。

结束语

在向5G和C-RAN基础设施演进时,自动的服务保障解决方案在机器学习系统的帮助下,可更好地帮助我们预防无线回传网问题——它们至关重要。如欲了解机器学习及主动测试的详情和具体示例,请阅读我们的白皮书:《利用机器学习消除5G网中的回传瓶颈》