首页  专利技术  电子通信装置的制造及其应用技术

故障处理方法及装置与流程

2025-02-14 09:40:01 356次浏览
故障处理方法及装置与流程

本申请涉及通信,尤其涉及一种故障处理方法及装置。


背景技术:

1、在传统典型的clos组网方案中,交换机与交换机互联组成大规模服务器组网。

2、当交换机之间的某一条链路故障时,交换机包括的端口硬件感知端口状态变化,并通知内部的路由模块。路由模块对转发路径进行切换,将业务流量通过备用链路转发。

3、上述转发路径的切换时间通常在秒级。但是,在ai场景下,希望交换机之间的通信中断时间要求在毫秒级,甚至亚毫秒级,依靠传统路由的收敛方式,将极大影响ai的计算效率。而且,若组网内某个服务节点(例如,gpu)不可达,其他交换机、管理节点无法及时感知,仅可通过路由超时或者远程直接内存访问(英文:remote direct memory access,简称:rdma)连接超时重新切换转发路径,影响整个组网的计算效率。


技术实现思路

1、有鉴于此,本申请提供了一种故障处理方法及装置,用以解决现有传统路由的收敛方式,将影响整个组网计算效率的问题。

2、第一方面,本申请提供了一种故障处理方法,所述方法应用于第一网络设备,所述方法包括:

3、若探测到与第二网络设备直连的第一链路故障,则向直连的第三网络设备发送第一快速链路状态通告flsn报文,所述第一flsn报文包括第一故障流信息,以使得所述第三网络设备根据所述第一故障流信息,确定所述第一链路故障,并在未接收到直连的除所述第一网络设备外的其他网络设备发送的flsn报文时,根据所述第一故障流信息切换转发路径,切换后的转发路径不途经所述第一网络设备;或者,在接收到其他网络设备发送的flsn报文时,向控制器发送第二flsn报文;

4、若探测到接入的第一服务节点不可达,则向所述控制器发送第三flsn报文,所述第三flsn报文包括第二故障流信息,以使得所述控制器根据所述第二故障流信息确定所述第一服务节点不可达,并向计算管理器发送第一通知消息。

5、第二方面,本申请提供了一种故障处理装置,所述装置应用于第一网络设备,所述装置包括探测单元以及发送单元;

6、所述发送单元,用于若所述探测单元探测到与第二网络设备直连的第一链路故障,则向直连的第三网络设备发送第一快速链路状态通告flsn报文,所述第一flsn报文包括第一故障流信息,以使得所述第三网络设备根据所述第一故障流信息,确定所述第一链路故障,并在未接收到直连的除所述第一网络设备外的其他网络设备发送的flsn报文时,根据所述第一故障流信息切换转发路径,切换后的转发路径不途经所述第一网络设备;或者,在接收到其他网络设备发送的flsn报文时,向控制器发送第二flsn报文;

7、所述发送单元还用于,若探测到接入的第一服务节点不可达,则向所述控制器发送第三flsn报文,所述第三flsn报文包括第二故障流信息,以使得所述控制器根据所述第二故障流信息确定所述第一服务节点不可达,并向计算管理器发送第一通知消息。

8、第三方面,本申请提供了一种网络设备,包括处理器和机器可读存储介质,机器可读存储介质存储有能够被处理器执行的机器可执行指令,处理器被机器可执行指令促使执行本申请第一方面所提供的方法。

9、因此,通过应用本申请提供的故障处理方法及装置,若探测到与第二网络设备直连的第一链路故障,则第一网络设备向直连的第三网络设备发送第一快速链路状态通告flsn报文,该第一flsn报文包括第一故障流信息,以使得第三网络设备根据第一故障流信息,确定第一链路故障,并在未接收到直连的除第一网络设备外的其他网络设备发送的flsn报文时,根据第一故障流信息切换转发路径,切换后的转发路径不途经第一网络设备;或者,在接收到其他网络设备发送的flsn报文时,向控制器发送第二flsn报文;若探测到接入的第一服务节点不可达,则第一网络设备向控制器发送第三flsn报文,该第三flsn报文包括第二故障流信息,以使得控制器根据第二故障流信息确定第一服务节点不可达,并向计算管理器发送第一通知消息。

10、如此,网络设备内控制面与转发面分开管理,控制面沿用原始路由协议不变,转发面采用flsn报文实现链路故障通告,以快速感知链路变化。如此,在业务无感知的情况下实现流量切换和通知,极大地降低了链路故障带给业务的影响。同时,网络设备还将服务节点不可达信息快速通知控制器,控制器与计算控制器联动,快速处理网络故障导致服务节点不可用的问题,也极大地降低了网络故障对于大模型训练和推理过程的影响。



技术特征:

1.一种故障处理方法,其特征在于,所述方法应用于第一网络设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1或2任一项所述的方法,其特征在于,故障流信息包括通过故障链路可到达的服务节点的个数、每个服务节点的ip地址以及掩码。

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.一种故障处理装置,其特征在于,所述装置应用于第一网络设备,所述装置包括探测单元以及发送单元;

7.根据权利要求6所述的装置,其特征在于,所述装置还包括:

8.根据权利要求6或7任一项所述的装置,其特征在于,故障流信息包括通过故障链路可到达的服务节点的个数、每个服务节点的ip地址以及掩码。

9.根据权利要求8所述的装置,其特征在于,所述装置还包括:

10.根据权利要求9所述的装置,其特征在于,所述接收单元还用于,接收第六网络设备发送的路径信息,所述路径信息包括服务节点的目的地址;


技术总结
本申请提供一种故障处理方法及装置,若探测到与第二网络设备直连的第一链路故障,则向第三网络设备发送第一FLSN报文,该第一FLSN报文包括第一故障流信息,以使得第三网络设备根据第一故障流信息,确定第一链路故障,并在未接收到直连的其他网络设备发送的FLSN报文时,根据第一故障流信息切换转发路径,切换后的转发路径不途经第一网络设备;或者,在接收到其他网络设备发送的FLSN报文时,向控制器发送第二FLSN报文;若探测到第一服务节点不可达,则向控制器发送第三FLSN报文,该第三FLSN报文包括第二故障流信息,以使得控制器根据所述第二故障流信息确定第一服务节点不可达,并向计算管理器发送第一通知消息。

技术研发人员:宋清虹,王玮,刘涛,李晶林
受保护的技术使用者:新华三技术有限公司
技术研发日:
技术公布日:2024/11/14
文档序号 : 【 40001422 】

技术研发人员:宋清虹,王玮,刘涛,李晶林
技术所有人:新华三技术有限公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
宋清虹王玮刘涛李晶林新华三技术有限公司
一种纳米级显微物镜下自动对焦装置及方法与流程 一种电池包预防热失控扩散结构的制作方法
相关内容