opensmd服务导致IB网络状态不断切换

同一个Infiniband交换机上面连接了318个刀片服务器,还有18个机架式服务器
这个IB交换机上面有18个页交换机,每个页交换机上面可以连接18个主机,所以这个大的交换机总共可以连接324个主机。

我们平时从网络上查到的Infiniband驱动安装教程,都是如下步骤

官网下载驱动
安装驱动
启动openibd和opensmd两个服务
1
2
service openibd start;
service opensmd start;

实际上这个说法是正确的,但也是不正确的。正确的原因是,如果只有一台机器安装了这个软件,那么,上面的操作是没有问题的。
但是如果你是在集群上面安装Infiniband驱动,那么opensmd服务就不应该启动了,原因如下。
我们集群有个文件系统,文件系统采用了IB网络和ETH两套网络,由于IB网络的状态一直在Initializing和Active之间切换,导致文件系统无法正产使用,后来通过排查,网卡,驱动,操作系统,文件系统服务本身都排查过了,均没有问题。
然后在网上疯狂搜索解决方法,由于使用Infiniband网络的基本上都是HPC集群或者电信机房,没有人记录过出现这种问题的情况,所以很无语。只有搜索IB网络的状态代表的意思,发现还是无用,后来在偶然之间看到一个帖子说,opensmd服务只需要开启一个。于是乎,将集群的所有的节点的opensmd服务都关闭了,只把一台存储服务器元数据节点的opensmd服务启动,过了一会,IB网络的状态就恢复正常了,不会在Initializing和Active之间不断切换了。突然觉得感慨万千,为啥,这么一个小知识,曾经导致集群无法正常服务的时间大概有1周左右。觉得自己还是对整个领域知识理解不足,今后要抓紧时间学习了。不然,大的系统中,一个小的问题,就可能导致整个服务不可用。

ZHANGCHI wechat
关注微信号进一步交流