HPC集群运维总结8-未尽事宜
HPC集群运维总结7-故障处理
[TOC]
常见故障
用户无法登录到集群
有如下几种原因会导致用户无法登录到集群:
- 用户使用的是校园无线网络,校园无线网络不允许登录到集群。
- 用户在校园网外部登录集群,集群IP地址未暴露给外网,校园网外部无法直接访问。
- 用户使用校园内部有线网络,无法登录到集群,需要在集群管理服务器添加IP地址许可。
- 用户不存在,则无法登录集群。
- 用户长期不登录或者已归还集群,账户密码被锁定,则无法登录集群。
HPC集群运维总结6-监控与开关机
[TOC]
集群软件环境
集群目前所有软件都配置在/public/software目录下面,目前配置的有Intel编译器、OpenMPI、Mathlab2009、Matlab2016、lammps、FDTD等,还有很多需要的软件可能还没有安装。
很多集群的用户都喜欢在自己的目录下面安装计算软件,这就导致了同一个非常占用空间的软件在集群上面有多个副本,导致集群存储空间被大大浪费掉了。
因此最好是能够及时统计用户需要使用的软件的信息,并和软件用户一起将软件安装到/public/software目录下面,并告知其他用户直接使用该目录下面的软件即可。
集群还安装了Torque5作业调度管理系统,目前主节点为node307,后期考虑将B区的所有节点都安装作业调度管理系统,并采用调度系统提交作业。
总而言之,集群软件尽量安装到/public/software目录下面,并编写一定的说明文档,告知用户使用方法,可以找一些已经有过安装和使用经验的用户进行交流,让他们提供这些资料。
HPC集群运维总结5-Lustre维护
[TOC]
Lustre维护
科研教育网格集群采用了高性能分布式计算文件系统Lustre,Top500超级计算机中有超过50%都是用了该文件系统。该文件系统的命运特别坎坷,先后转手了好几家公司,现在是Intel公司所属。Lustre原先是一套开源的产品,最初是美国能源部提出开发的,后来成立CFS公司,2007年转卖给Sun公司,2010年Sun公司被Oracle公司收购,2010年又卖给了Whamcloud公司,最后于2012年被Intel收购。
HPC集群运维总结4-网络访问控制
[TOC]
网络访问控制
集群主要通过安全网关硬件和iptables进行访问控制。
安全网关配置了允许登录进入集群的IP类型以及开放的端口信息。
具体的IP地址限制由iptables来进行限制。
允许某一IP地址访问集群
编辑/etc/sysconfig/iptables文件,1
-A INPUT -s 99.99.1.1 -p tcp -m tcp -j ACCEPT
HPC集群运维总结3-用户与权限管理
[TOC]
用户与权限管理
添加用户
概览
集群默认安装了clusconf软件,厂家的马少杰经理之前写的,主要用于集群的用户添加、开关机管理、批量执行命令、批量同步命令等。还是挺不错的,但是速度比较慢。特别是同步文件的时候,如果有几个节点存在问题,可能就会卡在那里半天,而且同步过程是顺序执行的,导致速度很慢。说白了,实际上是由于在进行远程执行命令的时候,没有考虑到失败的情况,也就是说没有添加失败时延,导致操作失败的时延差不多为30s,所以如果一批节点中,有几个节点拓机或者负载太高,会导致整个操作流程延长,所以,文件同步这一点来说,还是不太灵活。而pssh这个软件就比较好,如果连接失败,马上就返回,并且所有的节点的同步操作时并行执行的,所以速度非常快。因此我们结合了clusconf的方便和pssh的速度,来进行用户的添加。
HPC集群运维总结2-服务器维护
[TOC]
服务器硬件维护
集群配置的服务器主要有三种,刀片服务器、存储服务器、GPU服务器,其中刀片服务器最多,存储服务器硬盘最多,GPU服务器配置的GPGPU卡最多。
集群硬件主要包括了上述的三种服务器、H3C万兆以太网交换机、Mellanox InfniBand交换机、安全网关、PDU、PDM等设备。
而其中最容易出现故障的就是硬盘和刀片服务器了。存储服务器硬盘故障最多,其次是计算刀片服务器容易出现主板烧坏的情况。下面将简要介绍这两种故障的发现和处理。
HPC集群运维总结1-配置与职责
[TOC]
序言
2016年5月至2018年3月之间,我与另外一位同学担任了某集群的运行维护工作。期间主要负责了机房维护、空调维护、配电房维护、安全防护、分布式系统管理、高性能软件管理、用户管理、计算资源管理、服务器系统管理、服务器硬件维护等工作,内容繁多,工作复杂,但是总体来说,在过去一年的集群管理工作中还是有不少收获的。
下面将自己在管理过程中遇到的问题和解决方法分享给大家,尽管里面涉及到的技术和理论还不够深入,甚至不足以解决一些很棘手的问题,但是可以方便后来的管理人员快速入手,同时也是一个交流的机会,非常欢迎大家批评指正和指导。