HPC集群运维总结8-未尽事宜

[TOC]

未尽事宜

由于时间精力和能力有限,很多想做的事情还没有来得及做,或者没能做,在这里也列出来,希望今后有管理员可以将这些工作完成。

存在的问题

  • 安全问题

机房环境监控系统处于瘫痪状态,市电、UPS状态、空调状态、温度、湿度、漏水、消防、监控等信息都不能很好的拿到。有些设备已经处于停止或者故障状态,导致无法准确获取这些信息,一旦出现安全问题无法及时进行处理。

集群外部只有一个防火墙,服务器上面也只是简单配置iptables来限制用户登录,实际上安全等级不够高,安全控制粒度不够细。

一个IP若可以登录到集群,该机器可以使用任意的账号登录,也就是说存在账号互相借用的问题,使得有些用户将资源出售或者转借的风险。

密码安全的问题,有些用户的密码设置超级简单,而且不会更换,如果密码被其他人获取,就会导致资源浪费问题。

服务安全问题,集群未对在集群上运行的任意服务进行监控和安全配置,如果收到恶意攻击,会导致集群崩溃。
最典型,也最重要的服务是文件系统,文件系统本身故障频繁,另外如果收到而已破坏,将会直接导致软件环境破坏、用户数据丢失、集群崩溃等。

长期不登录账号,及时锁定。
根据用户登录IP地址统计情况,出现异常IP登录时,发送验证码或者提醒邮件。

  • root权限的管理问题
  • 登录跳转控制问题
  • 流量管理和带宽控制
  • 磁盘配额管理

集群分区管理

由于集群现在是面向全校提供服务,主要的用户分为两种类型,一种是实验室内部同学进行试验,另外一种是实验室外部的用户进行高性能计算,这两类用户的需求差异很大,实验室内部用户一般是进行了某些系统的优化,需要一批机器部署自己的实验系统,然后比较,一般周期不会特别长,但是对系统的权限要求比较高,对系统的环境破坏比较大,使用完成后,需要做的工作也非常多。而第二种用户只需要集群提供了相应的软件,需要一批节点,提交作业,对系统环境破坏小,但是对机器数量要求或者资源的需求比较大。

目前集群的分配策略是,来了一个用户,给他分配几个节点,用完之后回收,但是实际上,除了实验室内部短期做实验的用户,外部用户一般长期需要计算资源,基本上资源分配出去之后,就很难回收,长期占有,甚至不用了都不会主动归还,导致下次有用户进行资源申请时,很难找到空闲的资源进行使用。

根据集群用户的需求和特点以及资源的使用情况,目前的想法是,将集群分为A和B两个区域,其中A区提供给实验室内部人员使用,B区专门用于进行高性能计算,这样的好处是,B区可以使用队列调度系统,用户通过调度系统提交作业,然后就可以充分利用B区的所有机器,大家的作业按照顺序进行调度,提高了资源利用率,同时也加快了计算效率。

由于时间有限,以上想法暂时未执行,希望下一届管理员能够争取做到使用队列管理系统进行作业提交,保证用户计算公平性、资源充分利用。

队列系统已经于2017年下半年开启使用了。效果挺好,资源利用率得到明显提高,同时降低了节点分配的成本。

maui.d作业调度器安装

Torque自带的调度器非常简单,无法实现复杂的任务调度算法。maui.d相对而言更加高级,性能更加出色,希望后期能配置该调度器,提升Torque的灵活性和稳定性。

LDAP或NIS服务配置

每次分配账户,都需要将/etc/passwd,/etc/shadow,/etc/group等文件复制到计算节点,工作量还是挺大的,尽管有pssh、pdsh等工具,但是每次复制也会带来问题。如果说所有机器的系统一样,软件环境一样,直接复制这些文件不会有其他问题,但是如果系统不一样,直接覆盖,会带来系统或者软件故障,甚至系统无法启动的问题。

如果配置了LDAP或者NIS,可以只在一台机器维护所有的账户和共享文件信息,其他机器通过访问相关服务完成用户认证和基本配置文件访问。

集群资源管理系统

集群目前管理相对比较零散,用户多,管理管理起来比较困难。例如说现在采用的是一个数据库记录节点分配和用户信息,操作效率低,使用极其不方便,找个信息要翻半天。

期望下一届管理员能够开发一个简单的Web系统,用于集群节点分配和用户信息的管理。例如说,设计一个页面,查询用户历史使用节点信息,目前使用信息,违法操作行为等。同时可以查询某个节点的使用情况,有多少个用户使用,维修情况等。

Kadeploy部署软件的安装

这个软件非常好,了解和安装可以减轻很多工作。

GridView管理软件安装

集群建设初期,厂家提供了一些用户文档给用户,但是那些文档都是基于厂家的Gridview集群管理系统建设的,现在Gridview被破坏了,无法正常运行,加上Gridview本身比较老了,厂家也没有提供新的版本给我们,另外安装文档又不是很详细,导致有些配置无法正常进行,导致无法使用。

GridView是厂家自己开发的集群管理软件,该软件功能还是挺强大的,界面也比较友好,其实挺适合作为集群管理软件来使用,但是由于之前集群零散分配给用户使用,将GridView的节点信息等都破坏了,整个软件无法控制所有的集群。

如果可以,寻求厂家的帮助,将GridView集群管理软件装好,主要是该软件提供了界面化提交作业的界面,可以非常方便使用,降低用户的使用难度。

集群主页或FAQ开发

同时还能够使用开源的博客系统例如Wordpress等构建一个集群首页或者社区,用于用户之间的信息交流,特别是一些集群使用的方法、软件安装方法、集群公告等信息,这样不仅用户学习起来非常方便,同时也减少了管理员的工作量,另外提升了集群管理的科学有效性。

当然最重要的是能够制定一些规章制度,规范用户的使用行为,规范资源的分配和管理工作,这样能够保证一切能够高效进行。

期待更好

期待集群的管理更加科学化,同时也期待集群的管理和运维工作得到实验室的重视,集群建设资金不菲,价值也不菲,但是由于缺少管理人员,缺少资金支持,缺少重视,还没有完全发挥它的作用,因此期待在集群报废之前,能够充分利用集群的价值,为更多的科研项目服务,期待实验室的集群管理制度更上一层楼。

ZHANGCHI wechat
关注微信号进一步交流