HPC Cluster Maintenance Issues

In past days I was performing maintenance routine for two hpc clusters (PsscLabs/Roche 454 hpc machine and custom hpc cluster machine) .

A minimal list of possible maintenance options that I’m currently checking :

  1. Daily Backups (NAS, External USB Hard Disk, External USB Tapes Drives, Network Storage Solution) (daily)
  2. Proper Air Flow , Proper ambient Temperature  (weekly)
  3. System Functionality Tests (Slave Node Connectivity , Test your PBS or SGE system, Run parallel jobs and check results)
  4. Check RAID Array Storage Availability. (weekly)
  5. Check Data Storage Availability. (almost everyday)
  6. Check Linux Kernel Messages (dmesg information could be useful  ;) )
  7. Check Security (login users, network, kernel and user spaceland proc)
  8. What else ? help me..

[Solucionado] Black Screen DELL T5500/Ubuntu 10.04/Bio-Linux 6

Seguramente al instalar Ubuntu Linux 10.04 o Bio-Linux 6 , en una computadora DELL modelo T5500, que en nuestro caso es lo mismo, habrás notado que al termino de la instalación  y reinicio del sistema, el monitor aunque este encendido pareciera que está apagado y sin ninguna señal de vida.

La solución a este problema es decirle a GRUB 2 que al momento que llame o le pase el control al Kernel no se establezca ningún modo de vídeo extraordinario en el momento del arranque y para eso:

0. Arrancar con el mismo disco de Ubuntu o Bio-Linux 6 y montar la partición donde se encuentra previamente instalado Ubuntu o Bio-Linux 6.

1. Editar la configuración del archivo:

/boot/grub/grub.cfg 

### BEGIN /etc/grub.d/10_linux ###
menuentry 'Bio-Linux, with Linux 2.6.32-21-generic' --class gnu-linux --class gnu
--class os {
        recordfail
        insmod ext2
        set root='(hd0,1)'
        search --no-floppy --fs-uuid --set 0aaead16-341a-4e43-8088-4e50044f9e58
        linux   /boot/vmlinuz-2.6.32-21-generic
root=UUID=0aaead16-341a-4e43-8088-4e50044f9e58 ro   quiet splash nomodeset
        initrd  /boot/initrd.img-2.6.32-21-generic
}

Añadir el parámetro “nomodeset” después de “quiet splash” o también puedes editar la configuración desde /etc/default/grub y añadir de igual manera “nomodeset”.

Después de eso puedes reiniciar la computadora DELL y observa como milagrosamente Ubuntu/Bio-Linux 6 inicia correctamente pero a una resolución no muy agradable, por lo que es necesario instalar los controladores de la tarjeta de video NVIDIA.

Conecta el equipo a Internet y no tardara mucho el sistema en sugerirte que instales ciertos controladores restrictivos, solo acepta o activa el controlador y deja que el sistema se encargue de descargar e instalar todo lo demás y reinicia la computadora al termino de la instalación de los controladores y listo.