« RecrutementAdministration, je te hais ! »

Feu d'artifice

06.03.13 | par Le Grincheux | Catégories: Mauvaise humeur, Je hais l'informatique, Je hais les financiers

Hier, j'ai fait un feu d'artifice à plusieurs dizaines de milliers d'euros. La journée avait pourtant bien commencé, il faisait enfin un temps acceptable pour un début de mois de mars et les oiseaux gazouillaient le long de l'autoroute A1 entre deux râles dus aux effluves de diesel des véhicules embouteillés.

Arrivé au bureau, une collègue me demande de regarder ce qui se passe sur un serveur de base de données qui plante régulièrement. La machine est un serveur UltraSPARC, un gros, qui tourne sous Linux Debian. Je savais déjà que les noyaux Linux 3.2 sparc64 n'étaient pas stables sur l'architecture sun4u. Ils plantent aléatoirement. Comme il fallait que je change une alimentation et un disque du volume raid, j'ai pris mon courage à deux mains. Normalement, je devais en avoir pour quelques dizaines de minutes. Une alimentation et un disque dur U320-SCA d'un volume raid soft se changent à chaud sur ces machines.

Erreur fatale.

Les alimentations de ces machines tiennent en place grâce à un petit verrou qui ressemble à un taquet de boîte aux lettres que l'on fait fonctionner à l'aide d'un tourvenis cruciforme. Je prends donc dans mon stock de pièces une nouvelle alimentation que j'installe dans le berceau de celle qui était en panne. En la verrouillant, elle se met automatiquement sous tension et, au bout de quelques secondes, un arc électrique conséquent se produit. Instantanément, la salle machine est devenue plus calme puisqu'après l'éclair, le bruit et l'odeur de l'arc électrique, l'électricité de la pièce a disjoncté. J'ai eu de la chance, je n'ai pas eu droit aux gaz.

Or j'ai changé cette alimentation, confiant, sans avoir testé que le nouveau noyau était bien bootable. Il ne l'était pas. Il ne l'était pas parce que les modules du noyau sont chargés au démarrage en mode multithreadé, c'est tellement plus rapide. C'est même tellement plus rapide que noyau charge le pilote SCSI, lance la découverte des périphériques SCSI en même temps qu'il charge les modules raid qui ne voient pas de disques puisque l'initialisation des bus SCSI n'est pas encore complète. Résultat, kernel panic sur absence de partition root.

J'ai donc passé la journée à essayer de redémarrer cette machine avec une alimentation en moins, un disque défecteux et un système d'exploitation instable. Hier soir, j'étais enfin parvenu à retourner à l'état initial, à savoir une machine avec un système instable, une alimentation défectueuse et un disque en panne. Enfin presque puisque dans l'opération, le serveur en question a gagné 4 Go de mémoire et deux processeurs UltraSPARC IIIi à un peu plus de 1,2 GHz.

Ayant un peu de temps, j'ai pris la peine d'autopsier l'alimentation. En effet, si j'ai vu beaucoup d'alimentations en panne, je n'avais encore jamais vu une alimentation mourir comme cela. Ma surprise fut grande. Le verrou qui tient l'alimentation en place est formé d'un axe avec l'empreinte cruciforme, d'une languette (non solidaire de cet axe) et d'une couronne qui tient en pression la languette sur l'axe. Cette couronne tient en force. Elle n'est ni collée, ni soudée à l'axe. Par ailleurs, elle ne semble pas être dans le même métal que l'axe et il n'y a que peu de chance que son coefficient de dilatation soit le même que celui de l'axe. Ce paramètre est important puisque que l'alimentation en question fourni 1 kVA avec un rendement de 30%, donc a une nette tendance à chauffer. Je ne sais pas si vous voyez ce qui s'est passé. En mettant l'alimentation sous tension, la brutale montée en température a conduit à la désolidarisation de la couronne et de l'axe, cette fichue couronne étant allé se promener sur l'étage haute tension juste en dessous occasionnant un court-circuit des plus intéressants.

Ce n'est pas la première fois que je vois de telles choses sur du matériel Sun. J'ai installé il y a quelque temps une X4200M2 chez un client. Cette machine possède une turbine totalement inutile à l'endroit où elle est placée. Totalement inutile pour le client mais pas pour Sun. L'axe de cette turbine tient lui aussi avec une telle couronne qui a tendance à se débiner. Lorsqu'elle commence à se défaire, la turbine frotte et la machine se met en mode de sauvegarde car elle détecte un ventilateur en panne. Lorsque cette machine avait trois ans, Sun ne fournissait déjà plus la turbine en pièce neuve. Il fallait prendre du reconditionné affecté du même problème. Quant à la trouver en neuf chez un fabricant tiers, c'était impossible, la dimension était une dimension spécifique Sun Microsystems.

Je connaissais déjà l'obsolescence programmée des circuits électroniques rendue possible grâce à l'utilisation de condensateurs d'une qualité tout juste acceptable, je ne savais pas encore qu'elle pouvait se nicher dans des coefficients de dilatation bien calculés.

 

2 commentaires

Commentaire de:
atg

Je n’ai rien à dire sur ce billet. Je suis bien trop incompétent sur ce terrain.

Mais j’aime vous lire !

Vous me donnez toujours l’envie d’essayer de comprendre, de décortiquer, de ne pas rester à la surface des choses.

Ou de m’enfermer dans la colère (en générale liée à l’Administration !).

Vous auriez dû être prof. Pas tant sur le contenu, mais parce que curieusement, vous redonnez le moral !

07.03.13 @ 19:37
Commentaire de: Le Grincheux

Mais j’ai été prof ! Dans le supérieur et dans une autre vie parce que les sciences dures n’intéressent malheureusement plus les étudiants… Ça se voit tant que ça ?

07.03.13 @ 19:43


Formulaire en cours de chargement...