28/02/06 Coupure du site
01-03-2006mardi 28 février 2006 18:30:41
Très Cher Client
Il y a 1 heure 30 environ, l'intégralité de la fourniture électrique
du Data Center Redbus Interhouse, dans lequel, comme beaucoup
d'hébergeurs, nous avons nos infrastructures, a été privé d'électricité,
entrainant la rupture d'approvisionnement de toutes les infrastructures
qu'il héberge.
Parmi ces infrastructures se trouvent bien sûr les notres et les votres,
soit plus de 1300 serveurs et dizaines d'équipements réseau, qui se sont
donc retrouvés dans le noir pour la partie qui nous concerne.
Après environ 15 minutes de coupure, le courant est reparti pour quelques
minutes et à sauté à nouveau.
La situation semble s'être désormais stabilisée, et nos équipes sont en train
de redémarrer progressivement l'intégralité des infras.
Nous n'avons pas d'information quand à cette coupure générale à l'heure actuelle
un Data Center en général, et Redbus en particulier étant conçu pour ne
pas connaitre, normalement, ce type d'incident, des UPS et Générateurs
étant présents pour servir de fourniture de secours en cas de rupture
de l'approvisionnement général.
Quelque chose n'a pas du fonctionner dans la chaine de secours, et nous
vous tiendrons informé dès que nous aurons nous même obtenu les informations
quand aux causes et conséquences de cet incident.
Je reviens donc vers vous très rapidement avec plus d'information.
mardi 28 février 2006 18:30:41
Très Cher Client
Redbus nous a informé qu'une erreur humaine, lors d'une maintenance,
était à l'origine de l'incident qui a entrainé la coupure électrique
de l'ensemble de leur batiment.
Depuis 16 heures 30, la quasi intégralité des machines et services ont
été relancés, mais il reste encore actuellement une bonne vingtaine
de serveurs qui ne sont toujours pas opérationnels.
Plus de 1200 serveurs ont été redémarrés et vérifiés par notre staff
en moins de 2 heures, et pour ceux qui restent, le problème peut-être lié
soit à un composant hardware qui n'a pas supporté l'interruption, soit à
un problème de lilo non relancé suite à une mise à jour noyau, soit à un
problème système prééexistant que le redémarrage aura mis en évidence.
Si vous êtes de ceux-là, soyez persuadé que tout est fait pour que
votre serveur redémarre le plus vite possible.
Je reviens vers vous dès que j'ai plus d'informations à vous apporter, et
nous ferons de toute façon un bilan, à tête reposée, de cet événement.