28/02/06 Coupure du site

01-03-2006
Voilà les mails que j'ai reçu de la part de l'héberger pour expliquer la coupure d'hier.

mardi 28 février 2006 18:30:41

Très Cher Client

Il y a 1 heure 30 environ, l'intégralité de la fourniture électrique
du Data Center Redbus Interhouse, dans lequel, comme beaucoup
d'hébergeurs, nous avons nos infrastructures, a été privé d'électricité,
entrainant la rupture d'approvisionnement de toutes les infrastructures
qu'il héberge.

Parmi ces infrastructures se trouvent bien sûr les notres et les votres,
soit plus de 1300 serveurs et dizaines d'équipements réseau, qui se sont
donc retrouvés dans le noir pour la partie qui nous concerne.

Après environ 15 minutes de coupure, le courant est reparti pour quelques
minutes et à sauté à nouveau.

La situation semble s'être désormais stabilisée, et nos équipes sont en train
de redémarrer progressivement l'intégralité des infras.

Nous n'avons pas d'information quand à cette coupure générale à l'heure actuelle
un Data Center en général, et Redbus en particulier étant conçu pour ne
pas connaitre, normalement, ce type d'incident, des UPS et Générateurs
étant présents pour servir de fourniture de secours en cas de rupture
de l'approvisionnement général.

Quelque chose n'a pas du fonctionner dans la chaine de secours, et nous
vous tiendrons informé dès que nous aurons nous même obtenu les informations
quand aux causes et conséquences de cet incident.

Je reviens donc vers vous très rapidement avec plus d'information.



mardi 28 février 2006 18:30:41


Très Cher Client

Redbus nous a informé qu'une erreur humaine, lors d'une maintenance,
était à l'origine de l'incident qui a entrainé la coupure électrique
de l'ensemble de leur batiment.

Depuis 16 heures 30, la quasi intégralité des machines et services ont
été relancés, mais il reste encore actuellement une bonne vingtaine
de serveurs qui ne sont toujours pas opérationnels.

Plus de 1200 serveurs ont été redémarrés et vérifiés par notre staff
en moins de 2 heures, et pour ceux qui restent, le problème peut-être lié
soit à un composant hardware qui n'a pas supporté l'interruption, soit à
un problème de lilo non relancé suite à une mise à jour noyau, soit à un
problème système prééexistant que le redémarrage aura mis en évidence.

Si vous êtes de ceux-là, soyez persuadé que tout est fait pour que
votre serveur redémarre le plus vite possible.

Je reviens vers vous dès que j'ai plus d'informations à vous apporter, et
nous ferons de toute façon un bilan, à tête reposée, de cet événement.

01-03-2006
la coupure a durée environ 12 h : de 15h le 28 février à 3h le 1 mars (heure de paris) toutes les taches automatiques pour l'évolution des champs, de la météo, des zlitonien et du reste n'ont pas étés lancées pendant tout ce temps !



Dernière édition par Niamor le 01-03-2006; édité 1 fois

01-03-2006
=) Ah... c'était pour ça qu'on pouvait pas accéder au site, hier à 18h... *Ynaf a eu un peu peur... -_-'*


(euh... le premier Mars, non ? O__o Pas le 28 Mars...)
[edit niamor] oui, merci, c'est corrigé !!

01-03-2006
Arrow Niamor
Je crois qu'il y a un décalage dans la course de zlivaches suite à cela style "course en cours" finie Wink

01-03-2006
pour ma part je n'ai pas eu d(oeufs ni de lait est ce normal????

01-03-2006
Oui henriette car le site n'a pas été remis a jour donc normalement même ton zliotnnien/ne n'a pas grandi d'un jour
(JE crois)

02-03-2006
jeudi 2 mars 2006 17:08:50

Très cher Client,

Nous recevons à l'instant un rapport de Redbus concernant
l'incident du 28 Février dernier.

Celui-ci explique l'enchainement d'événements qui a conduit
a la coupure totale de l'alimentation électrique de tout le
data center, entrainant l'arret de toutes les infrastructures
de leurs clients, dont Sivit.

Vous pouvez consulter ce rapport sur la page:

http://sivit.fr/fr/rapport-redbus.pdf

Redbus nous assure que des mesures vont être prises rapidement
afin de s'assurer qu'un tel événement ne puisse se reproduire.

Nous ne manquerons pas de vous tenir informé de leurs conclusions
et actions à ce sujet.

Au vu de la qualité de la prestation Redbus, en tous temps, et compte
tenu du fait qu'un incident de cet ampleur s'est, d'expérience,
produit au moins une fois dans la plupart des data centers de renom,
nous renouvelons toute notre confiance à ce prestataire qui a
su prouver jusqu'ici la qualité de son service et son professionalisme.

Vous pouvez donc être pleinement rassuré quand à l'avenir, l'événement
est marquant, mais je sais que tout sera fait à leur niveau pour que cela
reste un événement unique, ce qui est le point le plus important
dans une relation de confiance.

Nous vous tiendrons bien évidemment informé des futurs développements
de ce dossier.

Excellente journée,
--
Thierry TOBAILEM
SIVIT

Répondre