Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Incident] Plateforme V1 #692

Open
igorrenquin opened this issue Jan 23, 2025 · 0 comments
Open

[Incident] Plateforme V1 #692

igorrenquin opened this issue Jan 23, 2025 · 0 comments
Assignees

Comments

@igorrenquin
Copy link
Contributor

igorrenquin commented Jan 23, 2025

Contexte

22-01-2024

  • 10:10 Martial (CDTN) nous remonte un problème de connexion à Rancher
  • 10:29 Martial nous signale un problème pour récupérer des images de conteneurs depuis la registry
  • 10:30 L'équipe plateforme Investigue est s'aperçoit qu'il y a un problème réseau sur les flux sortants dans la plateforme. Aucun flux ne sort (ping en interne plateforme ou réseau OVH OK, ping vers internet KO)
    Pas de problèmes sur des zone datacenter GRA5, GRA 11 uniquement GRA9
    Impacts identifiés :
  • environnement TOOLS (outillage Fabrique Harbor, Rancher), PROD (produits Fabrique)
  • CDTN alternance entre une page d'erreur dans la page d'accueil ou site HS
  • Domifa : les fonctionnalités de upload et download des fichiers ne fonctionnaient plus (16:00)
  • Egapro : Dysfonctionnement du composant d'authentification (proconnect) information remonté à 17:40

Actions :

  • 11h00 ouverture d'un ticket niveau critique (le plus élevé) auprès du support OVH (CS10680798)
  • Prise en charge par OVH 11h30
  • Début des échanges avec le support pour leur envoyer des informations (principalement des ping)
  • 15h30 retour du support OVH qui a constaté une anomalie sur une de nos composants réseau (gateway) qui se situent en amont de chaque environnement. Demande pour redémarrer le composant.
  • OK Igor pour redémarrage
  • Redémarrage effectué sur TOOLS
  • Le correctif à fonctionné sur l'environnement TOOLS
  • Nouvelle prise de contact avec le support pour réaliser la même action sur l'environnement de PROD
  • Redémarrage effectué sur PROD
  • 17h10 Le correctif à fonctionné sur l'environnement PROD

Root cause : liée à des dysfonctionnements sur d’anciennes générations de serveurs hôtes sur lesquels étaient positionnés nos environnements.

Quelques minutes plus tard nouvelle interruption du service sur la PROD.
17h50 Appel au support pour leur demander de déplacer toutes les VMs de nos environnements sur de nouveaux hôtes
18:50 OVH informe que toutes les machines de la zone ont été migré sur sur des hyperviseurs de nouvelle génération.
Les services sont fonctionnels depuis.

@igorrenquin igorrenquin self-assigned this Jan 23, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant