Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Validateur GTFS en panne #4412

Open
Brewennn opened this issue Jan 7, 2025 · 12 comments
Open

Validateur GTFS en panne #4412

Brewennn opened this issue Jan 7, 2025 · 12 comments
Labels
ops Gestion des serveurs et de la production

Comments

@Brewennn
Copy link
Contributor

Brewennn commented Jan 7, 2025

Bonjour,

Après quelques tests avec plusieurs fichiers GTFS, le validateur indique le message d'erreur suivant :

image

@thbar
Copy link
Contributor

thbar commented Jan 13, 2025

Merci pour le signalement @Brewennn. Il y a des redémarrages réguliers en ce moment, il faut qu'on voit si c'est en augmentation ou pas.

CleanShot 2025-01-13 at 09 12 23@2x

Un des soucis c'est qu'il peut être sollicité de l'extérieur sans trop qu'on soit au courant, et que ça crée de la charge.

Il faudra peut-être revoir la copie là dessus si il est trop sollicité.

@thbar thbar added the ops Gestion des serveurs et de la production label Jan 13, 2025
@thbar
Copy link
Contributor

thbar commented Jan 13, 2025

Idées en point dév :

  • si on est coincés, on peut toujours envisager un deuxième déploiement du même validateur, qui ne nous servira qu'à nous (ou couper l'usage public de l'actuel, en mettant une clé d'API + un message d'erreur)
  • on ne veut pas trop s'embêter à faire de rate-limit directement dans le validateur pour le moment
  • on pourrait avoir des métriques (AppSignal + alerte associée) quand l'usage PAN du validateur GTFS remonte une erreur (ou un succès)

@ptitfred
Copy link
Contributor

S'assurer qu'en cas d'erreur au moins 1 retry soit tenté ?

@ptitfred
Copy link
Contributor

Dernier message avant chaque "Killed" depuis 1er décembre 2024 :

$ clever logs --after "2024-12-01 00:00:00Z" --until "2025-01-13 00:00:00Z" --format json | jq .[].message | grep -B1 Killed | grep Starting | cut -d" " -f7 | sort | uniq -c
      1 https://transport-data-gouv-fr-on-demand-validation-prod.cellar-c2.services.clever-cloud.com/bfcfc9e5-e03f-483a-9de1-5ec05e245941"
      1 https://transport-data-gouv-fr-resource-history-prod.cellar-c2.services.clever-cloud.com/81733/81733.20240715.180938.110600.zip"
      2 https://transport-data-gouv-fr-resource-history-prod.cellar-c2.services.clever-cloud.com/81733/81733.20240719.121351.533915.zip"
     25 https://transport-data-gouv-fr-resource-history-prod.cellar-c2.services.clever-cloud.com/81733/81733.20240724.120951.324022.zip"
      1 https://transport-data-gouv-fr-resource-history-prod.cellar-c2.services.clever-cloud.com/82321/82321.20250108.121230.986180.zip"

2 ressources concernées:

@ptitfred
Copy link
Contributor

La ressource 80707 fait monter la consommation mémoire du validateur jusqu'à 3_810_688ko en local soit 3,6 Go. Suffisant pour OOM l'application chez Clever ?

@ptitfred
Copy link
Contributor

On pourrait passer l'application de M à L et ainsi passer de 4 à 8Go de mémoire pour être plus serein.

@thbar
Copy link
Contributor

thbar commented Jan 16, 2025

On pourrait passer l'application de M à L et ainsi passer de 4 à 8Go de mémoire pour être plus serein.

Ça me paraît la piste la moins coûteuse à court terme, on le tente ?

Surcoût: 80€ par mois, et on verra si ça fonctionne bien ou pas.

Ref: https://www.clever-cloud.com/pricing/

CleanShot 2025-01-16 at 10 39 26@2x

@thbar
Copy link
Contributor

thbar commented Jan 16, 2025

La ressource 80707 fait monter la consommation mémoire du validateur jusqu'à 3_810_688ko en local soit 3,6 Go. Suffisant pour OOM l'application chez Clever ?

Merci pour l'analyse. Oui ça semble probable, avec un peu de "gras" autour...

@thbar thbar changed the title Validateur en panne Validateur GTFS en panne Jan 16, 2025
@thbar
Copy link
Contributor

thbar commented Jan 16, 2025

On a acté le passage de M à L pour le moment (merci @ptitfred pour la proposition et le test), ça semble le plus efficace financièrement à ce stade.

Je fais la modification en prod.

Je garde le ticket ouvert pour suivre dans le temps si les restarts diminuent.

@thbar
Copy link
Contributor

thbar commented Jan 16, 2025

Pour comparaison dans les jours à venir (on remarque qu'ils écrivent "downscale" là où ça devrait être "upscale")

Image

@ptitfred
Copy link
Contributor

(on remarque qu'ils écrivent "downscale" là où ça devrait être "upscale")

🤷‍

@AntoineAugusti
Copy link
Member

Pas eu de crashs/reboots du validateur GTFS depuis l'augmentation de la taille de la machine, positif !

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
ops Gestion des serveurs et de la production
Projects
None yet
Development

No branches or pull requests

4 participants