LCC 245 - Interview SRE avec Nicolas Helleringer et Maxime Brugidou - partie 2

Nicolas et Maxime de Criteo partagent avec Emmanuel leur expérience de mise en place d’une organisation SRE (Site Reliability Engineering). Suite et fin de cette interview.

Enregistré le 12 novembre 2020

Téléchargement de l’épisode LesCastCodeurs-Episode-245.mp3

Interview

Ta vie, ton oeuvre

Twitter Nicolas
Twitter Maxime
Criteo Labs

Intros et premiers sujets en partie 1

Episode 243 - partie 1

Concepts intéressants

Standard Operating Procedure
Gestion d’incident

Dashboard

Postmortem

Comment ça se passe ?

Relation avec l’équipe produit

On code sur le produit ?
Feedback loop

Quid de systèmes fondamentalement en risque du black swan (échec systémique)

Une équipe SRE par boite ?
Une équipe SRE par produit ?

Le monitoring

Quoi mesurer ?
Beaucoup, peu ?

Entraînements et cas réels

Que se passe-t-il quand cela chie dans la colle ?
On s’entraine ?
Vous faites le draining d’erreur budget

Drainer des clusters pour maintenance et impact sur l’utilisateur

Conclusions

Livres Google sur le Site Reliability Engineering

Nous contacter

Soutenez Les Cast Codeurs sur Patreon https://www.patreon.com/LesCastCodeurs
Faire un crowdcast ou une crowdquestion
Contactez-nous via twitter https://twitter.com/lescastcodeurs
sur le groupe Google https://groups.google.com/group/lescastcodeurs
ou sur le site web https://lescastcodeurs.com/