Cloud et systèmes

Disaster Recovery : Que signifient RPO, RTO, WRT ou MTD et pourquoi sont-ils importants ?

Parlons de disaster recovery : Qu’est-ce que le RPO, RTO, MTD ou WRT et pourquoi est-il important de comprendre ces concepts lorsque nous parlons de continuité de l’activité, de continuité des services et de récupération après sinistre ?

Parfois, parler de récupération après sinistre (Disaster Recovery) ou d’impacts sur le service ou sur l’entreprise, peut sembler quelque peu effrayant. Nous partons vite dans les acronymes et les sigles qui semblent être faits pour égarer les néophytes et les profanes.

Dans cet article, nous visons à dissiper la confusion autour des concepts liés au Disaster Recovery afin de vous aider à vous orienter correctement et à assurer la continuité de l’activité de votre entreprise quoi qu’il advienne.

Disaster Recovery : Que signifient les RPO, RTO, WRT ou MTD et pourquoi sont-ils importants ?

Imaginons être dans une entreprise où tout fonctionne normalement, sans problèmes majeurs. On pourrait voir un PC infecté par un virus causant de légeres perturbations, un autre où l’on remplace une souris défaillante, ou encore une imprimante capricieuse jusqu’au remplacement de sa cartouche. C’est le quotidien habituel d’une entreprise.

Ceci serait ce que l’on appelle le fonctionnement normal des systèmes, dans lesquels il n’y a pas d’interruption de service ni mise en péril de la continuité de l’activité de l’entreprise.

Nous serions à ce moment dans une situation comme celle ci-illustrée ci-dessous :

*Image. Fonctionnement correct des services*

Après une période pendant laquelle le service fonctionne sans accroc, il y a une panne du service.

Lorsque cela se produit et qu’un désastre survient, il est logique qu’il soit nécessaire de rétablir le fonctionnement correct des systèmes et l’opérationnel de l’entreprise le plus tôt possible.

À ce stade, on décrit également souvent le RPO (Recovery Point Objective ou Objectif de Point de Récupération) qui établit essentiellement la quantité maximale de perte de données ou de perte de service mesurée dans le temps qui est acceptable pour notre entreprise.

Cette valeur de RPO peut varier de manière drastique en fonction du service affecté et du type d’entreprise que nous gérons, ainsi que d’autres paramètres tels que l’heure à laquelle l’impact se produit.

Lorsque nous évoquons le processus de récupération, il s’agit de la période allant de la détection de la panne du système ou du service et du début de l’intervention, jusqu’à ce que le service soit à nouveau opérationnel. Durant ce temps, le service n’est pas encore rétabli et ne peut donc pas être considéré comme productif, c’est-à-dire capable de fournir un service normal.

Le RTO (Recovery Time Objective ou Objectif de Temps de Récupération) définit la durée maximale admissible pendant laquelle un service critique peut être interrompu avant de reprendre normalement ses activités.

Dans ce processus sont incluses les actions pour établir l’architecture appropriée, la mettre en fonction et récupérer les données nécessaires pour son fonctionnement correct.

Un exemple de ceci pourrait être la panne du serveur hébergeant la base de données de notre ERP. Dans ce cas, il est nécessaire de mettre en place un nouveau serveur, de déployer la base de données et de récupérer les données avant de pouvoir restaurer le service en production.

Nous avons certes remis en marche le service, mais il n’est pas encore en production et ne sert donc pas encore nos clients ou employés. Ainsi, le compteur tourne toujours à notre désavantage et les pertes financières continuent.

À ce stade, nous prenons en compte le WRT (Work Recovery Time ou Temps de Récupération du Travail), qui est le temps nécessaire pour rétablir effectivement le service, en vérifiant les systèmes et en les remettant en ligne après leur restauration durant la phase de RTO.

Dans ce cas, la somme du RTO et du WRT est ce que l’on appelle le MTD (Maximum Tolerable Downtime ou Temps d’Inactivité Maximum Tolérable), qui décrit la durée maximale pendant laquelle le service peut être inopérant avant que les conséquences ne deviennent inacceptables pour l’entreprise.

Nous exposons ici, de manière simplifiée, les principes de la reprise après sinistre. Pour élaborer un plan de continuité d’affaires ou de récupération après sinistre, il serait nécessaire de calculer ces valeurs pour avoir une idée précise de la tolérance de chaque service de notre organisation et de la façon d’optimiser nos processus pour éviter les problèmes et garantir la pérennité de l’entreprise

Conclusion

Nous espérons que cet article vous a aidé à comprendre ce que sont les RPO, RTO, MTD, et WRT, et pourquoi il est crucial de maîtriser ces concepts pour assurer la pérennité de votre entreprise.

Nous vous invitons à poursuivre votre lecture avec d’autres articles de cette série disponibles sur notre blog.

Bonne lecture !

Juan Ignacio Oller Aznar

24 Avril 2024