Supervision cloud 24/7 : NOC, SLA & monitoring Azure/AWS

Q: Qu'est-ce que la supervision cloud 24/7 ?

La supervision cloud 24/7 est la surveillance continue (24h/24, 7j/7, 365 jours par an) de l'état de santé d'une infrastructure cloud et de ses applications, pour détecter et traiter les incidents avant qu'ils n'affectent l'activité. Elle couvre quatre couches (infrastructure, réseau, applicatif, sécurité) et associe sondes, seuils d'alerte, chaîne d'escalade et humains ou automatismes chargés de réagir à toute heure. Ce n'est pas un simple tableau de bord, mais l'organisation complète de la détection et de la réaction.

Q: Quelle est la différence entre supervision, monitoring et observabilité ?

Le monitoring mesure : il collecte des métriques et alerte sur des seuils prédéfinis. L'observabilité explique : elle repose sur trois piliers (métriques, logs, traces) pour comprendre pourquoi et où un problème survient, y compris non anticipé. La supervision organise la réaction : elle inclut monitoring et observabilité, mais y ajoute alerting, escalade, humains et processus pour traiter les incidents 24/7. On peut avoir d'excellents outils de monitoring sans aucune supervision réelle, faute d'organisation pour exploiter les alertes.

Q: Quelle est la différence entre un NOC et un SOC ?

Le NOC (Network Operations Center) supervise la disponibilité et la performance : il détecte pannes, saturations et dégradations (« est-ce que ça fonctionne ? »). Le SOC (Security Operations Center) assure la cybersurveillance : il détecte les menaces et attaques (« sommes-nous attaqués ? »). Les deux sont complémentaires. Pour les PME et ETI, un micro-SOC mutualisé offre une cybersurveillance proportionnée sans le coût d'un SOC complet.

Q: Que signifient les SLA, GTI et GTR dans un contrat de supervision ?

Le SLA (Service Level Agreement) fixe l'objectif de disponibilité (ex. 99,9 %) et les pénalités. La GTI (Garantie de Temps d'Intervention) est le délai maximal entre la détection et le début de la prise en charge humaine. La GTR (Garantie de Temps de Rétablissement) est le délai maximal pour rétablir le service, souvent exprimé comme objectif visé car il peut dépendre de tiers. Attention à distinguer le SLA de l'hébergeur de celui du prestataire sur la réactivité de son équipe.

Q: Quels outils utilise-t-on pour superviser une infrastructure cloud ?

Côté Azure : Azure Monitor, Application Insights (APM, traces), Log Analytics (KQL), Microsoft Defender for Cloud. Côté AWS : Amazon CloudWatch, AWS X-Ray. En couche transverse pour l'hybride et le multicloud : Prometheus et Grafana, Datadog et Centreon, ainsi que Zabbix, Nagios, PRTG ou Dynatrace selon le contexte. Le bon choix dépend de votre écosystème, de vos contraintes de souveraineté et de votre budget.

Q: Quels indicateurs (KPI) faut-il superviser dans le cloud ?

Les principaux KPI : la disponibilité (uptime, en « neuf »), la latence (en percentiles p95/p99 plutôt qu'en moyenne), le débit, le taux d'erreur (5xx), la santé des ressources (CPU, mémoire, disque, files d'attente, fraîcheur des sauvegardes, expiration des certificats), et enfin le MTTD (temps moyen de détection) et le MTTR (temps moyen de rétablissement), qui mesurent l'efficacité de la supervision elle-même.

Une infrastructure cloud ne tombe pas en panne aux heures de bureau. Elle tombe à 3 h du matin, un dimanche, pendant un week-end de soldes ou une clôture comptable, précisément quand personne ne regarde. La supervision cloud 24/7 est la discipline qui consiste à regarder en permanence, à détecter avant que le métier ne soit touché, et à agir selon un plan écrit à l'avance plutôt que dans l'urgence. Cette page démonte le sujet de bout en bout : ce que recouvre réellement le « 24/7 », la distinction trop souvent confondue entre supervision, monitoring et observabilité, le rôle d'un NOC face à un SOC, les outils nommés par plateforme (Azure, AWS, Kubernetes), les engagements chiffrés (SLA, GTI, GTR), la conformité, les coûts indicatifs et la réversibilité, avec le regard d'un intermédiaire indépendant, à l'aise sur Azure comme sur AWS.

Qu'est-ce que la supervision cloud 24/7 et quel en est le périmètre ?

La supervision cloud 24/7 est la surveillance continue, 24 heures sur 24, 7 jours sur 7, 365 jours par an, de l'état de santé d'une infrastructure cloud et des applications qu'elle porte, dans le but de détecter et traiter les incidents avant qu'ils n'affectent l'activité. Elle ne se limite pas à un tableau de bord qui clignote : elle associe des sondes techniques, des seuils d'alerte, une chaîne d'escalade et des humains (ou des automatismes) chargés de réagir, à toute heure.

Le terme « cloud » change la nature de l'exercice. On ne supervise plus un parc de serveurs physiques dans une salle, mais un ensemble de ressources élastiques et éphémères : machines virtuelles qui s'allument et s'éteignent, conteneurs qui se recréent, services managés (bases de données, files de messages, fonctions serverless) dont vous ne voyez pas l'infrastructure sous-jacente. Superviser le cloud, c'est donc surveiller des signaux exposés par les plateformes (Azure, AWS) plutôt que des voyants matériels.

Le périmètre d'une supervision cloud sérieuse couvre quatre couches qui doivent être traitées ensemble.

L'infrastructure : disponibilité et santé des machines virtuelles, du stockage, des bases de données managées, des clusters Kubernetes, des fonctions serverless. C'est le socle : CPU, mémoire, espace disque, état des nœuds, redémarrages intempestifs.
Le réseau : connectivité, latence, perte de paquets, état des passerelles (VPN, ExpressRoute, Direct Connect), des équilibreurs de charge, des points de terminaison privés, des règles de sécurité. Une panne réseau est souvent invisible côté serveur mais fatale côté utilisateur.
L'applicatif : le service rendu, vu du métier, temps de réponse des pages, taux d'erreur HTTP, transactions abouties, files d'attente, jobs planifiés. C'est la couche qui dit si l'utilisateur final est réellement servi, au-delà de la santé technique des composants.
La sécurité : signaux d'alerte de sécurité, tentatives d'accès anormales, dérives de configuration, expirations de certificats. Cette couche recoupe la cybersurveillance (voir plus loin la distinction NOC / SOC), mais une supervision moderne ne l'ignore pas.

En une phrase : superviser le cloud en 24/7, ce n'est pas « avoir un outil de monitoring ». C'est surveiller en continu les quatre couches, infra, réseau, applicatif, sécurité, savoir ce qui constitue une anomalie, et disposer d'une chaîne humaine et organisationnelle pour réagir à toute heure selon un plan défini à l'avance.

Cette discipline est le cœur de l'exploitation cloud. Elle s'inscrit dans une démarche plus large d'infogérance cloud en entreprise, notre page pilier sur l'exploitation managée, et de MCO cloud (maintien en conditions opérationnelles), qui traite la maintenance continue dont la supervision est le système nerveux.

Pourquoi superviser en 24/7 : du curatif au proactif

La supervision répond à une bascule de posture qui distingue les organisations matures des autres : passer du curatif au proactif.

En mode curatif, encore majoritaire dans les PME, on découvre l'incident parce qu'un client appelle, parce qu'un commercial ne peut plus saisir une commande, parce que le site est tombé. Le temps de détection se compte en dizaines de minutes ou en heures, et l'impact métier est déjà consommé quand l'équipe technique commence à chercher la cause. La nuit et le week-end, ce délai explose : un incident survenu à 2 h peut n'être traité qu'à 9 h le lendemain.

En mode proactif, des sondes surveillent en permanence des indicateurs précurseurs : un disque qui se remplit, une file d'attente qui s'allonge, une latence qui dérive, un certificat qui va expirer, un taux d'erreur qui grimpe. L'alerte se déclenche avant la rupture de service, et la chaîne d'escalade traite le signal pendant qu'il n'est encore qu'un signal faible. On ne subit plus l'incident : on l'anticipe.

La supervision proactive ne supprime pas les pannes : rien ne garantit zéro incident. Elle réduit le temps de détection (MTTD) et, par voie de conséquence, le temps de rétablissement (MTTR), ce qui diminue l'impact business observé. La différence entre détecter un incident en 2 minutes plutôt qu'en 2 heures se chiffre directement en chiffre d'affaires préservé et en réputation protégée.

Concrètement, une supervision proactive bien menée permet de :

anticiper les saturations (disque, mémoire, quotas, connexions) avant qu'elles ne provoquent une panne ;
détecter les dégradations progressives (lenteurs, dérives de latence) que personne ne remarque jusqu'au point de rupture ;
capter les signaux de sécurité et les expirations (certificats TLS, secrets, droits) avant qu'ils ne deviennent des incidents ;
fournir des données factuelles pour les analyses post-incident et les décisions d'investissement (faut-il dimensionner différemment, redécouper une application, renforcer une couche ?).

Si votre infrastructure montre des signes d'instabilité récurrents au-delà du seul besoin de surveillance, le sujet relève souvent d'une cause racine plus profonde : voir notre page infrastructure cloud instable.

Supervision, monitoring, observabilité : la distinction que personne ne fait bien

C'est le point que la quasi-totalité des contenus du marché escamotent, alors qu'il structure tout le reste. Trois termes circulent, supervision, monitoring, observabilité, souvent employés comme synonymes. Ils ne le sont pas. Les confondre conduit à acheter le mauvais service ou à croire qu'on est couvert quand on ne l'est pas.

| Notion | Question à laquelle elle répond | Ce qu'elle manipule | Posture | |---|---|---|---| | Monitoring | « Est-ce que ça marche, oui ou non ? » | Des métriques et des seuils prédéfinis (CPU > 90 %, ping KO) | Surveiller des indicateurs connus à l'avance | | Observabilité | « Pourquoi ça ne marche pas, et où exactement ? » | Trois piliers : métriques, logs, traces | Pouvoir investiguer l'inconnu sans redéployer | | Supervision | « Qui est prévenu, qui agit, et selon quel plan ? » | Les deux précédents + alerting, escalade, humains, processus | Surveiller, réagir et exploiter en continu |

Détaillons, car chacune apporte une brique que les autres n'ont pas.

Le monitoring est la couche technique de mesure. Il collecte des métriques (des valeurs numériques dans le temps : taux d'utilisation CPU, nombre de requêtes, latence moyenne) et déclenche des alertes quand un seuil prédéfini est franchi. Le monitoring répond à des questions qu'on a su poser à l'avance. Sa limite : il ne voit que ce qu'on a pensé à surveiller. Un problème nouveau, non anticipé, échappe au monitoring seul.

L'observabilité est la capacité à comprendre l'état interne d'un système à partir de ce qu'il émet, sans avoir à le modifier pour aller voir. Elle repose sur trois piliers complémentaires :

les métriques (metrics) : des séries temporelles agrégées, peu coûteuses, idéales pour les tableaux de bord et les alertes ;
les logs : des événements horodatés et détaillés, indispensables pour comprendre ce qui s'est précisément passé à un instant donné ;
les traces (traces distribuées) : le suivi d'une requête de bout en bout à travers les microservices, qui permet de localiser où le temps est perdu ou où l'erreur survient dans une chaîne d'appels.

L'observabilité répond donc au « pourquoi » et au « où », là où le monitoring s'arrête au « est-ce que ça marche ». Elle est devenue indispensable dans les architectures distribuées (microservices, conteneurs, serverless) où une requête traverse des dizaines de composants.

La supervision est le terme le plus englobant, et le plus français. Elle inclut le monitoring et l'observabilité comme socle technique, mais y ajoute la dimension opérationnelle et humaine : la définition des alertes pertinentes, le routage de ces alertes vers les bonnes personnes, l'escalade quand personne ne répond, le traitement par des opérateurs, les processus d'incident, les rapports. La supervision, c'est l'observabilité mise au service d'une organisation qui réagit 24/7.

Mémo : le monitoring mesure, l'observabilité explique, la supervision organise la réaction. On peut avoir d'excellents outils de monitoring et d'observabilité et n'avoir aucune supervision réelle, faute d'humains et de processus pour exploiter les alertes. C'est exactement le piège du « 24/7 marketing » que nous abordons plus bas.

Cette clarification a une conséquence pratique directe : quand un prestataire vous vend de la « supervision 24/7 », demandez ce qui se passe concrètement quand une alerte tombe à 3 h. Si la réponse est « elle est enregistrée et traitée le lendemain matin », ce n'est pas de la supervision 24/7 : c'est du monitoring avec un tableau de bord ouvert en permanence.

Couverture 24/7/365 : ce que recouvrent vraiment les nuits, week-ends et jours fériés

« 24/7 » est devenu un argument de plaquette. Derrière, les réalités opérationnelles varient du tout au tout. Une couverture 24/7/365 authentique signifie qu'à n'importe quel moment, 3 h du matin un 1er janvier compris, un dispositif capable de détecter, qualifier et agir est actif. Cela suppose plusieurs choses rarement explicitées :

Des plages horaires réellement couvertes, et non un « support en heures ouvrées + astreinte best effort le reste du temps » déguisé.
Un mode de couverture clair : équipe en présence continue (NOC en 3×8), astreinte d'ingénieurs joignables et engagés sur un délai, ou supervision automatisée avec auto-remédiation et escalade humaine en dernier recours. Chacun a un coût et un niveau de réactivité différents.
Une chaîne d'astreinte documentée : qui est de garde, comment il est joint (téléphone, outil d'on-call type PagerDuty/Opsgenie), sous quel délai d'acquittement, et qui prend le relais s'il ne répond pas.
La gestion des jours fériés et des pics saisonniers : un e-commerçant a besoin d'une vigilance renforcée pendant les soldes et le Black Friday, pas d'une couverture qui se relâche précisément quand le trafic explose.

L'astreinte est l'épine dorsale de la couverture nocturne et de week-end. Une astreinte externalisée sérieuse repose sur une équipe en rotation, des runbooks à jour, un accès sécurisé aux environnements et un engagement contractuel sur les délais (la GTI, abordée plus loin). C'est très différent d'un numéro qui sonne dans le vide ou d'un ticket qui attend l'ouverture des bureaux.

NOC, SOC et astreinte : qui fait quoi, et le piège du « 24/7 marketing »

Deux acronymes structurent l'exploitation 24/7, et ils ne couvrent pas le même risque.

Le NOC (Network Operations Center) est le centre de supervision de la disponibilité et de la performance. Sa mission : surveiller l'infrastructure et les applications, détecter les incidents techniques (panne, saturation, dégradation), les qualifier, lancer les premières actions correctives et escalader vers les bonnes équipes. Le NOC répond à la question « est-ce que ça fonctionne ? ».

Le SOC (Security Operations Center) est le centre de cybersurveillance. Sa mission : détecter les menaces et les attaques (intrusion, exfiltration, comportement malveillant, malware), analyser les alertes de sécurité, et coordonner la réponse aux incidents de sécurité. Le SOC répond à la question « sommes-nous attaqués ? ».

| Dimension | NOC | SOC | |---|---|---| | Objet surveillé | Disponibilité, performance, santé des ressources | Menaces, intrusions, comportements malveillants | | Question | « Est-ce que ça marche ? » | « Sommes-nous attaqués ? » | | Signaux typiques | CPU, latence, taux d'erreur, état des nœuds | Tentatives d'accès, dérives de config, IOC, anomalies | | Outils | Azure Monitor, CloudWatch, Grafana, Centreon, Datadog | SIEM, Microsoft Defender for Cloud, Sentinel, EDR/XDR | | Réponse type | Redémarrage, scaling, bascule, escalade | Isolement, investigation forensique, remédiation |

Les deux sont complémentaires, pas concurrents. Un incident peut commencer comme une dégradation de performance (NOC) et se révéler être une attaque (SOC), d'où l'importance de passerelles entre les deux. Pour les PME et ETI qui n'ont pas les moyens d'un SOC complet, le micro-SOC (mutualisé, dimensionné pour des volumes plus modestes) offre une cybersurveillance proportionnée. La supervision de disponibilité 24/7 relève du NOC ; la cybersurveillance relève du SOC et de notre offre de cybersécurité cloud et de sécurisation de l'infrastructure cloud.

Le piège du « 24/7 marketing » : qui lit vraiment les alertes à 3 h ?

C'est la question la plus utile à poser à tout prestataire, et celle qui sépare une vraie supervision d'une promesse creuse. Beaucoup d'offres « 24/7 » reposent en réalité sur :

un tableau de bord ouvert en permanence que, la nuit, personne ne regarde ;
des alertes envoyées par e-mail dans une boîte non surveillée hors heures ouvrées ;
des scripts d'auto-remédiation qui redémarrent un service, utiles, mais aveugles : un script ne fait pas de diagnostic, et redémarrer en boucle un service qui plante masque parfois un problème qui s'aggrave.

La vraie question n'est pas « avez-vous du 24/7 ? » mais « à 3 h du matin, qui, un humain ou un script, voit l'alerte, la qualifie, et que se passe-t-il ensuite ? ». Un contrat de supervision honnête répond précisément : quelles alertes déclenchent une intervention humaine, lesquelles sont traitées par automatisme, sous quel délai d'acquittement, et quelle escalade si le premier niveau ne répond pas. Notre principe est de challenger cette zone d'ombre dès le cadrage : l'automatisation traite le bruit et les actions sûres et réversibles ; l'humain traite ce qui exige du jugement.

Une supervision 24/7 crédible se mesure à ce qui se passe la nuit, pas au logo « 24/7 » sur la page d'accueil. Demandez le scénario nocturne complet, la chaîne d'astreinte nominative (par rôle), les délais d'acquittement et la part exacte d'automatisation. Si on ne sait pas vous le décrire, le 24/7 est probablement marketing.

L'architecture de supervision par plateforme : les outils nommés

Une supervision cloud moderne combine les outils natifs de chaque plateforme (intégrés, sans agent à déployer pour les services managés) et une couche transverse d'outils tiers qui unifie la vue, surtout en environnement multicloud. Voici comment cela se structure concrètement, plateforme par plateforme.

Superviser sur Microsoft Azure

L'écosystème de supervision Azure s'articule autour de plusieurs services qui travaillent ensemble.

Azure Monitor : la plateforme centrale de collecte de métriques et de logs. Elle agrège les signaux de l'ensemble des ressources Azure et permet de définir des alertes, des règles d'action et des tableaux de bord.
Application Insights : le volet APM (Application Performance Monitoring) d'Azure Monitor. Il instrumente les applications pour suivre les temps de réponse, les taux d'erreur, les dépendances et les traces distribuées, c'est la brique d'observabilité applicative côté Azure.
Log Analytics : le moteur de requêtage et de corrélation des logs (langage KQL, Kusto Query Language). C'est là qu'on investigue, qu'on construit des requêtes d'alerte fines et qu'on conserve les journaux pour l'analyse et la conformité.
Microsoft Defender for Cloud : le volet posture de sécurité et détection, recommandations de durcissement (alignées sur des référentiels comme les CIS Benchmarks), score de sécurité, alertes de menace. C'est le pont vers la dimension SOC.

Sur Azure, la supervision s'appuie aussi sur Azure Policy pour garantir que les ressources sont bien configurées (et bien surveillées) à mesure qu'elles sont créées, et s'inscrit dans une landing zone structurée selon le Cloud Adoption Framework. Pour aller plus loin sur l'expertise Azure, voir architecte Azure.

Superviser sur AWS

Côté AWS, l'architecture est analogue, avec ses propres services.

Amazon CloudWatch : le service central de métriques, logs (CloudWatch Logs), alarmes et tableaux de bord. Il collecte les signaux des services AWS et des applications, déclenche des alarmes et peut piloter des actions automatiques (auto-scaling, exécution de fonctions Lambda de remédiation).
AWS X-Ray : le service de traçage distribué, équivalent fonctionnel d'Application Insights pour le suivi des requêtes à travers les microservices et la localisation des goulets d'étranglement.
Amazon CloudWatch Logs Insights : le moteur de requêtage des logs, pour l'investigation et la corrélation.
AWS Health et les outils de gouvernance (Control Tower, Landing Zone Accelerator) cadrent la surveillance dans une structure multi-comptes saine.

La sécurité s'appuie sur des services dédiés (GuardDuty, Security Hub) qui relèvent de la dimension SOC. Pour l'expertise AWS, voir notre offre via le conseil en architecture.

La couche transverse : Prometheus, Grafana, Datadog, Centreon

Les outils natifs sont excellents dans leur plateforme. Dès qu'on supervise un environnement hybride ou multicloud, ou qu'on veut une vue unifiée indépendante du fournisseur, on ajoute une couche transverse.

Prometheus : le standard open source de collecte de métriques, particulièrement dans l'univers Kubernetes et conteneurs. Modèle pull, requêtage PromQL, très répandu pour les architectures cloud-native.
Grafana : la couche de visualisation de référence. Elle agrège des sources hétérogènes (Prometheus, Azure Monitor, CloudWatch, bases de données) dans des tableaux de bord unifiés, l'outil idéal pour une vue multicloud consolidée.
Datadog : plateforme SaaS commerciale couvrant métriques, logs, traces (APM), supervision d'infrastructure et de sécurité dans une interface unique. Puissante et rapide à déployer, à surveiller côté coût (facturation par hôte et par volume).
Centreon : solution de supervision d'origine française, très utilisée en entreprise pour la surveillance d'infrastructures hétérogènes (cloud et on-premise), appréciée dans les contextes de souveraineté.
Zabbix, Nagios, PRTG, Dynatrace : selon les contextes, d'autres solutions interviennent, Zabbix et Nagios pour la supervision d'infrastructure classique, PRTG pour le réseau, Dynatrace pour l'observabilité applicative pilotée par l'IA.

Notre principe d'indépendance s'applique aussi aux outils : nous ne vendons pas une plateforme propriétaire à imposer. Nous recommandons l'outillage adapté à votre contexte (souveraineté, budget, écosystème existant), les prestataires de notre réseau le configurent dans vos comptes, et vous laissent les sondes, dashboards et runbooks. Pas d'enfermement.

Superviser Kubernetes et les conteneurs

La supervision des conteneurs est un domaine que peu de concurrents détaillent, alors que les architectures Kubernetes (AKS sur Azure, EKS sur AWS) sont devenues courantes. Elle a ses spécificités :

Sondes liveness et readiness : Kubernetes lui-même surveille la santé des conteneurs via des sondes de vivacité (liveness : le conteneur est-il vivant, faut-il le redémarrer ?) et de disponibilité (readiness : est-il prêt à recevoir du trafic ?). Bien configurées, elles assurent une auto-remédiation native.
Métriques de cluster : santé des nœuds, pression mémoire/CPU, pods en échec ou en redémarrage en boucle (CrashLoopBackOff), capacité disponible, état du control plane. Le couple Prometheus + Grafana est le standard, souvent complété par CloudWatch Container Insights ou Azure Monitor for Containers.
Observabilité microservices : dans un cluster, une requête traverse de nombreux services ; les traces distribuées (via X-Ray, Application Insights ou des outils comme OpenTelemetry/Jaeger) sont indispensables pour localiser les latences.

La supervision Kubernetes s'articule étroitement avec la sécurité du cluster (RBAC, network policies, admission control), un sujet traité dans notre offre infrastructure & DevOps.

KPI supervisés et engagements de service

Une supervision sans indicateurs n'est qu'une intuition. Voici les KPI qui structurent toute supervision sérieuse, puis la façon dont la métrique propre à la fonction, le temps de détection, vient s'articuler aux engagements de service.

Les indicateurs supervisés (KPI)

Disponibilité (uptime) : le pourcentage de temps pendant lequel le service est opérationnel, exprimé en « neuf » (99,9 %, 99,95 %, 99,99 %). C'est l'indicateur roi.
Latence : le temps de réponse, souvent mesuré en percentiles (p50, p95, p99) plutôt qu'en moyenne, car la moyenne masque les requêtes lentes qui pénalisent les utilisateurs.
Débit (throughput) : le volume de requêtes ou de transactions traitées par unité de temps, utile pour détecter les saturations et dimensionner.
Taux d'erreur : la proportion de requêtes en échec (erreurs HTTP 5xx, exceptions). Un taux d'erreur qui grimpe est souvent le premier signe d'une dégradation.
Santé des ressources : utilisation CPU/mémoire/disque, état des nœuds, profondeur des files d'attente, fraîcheur des sauvegardes, expiration des certificats.
MTTD et MTTR : le temps moyen de détection (Mean Time To Detect) et le temps moyen de rétablissement (Mean Time To Repair), les deux métriques qui mesurent l'efficacité de la supervision elle-même.

Du KPI de détection à l'engagement contractuel

Le KPI qui appartient en propre à la supervision, c'est le temps de détection et de notification : le délai entre la survenue d'un incident et le moment où une alerte qualifiée part vers la bonne personne. C'est l'indicateur que la qualité de la supervision influence le plus directement, bien davantage que le temps de rétablissement, qui dépend ensuite des équipes d'exploitation et parfois de tiers. Un dispositif de supervision se juge d'abord à son MTTD (temps moyen de détection) : détecter en deux minutes plutôt qu'en deux heures change tout l'aval.

Ces métriques de détection viennent ensuite s'inscrire dans des engagements contractuels : SLA (objectif de disponibilité et pénalités), GTI (garantie de temps d'intervention), GTR (garantie de temps de rétablissement). Ces engagements relèvent du contrat d'exploitation lui-même : leurs définitions, leur grille chiffrée par niveau de service et la distinction entre le SLA de l'hébergeur et celui du prestataire sont détaillés dans la grille SLA, GTI et GTR contractuelle de l'infogérance. Côté supervision, retenez la règle de prudence : on ne s'engage que sur ce qu'on détecte, et on ne garantit jamais un rétablissement qui dépend d'un tiers.

Repère utile sur la disponibilité : 99,9 % autorise environ 8,7 heures d'indisponibilité par an ; 99,95 %, environ 4,4 heures ; 99,99 %, environ 52 minutes. Côté supervision, ce qui compte n'est pas d'empiler les neuf mais de tenir l'objectif de SLA contractuel : détecter vite (MTTD) et rétablir vite (MTTR) pour rester dans la cible. Le bon niveau est celui justifié par la criticité métier, pas le maximum théorique partout, et ces cibles se présentent comme visées et mesurées, jamais comme des promesses de résultat.

Gestion des incidents : niveaux 0/1/2/3, escalade et post-mortem

La supervision détecte ; la gestion d'incidents traite. Une exploitation mature structure ses équipes et ses processus en niveaux de support, conformément aux cadres ITIL / ITSM.

Niveau 0 : l'automatisation. Avant tout humain, des scripts et des règles d'auto-remédiation traitent les cas connus et sûrs : redémarrage d'un service, ajout de capacité (auto-scaling), nettoyage d'un répertoire saturé. Le niveau 0 filtre le bruit pour que les humains ne traitent que ce qui le mérite.
Niveau 1 : les opérateurs du NOC. Ils reçoivent l'alerte, la qualifient (vraie alerte ou faux positif ?), appliquent les runbooks documentés et résolvent les incidents courants. Ce qu'ils ne savent pas résoudre, ils l'escaladent.
Niveau 2 : les ingénieurs spécialisés (système, réseau, cloud, applicatif) qui prennent les incidents complexes nécessitant une expertise et une investigation poussées.
Niveau 3 : les experts et architectes, voire les éditeurs ou l'hébergeur, pour les incidents les plus profonds (bug logiciel, défaut de plateforme, problème d'architecture).

L'escalade est régie par une matrice d'escalade : qui est contacté, dans quel ordre, sous quel délai, selon la criticité (P1/P2/P3) et le moment (heures ouvrées ou astreinte). Une matrice claire évite la paralysie nocturne où personne ne sait qui appeler.

Après tout incident significatif, l'analyse post-incident (post-mortem) est l'étape qui transforme une panne en apprentissage. Menée sans recherche de coupable (blameless), elle reconstitue la chronologie, identifie la cause racine, mesure le MTTD et le MTTR réels, et débouche sur des actions correctives concrètes, y compris l'ajout de nouvelles sondes ou de nouveaux seuils. C'est ce cycle qui fait progresser durablement la fiabilité.

Une bonne supervision ne se juge pas à l'absence d'incidents, rien ne garantit zéro panne, mais à la rapidité de détection, à la qualité de l'escalade et à la capacité d'apprentissage après coup. Le post-mortem est le moteur de l'amélioration continue.

Tableaux de bord centralisés et rapports de supervision

La supervision produit deux livrables visibles pour le client : des tableaux de bord en temps réel et des rapports périodiques.

Les tableaux de bord centralisés (Grafana, Azure Monitor Workbooks, CloudWatch Dashboards) offrent une vue consolidée de l'état de santé : disponibilité, latence, taux d'erreur, incidents en cours, alertes actives. Bien conçus, ils sont compréhensibles par la DSI comme par la direction générale, avec des niveaux de lecture adaptés (vue technique détaillée et vue synthétique de service).

Les rapports de supervision périodiques (mensuels en général) consolident la période écoulée : taux de disponibilité constaté, nombre et nature des incidents, respect des engagements (GTI/GTR), MTTD/MTTR observés, tendances, recommandations d'amélioration. Ce sont eux qui rendent la supervision pilotable et qui alimentent les comités de service. Un prestataire qui ne produit pas de rapport lisible vous demande de lui faire confiance sur parole, ce n'est pas l'approche que nous retenons : les prestataires de notre réseau documentent et restituent.

Environnements supervisés : cloud public, privé, hybride et multicloud

La supervision doit couvrir l'ensemble du système d'information, quelle que soit sa topologie. Or les entreprises ont rarement un cloud « pur » : elles vivent dans des environnements composites.

Cloud public : Azure, AWS, supervision via les outils natifs, complétée par la couche transverse.
Cloud privé / on-premise : datacenter interne, infrastructure virtualisée, supervisée par des sondes classiques (Centreon, Zabbix, Prometheus) et intégrée à la vue d'ensemble.
Cloud hybride : combinaison de public et de privé, reliés par des passerelles (VPN, ExpressRoute, Direct Connect). La supervision doit surveiller la connectivité entre les mondes, point de fragilité fréquent.
Multicloud : plusieurs clouds publics (Azure et AWS, par exemple). Ici, la couche transverse (Grafana, Datadog) prend tout son sens : elle unifie des signaux émis par des plateformes aux modèles différents en une vue cohérente.

Le défi du multicloud et de l'hybride n'est pas technique au sens des outils, ils existent, mais d'unification : corréler des alertes venant de sources hétérogènes, éviter les angles morts à la jonction des environnements, et présenter une vue de service unique malgré la diversité sous-jacente. C'est précisément là que l'indépendance Azure/AWS d'un intermédiaire comme nous fait la différence : nous ne privilégions pas une plateforme par habitude. Pour une vue d'ensemble, consultez le guide du cloud.

Supervision et FinOps : surveiller aussi les coûts

Un angle que la plupart des contenus de supervision oublient : on ne supervise pas que la santé technique, on supervise aussi le coût. Une dérive budgétaire cloud est un incident, au même titre qu'une panne, simplement, elle se mesure en euros et non en minutes d'indisponibilité.

Une supervision FinOps surveille en continu :

les dérives de coûts : une ressource surdimensionnée, un environnement de test oublié allumé, un transfert de données inattendu, une montée en charge non maîtrisée ;
les dépassements de budget : alerting sur seuil (Azure Cost Management, AWS Cost Explorer / Budgets) avant que la facture du mois ne soit consommée ;
les ressources orphelines : disques détachés, IP réservées non utilisées, snapshots accumulés ;
l'extinction hors usage : vérifier que les environnements non productifs s'éteignent bien la nuit et le week-end comme prévu.

Cette dimension recoupe directement notre expertise. Pour aller plus loin : optimisation des coûts cloud et notre offre d'audit FinOps. Détecter une dérive de coût en temps réel évite la mauvaise surprise de fin de mois, et c'est de la supervision au sens plein.

Conformité et secteurs réglementés : ce que la supervision apporte

Dans les secteurs régulés, la supervision n'est pas un confort technique mais un maillon de conformité. Son apport propre est précis : la journalisation et la conservation des logs, la traçabilité des accès et des actions, et la détection puis la notification des incidents dans les délais exigés. C'est cette matière, des journaux horodatés, des alertes documentées, des rapports auditables, qui nourrit la preuve de conformité, quel que soit le cadre.

Les cadres eux-mêmes définissent des obligations contractuelles et organisationnelles qui dépassent la seule supervision. Pour la santé, l'hébergement et la conservation des logs doivent se faire chez un partenaire certifié HDS (la certification vise l'hébergeur, pas votre configuration). Pour la finance et l'assurance, DORA impose une détection et une notification d'incidents documentées, auditables, et la réversibilité. La démarche ISO 27001 structure la journalisation et la gestion des incidents de sécurité ; le RGPD encadre la conservation des logs et la relation responsable de traitement / sous-traitant (article 28). Le détail de ces cadres, leur articulation et la grille de conformité d'ensemble sont traités dans la conformité RGPD, HDS, NIS2 et DORA en infogérance ; la sécurité de fond relève de notre page sécurisation de l'infrastructure cloud et de la gouvernance cloud. Les architectures conçues par les prestataires du réseau sont conformes RGPD et leur exploitation s'inscrit dans une démarche ISO 27001.

Côté supervision, l'essentiel tient en une phrase : la journalisation, la conservation des logs, la détection et la notification des incidents ne sont pas des options techniques mais des exigences réglementaires, à concevoir dans l'architecture de supervision dès le départ, pas après coup. Voir aussi les secteurs santé et finance.

Supervision et résilience : le déclencheur du PRA/PCA

La supervision est le système de détection qui déclenche les dispositifs de continuité. Sans elle, un PRA reste théorique : c'est la détection précoce d'un sinistre qui permet d'enclencher à temps une bascule (failover) et de tenir les objectifs de RTO (délai de reprise) et RPO (perte de données acceptable). La supervision vérifie aussi en continu que les mécanismes de réplication fonctionnent. Un PRA dont la réplication a silencieusement échoué ne sert à rien. La conception du plan lui-même (RTO/RPO, architecture de reprise, tests de bascule) est traitée en détail dans le PRA/PCA dans le MCO cloud. Côté supervision, retenez le rôle : surveiller, c'est aussi surveiller que le filet de sécurité est encore tendu.

Le rôle de l'IA et de l'AIOps : réduire le bruit, corréler les alertes

Le principal ennemi d'une supervision 24/7 n'est pas le manque d'alertes : c'est leur excès. Une équipe noyée sous des centaines d'alertes par jour, dont la plupart sont des faux positifs, finit par les ignorer : c'est la « fatigue d'alerte », et elle est dangereuse car la vraie alerte se perd dans le bruit.

L'AIOps (Artificial Intelligence for IT Operations) répond à ce problème. Concrètement, des algorithmes :

dédupliquent et corrèlent les alertes : cent alertes provenant d'une même cause racine sont regroupées en un seul incident, au lieu d'inonder l'équipe ;
détectent les anomalies par apprentissage des comportements normaux : plutôt que des seuils fixes, le système repère ce qui s'écarte de la normale historique (une latence inhabituelle un mardi à 14 h, par exemple) ;
priorisent les incidents selon leur impact probable, pour orienter l'attention humaine.

L'AIOps ne remplace pas l'ingénieur de garde : il réduit le bruit pour qu'il se concentre sur ce qui compte. Des plateformes comme Dynatrace, Datadog ou les fonctions natives d'Azure Monitor intègrent ces capacités. Bien utilisée, cette couche améliore le MTTD observé et réduit la fatigue d'alerte, un gain qualitatif majeur en exploitation continue.

Réversibilité et autonomie : votre supervision vous appartient

C'est un différenciateur structurant et la réponse directe à la crainte de l'enfermement. Trop d'offres de supervision créent une dépendance : sondes propriétaires, dashboards inaccessibles, comptes cloud ouverts au nom du prestataire. Notre principe est inverse. Les comptes cloud restent à votre nom (votre tenant Azure, vos comptes AWS) ; les sondes et la configuration de supervision sont décrites en code (Infrastructure as Code) versionné dans vos dépôts, reproductibles et auditables ; les tableaux de bord vous sont accessibles en permanence ; les runbooks et la documentation vous sont remis. Le jour où vous changez de prestataire ou internalisez, vous repartez avec tout le dispositif, prêt à être exploité.

La portée contractuelle de cette autonomie, clause de sortie, transfert de connaissance, propriété des comptes et du code, exigence de réversibilité posée par DORA, se règle dans le contrat d'exploitation : voir la réversibilité du contrat d'infogérance. Côté supervision, la règle est simple : vous confiez l'exploitation à un prestataire, jamais la propriété. Une supervision que vous ne pouvez ni lire, ni reproduire, ni emporter est une laisse, celle que les prestataires du réseau mettent en place reste un dispositif qui vous appartient.

Méthodologie : comment se met en place une supervision 24/7

La mise en place d'une supervision n'est pas un branchement d'outil : c'est un projet de cadrage. Il démarre par une cartographie des actifs (machines, services managés, clusters, applications, dépendances) et l'identification de ce qui est critique pour le métier, une étape de reprise d'infrastructure commune à toute exploitation, détaillée dans la reprise d'infrastructure et l'onboarding d'infogérance et qui recoupe notre audit d'infrastructure cloud. Au-delà de ce socle générique, trois étapes appartiennent en propre à la supervision :

Définition des seuils et des indicateurs : pour chaque ressource, ce qui constitue une anomalie. Des seuils trop sensibles noient l'équipe sous le bruit ; trop laxistes, ils laissent passer les incidents. Ce calibrage est un travail d'expertise, pas de valeurs par défaut.
Configuration des sondes et des alertes : déploiement de l'outillage (natif et transverse) en Infrastructure as Code, dans vos comptes, avec routage des alertes vers les bons canaux et les bonnes personnes.
Rédaction des runbooks et de la matrice d'escalade : pour chaque type d'incident, la procédure de traitement documentée et la chaîne d'escalade (qui, dans quel ordre, sous quel délai). C'est ce qui rend la réaction nocturne fiable plutôt qu'improvisée.

Vient enfin la mise en exploitation et l'amélioration continue : démarrage de la surveillance 24/7, rapports périodiques, post-mortems, ajustement des seuils et des runbooks dans la durée. La supervision est vivante : elle s'affine à chaque incident. L'ensemble s'inscrit dans notre offre d'infogérance cloud en entreprise et de MCO cloud.

Supervision et infogérance : quelle différence ?

Question fréquente, car les deux se recoupent. La supervision est la fonction de surveillance et de détection : voir et alerter. L'infogérance est l'externalisation de l'exploitation complète d'un système d'information : non seulement le surveiller, mais aussi le maintenir, le mettre à jour, le faire évoluer, le sécuriser, gérer les sauvegardes et les incidents de bout en bout.

Autrement dit, la supervision est un composant de l'infogérance, son système nerveux. On peut acheter une supervision seule (surveiller un environnement que l'on continue d'exploiter soi-même) ou une infogérance complète qui l'inclut. La supervision 24/7 est souvent la porte d'entrée vers une infogérance plus large, parce qu'elle révèle ce qui doit être maintenu et amélioré. Le sujet est traité en profondeur sur notre page pilier infogérance cloud en entreprise.

Étude de cas représentative : la détection nocturne

Nos exemples sont représentatifs et anonymisés, cohérents avec les contextes que nous rencontrons ; les chiffres sont observés, jamais garantis. Le cas le plus illustratif de la fonction propre de la supervision, détecter avant que le métier ne soit touché, est celui-ci :

Éditeur SaaS (scale-up). Une plateforme multi-tenants sur AWS subissait des incidents nocturnes détectés par les clients avant l'équipe. Mise en place d'une supervision 24/7 (CloudWatch + X-Ray + Grafana, astreinte engagée, runbooks) : le MTTD est passé de plusieurs dizaines de minutes à quelques minutes constatés, et la disponibilité mensuelle observée s'est stabilisée au-dessus de 99,9 %. Voir le secteur SaaS.

D'autres contextes, groupe industriel en environnement hybride, acteur financier soumis à DORA, distribution exposée aux pics saisonniers (soldes, Black Friday), illustrent les mêmes mécanismes de détection appliqués à des enjeux différents. Ces cas sectoriels complets, dans leur dimension d'exploitation managée de bout en bout, sont rassemblés dans les cas sectoriels de l'infogérance cloud ; ils se retrouvent aussi parmi nos secteurs d'intervention : industrie, finance, distribution, secteur public.

Combien coûte une supervision cloud 24/7 ? Durée et livrables

La transparence tarifaire est un terrain que peu de concurrents occupent. Voici des repères indicatifs, à ajuster selon le périmètre réel, le chiffrage ferme suit toujours un cadrage.

Le coût d'une supervision 24/7 dépend de plusieurs variables : le nombre de ressources et d'applications à surveiller, le niveau de service (heures ouvrées + astreinte vs NOC 24/7/365), les délais d'engagement (GTI/GTR), le degré d'automatisation, et le choix NOC externalisé vs interne. À titre d'ordre de grandeur :

| Modèle | Repère indicatif | Pour qui | |---|---|---| | Supervision + astreinte essentielle | bas de fourchette mensuelle | PME, périmètre limité, criticité modérée | | NOC externalisé 24/7 avec engagements | milieu de fourchette | ETI, environnement critique, SLA exigeants | | NOC interne (build + run) | investissement humain lourd | grands comptes avec volume justifiant l'internalisation |

Pour une supervision externalisée 24/7 dans le cadre d'une exploitation managée assurée par un prestataire du réseau, le budget indicatif se situe entre 5 000 et 20 000 € par mois, sur devis selon le périmètre réel (nombre de ressources, niveau de service, engagements). Cette fourchette se met en regard du coût d'une heure d'indisponibilité non détectée, qui la dépasse fréquemment dès le premier incident majeur évité. Monter un NOC interne 24/7/365 suppose, lui, au minimum 6 à 8 ingénieurs en rotation pour couvrir les 3×8, un investissement qui ne se justifie qu'à partir d'un certain volume.

Les livrables d'une prestation de supervision 24/7 sont concrets et restitués :

la cartographie des actifs supervisés et la matrice de criticité ;
les sondes et configurations en Infrastructure as Code, dans vos comptes ;
les tableaux de bord accessibles en temps réel ;
les runbooks et la matrice d'escalade documentés ;
les rapports de supervision périodiques (disponibilité, incidents, MTTD/MTTR, respect des engagements) ;
les post-mortems après incidents significatifs.

Pour démarrer, le plus efficace est un diagnostic : nous évaluons votre exposition, vos angles morts actuels et le niveau de supervision réellement justifié, sans vous vendre du « 24/7 » dont vous n'avez pas besoin. Lancez votre audit en ligne, ou prenez contact via /contact, réponse sous 48 h ouvrées.

Pourquoi confier votre supervision 24/7 à Architecte Cloud

Externaliser sa supervision, c'est confier ses yeux et ses réflexes nocturnes à un tiers. Notre valeur tient à quatre points.

Indépendance Azure & AWS. Nous n'avons pas de plateforme de supervision propriétaire à vous imposer. Nous recommandons l'outillage adapté à votre contexte (souveraineté, écosystème, budget), natif ou transverse, sans parti pris.
Autonomie et réversibilité. Les comptes sont à votre nom, les sondes et configurations sont du code dans vos dépôts, les dashboards vous sont accessibles, les runbooks vous sont remis. Vous confiez l'exploitation à un prestataire, jamais la propriété, exigence centrale de DORA.
Expérience éprouvée. Les prestataires de notre réseau totalisent une expérience solide en supervision et exploitation, et disposent des certifications requises, Azure Solutions Architect Expert, AWS DevOps Engineer Professional, CISSP, Azure Security Engineer, FinOps Certified Practitioner, ainsi que des statuts Microsoft Azure Partner (Solutions Partner, Infrastructure) et AWS Partner (Advanced Tier Services). Démarche ISO 27001, en lien avec la FinOps Foundation.
Du diagnostic à l'exploitation. Nous cadrons votre besoin et vous mettons en relation avec des prestataires qui cartographient, calibrent les seuils, configurent en IaC, rédigent les runbooks, et, si vous le souhaitez, exploitent en 24/7 avec rapports et post-mortems. La supervision s'intègre à une infogérance cloud plus large quand c'est pertinent, ou reste autonome quand cela suffit.

Pour situer la supervision dans une démarche cloud d'ensemble, voir notre offre de services, le conseil en architecture et notre page à propos.

FAQ : Supervision cloud 24/7

Qu'est-ce que la supervision cloud 24/7 ?

La supervision cloud 24/7 est la surveillance continue, 24 heures sur 24, 7 jours sur 7, 365 jours par an, de l'état de santé d'une infrastructure cloud et de ses applications, dans le but de détecter et traiter les incidents avant qu'ils n'affectent l'activité. Elle couvre quatre couches (infrastructure, réseau, applicatif, sécurité) et associe des sondes techniques, des seuils d'alerte, une chaîne d'escalade et des humains ou automatismes chargés de réagir à toute heure. Elle ne se limite pas à un tableau de bord : c'est l'organisation complète de la détection et de la réaction.

Quelle est la différence entre supervision, monitoring et observabilité ?

Le monitoring mesure : il collecte des métriques et déclenche des alertes sur des seuils prédéfinis (« est-ce que ça marche ? »). L'observabilité explique : elle repose sur trois piliers, métriques, logs et traces, pour comprendre pourquoi et où un problème survient, y compris des problèmes non anticipés. La supervision organise la réaction : elle inclut le monitoring et l'observabilité, mais y ajoute l'alerting, l'escalade, les humains et les processus pour traiter les incidents 24/7. On peut avoir d'excellents outils de monitoring sans aucune supervision réelle, faute d'organisation pour exploiter les alertes.

Quelle est la différence entre un NOC et un SOC ?

Le NOC (Network Operations Center) supervise la disponibilité et la performance : il détecte les pannes, saturations et dégradations, et répond à la question « est-ce que ça fonctionne ? ». Le SOC (Security Operations Center) assure la cybersurveillance : il détecte les menaces et les attaques, et répond à « sommes-nous attaqués ? ». Les deux sont complémentaires. Pour les PME et ETI, un micro-SOC mutualisé offre une cybersurveillance proportionnée sans le coût d'un SOC complet.

Pourquoi la supervision informatique 24/7 est-elle indispensable pour une PME ?

Parce que les pannes ne respectent pas les heures de bureau : un incident survenu la nuit ou le week-end peut rester non détecté des heures, le temps que le métier soit déjà impacté. La supervision 24/7 fait passer du curatif (on découvre la panne parce qu'un client se plaint) au proactif (on détecte le signal faible avant la rupture). Elle réduit le temps de détection (MTTD) et, par voie de conséquence, l'impact business observé. Pour une PME dont l'activité dépend de son système d'information, c'est la différence entre subir et anticiper.

Combien coûte une supervision cloud 24/7 ou une astreinte externalisée ?

Le coût dépend du nombre de ressources à surveiller, du niveau de service, des délais d'engagement (GTI/GTR) et du degré d'automatisation. À titre indicatif, une supervision externalisée 24/7 dans le cadre d'une exploitation managée représente une fourchette de 5 000 à 20 000 € par mois, sur devis selon le périmètre réel. Un NOC interne 24/7/365 suppose au minimum 6 à 8 ingénieurs en rotation, ce qui ne se justifie qu'à partir d'un certain volume. La bonne mesure est de comparer ce budget au coût d'une heure d'indisponibilité non détectée.

Que signifient les SLA, GTI et GTR dans un contrat de supervision ?

Le SLA (Service Level Agreement) fixe l'objectif de disponibilité (par exemple 99,9 %) et les pénalités associées. La GTI (Garantie de Temps d'Intervention) est le délai maximal entre la détection et le début de la prise en charge humaine. La GTR (Garantie de Temps de Rétablissement) est le délai maximal pour rétablir le service, souvent exprimé comme un objectif visé car le rétablissement peut dépendre de tiers. Attention à distinguer le SLA de l'hébergeur sur sa plateforme du SLA du prestataire sur la réactivité de son équipe.

Quels outils utilise-t-on pour superviser une infrastructure cloud ?

Côté Azure : Azure Monitor (métriques et logs), Application Insights (APM et traces), Log Analytics (requêtage KQL), Microsoft Defender for Cloud (sécurité). Côté AWS : Amazon CloudWatch (métriques, logs, alarmes), AWS X-Ray (traçage distribué). En couche transverse pour l'hybride et le multicloud : Prometheus et Grafana (standard cloud-native et visualisation), Datadog et Centreon (plateformes complètes), ainsi que Zabbix, Nagios, PRTG ou Dynatrace selon le contexte. Le bon choix dépend de votre écosystème, de vos contraintes de souveraineté et de votre budget.

Comment fonctionne la détection proactive des incidents ?

Des sondes surveillent en continu des indicateurs précurseurs : disque qui se remplit, file d'attente qui s'allonge, latence qui dérive, taux d'erreur qui grimpe, certificat qui va expirer. Quand un seuil est franchi, ou qu'un algorithme d'AIOps détecte une anomalie par rapport au comportement normal, une alerte se déclenche avant la rupture de service. La chaîne d'escalade traite alors le signal pendant qu'il n'est encore qu'un signal faible. On ne subit plus l'incident : on l'anticipe, ce qui réduit le temps de détection et de rétablissement.

Quelle est la différence entre supervision et infogérance ?

La supervision est la fonction de surveillance et de détection : voir et alerter. L'infogérance est l'externalisation de l'exploitation complète du système d'information : surveiller, mais aussi maintenir, mettre à jour, faire évoluer, sécuriser et gérer les incidents de bout en bout. La supervision est donc un composant de l'infogérance, son système nerveux. On peut acheter une supervision seule, ou une infogérance complète qui l'inclut.

Quels indicateurs (KPI) faut-il superviser dans le cloud ?

Les principaux KPI sont : la disponibilité (uptime, exprimée en « neuf »), la latence (en percentiles p95/p99 plutôt qu'en moyenne), le débit (throughput), le taux d'erreur (erreurs HTTP 5xx), la santé des ressources (CPU, mémoire, disque, files d'attente, fraîcheur des sauvegardes, expiration des certificats), et enfin le MTTD (temps moyen de détection) et le MTTR (temps moyen de rétablissement), qui mesurent l'efficacité de la supervision elle-même.

Comment superviser une architecture multicloud ou hybride (AWS et Azure) ?

On combine les outils natifs de chaque plateforme (Azure Monitor, CloudWatch) avec une couche transverse qui unifie la vue : Grafana pour la visualisation consolidée, ou Datadog pour une plateforme SaaS complète. Le défi n'est pas l'outillage, il existe, mais l'unification : corréler des alertes venant de sources hétérogènes, éviter les angles morts à la jonction des environnements (notamment la connectivité hybride via VPN, ExpressRoute ou Direct Connect), et présenter une vue de service unique. L'indépendance Azure/AWS du prestataire est ici un atout décisif.

La supervision 24/7 couvre-t-elle aussi la cybersécurité ?

La supervision de disponibilité (NOC) capte certains signaux de sécurité, dérives de configuration, expirations de certificats, accès anormaux, mais la cybersurveillance complète relève du SOC (ou d'un micro-SOC pour les PME/ETI), avec des outils dédiés (SIEM, Microsoft Defender for Cloud, EDR/XDR). Les deux fonctions sont complémentaires : un incident peut commencer comme une dégradation de performance et se révéler être une attaque. Une supervision moderne intègre des passerelles entre disponibilité et sécurité, sans confondre les deux métiers.

Comment garantir la conformité (HDS, DORA, ISO 27001) de la supervision ?

La conformité se conçoit dans l'architecture de supervision dès le départ. Pour la santé, la supervision et la conservation des logs s'effectuent chez un hébergeur certifié HDS (la certification vise l'hébergeur, pas votre configuration). Pour la finance et l'assurance, DORA impose une détection et une notification d'incidents documentées, auditables, et la réversibilité. La démarche ISO 27001 structure la journalisation et la gestion des incidents de sécurité ; le RGPD encadre la conservation des logs et la relation responsable de traitement / sous-traitant. Les architectures conçues par les prestataires du réseau sont conformes RGPD et leur exploitation s'inscrit dans une démarche ISO 27001.

Qui traite réellement les alertes la nuit et le week-end ?

C'est la question décisive à poser à tout prestataire. Une supervision 24/7 honnête précise ce qui se passe concrètement à 3 h du matin : quelles alertes déclenchent une intervention humaine (équipe en présence ou astreinte engagée), lesquelles sont traitées par automatisme (auto-remédiation pour les actions sûres et réversibles), sous quel délai d'acquittement, et quelle escalade si le premier niveau ne répond pas. Si la réponse est « l'alerte est enregistrée et traitée le lendemain », ce n'est pas du 24/7 réel : c'est du monitoring avec un tableau de bord ouvert en permanence. Exigez le scénario nocturne complet et la chaîne d'astreinte.

À lire aussi : Infogérance & exploitation 24/7

Infogérance cloud en entreprise Découvrir MCO cloud (maintien en conditions opérationnelles) Découvrir