Un simple incident qui survient dans un SI peut avoir un impact majeur sur le fonctionnement d’une entreprise. Par exemple, au sein d’une compagnie aérienne, des pannes mineures liées à l’IT peuvent engendrer une annulation des vols. L’organisation accuse un coût important, de l’ordre de plusieurs millions de dollars, et doit répondre à l’insatisfaction du client. De telles défaillances sont à éviter. Les outils de monitoring exploitant le Machine Learning sont capables de traiter d’énormes quantités de données. Les algorithmes permettent d’identifier et de résoudre les problèmes avant que ceux-ci n’aient un impact négatif sur les revenus et la réputation d’une entreprise.
Pour Moe Fardoost, directeur senior du marketing produit Oracle Management Cloud, la démarche logique à adopter pour une entreprise est d’intégrer des outils de monitoring exploitant le Machine Learning et le traitement du Big Data. Les solutions d’IT Management nouvelle génération dotées de Machine Learning apprennent de manière exponentielle au fur et à mesure qu’il reçoit des données. Les algorithmes différencient les opérations d’un comportement normal de celles d’un comportement anormal. Lorsqu’une activité suspecte est détectée, une alerte est générée afin que l’équipe IT prenne des mesures correctives ou règle automatiquement l’incident.
Le Machine Learning fait parfaitement le lien entre ces données, l’ordinateur et les programmateurs. Ces derniers écrivent des algorithmes pour que l’ordinateur apprenne en traitant des données caractérisant des données de routine. Plus le logiciel exploitant du Machine Learning traite de données, plus il apprend et, par voie de conséquence, plus il identifie avec précision les opérations au comportement normal et celle au comportement anormal. En outre, si une activité anormale est détectée avant qu’elle devienne un problème grave, le système peut prévenir l’opérateur humain afin qu’il prenne des mesures correctives ou qu’il règle automatiquement le problème.
Le Machine Learning est une valeur ajoutée à la plateforme Oracle Management Cloud Cette solution d’IT Operations Management & Analytics aide les entreprises à améliorer la stabilité de leurs systèmes informatiques et à prévenir les pannes.
Une solution intelligente
IDEA Cellular, le troisième fournisseur de télécoms en Inde, est l‘un des premiers à avoir adopté les services d’Oracle Management Cloud . Les outils de monitoring lui permettent d’identifier plus efficacement les causes des incidents grâce aux millions de métriques collectées. Prakash Paranjape, CIO d’IDEA, explique que les modules d’Oracle Management Cloud l’ont aidé à « corréler les sources des données avec les logs de plusieurs composants qui n'avaient encore jamais été analysés auparavant ».
Safexpress, société de logistique établie en Inde, utilise Oracle Management Cloud pour gérer son infrastructure IT de manière plus efficace et détecter les problèmes avant qu'ils n'affectent les clients. Sanjay Bakshi, responsable IT de l'entreprise, estime que la solution leur a permis de « détecter des problèmes comme par exemple, des transactions lentes, et de les résoudre de façon proactive et rapide ».
Anticiper les incidents
Oracle Management Cloud exploite principalement quatre modèles de Machine Learning :
Les algorithmes qui détectent les anomalies permettent d’intervenir lors d’une dégradation de performance grâce à la définition automatisée de seuils basés sur l’historique et la saisonnalité. Leur analyse permet de réduire les faux positifs, d’accélérer les dépannages mais aussi de contrer les menaces de sécurité en identifiant des comportements anormaux chez un utilisateur.
Les algorithmes de clustering identifient des modèles au sein de gigantesques volumes de données, ce qui restreint le nombre de fichiers logs à quelques lignes pertinentes. La Root Cause Analysis peut être rapidement analysée et les divergences au sein des règles de configuration et de conformité sont automatiquement détectées.
Les algorithmes de corrélation appréhendent les liens et les interconnexions entre les métriques par la connaissance de la topologie. La détection des interdépendances entre les composants, difficilement détectables par l’œil humain, est essentielle à l’amélioration de la performance des applications. Par exemple, la durée de chargement d’une page peut être liée au nombre élevé de connexions. En cas de déviation sur un modèle de corrélation, les algorithmes signalent un problème potentiel.
Les algorithmes de prédiction s’appuient sur les observations passées et le contexte actuel. Le Capacity Planning permet de prévoir les besoins en ressources à l’aide de prédictions basées sur l’historique et la saisonnalité et ainsi d’anticiper une surconsommation des ressources qui dégraderaient une performance et entraînerait une frustration chez l’utilisateur. Grâce à l’anticipation des dégradations de performance, une future violation d’un SLA ou le dépassement d’un seuil sur une baseline peut être évitée.
Grâce à l’exploitation du Machine Learning, les solutions d’IT Operations Management , permettent d’anticiper les incidents. L’auto-remédiation traite les anomalies de façon automatisée. Les équipes peuvent alors se consacrer à des tâches à plus haute valeur ajoutée et améliorer leur efficacité opérationnelle.
Comments