C’est vraiment une lecture étonnante d’un métier qui, pourtant, paraissait si terne…
Encore une fois, pour l’administrateur système, le client est au centre de la prestation, et la continuité de service doit être le plus proche possible de 100%, dans une totale transparence pour les utilisateurs ou usagers finaux. Entre monitoring temps réel issu de nombreux capteurs, KPI techniques (volumétrie, réseau, mémoire, disque, CPU…), et informations « logs » (journaux) qui sont des données écrites – ou parfois, dans certaines erreurs, non écrite ! – dans un fichier lors de tel ou tel événement, il nous revient d’aller chercher les bonnes informations aux bons endroits aux bons moments pour les recouper de manière adéquate, afin d’établir un diagnostic exact et de résoudre le problème de manière définitive. Plus loin, il faut parfois créer l’information elle-même, en déclenchant l’erreur de manière contrôlée et sécurisée, afin de pouvoir la réparer.
C’est fou de penser qu’on peut analyser et diagnostiquer des machines !
En effet. Je peux analyser toutes les informations qui passent jusqu’à intercepter les anomalies et comprendre pourquoi elles sont là, sous cette forme.
Pour cela, je peux aller extraordinairement loin dans une machine. Pour ainsi dire, dans chacun de ses recoins. Pour diagnostiquer un souci, je peux descendre jusque dans le matériel, et dans le matériel, je peux effectuer un grand nombre de tests. J’ai une vue hyper fine de tout ce qui se passe dans une machine. Je peux voir un bug complexe opérer en direct là où personne n’avait soupçonné son existence des mois durant. C’est par exemple arrivé il y a quelques mois lorsqu’un certificat SSL mondial (qui avait vingt ans de durée de vie) a expiré pour tout le monde. Ceci avait été anticipé dans les mises à jour de serveurs. Mais faute de ces mises à jour indispensables de certaines distributions de systèmes d’exploitation, certains serveurs web ont eu des soucis graves de fonctionnement. Beaucoup ont eu un mal fou à identifier la source du problème. Mais en recoupant les informations des symptômes, j’ai compris ce qui se passait tout de suite, et il n’y a pas eu de casse.
Comment as-tu fait ?
Certaines courbes montraient des ruptures spécifiques sur le monitoring. Ces spécificités, interprétées par expérience, permettent même de conseiller mes clients quant à leurs mises à jour machines, et donc d’anticiper des problèmes lourds mais réellement difficiles à détecter quand ils se produisent. Cela me permet aussi de faire des recommandations d’utilisation de certains produits ou distributions dont je sais objectivement qu’ils poseront moins de problèmes parce que leurs modules sont très rigoureux.
Ainsi, tu serais même capable de retracer la vie technologique de chacun de tes clients avec ton monitoring, si tu devais enquêter sur une panne ?
Mais oui ! C’est là où de chirurgien, je me transforme en enquêteur. Comme toujours, le client reste au centre de mes préoccupations. Une simple courbe me raconte quels sont ses usages quotidiens. Par exemple, une belle sinusoïde de consommation de puissance machine avec un pic le soir tous les jours ouvrés, et une courbe lisse le week-end, me montre ceci : chez ce client, ça commence à fonctionner le matin, quand les employés se mettent au travail. Il y a un trou le midi quand les salariés déjeunent. Puis en début d’après-midi, à nouveau une courbe montante jusqu’au soir où un gros pic en début de nuit montre que des sauvegardes automatiques se sont déclenchées. On appelle cette forme un ‘pattern’ (un motif).
Il sera donc facile, pour moi, de voir quel pic sera une anomalie dans le pattern de ce client. Un pic de puissance à midi ? Ah, il se passe quelque chose, il faut que j’aille contrôler immédiatement si c’est dû à une utilisation inopinée mais normale d’un logiciel gourmand en puissance, ou si la cause est plus grave, et je le saurai en croisant les informations.
C’est incroyable. Et tu connais les patterns de chacun de tes clients aussi bien ?
Aujourd’hui, oui, absolument. Je peux donc prévenir, ou guérir, toute panne qui serait matérialisée comme un écart graphique par rapport au pattern standard attendu des machines du client. Je peux aussi me renseigner pour savoir que ce jour-là, mon client faisait une extraction comptable sur 15 ans, d’où le pic. Mais quelqu’un qui aurait appuyé sept fois de suite sur le bouton d’extraction de ces données en croyant que ça ne se lance pas risquerait de faire planter le système. Je vais constater tout de suite cette énorme anomalie de charge sur les serveurs de bases de données. Je vais couper immédiatement les requêtes inutiles pour faire refroidir le serveur, en temps réel, et permettre que la requête désirée, unique cette fois, aille au bout. Personne n’aura vu mon intervention, ce qui est un peu frustrant – je suis homme de l’ombre, toujours. Mais si je n’avais pas agi, tout le système d’information aurait été down au petit matin. Et si cette erreur de mettre en route plusieurs fois la requête a lieu souvent, j’irai en parler pour comprendre s’il y a un souci de latence, ou d’ergonomie, ou s’il faut ajouter un texte d’explication concernant le comportement de l’appli, etc. Bref, ici encore, toujours de la proactivité, mais aussi du conseil.
Cela te permet donc d’anticiper les problèmes… Mais tu disposes d’une véritable boule de cristal !
Exact. En lisant un pattern, je verrai immédiatement qu’une machine sans cesse à 100% de ses capacités montre qu’elle est arrivée au plafond de sa puissance et qu’il faut donc l’upgrader. Cette donnée étant objective, cela donne le temps au client d’anticiper, ou de comprendre qu’il faut augmenter la puissance des machines au bon moment. Ceci occasionne de réelles économies d’échelle : on ne change que le nécessaire quand c’est nécessaire. Et on s’évite des pannes sérieuses.
Ainsi, outre le diagnostic, l’anticipation fait partie intégrante de mon métier. Par exemple, un indicateur me montrant qu’une machine est allumée sans accroc depuis 800 jours me prouve qu’elle est stable. C’est un bon point. Mais elle me montre aussi que son noyau n’a jamais été remis à jour depuis plus de deux ans, car pour cela, elle aurait dû redémarrer. Ainsi, si le type de noyau est sans faille de sécurité, aucun problème. Mais si le noyau est réputé pour avoir connu des corrections majeures, cela signifie que la mise à jour doit être faite dans les plus brefs délais car tout l’écosystème court un risque à cause de cette machine apparemment si fiable, qui ne l’est en fait plus du tout.
Je reste tout de même assez impressionné par l’écart qui existe entre la représentation qu’ont les gens de ton métier d’administrateur système, ennuyeux et froid, et la teneur de ton quotidien qui n’a rien à voir avec ça !
Tu n’es pas le seul. Nous sommes des informaticiens avant tout, avec tout ce que cela comporte de mythes, légendes et autres fausses évidences, et bien souvent la réalité qui nous concerne est éloignée de l’image que l’on renvoie.
Cette démarche de l’administrateur système, qui consiste à lier causes et effets, symptômes et problèmes, est similaire à celle d’un médecin ou d’un enquêteur de police, comme je te l’ai dit. L’expérience et l’expertise, bref, l’ingénierie, ne sont pas la facette la plus importante du métier : la puissance de déduction et d’enquête est au moins aussi fondamentale pour réussir dans ce job. C’est ce qui rend le boulot si passionnant.
Ce qui est dommage, c’est que ce cœur d’activité soit tellement méconnu et par le grand public, et par le client lui-même. J’aimerais sortir de cette image un peu froide d’ingénieur aimant les machines de manière obsessionnelle, pour regagner le statut d’homme curieux toujours à l’affût d’astuces, d’optimisations et d’amélioration. Non pour le grand bien de la santé du malade, dans mon cas, mais pour celui du confort de l’utilisateur final. Et donc pour la robustesse du ROI, malgré toutes les contraintes de budget, de technologies, de support, d’applicatifs propres à chaque client. Notre métier si anodin est en fait central, et là, je n’exagère vraiment pas.
Ainsi, vu de l’extérieur, le métier d’administrateur système a l’air simple – pour autant que puisse être simple un métier d’ingénierie. Mais en réalité, pas du tout. La connaissance profonde des comportements inattendus de machines hyper complexes dans des réseaux eux-mêmes hyper complexes et toujours spécifiques, souvent uniques, demande une bonne dose de compétences et connaissances techniques. Mais surtout une vision du monde elle-même très spéciale qui revêt un aspect un peu romanesque, un peu médical, un peu inspectorial, toujours créatif… et qui nous redonne aussi, dans le même temps, un statut de « vrais » humains qui évoluent dans un monde lui aussi nettement humanisé !…
Ceci est en pleine concordance avec le quotidien et les valeurs d’AdmanTIC où l’administrateur système occupe une place centrale, même si pas tous les jours en pleine lumière !