BIG DATA … is flooding you !

BIG DATA … is flooding you !
Publié le Mercredi 16 février 2022

Éric Vernis
Master Black Belt

Si George Orwell était encore de ce monde, il aurait peut-être écrit cela.

Les capacités d’enregistrement, de stockage, de traitement, des données - personnelles, professionnelles - explosent. Vers quoi allons-nous ? Et pourquoi ?

En 3300 avant notre ère, en Mésopotamie, les hommes ont pour la première fois éprouvé le besoin de graver dans l’argile les informations qu’ils jugeaient importantes. S’agissait-il de poésie, de mots d’amour, de bribes d’instants qu’ils voulaient immortaliser ? Ou encore de lois, de textes à la gloire du roi, de paroles divines ?

Nullement.

Il s’agissait d’enregistrer des actes de propriété et des preuves d’acquittement d’impôts : qui possède quoi… quels bénéfices en-a-t-il retirés …. a-t-il payé son dû à l’Administration ? Ainsi est apparue la toute première banque de données au monde, avec son cortège de contraintes : il fallait pouvoir conserver l’information, être capable de la retrouver au besoin, être à même de l’exploiter. Car l’Administration est apparue en même temps, et avec elle la nécessité de former des experts - les premiers data scientists étaient Sumériens.

Aujourd’hui, en dépit de plus de 5000 ans de progrès, demeure la question fondamentale : que voulons-nous faire de nos données ?

Sous prétexte que nous sommes capables d’enregistrer automatiquement, et de stocker des téraoctets de data, devons-nous le faire ?

Le but d’une collecte de données, devrait être d’enregistrer et d’analyser des évènements afin d’en déduire des tendances et des informations utiles pour permettre au système de réagir en temps voulu.

Au plan macro-économique, lorsqu’il s’agit d’observer - non pas un processus, mais - des millions d’évènements, alors, oui, probablement, la collecte massive et l’analyse en temps réel sont une nécessité ou un avantage concurrentiel. Ainsi, de la gestion de la crise sanitaire. Ainsi, du dépouillement systématique des tickets de caisse, au niveau national dans cette enseigne de bricolage, destiné à anticiper les tendances, ajuster les stocks disponibles de sorte à vous permettre de trouver près de chez vous le salon de jardin de vos rêves, au moment où vous en avez envie. Ainsi des algorithmes qui en permanence optimisent l’emplacement des produits dans un entrepôt. Ainsi de ces applications GPS qui recalculent en temps réel le trajet optimal.

A l’échelle d’une entreprise, les choses diffèrent un peu : des processus existent, qu’il s’agit de piloter et d’améliorer. Leur digitalisation, leur interconnexion, sont un plus incontestable : combien de fois, lors de projets DMAIC, nous heurtons-nous à la difficulté de réunir les données nécessaires ? Enregistrées dans des silos, parfois sous forme manuscrite, incomplètes, entachées d’erreurs, elles s’avèrent difficiles à agréger et au final peu - ou pas - exploitables en l’état. Plus de 90% des projets Lean Six Sigma nécessitent une campagne de collecte de données spécifique !

Lors d’un projet d’amélioration, la collecte « juste nécessaire » devrait se résumer aux facteurs que les experts process (et non les data scientists) jugent impactants sur la performance du processus : parmi ceux-là, on trouve presque systématiquement, des paramètres qui ne font pas encore l’objet d’un enregistrement. Quant à ceux qui sont déjà enregistrés, on frise parfois l’overdose : à preuve, ce process de fabrication de verre flotté, dont les enregistrements – toutes les 10 secondes – saturaient en deux jours le disque dur du PC de supervision. Dans la plupart des cas, les enregistrements existants, non seulement ne sont pas exploités, mais pire : ils ne sont pas représentatifs (données non nettoyées, fréquence inadaptée, système de mesure non capable…).

Face au besoin de données, entre manque et indigestion, nous ne trouvons le plus souvent qu’une nourriture insuffisante, non pas en quantité, mais en qualité.

Comment identifier, valider, collecter, exploiter et partager les données ad-hoc ? Pour répondre à cette question, je vous invite à visionner le replay de la web-conférence "Améliorer la performance par l'analyse de données de qualité" animée par Sylvie Gallo et moi-même.


Éric Vernis
Master Black Belt

Autres articles