Ce que la Data Science peut et ne peut pas faire pour vous

23 décembre 2019

Andrea Mogini, Data Scientist chez Keyrus & Khalil El Mahrsi, Tech Lead Machine Learning & Intelligence Artificielle chez Keyrus.

Data Science, Intelligence Artificielle et Machine Learning

Apparu pour la première fois dans un article publié en 2001, le terme Data Science a pris de l’élan au début des années 2010, en même temps que (et en partie grâce à) l’engouement général qui a eu lieu autour du Big Data. Pourtant, ce terme est aujourd’hui souvent utilisé comme un buzzword générique trop vague. Décrit parfois comme “le métier le plus sexy du 21^esiècle”, il n’existe pas de commun accord ni sur les compétences qu’un data scientist doit maîtriser, ni sur les tâches qu’il doit accomplir.

La Data Science est un domaine pluridisciplinaire qui vise à valoriser les données disponibles, quelles que soient leur nature et leur volume. Cela se traduit généralement par la transformation de l’information cachée dans les données vers une forme facilitant la prise de décision. À titre d’exemple, on peut citer le développement d’indicateurs permettant d’évaluer le risque de défaillance lors de l’octroi d’un prêt, de prédire la survenance imminente d’une panne ou encore le fait d’identifier une transaction bancaire frauduleuse. Pour y parvenir, le data scientist emploie des méthodes et des outils issus notamment des mathématiques, de la statistique et de l’informatique. En particulier, le caractère central des données dans le travail du data scientist et la nécessité de traiter des volumes considérables de données rendent nécessaire le recours aux méthodes de l’Intelligence Artificielle, avec un accent sur le Machine Learning.

S’il est vrai que ces méthodes peuvent être très performantes, cela suppose le recours à une approche adaptée à la tâche à traiter. Plusieurs entreprises, sous l’effet du buzz, souhaitent mettre en œuvre des algorithmes inadaptés pour résoudre des problèmes pour lesquels d’autres méthodes “classiques” ont déjà fait leurs preuves. Le rôle du data scientist est aussi celui de déterminer l’approche la plus pertinente à la problématique posée. Le choix du mauvais outil peut être fatal : de nombreuses expérimentations de Machine Learning ont été des échecs à cause de problèmes liés aux données disponibles.

Ce que la Data Science permet de faire

Le plus grand avantage escompté par le recours à une approche de Data Science est simple : elle nous oblige à une vision quantitative. Cette considération à l’apparence triviale comporte de multiples bénéfices. Tout d’abord, cela permet de mieux définir ses objectifs, puis d’en identifier de nouveaux tout aussi pertinents ainsi que de nouvelles opportunités plus facilement. Enfin, cela permet de mesurer l’adéquation entre les solutions déployées et les problématiques traitées.

Par exemple, une banque qui souhaite se doter d’un outil de catégorisation des risques lié à l’octroi de prêts est amenée à se pencher en premier lieu sur la définition de ce risque, puis une métrique ou un score (exemple basé sur les revenus, la situation familiale, etc. du client) lui permet de le mesurer. Cette démarche offre non seulement une meilleure compréhension du problème, mais également l’identification de nouveaux objectifs stratégiques pragmatiques et « mesurables ». Il en va de même pour un vendeur qui souhaiterait évaluer les performances de ses stratégies de vente et qui serait contraint d’identifier une métrique pertinente pour en mesurer le succès.

Un autre avantage de taille du recours à la Data Science réside dans le fait qu’elle pousse à prendre des décisions ancrées dans les données et donc dans la réalité de l’entreprise. Un data scientist s’assure de l’adéquation des données exploitées au problème posé, garantissant des résultats sur mesure et de très haute qualité. De plus, il est souvent possible de mettre en place un système de feedback permettant de jauger et corriger les faiblesses éventuelles des modèles déployés à l’aide de nouvelles données recueillies à cette fin.

Enfin, et d’un point de vue moins abstrait, la Data Science est par construction adaptable à toute problématique, pourvu que des données pertinentes soient disponibles. Un projet de Data Science est taillé sur mesure par rapport aux données à exploiter et à la problématique posée. Il est possible de traiter du langage naturel, de faire de la reconnaissance d’images, de classifier des clients, de prédire une panne ou de quantifier un risque.

Ce que la Data Science ne peut pas faire

Sans grande surprise, les véritables limites de la Data Science tiennent à son inévitable dépendance aux données elles-mêmes. En effet, même si un data scientist identifiera l’inadéquation des données disponibles au traitement de la problématique que l’on envisage de résoudre, allant peut-être même jusqu’à suggérer des pistes pour trouver des données plus pertinentes, la Data Science n’est pas un moyen de produire de la donnée.

Essayer d’appliquer les enseignements tirés d’un ancien modèle de Data Science à une problématique nouvelle peut produire des effets non désirés. En effet, rappelons que tout projet de Data Science est, in fine, construit sur-mesure. Un modèle entraîné sur des crédits immobiliers sera parfaitement performant sur des nouveaux crédits de ce type, mais pourra être moins fiable s’il est appliqué à des crédits à la consommation. Ainsi, il est en général difficile de recycler un ancien modèle pour résoudre une problématique nouvelle, même si celle-ci est proche de l’original. Il sera plus prudent de développer un nouvel algorithme, les exceptions étant limitées à de rares sujets de reconnaissance d’images.

Enfin, par sa nature même, la Data Science n’est pas déterministe, mais probabiliste. Elle garantit donc de dégager des plus-values sur des échantillons suffisamment larges mais pas sur une application isolée. Cette limite pose rarement problème en pratique, mais pourrait générer des attentes irréalistes autour de l’outil en compromettant le bon déroulement du projet : il incombe alors au data scientist de communiquer efficacement avec les autres acteurs et de s’assurer que tout le monde comprenne ce que le modèle va pouvoir faire… ainsi que ce qu’il ne pourra pas faire !

Data Science, Intelligence Artificielle et Machine Learning

Ce que la Data Science permet de faire

Ce que la Data Science ne peut pas faire

Patch Tuesday décembre - Plusieurs vulnérabilités de Visual Studio sur des fonctions développeurs