Fretour au sommaire de la page "Néo-marketing : techniques et outils"

LE FORAGE DE DONNÉES (DATA MINING)


Pierre CÉLIER, Professeur de l'ENSET de Mohammedia
Document mis en ligne le 26/04/2004




SOMMAIRE :
F Présentation du dataminig
F Techniques et outils du dataming
F Démarche d'implémentation des outils du datamining
F Enjeux du datamining




  
PRÉSENTATION DU DATA MINING

Le "data mining" (littéralement : "forage de données", plus significativement :"extraction de la connaissance" ou "exploitation stratégique des données") peut se définir comme "l'exploration et l'analyse de grandes quantités de données, afin de découvrir des formes et des règles significatives, en utilisant des moyens automatiques ou semi-automatiques" (M. Berry et G. Linoff).
Cette notion recouvre donc l'ensemble des nouvelles techniques et méthodes qui ont pour but d'extraire d'une masse importante de données, des informations exploitables par l'entreprise, notamment sur le plan commercial.

Le développement du data mining a été favorisé par le passage d'un marketing de masse à un marketing individualisé. En effet, les entreprises, pour personnaliser leur offre, ont eu besoin d'une connaissance de plus en plus approfondie des habitudes et comportement d'achat de leurs clients. Elles ont donc progressivement enrichies leur base de données commerciales, voire ont développé des "entrepôts de données" [1]. Or, l'exploitation efficace de ces bases de données exige, à la fois, des outils spécifiques pour en tirer des informations pertinentes et une adaptation de l'organisation de l'entreprise pour alimenter ces bases et diffuser les informations susceptibles d'en être extraites.

  
TECHNIQUES ET OUTILS DU DATAMINING

Le data mining vise notamment à faire apparaître des corrélations cachées dans des gisements de données. Les techniques les plus classiques et courantes pour détecter les relations fonctionnelles entre variables sont basées sur les méthodes de régression. Rapides et efficaces, ces méthodes trouvent néanmoins rapidement leurs limites dans le cadre d'analyse multidimensionnelle ou lorsque les relations fonctionnelles sont non linéaires.
Ceci explique l'utilisation croissante de méthodes basées sur les techniques d'analyse factorielle (Analyse en Composantes Principales, Analyse Factorielle des Correspondances, Analyse Factorielle Discriminante, etc.) et de méthodes non linéaires / probabilistes (méthode des scores, arbre de décision, réseau bayésien, algorithmes génétiques, réseaux neuronaux [2], etc.).
Le développement des logiciels de data mining s'est notamment fait sur la base de l'intégration d'algorithmes génétiques ou neuronaux (plus connus sous l'appellation d'outils d'intelligence artificielle). Ces derniers permettent d'améliorer sensiblement les approches traditionnelles d'analyse des données et d'étendre leur champ d'application aux relations non linéaires entre données "bruités". Bien que relativement opaques pour les non spécialistes, l'interprétation de leurs résultats peut être facilitée par une la présentation sous forme d'arbre de décision. Ils s'avèrent, toutefois, coûteux, tant en terme de puissance matérielle que de temps d'exécution.

La plupart des produits logiciels du marché (Clémentine de ShowCase, AC2 d'ISoft, Statistica de StatSoft, Saxon de PMSI, Galvano de PMSI, etc.) intègrent ces différentes techniques (arbres de décision, règles d'associations, réseaux de neurones, grilles de score, etc.), voire proposent des techniques différentes ou complémentaires (classification non supervisée, prévision et/ou détection de déviations, etc.) en fonction des besoins des utilisateurs.
La qualité d'un logiciel de data mining dépend non seulement de la richesse des analyses qu'il propose, mais également de son ergonomie et de sa convivialité. Il doit, en effet, être facile d'utilisation pour les non spécialistes des méthodes statistiques et permettre un accès aisé aux entrepôts de données.


  
DÉMARCHE D'IMPLÉMENTATION DES OUTILS DE DATAMINING

Le but du data mining est de "faire parler" les données collectées par l'entreprise ou d'identifier celles qui sont nécessaires à la prise de décision. Au delà des performances des outils utilisés, la pertinence des analyses menées est donc conditionnée par la qualité des données traitées. Plus celles-ci seront complètes, riches, structurées et actualisées, plus la valeur ajoutée des connaissances qui en seront tirées sera importante.
Par ailleurs, les résultats des traitements réalisés doivent être non seulement disponibles, mais également distribués d'une manière efficace pour la prise de décision.
L'efficacité globale d'un système de data mining dépend donc directement du mode d'organisation de l'entreprise dans laquelle il est implanté et, plus particulièrement, de son système de circulation de l'information.
L'accès à l'information est souvent structurant pour les organisations et la mise en oeuvre d'un système décisionnel performant nécessite de réfléchir à son impact sur les rôles et responsabilités de l'ensemble des acteurs de l'entreprise. Une adaptation, sinon une refonte totale, de l'organisation de l'entreprise est généralement nécessaires lors de la mise en place d'un tel système. L'objectif est de se rapprocher du modèle de l'entreprise en réseau, structurée autour d'une base de données partagée et alimentée en temps réel par tous les services.

La base de données clients doit, bien entendu, être conçue en fonction des objectifs stratégiques de l'entreprise (acquisition de nouveaux clients, croissance de la valeur des clients, fidélisation de la clientèle actuelle, reconquête de clients perdus, etc.).
Sa mise en place nécessite la définition d'un langage commun à l'ensemble des services de l'entreprise, afin de rendre possible une agrégation et une mise en cohérence de toutes les informations clients disponibles. Ceci permet d'obtenir une vision "transversale" des clients (dans laquelle toutes les composantes de leur comportement vis-à-vis de l'entreprise seront appréhendées) et de faciliter l'évaluation de la valeur de chacun d'eux pour l'entreprise.

Le  mode d'exploitation de cette base de données peut se définir à partir d'une une déclinaison des objectifs stratégiques en objectifs métier, puis en besoins détaillés et en fonctions techniques, afin d'arriver à une analyse détaillée des processus concernés et des données nécessaires. Pour chaque fonction technique, sera alors choisi la technique d'analyse (data mining) permettant de l'implémenter. Cette démarche permet de s'assurer que ce sont donc bien les objectifs stratégiques qui guident le choix des analyses techniques, en fonction des données disponibles.


  
ENJEUX DU DATAMINING

Le data mining représente une avancée technologique majeure, qui permet aux entreprises d'exploiter le volume croissant de données dont elles disposent sur leurs clients (le groupe de distribution Sears aurait ainsi exploité, en 2003, plus d'un milliard de données par jour), dans la perspective d'améliorer leur connaissance de ces derniers et d'adapter leurs actions commerciales à leurs attentes.
Ses applications concrètes sont multiples :
- meilleure compréhension de la relation au client (évaluation des causes et seuils de satisfaction/insatisfaction),
- prédictions du comportement des consommateurs (anticipation des besoins futurs d'un client en fonction de ses achats actuels ou de son cycle de vie familial),
- diminution des coûts d'acquisition des clients (offre adaptée en fonction des différentes combinaisons possibles des variables personnelles du prospect),
- évaluation de la valeur actualisée d'un client (actualisation de l'ensemble des profits attendus d'un client suivant son profil),
- rentabilisation des opérations de marketing direct (détermination parmi les clients actuels, de ceux susceptibles d'être intéressés par tel ou tel catalogue spécialisé, en fonction de leur historique d'achat),
- etc.

La capacité de traitement qu'offre le data mining confère aux entreprises qui l'utilise une réactivité croissante, qui peut s'avérer un avantage concurrentiel déterminant dans un contexte très concurrentiel.
Ainsi, les observateurs expliquent le succès de Wal-Mart dans sa lutte contre Kmart (ex-leader de la distribution aux USA, placé sous la protection du chapitre 11 de la loi américaine sur les faillites depuis le 22/01/2002), par l'efficacité de son système d'information (les données saisies au niveau des caisses enregistreuses pilotent, entemps réel, l'ensemble du processus logistique et d'approvisionnement de ses fournisseurs) et, plus particulièrement, de sa data warehouse (200 Térabits de données stockées en 2002, soit 25 fois plus que la plus grande bibliothèque du monde) qui lui permet, grâce à un stockage, classement et analyse de toutes les transactions de tous ses points de vente, de lui donner les moyens de comprendre et d'anticiper le comportement de ses clients.

Notons toutefois, que les entreprises doivent veiller à ce que l'exploitation des données collectées ne porte pas atteinte à la vie privée de leurs clients/prospects. Dans le cas contraire, elles risqueraient de provoquer des effets contraires aux objectif poursuivis et de tarir les sources alimentant leur base de données.





_____________________________________

  [1] Entrepôt de données (data warehouse) : stockage intermédiaire des données issues des applications de production, dans lesquelles les utilisateurs finaux puisent avec des outils de restitution et d'analyse. Concrètrement, il s'agit d'une collection de données thématiques (c'est à dire orientées sujet : les informations sont assemblées par thème, contrairement aux modèlisations traditionnelles qui regroupent les informations par fonction, ce qui permet de passer d'une vision verticale de l'entreprise à une vision transversale, beaucoup plus riche), intégrées (ce qui suppose une forte normalisation des données et une bonne structuration du système d'information), non volatiles (afin de conserver une traçabilité des informations et des décisions prises, les données introduites dans le data warehouse ne peuvent être ni altérées, ni modifiées, ni supprimées, elles deviennent partie intégrante de l'historique de l'entreprise... Ainsi, deux requêtes identiques, lancées à plusieurs mois d'intervalle, donneront donc le même résultat), et historisées (actualisation de la base à chaque nouvelle transaction, sans perte des données historiques), organisées pour le support d'un processus d'aide à la décision).
Un entrepôt de données suppose donc le recours à des moyens informatiques permettant de collecter des données disparates (plusieurs millions d'informations de niveaux de détail différent, en provenance d'une multitude de sources, aussi bien internes qu'externes), de les "nettoyer" (pour ne conserver que les informations fiables, cohérentes et pertinentes), de les mettre en cohérence (harmonisation des formats et nomenclatures, "historisation" par ordre chronologique), de les organiser au mieux au regard des axes d'analyse souhaités et, enfin, de mettre en oeuvre les divers outils nécessaires à leur analyse.
On appelle magasin de donnée (data mart) un sous-ensemble de l'entrepôt de données, qui ne contient que les informations liées à un "métier" de l'entreprise (c'est à dire un ensemble de tâches homogènes au sein de l'entreprise ou de l'un de ses départements - par exemple, au sein du département commercial, il est possible de distinguer les métiers SAV, services consommateurs, force de vente, etc.), alors que le data wharehouse contient toutes les données décisionnelles de l'entreprise pour tous les métiers. Plus "profilé" que ce dernier, il contient des informations plus ciblées et de haute qualité (parfois de niveau critique) destinées à servir de support à la décision dans un domaine précis (marketing, finances, production, ventes, etc.)
Le datamart est nécessairement relié au data warehouse qui le "nourrit" et les informations qu'il contient peuvent avoir été générées avec des données issues de basse de production autres que celles relevant du métier en question.

  [2] Les réseaux de neurones sont considérés comme des "classificateurs universels", ils permettent, notamment, la résolution de problèmes de modélisation ou de classification linéaire.
Mathématiquement, un réseau neuromimétique est un graphe pondéré orienté, dont les sommets sont appelés "neurones" et sont dotés d'un comportement d'automate simple. L'état du réseau est caractérisé par la valeur d'Activation de chacun des "N" neurones.
Le nombre de neurones et la structure de la matrice des poids détermine l'Architecture du réseau.  Les neurones "d'Entrée" sont représentatifs des données du problème soumis au réseau. Les neurones de "Sortie" constituent par leurs valeurs d'activation, la "Réponse" du réseau. Les neurones qui ne sont ni en entrée ni en sortie sont par définition les neurones "Cachés". L'architecture et les règles d'activation déterminent la "Dynamique" du réseau. Celle-ci peut correspondre à une simple propagation (réseaux en couche) ou à une dynamique complexe. L'évolution temporelle du réseau peut-être discrète ou continue.
L'ajout de couches intermédiaires et l'augmentation du nombre de neurones (et donc l'augmentation du nombre de connexions synaptiques) favorise les effets combinatoires. Les fonctions d'activations non linéaires et bornées permettent, dans une certaine mesure, de contourner les éventuels problèmes de multi-colinéarité liés à l'interdépendance des variables.





Sources principales  :
- "Comprendre ses clients à l'aide du data mining" E. Falque et F. Fogelman-Soulié - Les Échos, 2003
- "Data mining, outil de prédiction du comportement du consommateur" C. Frodeau - Site académique de Versailles
- "Enjeux et constitution d'un data warehouse", F. Doche - Les Échos, 2003
- "Introduction aux réseaux de neurones" - Dossier publié par le site web-datamining.net
- "Interview de C. Ciraudo, responsable du pôle datawarehouse-Nord de France au Crédit Agricole", Decisio.info - mai 2004
- "Le data mining" - Dossier I.E.C.Marketing
- "Le data warehouse", J.F. Goglin - Dossier I.E.C Marketing
- "Stocker l'information : data mart ou data warehouse", S. El Bouhali - Site : badaz.free.fr




Fretour au sommaire de la page "Néo-marketing : techniques et outils"