Page 1


Filipe AFONSO Edwin DIDAY Carole TOQUE

Data Science

par Analyse des Données Symboliques : Une nouvelle façon d’analyser les données classiques, complexes et massives à partir des classes Applications avec Syr et R

2018

Éditions TECHNIP

5 avenue de la République, 75011 PARIS


CHEZ LE MÊME ÉDITEUR

• Data Mining et Statistique décisionnelle S. TUFFÉRY

• Modélisation prédictive et apprentissage statistique avec R S. TUFFÉRY

• Étude de cas en statistique décisionnelle S. TUFFÉRY

• Probabilités, analyse des données et statistique G. SAPORTA

• Les techniques de sondage P. ARDILLY

• Économie générale O. HUEBER

• Approche pragmatique de la classification J.P. NAKACHE, J. CONFAIS

• Statistique explicative appliquée J.P. NAKACHE, J. CONFAIS

• Modèles statistiques pour données qualitatives J.-J. DROESBEKE, M. LEJEUNE, G. SAPORTA, Eds.

• Plans d’expériences. Applications à l’entreprise J.-J. DROESBEKE, J. FINE, G. SAPORTA, Eds.

• Méthodes bayésiennes en statistique

J.-J. DROESBEKE, J. FINE, G. SAPORTA, Eds.

• Approches non paramétriques en régression J.-J. DROESBEKE, G. SAPORTA, Eds.

• Analyse statistique des données spatiales

J.-J. DROESBEKE, M. LEJEUNE, G. SAPORTA, Eds.

Tous droits de traduction, de reproduction et d’adaptation réservés pour tous pays. Toute représentation, reproduction intégrale ou partielle faite par quelque procédé que ce soit, sans le consentement de l’auteur ou de ses ayants cause, est illicite et constitue une contrefaçon sanctionnée par les articles 425 et suivants du Code pénal. Par ailleurs, la loi du 11 mars 1957 interdit formellement les copies ou les reproductions destinées à une utilisation collective.

© Éditions Technip, Paris, 2018 ISBN 978-2-7108-1181-7


Avant-propos Les données massives et complexes (non-structurées, multisources) sont désormais disponibles dans la plupart des secteurs de l’activité humaine. En extraire des informations utiles est devenu indispensable. Il ne s’agit plus simplement d’analyser un tableau rectangulaire unique de données multidimensionnelles où des unités statistiques sont décrites par des variables numériques et qualitatives. Au contraire, on se trouve confronté à des tables multiples munies de variables non-appariées (i.e. définies sur des unités statistiques différentes). Cet ouvrage s’adresse à tous ceux qui sont mis face à de telles données mais il peut aussi apporter des solutions nouvelles dans le cas de données classiques. Ainsi, tous les praticiens, scientifiques et étudiants de toutes disciplines qui veulent analyser des données trouveront dans cet ouvrage des méthodes et outils complémentaires à ceux des traitements classiques de l’Analyse des données et du Data Mining, ou plus généralement de ce que l’on appelle maintenant la « Science des Données ». En Science des Données, les classes d’individus constituent un pivot incontournable. Le plus souvent, ces classes sont fournies par les utilisateurs dans un but d’extraction de règles de décisions issues d’un processus d’apprentissage, ou bien elles sont issues d’un processus de classification automatique. L’Analyse des Données Symboliques (ADS) adopte un troisième point de vue en s'intéressant à la description de ces classes pour extraire des connaissances nouvelles liées à ces descriptions. Différemment des approches classiques, afin de perdre moins d’information, on ne va pas décrire les classes d'individus par des moyennes ou des médianes comme cela est trop souvent fait, mais par des symboles qui tiennent compte de la variation des données à l’intérieur des classes. Ces symboles peuvent être des intervalles, des histogrammes, des suites de valeurs pondérées, etc. que l’on ne peut manipuler


VI

Avant-propos

comme s’il s’agissait de données numériques ou qualitatives (au risque de perdre toute l’information qu’elles contiennent). Différemment encore, les unités statistiques qui nous intéressent sont de plus haut niveau que les individus car ce sont des classes d'individus. Cela présente au moins trois avantages, d’abord on peut ainsi étudier des unités statistiques au niveau de généralité désiré par l’utilisateur comme par exemple, des villes ou des régions au lieu d’étudier leurs habitants (trop souvent, on voit des praticiens s’évertuer à analyser uniquement les individus alors que manifestement ce sont les classes qui les intéressent le plus). Ensuite, cela permet de fusionner des données initiales nonstructurées avec des variables non appariées en un tableau de données structurées avec des variables à valeur symbolique appariée. Enfin, cela permet de réduire la taille des données. Ainsi, l’ADS apporte des solutions nouvelles, non seulement dans le cas de données classiques mais aussi quand on est confronté à des données complexes et massives. D'un point de vue méthodologique, l'ADS commence par construire les symboles pour décrire les classes. On obtient ainsi un tableau rectangulaire dont les unités statistiques sont ces classes et dont les variables ont pour valeur ces symboles. L’étape suivante consiste à analyser ce tableau de données symboliques par différentes méthodes appropriées à ce nouveau type de tableau. Certaines de ces méthodes sont propres à l’ADS, d’autres consistent à généraliser, à des données symboliques, les méthodes classiques existantes comme l’Analyse factorielle ou la Classification automatique, l’extraction de règles, les arbres de décisions, etc. Ce livre est une introduction à l'Analyse des données symboliques et ne contient qu’un aperçu des travaux réalisés dans ce domaine en pleine expansion. Des premières bases théoriques sont données pour un enseignement de l'ADS et il est illustré par de nombreuses applications. Une première partie est consacrée au passage des données classiques aux données symboliques. Puis, des statistiques descriptives, des indices de proximité sans lesquels il est impossible de comparer les descriptions symboliques entre elles,


Avant-propos

VII

un volet spécifique « Big Data » pour construire de façon optimale des histogrammes, des méthodes non supervisées et supervisées adaptées aux données symboliques sont présentés. Des statistiques prévisionnelles adaptées aux données de type intervalle sont ajoutées. Les applications dont il est question dans ce livre sont le résultat d'une fructueuse collaboration avec des industriels et des organismes de Recherche dont certains que nous souhaitons citer : Aéroports de Paris, Air France, Air Liquide, ANSES, Biomérieux, Cofinoga, Crédit Agricole, DHL, EDF, ENGIE, FNAC, GRTGaz, IBOPE média, IFSTTAR, INRA, Lunalogic, RTE, SNCF, Sixense, TIGF. Dans ce livre, nous avons plus particulièrement voulu partager avec les lecteurs des collaborations avec l’Ifsttar dans le cadre du Projet national S3 (Surveillance de santé structurale des ouvrages) et de l’ANR APPLET (Durée de vie des ouvrages : Approche Prédictive Performantielle et Probabiliste), la société SIXENSE systems - ADVITAM responsable du projet FUI SIPRIS (Systèmes Intelligents pour la Prévention des Risques Structurels), les équipes de la Division Technique Générale (DPIH–DTG) d’EDF à Lyon sur la surveillance de leurs structures, le service de Biostatistiques et Information Médicales du CHU de Dijon dans le cadre du projet ANR TRAJCAN (Étude des parcours de soins des patients de la région Bourgogne) ; et l’université d’Helsinki dans le cadre de l’analyse de l’enquête de l’European Social Survey (ESS). Ce livre se veut aussi pratique en proposant des exercices et des applications concrètes mis en oeuvre avec les logiciels R (https://cran.r-project.org/), et Syr (www.symbolicdata.com). Nous remercions Mme Raja Haddad pour son aide précieuse dans la rédaction de la section inspirée de la partie « Big Data » de sa thèse réalisée sous la direction du Pr W. Litwin ainsi que tous les doctorants qui ont réalisé les thèses que nous avons citées. Nous remercions l’ensemble des relecteurs de ce livre pour leur disponibilité et leur expertise : Mme Stéphanie Bougeard (ANSES), M. Jules de Tibeiro (Université de Moncton), M. Antonio Irpino (Université de Campania) et Mme Virginie Terraza (Université du Luxembourg).


VIII

Avant-propos

Enfin, nous voudrions remercier tous les collègues chercheurs ou professeurs dont les travaux tout au long de ces années nous ont inspirés dans la rédaction de ce livre. En particulier, nous remercions tous les collaborateurs du projet européen SODAS.


Table des matières Avant-propos ............................................................................................ V Table des matières ................................................................................. 1 Introduction générale ........................................................................... 7 1. Des données classiques aux données symboliques.............. 11 1.1 Des individus aux classes................................................................... 11 1.2 Des variables classiques aux variables symboliques .............. 14 1.3 Processus d’agrégation et variables symboliques associées................................................................................................... 22 1.4 Formalisation de quelques variables symboliques ................. 27 1.4.1 Les variables multivaluées .................................................28 1.4.2 Les variables à valeur intervalle.......................................28 1.4.3 Les variables catégorielles multivaluées ......................29 1.4.4 Les variables modales ..........................................................30 1.4.5 Les variables à valeur histogramme ...............................30 1.4.6 Les variables à valeur diagramme de fréquences .....31 1.5 Des variables classiques non appariées aux variables symboliques : le cas des données complexes............................. 31 1.6 Intérêt de la description de classes par des données symboliques ............................................................................................ 33 1.7 Quelques principes de base .............................................................. 36 1.7.1 Classes considérées comme objets à décrire selon ses différentes facettes .............................................36 1.7.2 La prise en compte de la variabilité interne aux classes .........................................................................................36 1.7.3 Dans l’interprétation, bien différencier les effets des causes..................................................................................37 1.7.4 Le principe de généralisation ............................................38 1.8 Quels sont les domaines d'application privilégiés de l'ADS ? .................................................................................................. 38 2. Analyse descriptive pour des variables symboliques ......... 41 2.1 Statistiques élémentaires pour les variables à valeur intervalle .................................................................................................. 42


2 2.2 2.3

Table des matières Statistiques élémentaires pour les variables à valeur histogramme ........................................................................................... 45 Calcul automatique d'histogrammes discriminants pour les classes ...................................................................................... 48 2.3.1 Discrétisation pour une variable continue et algorithme de Fisher .............................................................50 2.3.2 Qu’est-ce que la discrimination entre classes ? ..........54 2.3.3 Une solution optimale : la méthode HistSyr ................55 2.3.4 Une extension d'HistSyr au Big Data ..............................57

3. Indices de proximité........................................................................ 75 3.1 Dissimilarité pour une variable....................................................... 76 3.1.1 Cas multivalué (Hausdorff, Minkowsky, Jaccard et Ichino) ........................................................................................76 3.1.2 Cas modal (L2 et Hellinger) ................................................78 3.2 Dissimilarité entre plusieurs variables ........................................ 79 3.3 La distance de Wasserstein............................................................... 80 4. Classification automatique ........................................................... 83 4.1 K-means et nuées dynamiques ........................................................ 84 4.2 La décomposition de mélange par partitions (MND) ou par partition floue (EM) ............................................................................. 87 4.2.1 Par la Méthode des Nuées Dynamiques (MND) .........87 4.2.2 Par l’algorithme d’Estimation-Maximisation (EM) ...87 4.2.3 Construction d’un tableau de données symboliques post Nuées dynamiques ou EM .........................................89 4.3 Une extension de la méthode des nuées dynamiques aux données symboliques.......................................................................... 92 4.3.1 Un choix de représentation d’une classe dans le cas de données symboliques .....................................................92 4.3.2 Critère d'affectation dans le cas symbolique où les noyaux sont des prototypes ...............................................93 4.3.3 Exemple .....................................................................................95 5. ACP étendue aux données symboliques ................................... 99 5.1 Technique « classique » ................................................................... 100 5.2 Méthodes pour les variables à valeur intervalle.................... 105 5.2.1 Technique par les centres ................................................ 106 5.2.2 Technique par les sommets ............................................ 107 5.2.3 Technique par les centres et les rayons ..................... 109


Table des matières

5.3

3

5.2.4 Technique par les fonctions de variance-covariance symboliques ................................ 113 Méthodes pour les variables à valeur histogramme ............ 117 5.3.1 Technique par les variables « catégories », « globales » et « quadrants » ........................................... 118 5.3.2 Technique par les moyennes après codage des catégories ............................................................................... 126

6. Extension des règles d'association .......................................... 133 6.1 Règles d'association classiques et algorithmes d'extractions ........................................................................................ 134 6.1.1 L'algorithme Apriori pour l'extraction de règles d'association classiques.................................................... 134 6.1.2 Extension des règles d'association classiques dans la littérature ................................................................ 139 6.2 Algorithme Apriori, règles d’association et données symboliques ......................................................................................... 143 6.2.1 Entrée de notre algorithme : un tableau de données symboliques .................................................. 143 6.2.2 Objets symboliques et règles d'association symboliques .......................................................................... 145 6.2.3 Définitions du support et de la confiance dans le cas de nos données symboliques.............................. 147 6.2.4 Algorithme Apriori symbolique (SApriori) ............... 154 6.3 Règles d'association classiques versus symboliques........... 164 6.4 Complémentarité des règles d'association classiques et symboliques ......................................................................................... 167 7. Arbre de décision .......................................................................... 175 7.1 Description d’un arbre de décision classique ......................... 175 7.1.1 Les variables explicatives / à expliquer ..................... 177 7.1.2 Les nœuds terminaux / non terminaux...................... 177 7.1.3 Ensembles d'apprentissage / de test........................... 178 7.1.4 Entrées / sorties d'un arbre de décision .................... 178 7.1.5 Construction et élagage d'un arbre .............................. 179 7.2 Extension des arbres de décision aux données symboliques ......................................................................................... 182 7.2.1 Les méthodes symboliques ............................................. 182


4

7.3

Table des matières 7.2.2 Les arbres de décision étendus aux données symboliques avec la methode SyrTree ....................... 185 7.2.3 Cas où la variable à expliquer est la classe (ou objet) symbolique ....................................................... 185 7.2.4 Cas où la variable à expliquer est une variable histogramme ......................................................................... 191 Exemple illustratif ............................................................................. 193

8. Prévision de données symboliques......................................... 199 8.1 Régression linéaire à valeur intervalle...................................... 199 8.1.1 Méthode classique .............................................................. 200 8.1.2 Méthode par les centres des intervalles..................... 202 8.1.3 Méthodes par les centres et les étendues des intervalles : cadre univarié et bivarié ......................... 203 8.1.4 Méthode par les fonctions de variance-covariance symboliques .......................................................................... 206 8.1.5 Comparaison des méthodes ............................................ 208 8.2 Régressions linéaires pénalisées à valeur intervalle ........... 209 8.2.1 Régressions « ridge », « lasso » et « elastic standard » ........................................................ 209 8.2.2 Régressions pénalisées pour les intervalles ............. 211 8.3 Séries temporelles à valeur intervalle ....................................... 215 8.3.1 Cas classique et stationnaire (linéaire et non linéaire) : rappels ................................................................ 215 8.3.2 Méthodes symboliques : cadre stationnaire ............. 226 8.3.3 Méthode symbolique par les k plus proches voisins : cas non stationnaire ......................................... 229 8.3.4 Comparaison des méthodes ............................................ 230 9. Exercices d’application avec R et Syr...................................... 231 9.1 Variabilité externe pour des données en finance de type intervalle ............................................................................... 231 9.2 Statistiques descriptives sur des données en finance de type intervalle ............................................................................... 235 9.3 ACP sur les cours « Lehman Brothers » de type intervalle ............................................................................... 240 9.4 ACP sur les cours « Lehman Brothers » de type histogramme........................................................................ 252 9.5 Distance de Wasserstein sur les données de prismes ......... 257


Table des matières 9.6 9.7

5

Régression sur intervalles pour les cours « Lehman Brothers » ............................................................................................. 263 Prévision journalière et par intervalle des cours « Lehman Brothers » ........................................................................ 277

10. Applications avec Syr et R ........................................................ 293 10.1 Étude de la dégradation des tours de refroidissement des centrales nucléaires EDF ................................................................ 293 10.1.1 Les mesures de surveillance de la dégradation des tours de refroidissement .................................................. 294 10.1.2 Étude de la dégradation des tours et comparaison des tours entre elles ........................................................... 296 10.1.3 Conclusion.............................................................................. 305 10.2 Étude de l’influence des conditions environnementales sur la corrosion du béton armé .................................................... 306 10.2.1 Programme expérimental ................................................ 306 10.2.2 Données symboliques et nouveaux seuils de corrosion ................................................................................ 309 10.2.3 Proximités entre agressions : l’exemple de la variable Ecorr ....................................................................... 316 10.2.4 Résultats sur les corrélations entre Icorr et Ecorr, et entre Icorr et Re ................................................ 319 10.3 Classification et arbre de décision pour les trajectoires de prise en charge des patients atteints d’un cancer du colo-rectum .......................................................................................... 321 10.3.1 Données .................................................................................. 322 10.3.2 Résultats ................................................................................. 325 10.3.3 Bilan.......................................................................................... 328 10.3.4 Conclusion.............................................................................. 329 10.4 Extraction de thématiques sur un corpus de documents issus d'appels téléphoniques ........................................................ 331 10.4.1 Présentation des données initiales .............................. 331 10.4.2 Objectifs de l’étude et stratégie de résolution ......... 332 10.4.3 Construction, visualisation et classification des tableaux de données .......................................................... 334 10.4.4 Sélection automatique des mots d’intérêt ................. 337 10.4.5 Conclusion.............................................................................. 339


6

Table des matières

10.5 « Symbolic covariance ACP » et régression sur des données de type intervalle en épidémiologie vétérinaire . 340 10.5.1 Données .................................................................................. 340 10.5.2 Statistiques pour variables à valeur intervalle ........ 342 10.5.3 Résultats de la « Symbolic Covariance PCA » ........... 343 10.5.4 Résultats de la « Symbolic Covariance Regression » ........................... 346 10.5.5 Conclusion.............................................................................. 347 10.6 Mesures de Value at Risk à valeur histogramme : une approche symbolique pour l'attribution du risque .............. 348 10.6.1 À propos des fonds alternatifs et des mesures de VaR ...................................................................................... 348 10.6.2 Traitements sur les données .......................................... 349 10.6.3 Résultats de l’ACP par les variables « globales » et « catégories » ................................................................... 352 10.6.4 Résultats de la classification par nuées dynamiques ........................................................................... 355 10.6.5 Conclusion.............................................................................. 360 10.7 Analyse des données de capteurs (Big Data) .......................... 361 10.7.1 Présentation des données initiales .............................. 361 10.7.2 Recherche des histogrammes les plus discriminants avec CloudHistSyr .................................. 362 Conclusion ............................................................................................ 373 Annexe 1 : le logiciel SYR ................................................................. 375 Annexe 2 : des modules de R pour l'ADS .................................... 385 Annexe 3 : des pistes de recherche et de développement ... 409 Bibliographie ....................................................................................... 419


Introduction générale En Science des Données, l’objectif est d’extraire des connaissances de bases de données souvent massives et complexes comme des données non structurées et avec des variables non appariées (i.e. non définies sur les mêmes unités statistiques). La numérisation croissante de notre société alimente entre autres des bases de données ouvertes (« Open Data »), de taille grandissante (« Big Data »). Ces données sont souvent complexes mais peuvent être une source d'information complémentaire importante à condition qu’elles soient exploitées avec des méthodes d’analyse adaptées. Les classes constituent souvent un pivot central incontournable de l’analyse. Ces classes obtenues par apprentissage non-supervisé permettent d’obtenir une vue concise et structurée des données, en apprentissage supervisé elles permettent de fournir des règles de décision efficaces. Une troisième voie (celle de l'ADS) consiste à les décrire sous toute forme d'expressions prenant en compte leur variabilité interne et permettant de les étudier dans un cadre explicatif adéquat. C’est ainsi que par exemple, les INS (Instituts Nationaux de Statistiques) décrivent les régions par des vecteurs d’histogrammes, de diagrammes en bâtons, d’intervalles etc. À la base, on dispose d’une ou plusieurs populations initiales, formées d’entités décrites par des variables classiques à valeur unique numérique ou qualitative. Ces populations initiales peuvent être formées d’unités statistiques considérées comme représentatives de populations plus complètes. Elles peuvent aussi être exhaustives ou être issues d’une ou plusieurs bases de données qui existaient déjà pour différents usages, avant de penser à en extraire des connaissances nouvelles. Les « classes » dont il est question tout au long de ce livre sont des sousensembles des différentes populations initiales. En Analyse des Données Symboliques, ces classes sont considérées comme des unités d’étude de plus haut niveau. Quel est l’intérêt d’étudier des classes plutôt que les individus


8

Introduction générale

qui les composent ? Quand la masse des données devient importante, une idée naturelle est de réduire leur taille en étudiant des regroupements en classes d’individus. Ces regroupements ne sont pas à confondre avec la notion d'échantillon qui appartient à la statistique des sondages. Les classes évoquées sont les réelles unités d'intérêt des experts du domaine étudié sur lesquelles toute notre analyse va porter. Par exemple, les transactions constituent une entité individuelle largement étudiée en marketing, mais les classes de transactions associées à chaque client dans une période donnée peuvent aussi être considérées comme des unités d’étude intéressantes et pas seulement dans un but de réduction de la taille des données Pour exprimer la variabilité des individus de chacune de ces classes, on est amené à décrire les classes par des intervalles, des histogrammes, des suites de valeurs etc. On obtient ainsi de nouvelles données dites « symboliques » puisque ces données ne sont pas proprement dites « numériques » puisqu'elles ne sont pas réductibles à des nombres. Par exemple, l’ordre naturel des nombres ne s’applique pas aux intervalles. De plus, si l’on désirait ramener des intervalles à des nombres (en leur associant par exemple, leur milieu, leur min ou leur max), on perdrait beaucoup d’informations. Ainsi, les données symboliques sont construites pour décrire des classes d’individus à partir de données observées sur des individus. De cette façon, à partir d’un tableau de données classiques où un ensemble d’individus est décrit par des variables classiques (qualitatives ou quantitatives), on aboutit à un « tableau de données symboliques » où les unités sont des classes et les variables sont à valeur symbolique. Depuis les premiers articles de Diday (1987 et 1989), Gowda & Diday (1994), Diday (1995), la théorie et la pratique de l’ADS ont donné lieu à plusieurs ouvrages de synthèse : Bock & Diday (2000), Billard & Diday (2006), Diday & Noirhomme (2008) ainsi qu’à des articles de synthèse : Billard & Diday (2006), Noirhomme & Brito (2012) et Diday (2016). Dans des journaux internationaux, des numéros spéciaux concernent l’ADS : The ASA Data Science Journal (Wiley) edité par Billard (2011), RNTI édité par Guan et al. (2013), ADAC édité par Brito et al. (2015), IEEE


Introduction générale

9

Man and Cybernetic édité par Su et al. (2016) avec pour titre « Granular/Symbolic data processing », etc.

Description introductive des chapitres Pour mener à bien une étude qui utilise l’Analyse des Données Symboliques, deux grandes étapes sont incontournables. La première a pour but de construire les données symboliques à partir de données classiques, souvent complexes et volumineuses, en utilisant des techniques et outils propres à l’ADS. La seconde grande étape consiste à appliquer sur les données symboliques d’autres méthodes de l’ADS et outils s’y rapportant pour obtenir de nouvelles connaissances. Autrement dit, on construit d’abord les données symboliques et on les analyse ensuite. C’est dans ce cadre que notre ouvrage introduit l’ADS. Dans la première partie de l’ouvrage, nous expliquons comment passer des données classiques aux données symboliques en tenant compte des différents types de variabilité internes aux classes. Par exemple, une classe ne sera pas décrite par une moyenne ou une médiane mais par un intervalle ou un histogramme. On passe ainsi d'un tableau de données classiques décrivant les individus à un tableau de données dites symboliques décrivant les classes. Ensuite, nous discutons de l'intérêt de décrire les classes par des données symboliques, puis quelques principes de base sont donnés ainsi que quelques domaines d'applications actuellement privilégiés de l'ADS. Dans la seconde partie du livre, nous présentons quelques statistiques descriptives pour les variables à valeur intervalle et histogramme ainsi qu’une méthode de discrétisation supervisée étendue aux données massives (Big Data) qui permet de construire automatiquement des variables à valeur histogramme. Dans une troisième partie, des indices de proximité sont définis sans lesquels il est impossible de comparer les objets symboliques entre eux ou de faire par exemple de la classification automatique. Dans les chapitres 4 à 6, des méthodes non supervisées sont étendues au cas symbolique avec les K-means et les nuées dynamiques, la décomposition de mélange par partitions ou par partitions floues, l'analyse factorielle en composantes principales,


10

Introduction générale

l'algorithme Apriori et les règles d'association. Dans le chapitre 7, les arbres de décision sont étendus au cas symbolique avec en fin de section un exemple illustratif. Dans le chapitre 8, des méthodes statistiques pour la prévision de données de type intervalle sont proposées avec la régression linéaire pénalisée et non pénalisée, les séries temporelles stationnaires et non stationnaires. À cet effet, les méthodes par les centres, par les centres et les étendues, ou la méthode par les fonctions de variance-covariance sont utilisées. Puis, des exercices d’application, le plus souvent avec le logiciel R et essentiellement basés sur des données financières, sont proposés : c’est la neuvième partie de notre livre. La dixième partie présente de nombreuses applications concrètes réalisées auprès d’administrations, d’industriels, de financiers et de scientifiques, ayant donné lieu à des publications et dont la mise en œuvre a été possible grâce aux logiciels Syr et R. Enfin, on trouve trois annexes : une description des six modules principaux du logiciel Syr suivant ses aspects innovants, des modules de R complémentaires pour l’ADS et des pistes de recherche et de développement.


Chapitre 1

Des données classiques aux données symboliques Introduction « L’Analyse des Données Symboliques (ADS) est basée sur une modélisation du monde supposé constitué d'individus et de classes. » de Diday (2008). Des individus émanent les « données classiques » et des classes émanent les « données symboliques ». Voyons comment on passe des individus aux classes et des données classiques aux données symboliques. C’est la première grande étape de l’ADS. Dans ce chapitre, nous décrivons d’abord diverses sortes de variabilité à l’intérieur des classes, différents types de variables symboliques, ainsi que différentes formes d’agrégation permettant le passage de données classiques aux données symboliques. Ensuite, quelques principes de base pour la pratique de l’ADS sont énoncés. Enfin, nous présentons une bibliographie de quelques applications réalisées dans différents domaines.

1.1 Des individus aux classes Dans cet ouvrage, nous utilisons le mot « classe » au sens mathématique habituel d’un sous-ensemble d’individus muni d’une propriété commune. Cette propriété peut venir par exemple, du fait que cette classe est issue d’un processus de classification automatique (i.e. clustering) ou que tous les individus de la classe font partie d’une même catégorie définie par une variable qualitative ou par des variables numériques discrétisées. En pratique, les classes utilisées sont le plus souvent obtenues à partir de catégories choisies par l’utilisateur comme des régions, des types de chômeurs, des stratégies


Chapitre 2

Analyse descriptive pour des variables symboliques Les statistiques descriptives que nous proposons dans cette section sont celles issues des travaux de Bertrand et Goupil (2000) (noté BG) , Billard et Diday (2006) (noté BD) et Billard (2008) (noté B). Les approches qui y sont développées ont pour but de tenir compte au mieux de la nature des données. Prenons le cas des variables à valeur intervalle, les traitements statistiques précédents avaient commencé par la transformation de ces intervalles en leurs centres ou en leurs étendues pour appliquer directement sur ces nouvelles variables les statistiques classiques. Cependant, l'information y était réduite et la variation des données mal prise en compte. De « nouvelles » statistiques descriptives sont alors définies à partir des fonctions de densité de variables aléatoires qui utilisent la distance euclidienne. Une approche encore plus récente utilise la distance de Wasserstein développée dans l'article très complet de Irpino et Verde (2015). Cependant, ces dernières statistiques descriptives ne sont pas utilisées dans notre ouvrage qui est une introduction à l'analyse des données symboliques. Dans ce qui suit, nous proposons de faire la synthèse de ces statistiques (BG), (BD) et (B) dans les cas univarié et bivarié pour respectivement les variables à valeur intervalle et les variables à valeur histogramme.


42

Analyse descriptive pour des variables symboliques

2.1 Statistiques élémentaires pour les variables à valeur intervalle Soit Y la matrice des données à valeur intervalle de dimension (nxp) : ! , " # E ! , " # =D ⋮ D C ! , " #

! , " # ! , " # ⋮ ! , " #

! & , " & # I ! & , " & # H ⋮ H ! & , " & #G

⋯ ⋯

où ! , < " , pour tout i = 1, … ,n et j = 1, … ,p

Y peut s’écrire aussi sous la forme d’un vecteur

, (.

=

&#

= 1, … , ) est la je variable décrite par n intervalles.

Suivant les trois approches développées dans Bertrand et Goupil (2000), Billard et Diday (2006) et Billard (2008), les statistiques sont indicées respectivement (BG), (BD) et (B) quand il est nécessaire de les différencier.

Cas univarié Proposition K, =

1 L( ! , + " , ) 2 M

N!3( , ) = ∑ M ( ! , + ! , " , + " , ) − O Q Démonstration

R

+∑ M (! , + " , )-


Chapitre 3

Indices de proximité De nombreuses méthodes d’analyse des données sont dépendantes de la définition d’un indice de proximité entre les unités statistiques que l’on veut analyser. Un indice de proximité peut être une similarité, une dissimilarité ou une distance. Ces notions sont toutes définies sur les couples d’unités statistiques (individus ou classes). Elles sont aussi à valeur positive ou nulle, avec les propiétés d(x,y) = d(y,x), d(x,x) = 0 pour les dissimilarités et d(x, x) = 1 pour les similarités. Une distance est une dissimilarité qui vérifie de plus l’inégalité triangulaire : d(x,y) ≥ d(x,z)+d(z,y) pour tout triplet (x,y,z). Une similarité notée sim peut être transformée en dissimilarité notée dis par dis = 1-sim. En ADS, il s’agit de comparer les classes entre elles décrites chacune par des vecteurs de descriptions symboliques. Ainsi, mesurer en ADS la ressemblance entre deux unités statistiques revient à mesurer la dissimilarité entre leurs vecteurs de descriptions. Par exemple, dans le Tableau 3-1, comparer Antoine et Sylvie revient à comparer leurs vecteurs de descriptions qui sont respectivement ({vert,bleu}, [179,181]) et ({bleu}, [163,166]). Pour ce faire, on procède le plus souvent par comparaison des descriptions variable par variable par le moyen d'indices de dissimilarité (cas mutivalué et modal), puis par agrégation de ces comparaisons. Cette agrégation peut être : la somme des comparaisons comme pour la distance « city block » ; la racine carré de la somme des carrés des comparaisons comme pour la distance euclidienne ;


76

Indices de proximité le maximum des comparaisons comme pour la distance de « Chebyshev ». Couleur des yeux Taille Antoine {vert,bleu} [179,181] Sylvie {bleu} [163,166] Claude {marron, noir} [173,174] Tableau 3-1 : Tableau de données multivaluées – vecteurs de descriptions symboliques

3.1 Dissimilarité pour une variable Dans cette partie, nous commençons par comparer deux descriptions symboliques sur une même variable. Il peut s’agir de deux ensembles ou de deux intervalles de valeurs de O dans le cas multivalué. Il peut s’agir aussi de deux distributions de probabilité dans le cas modal. Des exemples de dissimilarités sont donnés et on remarquera la spécificité de certaines qui dépendent du type de description.

3.1.1 Cas multivalué (Hausdorff, Minkowsky, Jaccard et Ichino) Dans le cas de deux descriptions de type intervalle, on peut définir comme exemples : la dissimilarité g de Hausdorff entre comme il suit : ¶ ( ,

¶ ∶ P(O) × P(O) ⟶ ℝ¡

= !, "# et

) = 5!> |/ − !|, | − "|

= [c,d]

avec O le domaine d'observation d'une variable et P(O) l'ensemble des parties de O ; et la dissimilarité de Minkowsky d’ordre ¸ :


Chapitre 5

ACP étendue aux données symboliques L’Analyse en Composantes Principales (ou ACP) est une méthode dite factorielle de réduction de dimension pour l’exploration de données quantitatives en grand nombre. Il est donc assez naturel de vouloir étendre ce type d’analyse à des données massives et complexes transformées en données symboliques par exemple de type intervalle et histogramme. C’est ce que nous proposons dans la première partie de ce chapitre. Après avoir fait quelques rappels sur les principes généraux de l’analyse en composantes principales dans le cas classique, plusieurs méthodes sont abordées suivant le type de variables. Concernant les variables à valeur intervalle, les méthodes sélectionnées utilisent, soit les centres, soit les sommets, soit les centres et les rayons, soit directement les intervalles, pour calculer la « fameuse » matrice de variance-covariance. Il en découle des composantes principales qui sont le plus souvent des variables à valeur intervalle. Concernant les variables à valeur histogramme, deux méthodes sont présentées. La première méthode décompose chaque variable à valeur histogramme en autant de variables à valeur réelle qu'elle a de catégories (ces variables sont dites « catégories ») pour calculer la matrice de variance covariance. Puis, elle propose des représentations de variables dites « globales » et « quadrants » dans un hypercube dit « symbolique » car il contient la représentation des variables symboliques. La seconde méthode propose un codage des catégories en centres avant de réaliser une ACP standard sur des moyennes pour représenter finalement les individus à l’aide d’hyper-rectangles dans des espaces factoriels.


100

ACP étendue aux données symboliques

5.1 Technique « classique » L’objectif principal de l’ACP est la réduction du nombre de données multidimensionnelles et de leur colinéarité s’agissant des variables. L’ ACP fournit des combinaisons linéaires des variables initiales telle que la première a la plus grande variance, la seconde a la seconde plus grande variance, et ainsi de suite. Ces combinaisons linéaires sont appelées composantes principales (ou CP). On passe ainsi de p variables initiales, souvent en trop grand nombre et corrélées entre elles pour certaines, à l variables (l <= p) ou composantes principales non corrélées entre elles. Sachant que les premières CP rassemblent le maximum de la variance contenue dans les données initiales, des représentations graphiques sont alors possibles dans des espaces à dimensions réduites (généralement deux) et peuvent révéler d’importantes informations.

Les principes généraux La technique d’analyse en composantes principales peut être présentée de divers points de vue. Nous pouvons trouver des exposés détaillés de la méthode dans les ouvrages Morrison (1976), Joliffe (2004), Lebart et al. (2006), sans oublier Pearson (1901) qui a entrevu les idées essentielles, puis Hotelling (1933) à qui nous devons la première publication sur ce sujet. C’est du point de vue des analystes de données que nous nous plaçons pour faire quelques rappels sur les principes généraux de la méthode. Nous nous limitons à l’analyse en composantes principales dans l’espace ℝ& muni de la norme euclidienne et du produit scalaire associé. Soient p variables quantitatives € , € , … , €& mesurées sur un ensemble de n individus. Les données sont alors présentées sous la forme d’un tableau ou matrice € à n lignes et p colonnes :


Chapitre 10

Applications avec Syr et R Dans ce qui suit, nous proposons quelques exemples d’applications développées dans le cadre de projets de recherche qui ont donné lieu à des publications référencées dans la bibliographie. Les méthodes appliquées sont celles de l’ADS présentées dans les chapitres 1 à 8. Les outils logiciels utilisés sont, d’une part ceux associés au « workbench Syr » (voir annexe 1) construit autour des 6 modules principaux du logiciel Syr (TabSyr, HistSyr, ClustSyr, StatSyr, NetSyr et SyrTree), et d’autre part le package « RSDA » de R en plus duquel nous avons développé quelques fonctions fournies dans l'annexe 2.

10.1 Étude de la dégradation des tours de refroidissement des centrales nucléaires EDF Cette application a débuté dans le cadre du Projet national S3 : Surveillance de santé structurale des ouvrages Orcési (2012) et Crémona (2012) et s’est poursuivie grâce aux équipes d’EDFDTG de Lyon. Le lecteur pourra se référer à Courtois et al. (2012) et Afonso et al. (2010) pour une synthèse de l’ensemble du projet. Cette étude vise à expliquer la dégradation des tours de refroidissement, à intégrer les données de surveillance d’une flotte d’ouvrages, à détecter leurs anomalies et à ordonner les ouvrages selon leur état d’endommagement à partir d’un ensemble de mesures fusionnées relatives aux fissures, aux zones de corrosion, aux déformations et aux tassements. La Figure 10-1 nous donne un aperçu du dispositif de surveillance. Nous commençons par étudier les tours en les décrivant par quatre types de données sur la dégradation : les écarts géométriques (obtenus par photogrammétrie et planimétrie), les fissures, les corrosions et les nivellements. Nous disons en analyse


Data Science par Analyse des Données Symboliques

une nouvelle façon d'analyser les données classiques, complexes et massives à partir des classes Applications avec Syr et R

La numérisation croissante de notre société alimente des bases de données de taille grandissante (Big Data). Ces données sont souvent complexes (hétérogènes et multi-tables) et peuvent être la source de création de valeur considérable à condition qu'elles soient exploitées avec des méthodes d'analyse adéquates. Un « Data Scientist » a justement pour objectif d'extraire des connaissances de ce type de données et c'est l'objectif de cet ouvrage. Les classes constituent un pivot central de la découver1e de connaissances. En Analyse des Données Symboliques (ADS), les classes sont décrites par des variables dites symboliques prenant en compte leur variabilité interne sous forme de distributions, d'intervalles, d'histogrammes, de diagrammes de fréquences, etc. Le livre débute par la construction de différents types de variables symboliques à partir de classes données. Des statistiques descriptives, une méthode de discrétisation automatique adaptée aux données massives (Big Data) suivies par des indices de proximité étendus aux données symboliques y sont présentés. Vient ensuite un ensemble de méthodes présenté dans le contexte de l'ADS. Il s'agit de la méthode des nuées dynamiques (MND), de la décomposition de mélange par partition (issue de la MND) ou par partition floue (EM), de l'analyse en composantes principales, de l'algorithme Apriori, des règles d'association et des arbres de décision. Pour la prévision, le livre présente des méthodes de régressions dont celles pénalisées « ridge », « lasso » et « elastic », et des séries temporelles. Pour la mise en application de ces premières méthodes, des exercices et des applications concrètes réalisées auprès d'administrations, d'industriels, de financiers et de scientifiques sont proposés. Leur mise en œuvre s'appuie aussi bien sur le logiciel innovant Syr que sur le logiciel statistique R. Cet ouvrage d'introduction à l'ADS s'adresse aux étudiants, aux ingénieurs, aux universitaires, ainsi qu'à tous ceux qui désirent comprendre cette nouvelle façon de penser en Science des Données. Filipe AFONSO est Président de la société SYMBAD spécialisée en Science des Données grâce à des méthodes innovantes développées en interne ou issues de la Recherche universitaire récente. Docteur en Informatique de l'Université Paris Dauphine, il conduit depuis plus de 10 ans des projets d'analyse de données pour le compte des entreprises. Edwin DIDAY est actuellement Professeur émérite à l'Université Paris-Dauphine. Il est à l'origine de la méthode des nuées dynamiques (ouvrant la voie aux modèles locaux), des pyramides classifiantes (classes avec recouvrement) et de l'Analyse des Données Symboliques (passant de l'analyse des individus à celle des classes). Il est titulaire du prix Montyon décerné par l'Académie des Sciences. Carole TOQUE, docteur en Statistique de Télécom Paris Tech, poursuit ses recherches sur la prévision des séries temporelles et l'analyse des données à l'Université du Luxembourg. Après plusieurs années d'enseignement en universités et en écoles d'ingénieurs, elle est actuellement statisticienne au Ministère de la Transition écologique et solidaire.

n

-2I[y i=1

ISBN 978-2-7108-1181-7

11

9 782710811817

- y i )Iog (1 -

rr(

x i ))]

www.editionstechnip.com

L /3] p

j=1

Profile for TO Groupe

Data science par analyse des données symboliques - Editions Technip  

Pour la mise en application de ces premières méthodes, des exercices et des applications concrètes réalisées auprès d'administrations, d'ind...

Data science par analyse des données symboliques - Editions Technip  

Pour la mise en application de ces premières méthodes, des exercices et des applications concrètes réalisées auprès d'administrations, d'ind...

Profile for togroupe
Advertisement