17 analytics pour transformer votre organisation, partie 4

20 Décembre 2019
outils-d-analyse-de-la-donnée
Avec ce quatrième volet, notre tour d’horizon des analytics touche à sa fin. Nous avons vu qu’ils savent traiter et intégrer toutes les formes de data, des données quantitatives à la vidéo, en passant par le texte et la voix, ou en combinant le tout. Elles ont évolué vers des systèmes d’analyse très élaborés et hautement spécialisés.

(Vous pouvez accéder à la troisième partie de l'article en cliquant ici)

 

14 - Linear Programming (Linear Optimization)

La programmation linéaire est une méthode de résolution de problème basée sur la « fonction économique ». Elle est principalement employée à des fins d’optimisation dans les domaines de la logistique, de la production ou de la finance. Mise au point dans les années 1948-1950, elle a connu son heure de gloire à partir de la fin des années 60, mais elle est encore couramment employée de par sa simplicité de mise en œuvre et son efficacité pour traiter des problèmes de base.

Dans cette approche, on considère un phénomène économique comme étant le résultat de plusieurs effets élémentaires, on parlera également de contraintes. Par exemple le coût de production d’un produit transformé résulte (schématiquement) de l’addition : coût des matières premières + coût d’acheminement vers les unités de production + coût des machines et de leur utilisation + coût de conditionnement et d’expédition vers les réseaux de vente ; en incluant à chaque fois les coûts de main d’œuvre directe et de support. Chaque poste de coût est un effet élémentaire, et les différents effets s’ajoutent pour produire un coût final, on dit qu’ils sont additifs.

De plus, dans la plupart des problèmes abordés couramment en programmation linéaire, chaque effet est proportionnel à sa cause, au moins de façon approchée. Par exemple le coût de transport est proportionnel à la distance (ou au nombre de kilomètres à parcourir). On peut donc associer à chaque contrainte un coefficient de proportionnalité.

In fine, la formule globale qui représente l’ensemble est donc une fonction linéaire avec n contraintes associées chacune à un coefficient multiplicateur.

Pour continuer sur notre exemple, si l’on souhaite optimiser le coût d’un produit, il faut donc résoudre l’équation linéaire correspondante pour obtenir le meilleur coût final possible i.e. le plus faible possible. C’est cela qu’on appelle la maximisation de la fonction linéaire.

La méthode de résolution principale s’appelle le Simplexe. Initialement développé sous forme algébrique et géométrique, le Simplexe a ensuite évolué vers une forme algorithmique avec l’emploi de matrices.

Comme bien souvent dans les cycles technologiques, ce sont les militaires qui ont été les premiers à adopter massivement la programmation linéaire pour leurs activités, notamment l’U.S. Army. Le succès le plus retentissant en la matière, si l’on peut dire, c’est l’opération Desert Storm, en 1991, au Koweït.

A partir de septembre 1990, il s’agissait d’acheminer le plus rapidement possible, et à moindre frais, toute une armée dans la péninsule arabique. En quatre mois l’U.S. Army a envoyé 400 000 soldats, 1500 hélicoptères, 900 chars d'assaut, 2000 blindés et 1800 pièces d’artillerie, principalement par voie aérienne (en plus des 1200 avions, 80 navires de combat et 6 porte-avions CATOBAR). L’U.S. Military Airlift Command a pu ainsi organiser plus de cent rotations par jour d’avions cargos C-5 et C-141, pour transporter le fret et le personnel, réalisant le pont aérien le plus important jamais entrepris par les États-Unis sur une aussi courte période, et en mobilisant 95% de sa flotte. 

Les organisations civiles ne sont pas en reste bien sûr, ainsi dès 1994 Delta Airlines utilisait la Programmation Linéaire pour maximiser ses profits en affinant la distribution des types d'avions dans ses  2500 vols nationaux aux Etats-Unis.

Aujourd’hui l’accès à des outils numériques de programmation linéaire s’est largement démocratisé, en particulier avec l’implémentation d’un solveur dédié dans Excel.

 

outils-numerique-de-programmation-lineaire

Un solveur puissant est disponible dans les compléments Excel, avec la fonction SIMPLEX PL. Il permet de maximiser des fonctions linéaires. Avec les menus on ajoute facilement des contraintes et on ajuste les différents paramètres et les options de résolution.  

 

Les applications récentes sont toujours aussi nombreuses, par exemple dans l’agro-alimentaire en France, des études sont couramment menées pour optimiser la qualité nutritive des aliments transformés.  Comme les procédés de fabrication ont tendance à dégrader les qualités nutritionnelles des matières premières, il faut jouer sur la composition finale pour favoriser certains nutriments et au contraire en limiter d’autres. Un calcul détermine les marges de progrès en intégrant les contraintes techniques, réglementaires, de coûts … et de goût bien sûr également !  C’est ainsi que l’on fixe les quantités de compléments de synthèse à incorporer pour obtenir un produit par exemple riche en folates (vitamine B9) ou en fer … et pour pouvoir l’afficher sur le packaging.         

Dans les derniers développements techniques de la Programmation Linéaire, les outils numériques modernes permettent de totalement paramétriser une fonction linéaire en jouant sur les coefficients, pour simuler algorithmiquement toutes les solutions possibles. C’est une extension des possibilités initiales du Simplexe, et la puissance de résolution est ainsi considérablement amplifiée. Avec les ordinateurs personnels récents, la capacité de calcul est devenue largement suffisante pour mettre la programmation linéaire dans toutes les mains, il n’y a plus ensuite qu’à apprendre à se servir du solveur.

 

15 - Factor Analysis

L’analyse factorielle n’est pas elle non plus une nouvelle venue, loin de là. Inventée en 1904 par Charles Spearman, pour des études de psychologie, elle a connu plusieurs évolutions. Son premier développement est l’Analyse en Composantes Principales, ou ACP, puis à partir des années 60, Jean-Paul Benzecri invente et popularise l’Analyse Factorielle des Correspondances ou AFC. C’est l’ACP qui reste aujourd’hui la méthode la plus répandue. A partir des années 70, ces techniques sont implémentées et intégrées en standard dans des logiciels phares du métier comme SAS (Statistical Analysis System) et SPSS (Statistical Package for the Social Sciences).  

On appelle donc analyse factorielle une collection de techniques statistiques permettant d’analyser des ensembles de données structurées en lignes et en colonnes sur un ou plusieurs axes. Elle constitue le cœur des techniques d’enquêtes et de sondages pour dépouiller et traiter les données collectées.

Ces données se rapportent le plus souvent à une population d’individus ou à un ensemble d’organisations dont on souhaite analyser les caractéristiques, soit en les rapprochant, soit en les opposant. 

Logiquement, le point de départ de ce type d’analyse est un ou plusieurs grands tableaux de données qu’il s’agit de manipuler afin de visualiser et de hiérarchiser l’information. Schématiquement on considère que chaque ligne représente un individu, et que les colonnes portent les caractéristiques, ou les variables liées à cet individu, elles représentent les axes d’analyse.

Ces données sont d’emblée difficilement interprétables lorsqu’il y a trop de redondances entre plusieurs variables, ou que plusieurs d’entre elles appartiennent à des mêmes catégories disséminées dans le tableau. Aussi le but premier est de réduire leur complexité en les distribuant sur un nombre de dimensions limité.

L’ACP est une méthode exploratoire à privilégier lorsqu’on ne sait pas à l’avance sur quelles catégories décomposer les données. Elle permet justement de regrouper des variables corrélées sur une seule composante principale. Cette opération passe par la construction d’une matrice de corrélation, avec un calcul de scores (ou de poids). Elle est bien adaptée en outre pour prendre en compte des données de natures hétérogènes. Elle a également pour but la recherche de variables latentes, c’est-à-dire qui ne sont pas observables directement, mais dont on pense qu’elles influencent les réponses obtenues lors des enquêtes ou des sondages. 

Par exemple, si on s’intéresse aux parcours d’études post-BAC pour un ensemble de lycées, on pourra regrouper les filières littéraires, scientifiques, techniques, etc. et en variable latente on pourra chercher à déterminer l’impact de la situation géographique des lycées considérés.

L’opération suivante consiste à redistribuer les données sur plusieurs nouveaux axes pour les rendre plus lisibles, en omettant les axes non pertinents, c’est ce qu’on appelle une rotation. Et l’intérêt principal est de pouvoir obtenir des axes d’analyse indépendants entre eux. 

En AFC, la démarche diverge sensiblement et suppose que l’on dispose de données toutes comparables entre elles. La première étape consiste à réaliser un calcul d’indépendance. Ainsi dans notre cas d’étude des lycées, on va pouvoir déterminer une moyenne de répartition des parcours pour l’ensemble. Par exemple, 50% de l’ensemble des lycéens vont poursuivre des études scientifiques, 30% des études littéraires et 20% des études techniques. Ce qui permet de poser des résultats théoriques. Toute l’analyse lycée par lycée repose ensuite sur l’identification et la valorisation des variables en écart avec le résultat théorique. A chaque fois que l’on trouve un écart, on calcule un coefficient de dépendance. Si l’écart est nul, on dit que la variable est indépendante. A partir des coefficients, avec la connaissance du résultat global, on peut décomposer le tableau initial et regrouper tous les lycées qui ont le même profil d’écart, on pourra ainsi, par exemple, distinguer des lycées qui mènent plutôt à des études littéraires, plus que la moyenne, et identifier des facteurs qui favorisent cette orientation.

 

factor-analysis-avec-spss

Factor Analysis avec SPSS (PASW depuis son rachat par IBM), la première opération consiste à réduire la complexité des data et à extraire les axes d’analyse pertinents.

 

Les outils numériques rendent l’analyse factorielle beaucoup plus accessible pour ceux qui n’ont pas des connaissances étendues en mathématiques statistiques. L’utilisateur peut expérimenter et se concentrer sur la bonne utilisation de la méthode, sans s’intéresser à la manière dont les résultats sont obtenus. Dans SPSS une interface intégrée unique permet de manipuler des data simplement et facilement. Il y a ensuite des menus dédiés pour l’étape d’extraction des facteurs, et pour simuler des rotations. Dans SAS, de la même manière, une approche pas-à-pas offre à l’utilisateur un guidage complet tout au long de la procédure de réduction des variables.

Depuis le début des années 2000, l’analyse factorielle a connu des nouveaux développements théoriques, en particulier dans le domaine du traitement des images, chaque pixel étant considéré comme élément d’une matrice à deux dimensions.

En quelques années des extensions à la méthode ont fleuri pour s’adapter à différentes formes de data : l’ACM, Analyse des Correspondances Multiples (variables qualitatives), l’AFDM, Analyse Factorielle de Données Mixte (variables quantitatives + qualitatives), l’AFM, Analyse Factorielle Multiple (variables structurées en groupes), l’AFMH, Analyse Factorielle Multiple Hiérarchique (variables structurées en thèmes / sous-thèmes). Ce mouvement ne fait que manifester la recherche perpétuelle de toujours plus de précision et de rigueur dans ce type d’études. Ainsi ACM est désormais la méthode de référence pour le traitement des enquêtes d’opinion basées sur des QCM (Questionnaires à Choix Multiples) … Nul doute que d’autres développements fructueux sont à venir.

 

 

16 – Neural Networks Analysis & Advanced Analytics : Machine Learning, Deep Learning et Cognitive Computing

Les réseaux neuronaux représentent sans conteste l’avenir des analytics avec un grand A. Pourtant il en aura fallu du temps et des épisodes pour arriver là où nous en sommes aujourd’hui. Depuis leur invention dans les années 50, ils n’ont cessé de susciter tour à tour passions, fantasmes, atermoiement, ou même du rejet. C’est un long et interminable parcours qui a conduit à la mise au point, ces dix dernières années, tout d’abord du Machine Learning, puis du Deep Learning, et maintenant des Extreme Learning Machines.

Un réseau neuronal est constitué par des couches de cellules artificielles connectées entre elles. Chaque couche est comparable à une grille, avec des lignes et des colonnes, sur lesquelles sont placées les cellules. Chaque cellule simule le fonctionnement d’un neurone humain, d’où leur appellation i.e. elle comporte un ou plusieurs signaux en entrées, un signal de sortie unique, et a un seuil d’excitabilité propre, on dit que le neurone a un poids synaptique.

Le principe de connectivité est que la sortie d’un neurone d’une couche constitue l’une des entrées d’un neurone de la couche immédiatement suivante. Dans les réseaux les plus avancés, on peut avoir des couches dites « fully connected » où chaque neurone est connecté à tous les neurones de la couche suivante.

Le Perceptron, premier réseau neuronal construit en 1958, comportait trois couches : une couche d’entrée, une couche interne, une couche de sortie. Depuis, tous les réseaux « classiques » comportent de trois à cinq couches, donc entre une et trois couches internes.

perceptron-mark-1

La machine Perceptron Mark 1 permettant de reconnaitre des images de 400 pixels avec 20x20 cellules photoélectriques interconnectées. Construite par Frank Rosenblatt en 1958. Au premier plan le panneau de patch pour câbler les combinaisons d’entrées. A droite les racks de potentiomètres permettant de faire varier le poids des cellules.

 

Les réseaux les plus récents, eux, peuvent comporter un grand nombre de couches internes, on parle de couches profondes. Microsoft a par exemple mis au point en 2015 un réseau comportant plus de cent couches. Un tel réseau est alors qualifié de très profond. Aujourd’hui les architectures évoluent très rapidement et les systèmes les plus perfectionnés utilisent plusieurs réseaux qui collaborent entre eux.

Pour fonctionner correctement et produire les résultats escomptés, un réseau neuronal doit effectuer un apprentissage. Dans l’approche classique, on initialise les paramètres du réseau, les poids synaptiques, de manière aléatoire, puis on effectue une phase d’apprentissage supervisée. C’est-à-dire que les paramètres finaux sont mis au point pas à pas, par un expert ou par une équipe entière. Dans les nouvelles approches, dites de Deep Learning, avec des réseaux à grands nombres de couches, l’apprentissage de chaque couche est supervisé et ensuite le réseau apprend « tout seul ». La démarche peut aussi être inversée en commençant par pré-entrainer chaque couche de manière non supervisée, puis en supervisant l’optimisation finale des paramètres sur l’ensemble des couches. Dans tous les cas l’apprentissage en autonome nécessite alors un très grand volume d’échantillons de data.

Un vrai cap technique a été franchi à partir de 2005, lorsqu’on a commencé à implémenter des réseaux neuronaux utilisant des processeurs graphiques (GPU) au lieu des traditionnelles unités centrales (CPU). Le résultat a été un gain immédiat en performance. Les GPUs offrent de la puissance de calcul à moindre coût, et grâce à leur architecture, il est facile d’en utiliser plusieurs, voire un grand nombre, pour distribuer des traitements massivement parallèles.

Les applications des réseaux neuronaux sont nombreuses, à commencer par les problèmes classiques de régression ou de classification pour lesquels ils s’avèrent plus fins et plus précis que les techniques statistiques. Ensuite les applications privilégiées sont la reconnaissance de forme, du langage, de la voix, de l’écriture, etc. ou la détection de signaux faibles ou d’anomalies.

La recherche allant bon train, pour chaque classe d’utilisation, elle produit régulièrement des nouvelles générations d’architectures et de solutions techniques. Parmi les innovations récentes plusieurs retiennent l’attention.

Les réseaux convolutifs (CNN, Convolutionnal Neural Network) sont employés principalement pour le traitement et la reconnaissance des images. La convolution est un processus de calcul basé sur des matrices. Or une image est une matrice de pixels et chaque pixel équivaut à une valeur numérique que l’on peut interpréter ou recalculer. On peut ainsi faire le mapping complet d’une image, la découper en tuiles, isoler des éléments, la décrire, la recomposer, etc. 

Ce domaine particulier de la reconnaissance des images a connu des progrès majeurs grâce au challenge ILSVRC (ImageNet Large Scale Visual Recognition Challenge) autrement appelé ImageNet Contest.

ImageNet est la plus grosse base d’images dédiée à la recherche sur la vision par ordinateur et la reconnaissance de formes. Créée à l’Université de Princeton et présentée pour la première fois en 2003, elle comporte aujourd’hui plus de 14 millions d’images réparties en 20000 catégories.

Lancée en 2010, la compétition ILSVRC a pour but de faire s’affronter les meilleurs réseaux au monde. Le challenge consiste à discriminer 1000 classes d’objets dans des images avec le taux d’erreur le plus faible possible. Au départ, en 2010, ce taux était de l’ordre de 25% en moyenne. En 2012 le CNN AlexNet surperforme ce résultat en faisant tomber le taux à 15,3%, il sera lui-même déclassé dès 2014 par le Microsoft Very Deep CNN qui n’est plus qu’à quelques points d’erreur. Les applications et un développement industriel peuvent alors être envisagés pour ces systèmes.

Et pour les images « animées », une évolution du CNN dite CNN-LSTM est spécialisée dans la reconnaissance d’activité, et la description de vidéos.

Les réseaux récurrents (RNN, Recurrent Neural Network) ont la particularité de reboucler tout ou partie de leurs signaux de sortie sur la couche d’entrée, d’où leur nom de récurrent. En quelque sorte, ils sont capables de produire eux-mêmes leurs propres entrées. Cela leur confère un comportement très dynamique et ils sont particulièrement utilisés pour la reconnaissance de l’écriture ou de la parole en temps réel.

Les réseaux génératifs, comme leur nom l’indique sont capables de générer des contenus originaux à partir d’une collection d’échantillons fournis en entrée. Bien évidemment cette collection doit représenter un volume significatif pour que le réseau produise des résultats intéressants.

Beaucoup de réseaux sont « génératifs » en plus de leurs autres propriétés.

Les GAN (Generative Adversarial Network) sont des réseaux génératifs à apprentissage antagoniste (adversarial). L’apprentissage antagoniste est un type d’apprentissage entièrement non supervisé qui consiste à mettre deux réseaux en compétition :  un réseau générateur produit des échantillons, un réseau discriminateur (adversaire) détecte si les échantillons sont réels ou s’ils sont le résultat du générateur.

Ce type de réseau est utilisé par exemple dans la recherche en bio-informatique et en pharmaceutique pour la création de nouvelles structures moléculaires.

Les ART sont des réseaux génératifs spécialisés dans la génération automatique de musique ou d’image.

Enfin les VAE (Variationnal AutoEncoder) permettent la génération d’encodeurs et de décodeurs et sont utilisés pour la génération d’images et le renforcement de l’apprentissage.

Et bien sûr il y a toute une collection de variantes et de possibilités en combinant les différents types de réseaux : MLP (Multi Layer Perceptron), HCNN (High performance Convolutionnal Neural Network), FCN (Fully Convolutionnal Network), C-RNN-GAN (Continuous Recurrent Neural Network avec apprentissage antagoniste), CNN LSTM (Convolutionnal Neural Network Long Short Term Memory network), LRCN (Long Term Recurrent Convolutionnal Network) … Pour n’en citer que quelques-uns.

Toutes ces évolutions récentes appartiennent à la classe de ce qu’on appelle les Extreme Learning Machines, ou ELM.  Pour l’heure le Deep Learning est bien l’approche la plus prometteuse, en particulier par sa capacité à se passer d’un modèle préalable pour produire des résultats. C’est donc une option réelle en terme économique, parce que la machine élabore seule, et aborde également des problèmes complexes à analyser par les méthodes classiques. 

Les seules limites sont, d’une part, la nécessité de disposer de volumes de data importants, et d’autre part, le fait que pour l’instant les réseaux neuronaux n’ont pas de mémoire. Ils refont donc tous les calculs même si on leur soumet deux fois de suite les mêmes entrées. En fait, ils font strictement ce pourquoi ils ont été programmés.

Pour le futur, un des enjeux principaux réside dans la mise au point de stratégies d’apprentissage de plus en plus performantes, de façon à implémenter des réseaux capables d’apprendre avec le minimum d’intervention humaine, et donc d’absorber automatiquement de plus en plus de cas d’usages.

 

17 - Meta Analytics – Literature Analysis

La méta-analyse consiste à réaliser une agrégation d’études préexistantes sur un problème donné pour faire un point complet des connaissances et des conclusions disponibles (littérature en anglais). C’est en 1955 qu’une première analyse de ce genre est effectuée par Henri K. Beecher concernant un traitement médical. Ce premier pas marque le début d’une utilisation large et de plus en plus répandue pour les études cliniques. Les techniques et la méthodologie sont ensuite sensiblement améliorées dans les années 1970, et c’est d’ailleurs en 1976 que le terme méta-analyse est inventé.

Au départ ces études sont uniquement quantitatives, à partir de 1994, on assiste au déploiement des méta-analyses qualitatives. Elles permettent avant tout de déterminer si un problème nécessite ou non de réaliser des études complémentaires. Les enjeux secondaires sont d’une part, de formuler une interprétation globale des études déjà menées, et d’autre part, de détecter d’éventuels biais de méthodes dans ces études préexistantes.   

Dans tous les cas le protocole d’étude doit être reproductible. Le bénéfice principal d’une méta-analyse est l’augmentation du nombre de cas sur lesquels porte l’étude, avec la ré exploitation de données et de résultats déjà disponibles. L’agrégation de toutes ces données conduit en quelque sorte à une puissance statistique supérieure à celles des études prises séparément. L’objectif recherché est, soit la production de connaissances nouvelles, soit la réinterprétation ou le contrôle des connaissances existantes.

Bien sûr la méta-analyse a désormais dépassé le cadre médical, elle s’applique à tous les domaines de la recherche pour orienter et planifier les programmes, et pour piloter les investissements, en particulier dans les biotechnologies, l’énergie, la logistique, et la finance.

Dans son développement le plus récent la méta-analyse a été augmentée avec les techniques dites de méta-heuristique, les deux sont maintenant totalement fusionnées.

Les méta-heuristiques sont une classe de méthodes mises au point dans les années 1960-1970 pour appréhender et résoudre efficacement des problèmes trop vastes ou trop complexes pour les méthodes d’optimisation classiques, ce qui en fait est le cas de beaucoup de problèmes rencontrés sur le terrain dans le monde des affaires, la science ou l’industrie.

Avec sa nouvelle mouture, la méta-analyse est donc un ensemble de techniques de pointe spécialement adaptées à la complexité du monde réel. Elle combine et elle englobe des pratiques d’optimisation, de prédiction et de machine learning. Au cœur de la méta-analyse, on trouve les nouveautés les plus avancées en termes d’algorithmes, comme les algorithmes évolutionnistes, la recherche Tabou, l’intelligence en essaim, ou les algorithmes mémétiques.

La recherche en méta-analyse est aujourd’hui très active, avec de nombreux thèmes d’investigation : création d’extensions aux méthodes existantes, amélioration des performances, exploration et affinage des idées prometteuses qui ont été insuffisamment investiguées, développement de nouvelles propositions de recherches, création d’outils et d’interfaces spécialisés pour mieux interpréter des résultats, mise au point de méthodes plus englobantes pour résoudre des problèmes de plus haut niveau, analyser et expliquer le fonctionnement des approches alternatives, référencer les cas où la méta-analyse apporte des avancées notables.

Tous ces travaux autour de la méta-analyse préfigurent aujourd’hui la prochaine génération d’analytics dans laquelle les systèmes sont nativement hybrides (hybrid by design) et utilisent une multiplicité d’outils et de techniques pour déduire de l’information utile à partir des données. Ces systèmes hybrides permettent de faire cohabiter plusieurs designs expérimentaux et plusieurs méthodes dans le même système, ce sont des systèmes-de-systèmes.

Les champs d’application sont variés et prometteurs :

  • Les recherches multidisciplinaires (NBICS, Nanotechnologies, biotechnologies, informatiques et sciences cognitives) en robotique, sciences de la vie,
  • En santé les études épidémiologiques, en psychiatrie et en psychologie les référentiels des pathologies (DSM),
  • En économie, les modèles de production, de distribution et de consommation de biens et de services,
  • En finance l’évaluation de risque,
  • Etc.

 

random-effect-model

Le Random Effect Model est l’une des principales méthodes permettant d’agréger des données statistiques issues de plusieurs études en harmonisant les effets locaux liés aux divergences de lieux, de contextes et de populations (participants, panels) de chaque étude isolée. La ligne grise verticale est le résultat moyen de toutes les études.

 

La méta-analyse a la capacité de confronter des résultats de différentes études et de permettre ainsi la construction de modèles qui couvrent l’ensemble des résultats, l’identification des sources de désaccords et de divergences, ou la mise en lumière d’autres phénomènes intéressants qui n’apparaissent que dans un contexte d’études multiples.

Reste ensuite à ne pas tomber dans l’un des biais que l’on constate couramment avec ce type d’études à large échelle.

Le premier, le plus connu, c’est le biais de publication qui consiste à ne tenir compte que des travaux et études ayant fait l’objet d’une publication officielle, et non de l’ensemble des résultats disponibles.

L’autre problème malheureusement plus insidieux, c’est la possibilité de conflit d’intérêt dans l’agenda d’une méta-analyse (ou méta-étude), si elle est commanditée pour une échéance parlementaire, par une officine, un lobby industriel, ou pour un parti politique, par exemple, avec une orientation attendue.

En 1998 un juge fédéral aux U.S.A. a annulé les chapitres 1 à 6 et toutes les annexes d’une étude de l’EPA (Environmental Protection Agency) concernant les risques de cancer liés au tabagisme passif, pour avoir évincé pratiquement la moitié des études produites sur le sujet – celles qui allaient à l’encontre des conclusions escomptées (« Respiratory Health Effect of Passive Smoking : Lung Cancer and other Disorders »).

Dans son évolution la méta-analyse est plus que bien placée pour prendre une place de choix dans l’avenir des analytics, en tout cas dans l’un des avenirs possibles. N’oublions pas néanmoins que c’est également un pas de plus dans la complexité, avec toutes les difficultés de compréhension et de développement technique que cela représente.

 

Conclusion

Avec ce grand tour des 17 analytics les plus pratiqués dans le monde, la première évidence est que finalement cette notion d’analytics est certes omniprésente, mais pas du tout indicative de la nature des méthodes et des techniques employées, au cas par cas, pour analyser et valoriser des données. A dire vrai, on pourrait même considérer qu’une des fonctions de ce mot « analytics » est de recouvrir et de tenir à distance la réalité des pratiques en la matière. Et cette réalité, c’est un ensemble protéiforme de techniques variées, toutes poussées à un niveau élevé de sophistication, et réservées à des spécialistes.

Ma conclusion provisoire, c’est qu’avec l’évolution inexorable vers toujours plus de data, nous avons aussi besoin d’avoir une vision précise des possibilités effectives des analytics i.e. ce qu’ils peuvent et ce qu’ils ne peuvent pas faire.  Et donc il s’agit bien de progresser dans notre compréhension commune de ces technologies particulières, pour aller vers une culture des analytics beaucoup plus partagée.

 

tendances-evolution-methodes-analyse-donnees

Un détour par Google Trend s’avère également très éclairant pour observer les tendances depuis 2004. Ainsi on visualise bien l’apparition et les débuts du Sentiment Analysis ou de la Data Vizualisation (en vert et violet), mais le phénomène le plus marquant est cet attrait de plus en plus prononcé pour le Neural Network (en rouge) qui a résolument pris le pas sur le Data Mining (en bleu), même si ce dernier est encore bien présent.

Si l’on s’intéresse autant aux technologies de réseaux neuronaux, c’est parce qu’elles sont au cœur de l’Intelligence Artificielle (IA) qui est unanimement considérée comme un enjeu majeur pour le XXIème siècle et après. Les estimations les plus favorables (en l’occurrence des estimations du gouvernement chinois) comptent environs 200 000 professionnels actuellement actifs dans le domaine de l’IA dans le monde, plus une estimation d’environ 150 000 étudiants en cours de formation. Les plus gros contingents se trouvent aux U.S.A. et en Chine. Mais ne nous y trompons pas, si on prend en compte uniquement les réels experts dits de haut niveau, ce chiffre tombe à 22000.

A titre de comparaison GitHub, acquise par Microsoft en 2008, est utilisée par 31 millions de programmeurs. Pour rappel GitHub est actuellement la plus importante plateforme d’hébergement et de gestion de développement de logiciel open source, principalement en JavaScript. C’est dire que pour envisager un déploiement industriel de l’IA à large échelle on est loin du compte, il faudrait multiplier le nombre d’experts au moins par dix !

Dans ces conditions, on réalise bien que la mise au point d’un système de Deep Learning n’est pas à la portée de tout le monde. D’ailleurs pour implémenter son offre SkyWise, un acteur aussi important qu’Airbus a dû s’associer à Palantir, une société américaine controversée mais détenant un savoir-faire unique en matière d’algorithmes prédictifs.

L’avenir immédiat des analytics est aujourd’hui fortement contraint et deux enjeux majeurs le conditionnent : un enjeu éducationnel pour former en masse les futurs chercheurs et les professionnels de demain ; un enjeu culturel pour apprendre à vivre avec les analytics, ne pas les subir, et savoir les interpréter et les utiliser à notre profit.

 

Aussi n’hésitez pas à visiter notre offre Big Data.

Parlons ensemble de vos projets.

contactez-nous