17 analytics pour transformer votre organisation, Partie 1

28 Novembre 2019
17 analytics pour transformer votre organisation, AUSY
Un tour d’horizon complet sur les 17 techniques Analytics les plus utilisées pour analyser et valoriser les data, par Pierre-Sylvain Roos.

« Analytics » c’est le nouveau mot incontournable que vous avez tous vu et revu dans nombre de publications ces dernières années. Un concept magique, puisque partout on vous explique que c’est la clé pour la valorisation de vos data.

Si on veut schématiser, on peut se figurer un système d’analytics comme un moteur surpuissant consommant des data en masse pour répondre à quatre grandes questions :

  1. Que s’est-il passé ? (descriptive analytics)
  2. Pourquoi cela s’est-il passé ? (diagnostic analytics)
  3. Que va-t-il se passer ? (predictive analytics)
  4. Comment faire pour que cela arrive ? (prescriptive analytics)

Il existe aujourd’hui un grand nombre de solutions et de technologies possibles lorsque l’on souhaite mettre en œuvre des analytics. Et bien évidemment, toutes ne se valent pas et n’ont pas la même aptitude à résoudre les différents problèmes que l’on souhaite traiter. Bien au contraire, on observe qu’il y a une spécialisation, chacune de ces techniques étant orientée vers un but ou une fonction bien différenciée.     

Aussi je vous propose un tour d’horizon de celles qui sont aujourd’hui les plus répandues. En interrogeant des experts et en parcourant la littérature technique ainsi que les nombreux articles en ligne sur le sujet, j’ai pu en dénombrer dix-sept.     

N.B. La majorité des sources étant en anglais, j’ai indiqué les appellations des types d’analytics en anglais. 

 

1 – Regression and Correlation Analysis

C’est probablement le type d’analytics auquel nous sommes le plus habitués, bien malgré nous, à travers les nombreuses publications que nous livrent les sites internet que nous fréquentons. Pas un jour sans un article qui nous expose les dangers ou les bénéfices d’une pratique, d’un comportement, d’un aliment, ou autre ... Tous ces articles mettent en lumière la même logique immuable : une étude de la présence ou de l’évolution d’une chose, un facteur qui établit qu’elle en provoque ou en influence une autre. Cela débouche généralement sur des énoncés simples et faciles à comprendre du type : « Consommer trop de viande rouge favorise le développement d’un cancer du côlon », ou bien « Les médecins qui reçoivent le moins de cadeaux des labos pharmaceutiques font des ordonnances moins chères ».

C’est très exactement cela que l’on appelle une régression, une relation entre deux ou plusieurs variables que l’on observe directement. Le terme provient de la première étude statistique du genre (début XXème siècle) qui cherchait à expliquer pourquoi, chez les descendants de personnes de grande taille, la taille « régressait » vers une taille moyenne au fur et à mesure des générations.

L’analyse de régression est une méthode statistique, effectuée avec une approche itérative à partir d’une variable connue. Elle est généralement utilisée pour trouver une explication à un phénomène identifié et mesuré.

Par exemple dans le cas du réchauffement climatique, on explore la progression de différentes variables que l’on soupçonne d’en être la cause, pour déterminer d’éventuelles correspondances avec l’évolution des températures : activité solaire, réflectivité de la surface terrestre, effet de serre, etc.

Et c’est ainsi que l’on a pu envisager le rôle prépondérant des émissions de gaz à effet de serre et de surcroît des émissions occasionnées par l’activité humaine.

La régression peut traiter des variables quantitatives ou qualitatives. Dans ce dernier cas, on parlera également de classification.

La notion de corrélation est complémentaire de la régression. Elle mesure le niveau de dépendance entre deux variables matérialisé par un coefficient de corrélation. Cette mesure est toujours comprise entre -1 et +1 suivant que la corrélation est positive ou négative. Si le coefficient de corrélation est à 0, c’est que les deux variables sont indépendantes. La corrélation, bien évidemment, ne s’applique que pour des variables quantitatives.  

Appliquée au cas du réchauffement climatique, la mesure de corrélation peut ainsi permettre de déterminer quels sont les facteurs les plus incidents.

 

correlation entre evolution dioxyde de carbone et la temperature au pole sud

Corrélation forte entre l’évolution de la concentration en dioxyde de carbone dans l’atmosphère et la température au pôle sud. Les deux courbes sont quasiment superposables (source NASA) 

 

Un biais courant consiste à présupposer qu’il y a un lien de cause à effet entre deux variables corrélées, surtout si cette corrélation est forte. En fait ce n’est pas toujours le cas, elles peuvent tout simplement avoir une cause commune. Par exemple, lors d’un épisode de canicule dans une ville, on pourra observer une augmentation des cas de déshydratation et en même temps une augmentation des ventes de ventilateurs. Néanmoins on ne peut pas conclure que l’augmentation des cas de déshydratation est causée par l’augmentation des ventes de ventilateurs (ou l’inverse). Toutes deux ont une même cause : l’augmentation prolongée des températures.   

Les analyses de régression et de corrélation sont aujourd’hui fortement outillées et automatisées. Elles concernent des modèles statistiques de plus en plus complexes qui peuvent intégrer jusqu’à plusieurs milliers de variables. Elles constituent un domaine classique et incontournable de l’analyse de données. Nous verrons par la suite que des études de régression peuvent également être menées avec une approche totalement différente basée sur l’emploi de réseaux neuronaux.   

 

2 - Data Mining

Au sens strict du terme, le Data Mining est une technique permettant de découvrir des informations enfouies et non disponibles immédiatement, en explorant de grands ensembles de données. Son application la plus connue est l’analyse prédictive, c’est-à-dire que les informations trouvées vont permettre de faire des prédictions. La principale méthode d’exploration est le « drill », forage en français, c’est-à-dire littéralement le fait de percer les couches de données pour aller chercher celles qui sont le plus profondément stockées.

Le Data Mining trouve son origine et connait un fort développement dans les années 90s, en faisant les beaux jours d’acteurs spécialisés comme Teradata ou SAS. C’est un résultat quasiment mythique qui en a assuré la promotion mondialement : le lien entre les ventes de couches culottes et les ventes de bières le samedi après-midi.

Cette véritable légende du datamining a été reprise maintes et maintes fois, et parfois même « améliorée » avec l’ajout de gâteaux. En réalité les faits remontent à 1992 quand Teradata a analysé les ventes des magasins OSCO. Ceci a mis en lumière qu’entre 17h et 19h on observait un pic des ventes de couches culottes qui correspondait également à un pic de vente des bières. Et cela a permis de réorganiser judicieusement les rayons en obligeant un passage par le rayon bières pour atteindre les couches, et donc d’augmenter significativement les ventes de bières. 

Mais prévoir n’est pas expliquer, hormis une hypothétique histoire de papa allant acheter les couches pendant que maman garde le bébé, ce phénomène reste un mystère.     

Avec les technologies de nouvelle génération, la puissance du Data Mining s’est encore accrue, offrant la possibilité d’analyser et de croiser des sources de données totalement hétérogènes.

C’est ainsi que Wallmart a fait une découverte étonnante au début des années 2000. En fonction des données de vente de tous ses magasins, Wallmart détermine quotidiennement quels sont les produits à mettre prioritairement en rayon. Depuis un moment ses analystes soupçonnaient que les gens s’écartent de leurs habitudes d’achats à l’approche de fortes intempéries, en particulier dans le cas de l’arrivée d’un ouragan.  Aussi, lorsque l’ouragan Frances est annoncé en 2004, une analyse est conduite sur toutes les ventes réalisées lors des ouragans passés. Et là, surprise : avant chaque ouragan on constate un net accroissement des ventes et des ruptures de stock concernant … les Pop-Tarts à la fraise !    

Fort de cette découverte, Wallmart envoie aussitôt des camions entiers de Pop-Tarts à la fraise dans tous les magasins le long de l’autoroute 95, sur le parcours de Frances. Résultat : des ventes multipliées par sept !

data-analyse-rayon-poptart-ouragan

Un rayon avec les fameuses Pop-Tarts qui est déjà bien dégarni …

 

Pourquoi les Pop-Tarts ? Probablement parce que c’est une denrée qui ne demande ni réfrigération, ni cuisson. Pourquoi à la fraise ? A ce jour personne n’est capable de le dire.    

Et sinon, pour la petite histoire, par beau temps ce sont plutôt les Rice Krispies qui ont la faveur des consommateurs nord-américains.

Avec l’augmentation des volumes de données stockés et utilisables pour des analyses, il est clair que le Data Mining a encore de belles heures devant lui … Avec probablement d’autres découvertes édifiantes à la clé.

 

3 - Text Mining / Text Analytics

Les mots sont des données, cela n’a pas échappé aux informaticiens qui, dès les années 50, ont commencé à développer des techniques pour analyser et traiter automatiquement du texte avec un ordinateur. La première application de ce type est créée en 1957 chez IBM. Elle est exécutée sur une machine IBM 704 et permet de constituer le résumé-synthèse d’un texte.

Le principe est simple : dans un premier temps, une méthode statistique mesure la fréquence des mots et de leur distribution, ce qui permet ensuite une évaluation relative de la signification des mots et des phrases, puis une extraction des phrases les plus significatives. C’est cette procédure de base qui va ensuite être perfectionnée et étendue jusqu’à nos jours, avec toujours ce même schéma global :

  • une phase reconnaissance (mots, phrases, règles grammaticales, relations, etc…),  
  • une phase d’interprétation / composition (en fonction de l’objectif recherché).

Ce qui a changé en revanche, c’est la nature des textes et surtout leurs volumes. On parle désormais de « Text as Data ».

Aujourd’hui une entreprise moyenne stocke 100 TeraOctets ou plus de data non structurées, principalement sous forme de texte.

A cela s’ajoute toute sorte de sources extérieures à l’entreprise, l’ensemble constituant une masse de données textuelles disponibles et exploitables immédiatement : e-mails, avis et critiques en ligne, tweets, notes de téléacteur, résultats d’enquêtes ou de sondages, corpus de textes (littérature grise), réponses aux questions ouvertes d’un questionnaire, champs texte d’une application métier, post sur les réseaux sociaux, articles, rapports, etc.

La fouille de textes systématisée est un moyen puissant pour extraire du sens, découvrir des relations non triviales ou pour faire apparaitre des nouveautés encore à l’état de signaux faibles.

Et les applications sont nombreuses dans des champs variés :

  • Pour les communications électroniques : filtrage et classification des courriers entrants (spam/ non spam, par thèmes/objets, …) ;
  • Dans les domaines scientifiques et techniques ou dans la vie courante : pour la recherche d’information ou les requêtes dans un moteur de recherche, ou pour détecter des incohérences ou des anomalies ;  
  • En journalisme : pour suivre des fils d’actualités, ou évaluer l’évolution des opinions ;
  • Dans les agences de sécurité : interception de communications privées ou publiques (NSA Echelon ou système d’Europol) ;
  • En Intelligence économique : pour cartographie des relations d’affaires et des réseaux d’acteurs ;
  • En Marketing : pour l’analyse comportementale des consommateurs ou des clients ;
  • En sciences sociales : pour suivre l’évolution d’un champ lexical au cours du temps, repérer l’apparition de nouveaux mots, évaluer des tendances, des modes (sociologie, psychologie, marketing, etc.) ;  
  • Pour la vie privée des citoyens (RGPD) : détection et protection des données sensibles, c’est à dire des data ayant trait par exemple aux opinions politiques, aux convictions religieuses, à la santé, à l’orientation sexuelle, etc.

Parmi les exemples réussis de Text Mining on peut citer Google NGram pour son côté accessible et ludique (bien qu’un peu daté maintenant). C’est un service de recherche de mots ou d’expressions particulières dans des millions de livres numérisés. On peut avoir instantanément leur nombre d’apparitions entre 1800 et 2010.

ngram-viewer-google-data-analyse

Ngram de Google permet le mining de mots dans un corpus de livres numérisés. Ici, la présence des différents analytics depuis 1950 : on visualise bien l’apogée du Linear Programming dans les années 70, l’explosion du Data Mining à partir de 1990, ainsi que l’émergence du Neural Network dans les années 60 et sa montée en puissance à partir de 1986.  

 

On a aussi PubGene, créé en 2001 dans le domaine de la biomédecine. C’est un moteur de recherche qui s’appuie sur une cartographie sémantique des termes biomédicaux et sur des réseaux graphiques. Il est dédié à l’expertise médicale.

Plus inquiétant en revanche, c’est la manière dont Facebook scanne tous les contenus textuels publiés ou envoyés par ses utilisateurs, incluant les messages privés. Cette pratique a été publiquement admise en 2018 par Mark Zuckerberg lui-même. Il la justifie par la nécessité de détecter et de bloquer les contenus qui contreviennent à la politique de Facebook, qui portent atteinte au respect des personnes ou qui incitent à la haine.   

Quelque soient les intentions ou les raisons de leurs usages, force est de constater que les technologies de Text Mining sont tout à fait opérationnelles et efficaces. 

On compte aujourd’hui au moins 40 solutions de Text Mining disponibles sur le marché. Elles offrent des fonctionnalités d’évaluation de contenus incluant la sémantique et le contexte. Elles combinent en général des algorithmes d’analyse avec du machine learning, et la possibilité d’inclure des dictionnaires personnalisés. On peut en citer quelques-unes : Mozenda, DiscoverText, IBM AlchemyLanguage, MonkeyLearn, SAS Text Miner, Keatext, Clarabridge Text Analytics…

Ces solutions ont toutes évolué au-delà du simple Text Mining en intégrant des fonctionnalités de Sentiment Analysis dont nous reparlerons par la suite.  

 

4 - Voice Analytics

L’analyse de la voix est la suite logique du Text Mining, la parole étant in fine convertible en texte. Restait cependant à pouvoir reconnaitre le langage et le retranscrire automatiquement. C’est pourquoi les technologies d’analyse de la voix ont nécessité bien plus de temps pour être mises au point.

Les premières applications à large échelle concernent l’analyse de la parole au sens strict. On parle alors de Speech Analytics. Elles sont principalement déployées dans les centres de relation clients où leur utilisation conduit à une amélioration sensible de la qualité de service. A un premier niveau elles permettent d’identifier les problèmes récurrents, les urgences ou les sujets souvent évoqués par les consommateurs d’un produit ou d’un service.    

C’est ainsi qu’il y a quelques années, la compagnie d’assurance NewYork Life a pu réduire le volume de ses appels entrant de 400 000 par an et réaliser 40% d’économie au niveau des équipes d’assurance qualité.

Le Voice Analytics est une extension ultérieure du Speech Analytics, il se concentre en plus sur la façon de parler. La hauteur de la voix (pitch), son amplitude, la fréquence des phonèmes et des mots et le Mel-Frequency Cepstral Coefficient* (voir illustration) sont mesurés dynamiquement pour déterminer l’état émotionnel du locuteur : joie, tristesse, colère, peur.

mel-frequency-cepstral-coefficient-data-analyse

*MFCC – Mel-Frequency Cepstral Coefficient, permet de mesurer le spectre de puissance court-terme d’un son, donc grosso modo l’attaque et l’intensité que l’on peut mettre en correspondance avec un état de stress ou d’excitation (dans une vision simplifiée).

 

Précision importante, la reconnaissance automatique de la parole (speech recognition en anglais) doit être distinguée de la reconnaissance vocale, ou speaker recognition, qui a pour but l’identification du locuteur et qui s’appuie principalement sur des modèles de deep learning.

Un logiciel de Voice Analytics comporte donc nécessairement un composant de reconnaissance automatique de la parole (ou ASR pour Automatic Speech Recognition), mais aussi des fonctions étendues pour analyser des patterns audio. On trouve deux approches concurrentes :

  • l’une passe par une compréhension et une interprétation directe des phonèmes,
  • l’autre consiste à d’abord transcrire la parole sous forme textuelle pour l’analyser ensuite.

La technologie la plus performante à ce jour est le LVCSR (Large-Vocabulary Continuous Speech Recognition) permettant de faire du Speech-to-Text, en mode full transcription, par comparaison avec les approches purement phonétiques qui sont beaucoup moins puissantes.

Au niveau de l’analyse, le couplage entre le vocabulaire, des expressions répertoriées et les intonations de voix offre la possibilité de détecter des situations de tension, d’agressivité ou au contraire de satisfaction et de bonne entente entre deux ou plusieurs interlocuteurs. Des composants logiciels spécialisés peuvent être combinés entre eux pour maximiser les résultats (par exemple kNN, C4.5 ou SVM RBF Kernel).

Le Voice Analytics étant spécifiquement dédié à l’analyse de conversations orales, il est majoritairement mis en œuvre dans un cadre de relations clients ou de relations partenaires.  A partir des enregistrements des conversations téléphoniques, cela permet notamment de faire ressortir :

  • des facteurs de surcoûts,
  • les tendances d’apparition des sujets,
  • les forces et les faiblesses des produits et des services proposés,
  • des éléments de compréhension concernant la perception d’un produit ou d’un service.

Le Voice Analytics se révèle également très utile dans le domaine de la sécurité, soit pour repérer des menaces, ou plus généralement pour intercepter des échanges ou des propos suspects.

Enfin, bien évidemment, c’est une composante essentielle du fonctionnement des agents vocaux déployés massivement dans notre quotidien depuis plusieurs années (Alexa, SIRI, Watson, Google Assistant & Co), avec toutes les limites et les réserves que cela peut soulever.         

Et pour préfigurer ce que nous réserve l’avenir, l’association Amazon-Lab 126 nous en donne un bon avant-goût avec Dylan.  Il s’agit d’un bracelet connecté couplé à une intelligence artificielle pouvant lire et décrypter les émotions humaines. Dans une situation d’utilisation de commandes vocales, l’état émotionnel du porteur est discerné à partir du son de sa voix. L’ambition est pour le moment plutôt louable puisque le but est d’apporter, sur l’instant, un soutien moral ou des conseils sur l’attitude à adopter vis-à-vis des proches dans des situations jugées difficiles … Dylan est en quelque sorte un cyber-compagnon de détresse quand les humains font défaut.    

 

Conclusion

Voilà pour une entrée en matière. Ces quatre types d’analytics présentés sont probablement les plus connus de tout un chacun. Chacun représente un haut niveau de perfectionnement et peut donner lieu à de nombreuses applications. Ils ne constituent cependant qu’une partie des techniques existantes et couramment employées dans le monde. Pour poursuivre notre tour d’horizon, la prochaine étape s’intéressera aux évolutions les plus immédiates de ces quatre piliers fondateurs.       

 

Aussi n’hésitez pas à visiter notre offre Big Data.

Parlons ensemble de vos projets.

contactez-nous