17 analytics pour transformer votre organisation, Partie 2

5 Décembre 2019
graphiques-analyse-data-pour-transformer-organisation
Nous avons vu dans une première partie que les analytics se sont emparé des data sous différentes formes. A partir de calculs et de comparaisons sur des données quantitatives, on évolue vers l’exploration et la recherche d’information. Dans une approche corolaire, les techniques d’analyse intègrent le texte et la parole, et la voix … mais ce n’est que le point de départ, le développement est continuel : l’étape suivante c’est bien sûr la vue et l’image … puis la capacité de combiner toutes les formes de media... par Pierre-Sylvain Roos

(Vous pouvez accéder à la première partie de notre série en cliquant ici)

 

5 - Image Analytics

Les images aussi sont des données, à condition de savoir les traiter et les exploiter. Les technologies d’analyse d’image n’ont atteint leur pleine puissance que très récemment. C’est encore un domaine en plein développement qui devrait connaitre d’énormes progrès dans les années qui viennent.    

Pour le grand public, c’est Facebook qui a popularisé ce type d’analytics à travers la mise en œuvre massive d’algorithmes de reconnaissance faciale. L’intention initiale semblait anodine   puisqu’il s’agissait de taguer automatiquement des « amis » sur des photos. Cependant cela a également démontré assez rapidement le niveau de puissance et d’efficacité de ce type d’analytics, et un risque majeur de dérives en matière d’atteintes à la liberté et à la vie privé. Pour Facebook, le succès technologique pourrait bien se muer en catastrophe économique. Une class action en cours a fait valoir que sept millions de citoyens de l’Illinois ont subi un préjudice n’ayant pas donné leur consentement. L’amende qui s’ensuit pourrait atteindre jusqu’à 35 Milliards de dollars.   

Sur un terrain moins controversé, une des premières applications notables de l’Image Analyics commence avec une idée saugrenue. En 2009, trois étudiants de Havard (J.Vernon Henderson, Adam Storeygard,  David N. Weil.) proposent de mesurer le PIB d’un pays à partir de la quantité d’éclairage nocturne visible depuis l’espace. Les images utilisées sont des photos provenant d’un satellite de l’U.S. Air Force effectuant 14 rotations par jour autour de la terre. Un des premiers résultats saisissant de cette méthode concerne la Corée du Sud dont on a ainsi pu déterminer qu’elle a connu une croissance de +72% entre 1992 et 2008.

 

evolution-pib-coree-sud-analyse-data

Péninsule Coréenne : Croissance à long terme entre 1992 et 2008

 

En 2015, c’est une initiative de la Banque Mondiale qui assoie la pertinence et la robustesse des analyses basées sur des images. Ici, le projet consistait à déterminer les tendances de l’économie souterraine dans un pays en voie de développement où les indicateurs officiels ne sont pas fiables ou peu précis. Pour cela, le donneur d’ordre a eu recours à l’agence Premise créée par Joseph Reisinger. Cette agence emploie des auxiliaires équipés de smarphones dans le pays ciblé. Leur travail consiste à prendre des photos de ce qui se passe d’intéressant et qui pourrait avoir une portée économique.

Les analyses portent ensuite sur des milliers d’images prises intentionnellement, et qui constituent une mine d’informations. Dans le cas initial, il s’agissait de prendre des images de paquets de cigarettes visibles dans l’espace public, et d’analyser ensuite la présence ou non du timbre fiscal qui indique un commerce légal. La proportion de paquets de cigarettes sans timbre est proportionnelle à l’ampleur de l’économie souterraine. Et en répétant l’opération à un an d’intervalle, on peut mesurer l’évolution de cette part de marché. Cela a permis de constater une contraction du marché souterrain entre 2015 et 2016.

     

6 - Video Analytics

L’analyse automatique de vidéo n’est réellement au point que depuis quelques années seulement. Elle a connu un développement privilégié dans deux domaines : la sécurité et le retail. Là aussi, comme nous allons le voir, les perspectives de perfectionnements et d’avancées sont immenses. 

Dans la plupart des cas d’utilisation, les sources d’analyse (les vidéos en entrée) proviennent de systèmes de CCTV (Closed-Circuit TeleVision). La performance globale du système de Video Analytics repose donc en premier lieu sur le fait d’avoir placé le bon nombre de caméras aux bons endroits.

L’objectif premier est alors d’analyser automatiquement, et si possible en temps réel, le comportement des personnes qui se déplacent dans la zone couverte par les caméras, par exemple des clients dans un centre commercial ou une foule dans la rue.     

Une approche complémentaire consiste à accumuler des enregistrements vidéo pour effectuer des analyses de masse a posteriori et en extraire des enseignements. Par exemple, dans un réseau de magasins (points de vente physiques) : quelles sont les couleurs les plus portées par les clients ? Comment évoluent-elles d’une saison à l’autre ? Ou alors quand il pleut, que font les clients qui entrent de leur parapluie ?

La vidéo est un media particulièrement adapté pour visualiser directement des événements spatiaux ou temporels. C’est un outil idéal pour la détection de mouvement, le tracking ou la reconnaissance. Et l’intérêt premier d’un système de video analytics c’est qu’il peut être branché sur un grand nombre, voire un très grand nombre de caméras (de sources) sans que l’on soit limité par un quelconque problème de défaut de vigilance.  

Ce que l’on cherche à déterminer en général, ce sont les situations ou les comportements inhabituels d’une part, et à l’inverse les comportements réguliers ou sur lesquels on peut faire des prévisions.

Pour être opérationnel dans un lieu donné, le système doit tout d’abord être alimenté pendant une phase d’apprentissage. On va donc lui soumettre à haute dose des vidéos du lieu correspondant à une activité standard, puis à des régimes d’activités limites, jusqu’à ce qu’il soit capable de repérer tous les cas envisagés. Les premières analyses peuvent être ensuite produites par différenciation avec les situations apprises. Et bien sûr, le système continue à apprendre et à être réalimenté en continu, ce qui le rend de plus en plus efficace. 

Dans les systèmes les plus avancés, l’image vidéo est augmentée avec une heat & flow map, littéralement carte de flux et de chaleur, qui apporte une visualisation thermique des zones et des flux de chaleur liés à la présence ou au passage de personnes. L’implémentation complète d’un système de video analytics combine donc des équipements, des composants logiciels et des composants hardware spécialisés pour le video processing.

 

analyse-data-zone-frequentation-rayon-magasin

Visualisation des zones de fréquentation dans les rayons d’un magasin (source CCTV)

 

On trouve des applications dans un grand nombre de domaines : divertissement, santé, retail, automobile, transport, home automation, détection de fumées et de flammes, sûreté et sécurité.    

En particulier la video analytics révolutionne actuellement le métier du retail en portant l’attention sur la manière dont les gens font leur shopping. Grâce à ces nouveaux systèmes, on peut modéliser le comportement des clients dans un magasin, voir quels sont les chemins empruntés, analyser la fluidité des déplacements, apprécier directement quels sont les rayons les plus ou les moins visités, ou même quantifier les stations de clients devant une offre particulière ou dans un rayon donné.

Dans la sécurité aussi la video analytics fait grand bruit, notamment chez nos voisins anglo-saxons en tant qu’auxiliaire de police judiciaire. La société Kinesense par exemple est devenue un leader du domaine avec des solutions dédiées aux investigations de crimes. Elle est ainsi capable de produire rapidement des éléments de preuve issus du traitement de milliers de vidéos, ce qui ne pourrait pas être obtenu par des moyens classiques.  

Et pour finir sur les Video Analytics, je ne peux me retenir de relever la dernière prouesse de Facebook (encore eux !). En pleine tourmente concernant leurs algorithmes de reconnaissance faciale, Facebook AI Research (FAIR) a dévoilé fin octobre (2019) une méthode originale pour, tenez-vous bien, reconstituer entièrement des images vidéos dans lesquelles les visages ne peuvent plus être reconnus automatiquement. Cette sorte de brouillage logique de l’identité trompe totalement les machines mais n’empêche nullement les humains de continuer à reconnaitre les personnes ainsi « protégées ». En outre, ce système peut être activé en temps réel, c’est-à-dire au moment même de la diffusion des images, sans temps de latence perceptible. Au-delà du côté quelque peu surréaliste de cette innovation, ceci nous conduit à deux observations : la première c’est que les capacités cognitives humaines restent pour l’instant très supérieures à celles des automates lorsqu’il s’agit de reconnaitre quelqu’un, la deuxième, c’est que les techniques de modifications des images ont atteint un niveau de perfectionnement qui rend les falsifications indétectables à l’œil nu. A l’avenir, seul le recours à des analytics poussées permettra (peut-être) de déterminer si des vidéos correspondent à des images réelles ou pas.    

 

7 - Sentiment Analysis (SA)

Proposé et formalisé en 2004 lors de l’AAAI Spring Symposium (Association for the Advancement of Artificial Intelligence), le Sentiment Analysis est l’aboutissement ultime des techniques d’analytics abordées précédemment. Il combine texte, son et image pour produire des analyses complexes et affinées. Alors oui, désormais les machines sont capables de comprendre les motivations et les opinions, et d’expliquer, voire d’anticiper des comportements humains.   

Le principe consiste à rechercher et à catégoriser des attitudes, des opinions, des croyances, des points de vue ou des émotions à travers une variété de sources complémentaires (corpus de textes, enregistrements audio ou vidéo, données structurées).

Dans ce type d’analytics orienté sentiments, on s’appuie beaucoup sur des données issues des médias sociaux car elles sont particulièrement porteuses d’indications de cette sorte. On parle d’ailleurs de sentiment rich data : tweets, notes et avis, posts de blogs, commentaires, critiques, etc.

En particulier, les sites de micro-blogging sont une source privilégiée pour analyser l’évolution dynamique des opinions dans une communauté ou sur un large public (opinion mining). Ainsi sur Twitter 190 millions de publications sont postées chaque jour … Mais il n’y a pas que Twitter, et il est préférables de s’appuyer sur un panel de sites, analysés simultanément, pour confronter et comparer des résultats et produire des analyses plus fouillées (chaque site ayant souvent en lui-même son style et ses tendances).

Le Sentiment Analysis est surtout utilisé pour la compréhension et l’amélioration de produits ou de services, pour la prédiction et pour la supervision. 

Pour les prédictions, on détermine un taux d’émotion face à un événement (espoir, peur, joie). Cela peut s’appliquer aux évolutions de valeurs boursières, aux résultats d’une élection, au box-office d’un film qui va sortir, ou au succès d’un produit ou d’un service avant son lancement.

La supervision consiste à recueillir et à objectiver des feed-backs pour monitorer et améliorer, par exemple, la e-reputation d’une marque, ou l’impact d’une communication en ligne.

Les techniques de Sentiment Analysis manient deux approches complémentaires :

  • Le Machine Learning et les méthodes statistiques permettent d’établir automatiquement des classifications, certaines méthodes plus spécifiques utilisant la sémantique comme le LSA (Latent Semantic Analysis).   
  • Les méthodes à base de lexique (Lexicon-based) sont des techniques dites « à base de connaissance » (knowledge based). Elles s’appuient soit sur des dictionnaires (synonyme, antonyme, etc.), soit sur des corpus spécialisés par domaines ou des listes de termes relatifs à des opinions.

La vitalité du domaine des lexiques digitaux n’est pas à démontrer, la multiplication des outils disponibles parle d’elle-même : Werfamous, AFINN, General Inquirer, WordNet / SentiWordNet, SentiSense (SentiStrength), Subjectivity Lexicon, Micro WNOp, NTU Sentiment Dictionnary (NTUSD), Opinion Finder, NRC Hashtag Emotion Lexicon …

 

sentiments-emotions-lexique-canada-data-analyse

Le gouvernement Canadien (NRC) met à disposition sept lexiques de sentiments et d’émotions. Les entrées sont en anglais avec une traduction possible dans 40 autres langues.

 

Dans leurs premières implémentations, les systèmes de Sentiment Analysis exécutaient des analyses de polarité simples : positif, négatif, neutre. Depuis, des analyses plus avancées sont étendues à d’autres sentiments (colère, peur, tristesse, joie) auxquels on adjoint des tags de qualification complémentaires (hostile, amical, fort, faible, situation de pouvoir, situation de soumission, actif, passif, etc.). 

Les capacités d’analyses multimodales (texte, audio, visuel) constituent le développement le plus ultime. Les sources de données sont hybridées pour produire des interprétations globales : expressions faciales, gestes et postures, paroles. Cela débouche sur des usages très spécialisés, comme par exemple, le monitoring de personnes dépressives.

En revanche, malgré des progrès significatifs, les technologies de Sentiment Analysis sont toujours mises en limite pour interpréter correctement l’ironie, l’exagération, le sarcasme, le second degré et l’humour en général.  

En introduisant une dimension humaine et subjective dans ses calculs, le Sentiment Analysis permet de produire des études plus nuancées, de mieux comprendre le ressenti et l’expérience vécue (des clients, des usagers, des salariés), et pourquoi pas aussi de fournir des idées fructueuses parce que basées sur des modèles de comportements et de réactions éprouvés.

Le bémol, c’est que toutes ces analyses utilisent des data hautement personnelles. Sans la mise en place de garde-fous effectifs accompagnés de garanties dans la collecte et l’utilisation de ces data, on peut difficilement préjuger du devenir du Sentiment Analysis.         

          

8 - DataViz & Advanced DataViz

Ce qu’on appelle DataViz dans son acception brute, c’est l’utilisation de figures abstraites, lignes, points, ronds, carrés, pour construire des images, dans le but de représenter des données chiffrées. Aussi surprenant que cela puisse paraitre, c’est une invention relativement récente. En 1983, les grands principes de la DataViz moderne sont théorisés par Edward R. Tufte dans son ouvrage incontournable (« The visual display of quantitative information ». Et depuis, ce domaine n’a cessé de se perfectionner et de s’amplifier, en passant bien sûr par la case digitalisation.   

La grande leçon de la DataViz c’est qu’en visualisant des données, on est beaucoup plus à même de les comprendre correctement et d’appréhender des ordres de grandeur qui sans cela resteraient abstraits. Encore mieux, en introduisant des conventions d’échelles et de formes, et des codes couleur, on obtient des agencements qui font directement ressortir des différences ou des singularités. Prenons le cas d’un trait qui représente un flux de marchandises : l’épaisseur du trait figure le volume échangé, si le trait est continu il s’agit d’achats, s’il est en pointillés se sont des ventes, chaque type de marchandise a une couleur distincte, etc. Avec ces conventions, si on représente les achats-ventes d’un grand distributeur, on peut immédiatement voir quels sont les types de marchandises les plus achetés et les plus vendus.

L’autre avancée notable, et actuel terrain de jeu de la DataViz, c’est la création et l’amélioration en continu de nouveaux modèles de représentations graphiques, de plus en plus sophistiqués, et spécialisés suivant la nature des data analysées et le type d’information à représenter. C’est ainsi par exemple que le Sunburst ou le TreeMap ont fait leur apparition il y a quelques années et sont désormais couramment utilisés.

L’enjeu de la représentation est devenu primordial par la force des choses. En effet, des data qui ne sont pas comprises par les équipes métier sont des data mortes, qui ne permettent pas de créer de la valeur.

C’est pourquoi, en toute fin de chaîne, la DataViz est le maillon indispensable pour pouvoir exploiter au mieux les résultats des analyses. Elle est partie prenante, avec une fonction structurante, dans les processus de restitution et d’interprétation.    

Depuis le début des années 2000, la DataViz a connu une montée en gamme avec la mise au point d’outillages et de techniques encore plus puissants et sophistiqués, si bien que l’on parle aujourd’hui surtout d’Advanced DataViz. Cette nouvelle génération de DataViz apporte beaucoup en termes de facilité d’utilisation, de rapidité et de fluidité, pour littéralement s’immerger dans les data et les manipuler. 

Un premier progrès avec les Advanced DataViz, c’est la constitution dynamique de la visualisation. L’utilisateur peut modifier les paramètres du modèle de représentation, les axes d’analyses et voir directement les changements et les évolutions : il navigue dans les données. Dans ce type de système, les indicateurs et les graphes sont recalculés à la volée à chaque interaction.

Une autre avancée notable, c’est le couplage de la DataViz avec des fonctionnalités de mapping et de géolocalisation, ce qui permet de représenter les data sur un plan ou sur une carte. On peut ainsi par exemple littéralement regarder l’évolution temporelle d’une zone ou d’une région au fil des mois ou des années : urbanisme, occupation des sols, forêts, champs, installations industrielles, infrastructures, etc. Et c’est beaucoup plus parlant que d’avoir dix ou vingt courbes dans un graphique.        

En standard, les Advanced DataViz offrent des fonctionnalités puissantes de manipulation des data, souvent sous la forme d’interfaces tactiles : zoom, dézoom, drill, déplacement, sélection, etc.  

Les solutions les plus utilisées du marché sont apparues dans les années 2000 pour la plupart : Birst, Domo, Microsoft PowerBI, Microstrategy, Qlick Sense, Salesforce Einstein Analytics, SAS visual analytics, Sisense, Tableau, Thoughtspot.

Elles permettent toutes de lire directement de grands ensembles de data implémentés dans des bases de type Hadoop ou sous forme de DataLake. En outre, on y trouve systématiquement des librairies qui comportent des collections de modèles de représentation prêts à l’emploi et adaptables. Ainsi dans Tableau, il y en a plus de soixante en standard, avec des appellations singulières comme Choropleth, Non-ribbon Chord Diagram, ou Candlestick Chart.  

On trouve aussi des librairies libres dans différents langages : Uber React-vis, GitHub (VX, Rechart), Python (Plotly), Java Script (D3js, Chart JS, Three JS).   

 

dataviz-ausy-diagramme-analyse-data

Solution DataViz Touch by AUSY, représentation Non-ribbon Chord Diagram permettant de visualiser les liens entre des data.

 

Ce marché connait déjà un historique riche de croissance rapide, avec une palette d’acteurs diversifiée, et il est appelé à bien d’autres développements prometteurs dans un avenir proche.   

Longtemps la DataViz a été considérée comme un luxe ou une cerise sur le gâteau, mais la perception de son importance réelle a très fortement évolué ces derniers temps. Aujourd’hui les enjeux associés sont très bien compris par les grands acteurs du digital qui se sont en quelque sorte réveillés récemment. On pourrait même dire que les hostilités ont commencé très fort : début juin 2019 Google Cloud rachète Looker pour 2,6 Milliards de dollars, talonné par SalesForce qui a annoncé le 11 juin 2019 le rachat de Tableau Software pour 15,3 Milliards de dollars !

Affaire à suivre donc …   

 

Conclusion :

Avec cette deuxième étape, nous pouvons dire que nous avons fait un premier tour de tous les types de données et de media utilisables par des techniques d’analytics (partie 1 et 2). On pourrait presque s’arrêter là, mais ce serait sans compter avec la variété des problèmes que nos ingénieurs cherchent à résoudre inlassablement. La suite de notre périple en analytics va donc nous mener vers des techniques beaucoup plus spécialisées, peut-être moins connues du grand public mais tout aussi répandues finalement dans les différents cercles d’expertise en analyse de données.   

(Vous pouvez accéder à la troisième partie de l'article en cliquant ici).

Aussi n’hésitez pas à visiter notre offre Big Data.

Parlons ensemble de vos projets.

contactez-nous