17 analytics pour transformer votre organisation, Partie 3

12 Décembre 2019
analytics-pour-transformer-organisation
Nous avons vu que les analytics ont su adresser tout le champ des data produites dans le monde, dans la première et la deuxième partie de cet article. A partir des données quantitatives, elles ont pu intégrer les différentes formes de media disponibles : le texte, la parole et la voix, les sons, l’image et la vidéo. En les combinant, on a même réussi à mettre au point des systèmes sophistiqués capables d’interpréter les émotions humaines. Mais ce n’était pas suffisant, et pour certaines catégories de problème, il a fallu développer des analytics très spécifiques.

(Vous pouvez accéder à la deuxième partie de l'article en cliquant ici)

 

9 - Business Experiments

Le 27 février 2000, dans un de ses nombreux Labs, Google a effectué une expérience qui a révolutionné le Web. Pourtant c’était une expérimentation très simple et qui aurait pu paraitre totalement insignifiante. Le test portait sur l’affichage des résultats d’une recherche, avec deux groupes d’utilisateurs : affichage de dix liens comme d’habitude pour le groupe témoins, affichage modifié avec plus de vingt liens pour le groupe expérimental.

Les conclusions et les enseignements de cette première seront décisifs pour la suite. Tout d’abord, il a été observé que cette petite modification provoquait des différences de comportement sensibles entre les deux groupes d’utilisateurs. Ce qui a également retenu toute l’attention de Google, c’est que l’on pouvait effectuer un réglage du nombre de liens affichés pour obtenir un maximum de réactions positives, et que ce niveau de réglage ne pouvait pas être déterminé a priori, mais seulement par essais successifs en comparant à chaque fois les résultats.

C’est à partir de cela qu’a été formalisée la méthode d’optimisation, plus connue sous la dénomination d’A/B Testing, qui consiste à effectuer des expériences avec des groupes d’utilisateurs sélectionnés au hasard.

Dès son invention, cette pratique a été massivement adoptée par tous les acteurs du Web. Elle s’est aussi considérablement intensifiée, parfois jusqu’à l’excès. En 2003, un employé de Google a publiquement claqué la porte après avoir réalisé 40 tests A/B pour départager des nuances de bleu à peine perceptibles. En 2011, Google, toujours, avait réalisé plus de 7000 tests A/B. En 2018, Facebook réalisait plus de 1000 tests A/B par jour.    

Le cas d’application le plus emblématique est probablement celui de la campagne de Barack Obama en 2012. Des tests A/B ont été méthodiquement mis en place pour optimiser la performance du site de campagne. Les modifications et les options portaient sur les photos, les bandeaux, les slogans, etc. Au final l’équipe de campagne a pu véritablement maximiser les adhésions, le bénévolat et les dons … Avec le résultat final que l’on sait (voir illustration).

 

A/B-testing-durant-campagne-barack-obama

Deux versions testées (entre autres) de la page d’accueil du site de campagne de Barak Obama. C’est celle de gauche qui a remporté le plus d’adhésion. A droite le menu de gestion des options et des scorings.

 

Plus discrètement, mais de façon plus durable et désormais bien ancrée dans les mœurs, la plupart des journaux et des quotidiens en ligne testent couramment des alternatives portant sur les titres des articles publiés afin d’inciter plus de lecteurs à cliquer dessus bien sûr.    

De nos jours, l’A/B Testing est aussi de plus en plus utilisé dans l’industrie du jeu, en particulier dans les jeux en ligne et en réseau. Par exemple, dans World of Warcraft des tests sont systématiquement implémentés sur les différentes versions du jeu. Une des modalités principales consiste à attribuer des missions différentes à plusieurs groupes de joueurs, l’objectif étant que chaque joueur reste le plus longtemps possible en ligne sans se déconnecter. C’est ainsi que l’éditeur Blizzard Entertainment a pu déterminer que le temps de jeu par session est 30% plus long lorsque la mission consiste à sauver un personnage.     

Dans le monde digital connecté, les expériences randomisées sont rapides et peu coûteuses à mettre en œuvre. Il est inutile de recruter des volontaires, il suffit de modifier une ligne de code pour répartir les utilisateurs d’un service ou d’une application en plusieurs groupes, à leur insu.       

Et des changements mineurs peuvent vraiment avoir de grands effets. En 2012, Google (encore) ajoute des flèches à droite dans ses annonces publicitaires. Les flèches ne pointent sur rien du tout, excepté le bord de l’écran, ce qui est totalement contre-intuitif, mais les résultats sont sans appel : le taux de conversion est augmenté significativement.

 

10 - Cohort Analysis

Sous cette appellation curieuse, tout droit sortie de la Rome antique, se cache une pratique d’analytics redoutablement efficace pour qui veut optimiser le trafic d’un site Web.  

Une cohorte est un groupe d’utilisateurs ou d’usagers partageant une même caractéristique, et en particulier ayant eu le même comportement sur une période de temps déterminée. Le terme a été utilisé au départ dans des études médicales comparant des groupes de fumeurs et de non-fumeurs. Depuis il a été repris presqu’exclusivement dans un cadre de digitalisation et de développement de plateformes Web.

La cohort analysis est un outil privilégié pour monitorer finement et mieux comprendre le comportement d’utilisateurs d’applications en ligne : services d’urgence ou services publics, plateformes de e-commerce, applications web métier, jeux en ligne, etc.

C’est bien évidemment un atout maître dans le marketing digital pour déterminer quel est l’usage réel d’un service et si les gens continuent à l’utiliser. 

Les cohortes sont constituées suivant un découpage temporel, en regroupant des utilisateurs par ordre d’arrivée (comme les cohortes d’une légion). Par exemple tous les clients ayant fait leur première commande sur une journée donnée, dans ce cas on aura alors une cohorte par jour.

En pratique, les cohortes sont basées, soit sur le moment où l’achat d’un produit ou d’un service est contractualisé pour la première fois, soit sur ce que font les utilisateurs dans une application pendant une période donnée (navigation, transaction, téléchargement, contact, etc.).   

Ce découpage est pertinent pour repérer des schémas temporels récurrents dans le cycle de vie des clients. Par exemple, pour un site de e-commerce, on commence par mesurer le temps entre la première visite et le premier achat, pour une cohorte donnée. En poursuivant dans la même logique, on peut savoir quel est le temps écoulé entre deux achats, au bout de combien de temps le client arrête d’acheter,  quel est le pourcentage de clients qui restent après 15 jours, 1 mois, 2 mois, etc.  

L’intérêt des cohortes, on le comprend, est de pouvoir suivre les micro-tendances en comparant l’évolution des mesures d’une cohorte sur l’autre. Ce qui permet, non seulement d’être très réactif si on constate que les résultats ne vont pas dans le bon sens, mais aussi d’évaluer très rapidement les effets des actions qu’on a lancées pour maintenir ses objectifs. 

De manière plus globale, une analyse sur l’ensemble des cohortes donne une vision fine de la qualité d’usage. Elle permet de cerner ce qui produit de la rétention ou bien du désengagement, de savoir à quelle vitesse les clients sont perdus et à quel rythme il faut en acquérir des nouveaux pour maintenir le trafic.

Sans surprise les éditeurs leader en la matière sont Google et Adobe qui tous deux proposent des frameworks de cohort analysis prêts à l’emploi et paramétrables.

Ces  fonctionnalités sont parfaitement intégrées dans la nouvelle version d’ADOBE analytics (janvier 2019). On y trouve en standard trois tableaux de cohortes pour analyser les rétentions, la perte de clientèle (churn) et les temps de latences.

En personnalisant ces tableaux, on peut effectuer un tuning des données pour affiner les analyses.

Par exemple on va chercher à déterminer quel est le meilleur moment pour ré-engager des clients qui sont en baisse de fréquentation du site ou d’utilisation d’un service en ligne. 

Dans Google Analytics, on trouve également une option de cohort analysis dans view / audience / cohort analysis. Par défaut Google délivre des valorisations avec cinq valeurs, représentées par un dégradé de couleur (plus la valeur est haute plus la couleur est foncée).

 

cohort-analysis-google-analytics

Page Google de restitution et d’analyse de la fréquentation d’un site WEB par cohortes  

 

En somme, tout l’outillage nécessaire est à la fois facile d’accès et facile d’utilisation, avec potentiellement de grands bénéfices. Alors si la cohort analysis vous tente, n’hésitez pas à vous lancer …

 

11 - Forecasting / Time Series Analysis

Le Forecasting s’intéresse à un type de data bien particulier : les séries temporelles (Times séries).

Une série temporelle est constituée par une mesure effectuée à intervalle régulier, on l’appelle également série chronologique. C’est donc une suite de valeurs numériques représentant l’évolution d’une quantité spécifique au cours du temps. C’est typiquement la structure de data qu’on obtient lorsque l’on connecte un capteur sur un système ou une machine pour en enregistrer le fonctionnement (par exemple un réacteur d’avion ou une machine-outils sur une chaîne de manufacturing).

L’analyse de time-series s’applique en particulier aux phénomènes cycliques ou réguliers, que ce soit pour les suivre (monitoring) ou pour émettre des prédictions. Le principe d’analyse est alors de comprendre l’évolution passée pour prévoir le comportement futur.   

L’objectif initial est de déterminer des tendances ou d’apprécier la stabilité des valeurs et de leur variation au cours du temps. Les prédictions, elles, sont basées sur des calculs statistiques.

Les time series analytics sont très utilisées pour la maintenance prédictive. Tout d’abord, elles permettent de détecter rapidement des dysfonctionnements et d’en identifier la cause. Ensuite, elles permettent surtout de modéliser le fonctionnement nominal d’un équipement ou d’un matériel, de le simuler dans le temps, et de prévoir des usures ou des pannes.  

Les applications intéressent tous les domaines d’activité utilisant des automates et des machines. De plus, l’essor actuel des capteurs et des objets connectés va immanquablement provoquer une augmentation très importante du volume de séries temporelles dans le monde. On notera d’ailleurs que le secteur aéronautique se distingue particulièrement en la matière avec des investissements colossaux, et une offre de maintenance prédictive déployée mondialement qui s’étoffe et se perfectionne de jour en jour.

Côté technique, le forecasting a donné lieu à une nouveauté avec l’apparition des Time Series DataBases il y a quelques années.

Ce sont des logiciels de gestion de data conçus et implémentés spécifiquement. Ils sont caractérisés par leur rapidité, de la haute disponibilité, et des fonctions performantes spécialisées pour le stockage et l’extraction de séries temporelles.

La plus connue et la plus utilisée de ces solutions est InfluxDB, développée par le MIT (en langage GO). Elle est disponible depuis 2013 sous licence open source.  

 

time-series-database-solution-influxdb-mit

InfluxDB – Menu Principal  

 

Chaque point Influx DB est constitué par une collection de champs associée à un marquage temporel (time stamp) constituant ainsi des paires de valeurs clés. Les intervalles temporels sont indiqués en nanoseconde ce qui permet de gérer des mesures en quasi-continu (temps réel). 

Ses fonctionnalités sont nativement orientées temporellement pour faire des requêtes sur des structures de données composées de mesures, de séries et de points :

  • stockage et compression de données horodatées (les data avec un horodatage similaires sont stockées sur le même espace physique),
  • gestion du cycle de vie des data,
  • agrégation (temporelle),
  • scan de données à large échelle,
  • requête temporelles, range queries,
  • performance d’écriture élevée,
  • scalabilité massive.

Et la performance est au rendez-vous, à titre de comparaison une Time Series Data Base telle que InfluxDB peut être jusqu’à cent fois plus rapide que Elasticsearch pour exécuter des requêtes sur des séries temporelles.

Les champs d’applications sont nombreux et en plein développement. Pour l’instant, le monitoring est le plus courant (Infrastructure and application monitoring, IoT monitoring and analytics, Network monitoring). Dans un futur proche, en revanche, il suffit de lorgner vers l’aéronautique pour voir que les systèmes de Time Series Analytics vont être de plus en plus intégrés dans des architectures complexes pour produire des modélisations, des simulations et des prédictions sur des ensembles et des systèmes complets, comme des aéronefs, des lignes ferroviaires ou des axes routiers, des réseaux de distribution d’énergie, etc. L’ère de la Time Serie ne fait que commencer.  

 

12 - Horizon Analysis

Les analyses d’horizons sont bien connues dans le domaine de la finance. Un horizon c’est tout simplement une échéance ou un terme. Et il s’agit donc d’envisager tous les scénarios susceptibles de se produire jusqu’à l’atteinte de cet horizon qui est lui, par définition, totalement fixe et déterminé. Pour schématiser, un horizon, c’est techniquement parlant une date.

Si vous parlez d’horizon à un banquier, il aura tout de suite en tête le revenu escompté d’un placement dans un laps de temps donné. Si ensuite il faut raisonner sur un ensemble de valeurs ou de titres, un portfolio, les choses en général se compliquent un peu, et il n’est plus vraiment possible d’avoir une vision linéaire et déterministe du retour sur investissement. C’est là que l’analyse d’horizon se révèle pertinente.  

La première étape consiste à décomposer les résultats attendus en scénarios qui sont projetés sur plusieurs périodes de temps. Les simulations suivent le principe What if ? (What if principle). On effectue ensuite des comparaisons entre divers scénarios probables et un scénario correspondant au pire des cas. Dans notre cas de portfolio financier, ceci permet d’aboutir à une évaluation plus réaliste de sa performance globale, et donc d’analyser le retour sur investissement total (Total Return Analysis).

Transposée dans d’autres domaines, l’analyse d’horizon a donc pour principal objectif et bénéfice la possibilité de comparer quantitativement différents scénarios afin d’en choisir ou d’en négocier un. Lorsqu’une décision implique plusieurs parties prenantes, c’est aussi un très bon instrument pour évaluer les opportunités de chacune et leur champ d’action correspondant.

Le cas le plus parlant pour tout le monde, je pense, c’est le problème de la maîtrise des émissions de gaz à effet de serre, sujet totalement d’actualité. Ainsi le rapport émis par le GIEC tous les 5-6 ans est l’exemple probablement le plus emblématique de ce qu’est une analyse d’horizon.  

Le GIEC est le Groupe d’experts Intergouvernemental sur l’Evolution du Climat, créé en 1988. Ce rapport décrit des scénarios d’atténuation du changement climatique (Climate change mitigation scenarios).

Le 5ème rapport de 2014, appelé AR5 (pour IPCC fifth assessment report), décrit quatre scénarios avec des horizons qui s’échelonnent entre 2050 et 2100. Soit une augmentation de 1°C à 4°C dans le meilleur des cas, et de 4°C à 11°C dans le pire des cas. Il tente de répondre à la question : comment peut-on limiter la progression des températures d’ici la fin du XXIème siècle ?  

Les scénarios sont basés sur des modèles ACEGES (Agent based Computationnal Economics of the Global Energy System). Ils ont été élaborés en utilisant une cinquantaine de modèles climatiques : circulation générale, simulation des déplacements et des températures des masses atmosphériques et océaniques, cycle du carbone, cycle de l’eau (vapeurs, nuages).

Le point de départ, c’est l’évaluation du niveau d’impact des activités humaines sur la montée des températures, ce qu’on appelle le forçage anthropique. Il est désormais considéré comme extrêmement probable, après être passé d’une éventualité en 1979, à très probable dans le 4ème rapport de 2007. 

En outre, les scénarios explorent les possibilités de maîtrise des différents éléments qui conduisent à une accélération du réchauffement. Parmi eux, l’accent est mis sur la progression de la concentration en CO2, mais aussi sur des émissions plus pernicieuses et tout aussi incidentes comme celles de méthane et de protoxyde d’azote (notamment par les ruminants, les rizières et le dégel du pergélisol).     

 

scenarios-gaz-effets-serre-2100-giec
Les quatre scénarios d’émission de gaz à effets de serre d’ici 2100, modélisés par le GIEC dans son cinquième rapport de 2014 (AR5). 

 

La répartition des émissions par grands types d’activités économiques permet de déterminer des leviers d’action pour limiter la progression du réchauffement (énergie, industrie, forestier (déforestation tropicale), agriculture, transports, habitations, déchets et eaux usées).

Ce type d’analyse peut donc se révéler extrêmement complexe, à la fois dans la formulation des hypothèses et dans la conduite des études. Celles-ci nécessitent énormément de données et une forte capacité de calcul. Pour cela, la disponibilité de supercalculateurs est une condition sine qua non pour produire des résultats robustes et crédibles.   

Dernier point intéressant, la décomposition en scénarios, comportant chacun des hypothèses ciblées, permet de distribuer le travail d’analyse, entre plusieurs équipes de recherche, et de paralléliser les études. En cela nous pouvons dire que l’analyse d’horizon, menée à une certaine échelle, revêt un caractère profondément collaboratif. Elle représente sans doute à ce jour le type de méthode le plus abouti pour construire un bien commun.  

 

13 - Monte Carlo Simulation

Monte Carlo est une méthode d’analyse de probabilité mise en œuvre en faisant jouer un certain nombre de variables au sein d’un modèle, pour déterminer les différents résultats possibles.

Cette méthode a été inventée et popularisée, si l’on peut dire, en premier lieu dans le domaine de la physique nucléaire, au Laboratoire de Los Alamo juste après la seconde guerre mondiale. En effet c’est là qu’a été développé le code de calcul MCNP (pour Monte Carlo N-Particle transport code), un logiciel spécialisé qui permet de simuler numériquement des interactions entre des particules, photons, électrons ou neutrons. Le suivi de chaque particule, la trajectoire et le type de noyau sur lesquels ont lieu les interactions, sont tirés au hasard, exactement comme dans les machines à sous ou la roulette d’un casino. Et les scientifiques de Los Alamo avaient alors à l’esprit le casino de Monte Carlo, ce qui valut son nom à ladite méthode.

Aujourd’hui MCNP est devenu l’outil de simulation le plus utilisé au monde pour la radioprotection, la criticité, l’instrumentation, la dosimétrie, l’imagerie médicale, et les calculs de réacteurs et autres installations.

Quant à la méthode Monte Carlo en elle-même, elle a été étendue à tout type de décision qui comporte une large part d’incertitude. En l’utilisant, un décideur est capable de déterminer toute la gamme des possibilités et leurs probabilités d’occurrence pour chaque choix d’action.

La première étape consiste à construire un modèle mathématique de la décision que l’on considère. Ensuite, on fait jouer la simulation pour couvrir tous les aspects d’incertitude du modèle. Différentes variables aléatoires sont introduites au niveau de ces parties incertaines jusqu’à ce qu’il y ait suffisamment de résultats pour pouvoir tracer une courbe de distribution des probabilités.

 

methode-monte-carlo-valeur-actif

En rejouant la simulation des milliers de fois, on trace un graphique représentant l’ensemble des possibilités de résultats, ici l’évolution de la valeur d’un actif.  

 

A partir de la courbe créée, en s’appuyant visuellement sur la forme de la distribution des probabilités, on peut voir directement dans quelle zone tombe une décision parmi les différentes possibilités représentées.

Il devient ainsi possible de faire des choix basés sur le risque que l’on est prêt à prendre pour obtenir le résultat que l’on souhaite ou dont on a besoin.  

Comme le calcul est basé sur la probabilité, il faut un grand nombre de tirages aléatoires pour abaisser l’incertitude statistique. Parfois la simulation doit être jouée au moins plusieurs dizaines de milliers de fois pour couvrir tous les résultats possibles. C’est pourquoi dans tous les cas un ordinateur puissant est requis. Certains calculs peuvent durer plusieurs mois et demandent des ressources conséquentes, d’où l’emploi de plus en plus courant de supercalculateurs.

 

Conclusion

Ce tour d’horizon des analytics est maintenant bien avancé. Pourtant, après avoir couvert l’ensemble des types de data et de media, après avoir abordé des analytics très spécialisées, nous ne sommes pas encore arrivés au bout de notre étude. Il nous reste encore à aborder des méthodes que l’on pourrait presque qualifier de purement mathématiques. Certaines sont anciennes bien qu’encore très utilisées, et celles qui ont connu des développements récents représentent le plus sûrement l’avenir des analytics …

(Vous pouvez accéder à la dernière partie de notre série en cliquant ici)

Aussi n’hésitez pas à visiter notre offre Big Data.

Parlons ensemble de vos projets.

contactez-nous