Common Voice arrive en France !

25 Octobre 2018
Common Voice
Depuis juin dernier le projet Common Voice de la fondation Mozilla a débarqué en France et entre dans une phase active de production. Alors, pour en savoir plus, nous avons interviewé Christophe, notre expert maison sur la question et représentant de la fondation Mozilla en France.
Common Voice a démarré il y a plus d’un an, de quoi s’agit-il exactement ?

Common Voice est une initiative pour collecter de manière participative des données afin de créer des voix humaines exploitables par des technologies de reconnaissance vocale.

Ce projet a été lancé en juillet 2017.

Actuellement, il existe énormément d’objets ou d’appareils qui comportent des fonctions vocales, c’est-à-dire qui permettent un contrôle de la machine par la voix. Dans un futur proche, cela va s’accélérer et il y en aura de plus en plus.

Les GAFA sont aujourd’hui leaders sur ce type d’équipements. Ces entreprises en ont déjà sorti un certain nombre comme SIRI, ECHO ou « OK Google », et elles sont en train de travailler sur de nouvelles générations encore plus performantes.

Pour faire fonctionner ces équipements, il faut les entraîner à reconnaître la voix ou à parler, et là aussi ce sont les GAFA qui en sont à l’initiative et dominent le marché. Aussi, pour ne pas leur laisser le monopole du vocal, et pour contribuer à maintenir une neutralité des technologies liées à Internet, la fondation Mozilla a décidé de lancer la constitution d’une base de données d’échantillons vocaux libres de droits. Ainsi, tout le monde pourra l’utiliser pour développer et mettre au point de nouveaux produits vocaux en toute indépendance.

Un autre objectif de Common Voice est de faire un saut dans le rendu et la qualité des interactions sonores avec une machine :

  • d’une part, en pouvant reconnaître un maximum de langues dans toutes leurs déclinaisons ;
  • d’autre part, en obtenant une voix machine harmonieuse et beaucoup plus proche de la voix humaine. 

Au final, cela va fonctionner dans les deux sens, aussi bien pour reconnaître et pour transcrire automatiquement de la voix humaine, que pour produire une voix machine plus agréable et plus compréhensible.

Le mode de constitution de cette base d’échantillons est le crowdsourcing (collecte de masse), c’est-à-dire que la fondation Mozilla s’appuie sur ses équipes de développement et sa communauté pour mettre en place et animer, partout dans le monde, des communautés linguistiques pouvant contribuer au projet. 

Common Voice
Pourquoi n’arrive-t-il en France que maintenant ?

Au départ, Common Voice a été réalisé en une seule langue, l’anglais, pour pouvoir stabiliser une première version à vocation internationale. Cette première version a été publiée en novembre 2017.

Cependant, l’objectif de Common Voice a toujours été d’intégrer le plus de langues possibles. Pour cela, l’effort a ensuite porté sur la mise en place de nouvelles communautés linguistiques capables de porter le projet dans leur langue. Mozilla travaille actuellement sur l’ajout de 40 autres langues, mais la liste reste ouverte.

Au second trimestre 2018, il a été décidé d’élargir le projet à un premier groupe de langues dont le français (avec l’allemand et le gallois). C’est là que j’ai été sollicité pour la partie française.

Pour la communauté francophone, il a été détecté une trentaine d’accents. Il faut prendre conscience que tous les types de voix sont importants. Et, concernant le français, c’est une langue riche, avec des parlers différents selon les régions, le continent ou le pays où on le pratique.

Peux-tu nous décrire le fonctionnement du projet ?

L’équipe qui pilote le projet est déployée dans le monde entier : aux USA, en France, en Allemagne, en Asie… Cette équipe est épaulée, en plus, par d’autres contributeurs qui gravitent autour du projet et apportent ponctuellement leur aide.

Il y a un forum dynamique Mozilla, avec un canal français et d’autres pour l’international. Chacun peut y proposer des idées et les soumettre à l’ensemble des communautés, en particuliers les développeurs, ainsi que les principaux responsables.

Cela permet d’apporter des idées complémentaires qui sont ensuite étudiées ou validées. C’est un fonctionnement en réseau, auto-organisé.

A notre niveau, le principal enjeu est de collecter le maximum d’échantillons de voix humaines avec des accents, des intonations et des façons de parler différents.

Pour cela, on produit des contenus texte afin de les transcrire vers la machine. On se doit d’utiliser des contenus libres de droits (CC0), ce qui permet de garantir une chaîne complète ouverte. On doit bien sûr garantir le respect de la vie privée.

Actuellement, on est un peu limité au niveau échantillonnage. On a sélectionné une première liste de sites Web, sur lesquels on fait du scrapping (aspiration du contenu du site).

On récupère à la volée le contenu d’une page, on en extrait ce qui est important, puis on découpe les phrases. Elles ne doivent être ni trop longues, pour ne pas épuiser les lecteurs, ni trop courtes, pour garder un intérêt. 

Ces éléments sont alors importés dans les ordinateurs de Mozilla pour être retraités et validés avant d’être partagés. Il y a une validation automatique et une validation manuelle.

Ensuite, il faut trouver et recruter des contributeurs. C’est une de mes fonctions directes. On est présents dans différents événements ou manifestations, avec un stand où sont installés un ordinateur, un micro et un haut-parleur.

On incite les gens à contribuer, d’abord en leur montrant l’importance de ce système. Pour cela, on emploie un simple navigateur. Le but est qu’ils s’inscrivent et puissent ensuite rejouer eux-mêmes la démonstration chez eux en famille ou avec leurs amis.          

Par exemple, pour les Journées du Patrimoine 2018, on a eu des milliers de personnes qui sont passées sur le stand et sont devenues des contributeurs. Là, c’est du recrutement grand public.

On a aussi un recrutement plus technique, avec un groupe de travail d’une dizaine de personnes, impliquées dans la génération de scripts, la sélection et la capture de contenus. En ce moment, on recherche des nouvelles sources Web, comme des recettes de cuisine ou des textes de la Commission Européenne. 

Comment interviens-tu sur ce projet ?

J’ai rejoint le projet au second trimestre 2018 pour apporter mon aide et trouver des sources libres de droits. Le projet se doit d’être ouvert et respectueux de la vie privée.

Mon contact principal est le développeur et responsable français du projet que je connais bien, avec qui j’avais déjà travaillé à l’époque de Firefox OS, le système qui mettait à disposition des navigateurs pour téléphones mobiles.

Je suis représentant Mozilla en France. J’ai une double compétence technique et fonctionnelle. J’interviens donc à deux niveaux :

  • dans la création et l’amélioration des outils permettant de créer les contenus ;
  • dans la communication, en tant que community manager Mozilla, pour relayer et animer l’initiative Common Voice.

Aujourd’hui, je contribue beaucoup plus à la communication, en particulier pour promouvoir Common Voice dans des événements, et récupérer plus d’échantillons sonores. Je songe aussi à faire des conférences, techniques et grand public, sur le sujet, pour expliquer aux gens l’importance et l’intérêt de ce nouveau produit.

Où en sommes-nous dans l’avancement du projet ?

Common Voice a été distingué, en tant que finaliste, pour le Fast Company’s Innovation 2018, par Design Awards, dans la catégorie Experimental. Cette distinction fait suite à la nomination de Common Voice par Info World parmi les sept « Open Source Rookies of the Year » 2018.

C’est une réelle reconnaissance au niveau mondial pour le projet, à la fois comme initiative open source, mais aussi comme innovation par le design. Cela récompense un projet qui, dès le départ, est basé sur une dynamique 100 % ouverte, centrée utilisateur et avec une approche innovante liée à la voix. C’est aussi une très bonne étape pour obtenir plus de budget et pour accentuer nos efforts.

Common Voice a permis des avancées importantes pour un autre projet de la fondation Mozilla : DeepSpeech, projet de développement d’un outil de reconnaissance et de transcription de la parole en temps réel.

Grâce au projet Common Voice, l’équipe DeepSpeech a pu rencontrer des personnes de tous les jours, qui utilisent des systèmes de voix, pour voir comment ils s’approprient les fonctionnalités vocales dans leur environnement quotidien.  

Une expérience a été réalisée en juillet dernier et les résultats ont abouti à une nouvelle version de l’outil, permettant de dicter à l’ordinateur des phrases ou des discours complets.

Aussi, cette nouvelle version commence à être intégrée dans Common Voice pour accélérer et améliorer la capture des échantillons. Le contributeur de tous les jours n’y verra pas beaucoup de différences, mais, pour l’équipe de développement, cela apporte de nouvelles possibilités intéressantes au niveau traitement et comportement.

On mettra Common Voice à disposition dans le navigateur (Firefox) quand DeepSpeech sera considéré comme stable. Il y sera alors intégré nativement.

Pour l’instant, on n’a pas défini de date d’annonce, de mise à disposition officielle ou de publication.

Et quelles sont les prochaines étapes pour vous ?

Il est prévu avant la fin de l’année que le groupe de travail composé des contributeurs se réunisse pour avancer sur le projet et la définition des besoins, qui sont divers et variés, mais concernent surtout la création de contenu :

  • le code, qui sert à capturer du contenu, doit subir des revues afin de le rendre générique et facilement utilisable par n’importe quel développeur. Ce code est mis à disposition de tous ceux veulent participer et contribuer à capturer du contenu libre de droits ;
  • il y a aussi la gestion du site internet voice.mozilla.org qui permet de contribuer et d’avoir une visibilité journalière ;
  • notre équipe est également en train de finaliser un site qui permet de s’auto-entrainer pour faire un cheminement complet de création d’échantillons.

Dans tous les cas, on a vraiment besoin de contenus et de contributeurs.

Qui peut contribuer et comment ?

Le projet Common Voice suscite aujourd’hui un engouement croissant principalement pour son côté collaboratif, et aussi parce qu’il s’agit de constituer la base de données vocales multilingue publique la plus importante au monde. Chacun peut y contribuer, tout d’abord en faisant don de sa voix, mais aussi en recrutant à son tour des contributeurs dans son entourage. Vous pouvez aussi intervenir pour valider des échantillons de voix. Pour cela, chaque communauté linguistique a mis en place un site dédié et/ou des applications mobiles. Il suffit de s'y connecter et de s'y inscrire :  

Common Voice

Voici l’adresse du site Web pour le français : https://voice.mozilla.org/

Enfin, bien sûr, toutes les compétences sont bienvenues pour contribuer techniquement au sein des équipes de développement : au niveau audio, connaissances de base en informatique, e-learning, gestion de la voix, ou code pur et dur  (Python, Ruby, Javascript).

N’hésitez pas à visiter notre page web dédiée à notre offre Digital.

 

Parlons ensemble de vos projets

bouton contact