Une synthèse vocale branchée sur le cerveau, c’est possible ?

Vous connaissez certainement le feu astrophysicien Stephen Hawking. En raison de sa pathologie, il ne pouvait pas « parler », mais il pouvait communiquer grâce à un dispositif qui lui permettait de composer des mots, lettre par lettre, grâce aux mouvements des yeux et de la tête. Une nouvelle recherche met en lumière une technologie plus rapide avec une synthèse vocale qui se rapprocherait du débit naturel de la parole. Comment fonctionne ce qu’on pourrait appeler ce « décodeur cérébral » ?

Nous n’en sommes sans doute pas conscients, mais parler requiert une coordination et un contrôle multidimensionnel très précis des muscles articulateurs du canal vocal. Ce dernier s’étend de la glotte jusqu’aux lèvres. Le processus de la parole repose alors sur un ensemble de mouvements complexes, simultanés et fluides auxquels est associée une activité cérébrale. Dans cette recherche dirigée par G.K. Anumanchipalli, du Département de chirurgie neurologique (Université de de Californie, San Francisco), la première étape a consisté à réaliser une véritable cartographie cérébrale des sons. Pour ce faire, il s’est agi d’enregistrer et d’analyser l’activité du cerveau chez 5 participants (des patients épileptiques) pendant qu’ils prononçaient une centaine d’énoncés (en anglais) à haute voix. Les scientifiques ont parallèlement étudié les mouvements du tractus vocal (lèvres, langue, mâchoires, larynx). Leurs observations leur ont permis d’identifier les signaux cérébraux qui coordonnaient l’articulation des sons et d’associer à ces signaux les mouvements nécessaires à la prononciation. A partir de là, les chercheurs ont estimé que : « si ces centres de la parole dans le cerveau encodaient des mouvements plutôt que des sons, nous devrions essayer de faire de même pour décoder ces signaux ».

C’est ainsi que les scientifiques se sont lancés dans la création d’un décodeur neuronal qui exploiterait les représentations cinématiques et sonores encodées dans l’activité corticale pour les transformer en parole audible (prononcée par une voix de synthèse). Ils se sont appuyés sur leurs observations initiales pour pouvoir inverser le processus ; c’est-à-dire produire de la parole à partir de l’activité cérébrale, grâce à un algorithme. Les fichiers audio obtenus ont été rendus publics et il s’avère que dans les tests de vocabulaire fermé, les auditeurs pouvaient plutôt facilement identifier et transcrire la parole synthétisée à partir de l’activité corticale. Ainsi, dans 101 énoncés générés en voix synthétique, 70% des mots sont compréhensibles pour des centaines d’auditeurs. Ceux-ci ont identifié les mots à partir d’une liste de 25 alternatives et transcrit 43% des phrases de manière parfaite. A noter tout de même que lorsque la liste des choix double (50 alternatives), plus que 47% des mots sont correctement identifiés et 21% des phrases synthétisées parfaitement retranscrites.

G.K. Anumanchipalli et ses collègues ont également demandé à une personne de prononcer des phrases, puis de les simuler (les dire en silence). Ce test a été concluant, puisque le décodeur s’est montré capable de synthétiser la parole « muette ».

Les auteurs reconnaissent que le chemin est encore long pour retranscrire parfaitement le langage parlé et ils précisent que : « Nous sommes assez bons pour synthétiser des sons vocaux plus lents comme « sh » et « z », et pour maintenir les rythmes et les intonations de la parole, ainsi que le genre et l'identité du locuteur, mais certains des sons les plus abrupts tels que « b » et « p » restent un peu flous ».

Reste que cette nouvelle technologie neuroprothétique de la parole s’avère bien plus proche du débit naturel de la parole (environ 150 mots/minute) et qu’elle représente une piste sérieuse dans le rétablissement de la communication parlée. « Nous espérons qu’un jour, les personnes ayant des troubles de la parole pourront réapprendre à parler en utilisant cet appareil vocal artificiel contrôlé par le cerveau. » indique J. Chartier, co-auteur de l’étude.
Source : Gopala K. Anumanchipalli, Josh Chartier, Edward F. Chang. Speech synthesis from neural decoding of spoken sentences, in Nature, avril 2019 // Site de l’université de Californie à San Francisco : Synthetic Speech Generated from Brain Recordings

Fermer
Identification

Veuillez saisir votre adresse e-mail ci-dessous:

LoadingVeuillez patienter... Chargement...
Fermer Connexion
Mot de passe oublié

Veuillez entrer l'adresse e-mail associée à votre compte HAPPYneuron.
Les instructions pour réinitialiser le mot de passe seront transmises à cette adresse e-mail.

LoadingEnregistrement des données...
Fermer
Connexion

Il semblerait que vous ayez égaré votre mot de passe, que souhaitez-vous faire ?

Fermer
Inscription gratuite

Découvrez la méthode HAPPYneuron pendant 7 jours, gratuitement et sans engagement.

*
*
*
*
*
*
En cliquant sur le bouton ci-dessus, vous acceptez les Conditions d'utilisation.
* Champ obligatoire
Conditions d'utilisation
Fermer
Inscrivez-vous à la newsletter

Inscrivez-vous à la newsletter

Recevez gratuitement deux fois par mois les découvertes les plus intéressantes sur le cerveau et nos offres spéciales.