"Ok Google : Qu'est-ce que le Speech-to-Text ?"

DataGenius
3 déc. 2018
4 min de lecture

Google Home, Amazon Echo, ou encore Apple Homepod : depuis deux ans, les assistants personnels ont la côte. Ces enceintes, qui s’utilisent grâce à des commandes vocales, reposent toutes sur le même principe : la reconnaissance vocale, ou plus communément appelé Speech to Text.

Le Speech to Text (reconnaissance vocale automatique en français) consiste en la retranscription de la parole sous forme de texte. Cette technologie, qui se base à la fois sur des connaissances linguistiques et des notions d’intelligence artificielle, ne cesse de croître ces dernières années et s’installe un peu plus dans notre quotidien.

De nombreux domaines d’application

Aujourd’hui, le Speech to Text est de plus en plus répandu, et ce dans des domaines extrêmement différents. Il est donc utilisé dans les enceintes connectées, mais peut également servir à aider des personnes souffrant de handicaps ou des personnes analphabètes en retranscrivant automatiquement ce qu’elles disent sur un ordinateur, sans qu’elles aient besoin de le taper. De manière plus classique, le Speech to Text peut être appliqué pour effectuer un travail de script, en particulier dans des centres d’appels afin de garder une trace écrite de tous les appels reçus sans passer des heures à le faire à la main.

Comment ça marche ?

Malgré son essor actuel, cette technologie reste encore assez méconnue et son mode de fonctionnement assez flou. Il n’existe d’ailleurs pas une unique solution pour changer de l’audio en texte, que ce soit au niveau des modèles mathématiques à utiliser ou même au niveau des données à présenter en entrée. La façon la plus commune d’effectuer une reconnaissance de texte consiste à découper l’enregistrement à chaque silence puis à trouver ce qui y a été dit. Pour cela, des coefficients représentants chaque tranche de 20 millisecondes de l’audio sont calculés et placés dans des vecteurs : les MFCC (Mel Frequency Cepstral Coefficients). Ces derniers sont spécifiquement conçus pour l’analyse du son et sont fréquemment utilisés en paramètres d’entrée des algorithmes de Speech to Text. Ensuite, ces paramètres sont envoyés dans un modèle qui aura pour mission d’effectuer la reconnaissance vocale. Le modèle est appelé Hidden Markov Model (HMM). Il s’agit d’un modèle statistique qui décrit une séquence d’états et dont le passage d’un état à un autre est réalisé de manière probabiliste. Les HMM sont les modèles les plus répandus en speech to text, mais peuvent également être utilisés en NLU (Natural Language Understanding) ou en bio-informatique. Enfin, une dernière étape consiste à reconstruire le discours le plus probable à partir de tous les modèles élémentaires précédemment générés.

Plus récemment, de nouvelles techniques d’analyse ont vu le jour, notamment grâce à l’émergence du Deep Learning. Des modèles ont ainsi été construits à l’aide de réseaux de neurones convolutionnels (CNN) et de réseaux de neurones récurrents (RNN) . De plus, des spectres audio et des fichiers RAW ont pu être directement envoyés en paramètres de ces modèles, permettant de récupérer potentiellement plus d’informations concernant l’enregistrement initial et donc d’obtenir une meilleure précision dans la retranscription.

Quelles sont les solutions actuelles, pour quelles performances ?

Les leaders dans le domaine du speech to text sont sans surprise les mêmes que dans le domaine des enceintes connectées : Google avec Google Cloud Speech to Text et Amazon Web Service avec Amazon Transcribe ; auxquels s’ajoutent IBM avec Watson et Microsoft avec Azure Speech Service. Ces 4 entreprises proposent des API dédiées à la reconnaissance vocale pour un coût allant de 0.02$ à 0.03$ pour une minute de transcription. Très performantes en anglais, elles le sont un peu moins en français mais procurent tout de même des résultats très satisfaisants. D’autres solutions, en libre service, existent (comme DeepSpeech de Mozilla ou Sphinx) mais manquent encore de précision pour les fichiers audio en français.

Faire plus que de la retranscription

Si la retranscription de discours semble être l’usage le plus évident du Speech to Text, il serait dommage de limiter son usage à cette tâche. En effet, de nombreux outils existent pour aller plus loin et dépasser la simple reconnaissance vocale. Dans le cas d’un audio comprenant plusieurs voix, il est possible de déterminer qui parle à quel moment, une pratique permettant notamment de retranscrire au mieux une conversation téléphonique. Ensuite, une reconnaissance d’intention (intent analysis) peut également être appliquée afin d'analyser le discours et de déterminer ce qu’un orateur désire ou aime faire. Enfin, des techniques de NLU appliquées sur le texte produit par la reconnaissance vocale permettent une analyse toujours plus poussée et complète du discours en identifiant le sujet principal, les motifs de la discussion ou encore le ton général de la conversation (Sentiment Analysis).

Pleinement opérationnel depuis peu, le Speech to Text est en pleine expansion et s’impose comme la technologie à suivre dans les prochaines années. De nombreux secteurs d’activité l’utilisent déjà, comme les domaines de la santé ou du multimédia, et d’autres devraient suivre rapidement. Les récents progrès effectués pour la reconnaissance de la langue française rendent son utilisation plus agréable et son intégration plus simple au sein de nos entreprises.

Romain Lorenzi

Data Scientist @DataGenius

#SpeechToText #IntelligenceArtificielle #GoogleCloud #IBMWatson

DataGenius

"Ok Google : Qu'est-ce que le Speech-to-Text ?"

Posts récents

Commentaires