Speech-To-Text et transcription de l'audio vers le texte : Quelle solution et API choisir ?

DataGenius
21 sept. 2020
13 min de lecture

Dernière mise à jour : 4 nov. 2020

AI-Compare permet de comparer les APIs de speech-to-text / DataGenius

Version originale en anglais : Medium

Cet article vous est proposé par l'équipe dans le cadre de notre offre AI-Compare. Nous référençons un grand nombre de solutions d'Intelligence Artificielle et vous permettons de les tester directement via notre API. Dans cet article, nous testons plusieurs APIs de Speech-To-Text pré-entrainées. Nous testons ces solutions sur différents cas d'utilisation pertinents.

L'API de Speech-To-Text de AI-Compare est disponible ici : www.ai-compare.com/audio_apis/speech_recognition

Par ailleurs, n'hésitez pas à nous contacter si vous êtes vous même fournisseur d'une solution et que vous souhaitez l'intégrer à AI-Compare : contact@ai-compare.com

Ces dernières années, dans le monde de l'intelligence artificielle, l'une des applications les plus populaires est la reconnaissance vocale. Cette popularité est due à la grande diversité des applications et des besoins : centres d'appel, diffusion radio et vidéo, interprétariat, santé, banque, assistant vocal, etc. La reconnaissance vocale comprend diverses fonctionnalités :

Speech-to-text : permet de retranscrire l'audio en texte
Text-to-speech : permet à l'inverse de retranscrire un texte en audio
Speech analysis: permet d'analyser un discours audio afin d'en extraire des informations telles que : le sexe, l'âge, les émotions du locuteur, etc
Speech Diarization: permet d'identifier et de différencier les différents locuteurs parlant dans le même audio (par des accents, des spécificités, etc.)
Traduction vocale : permet de traduire un discours audio d'une langue spécifique en un discours audio d'une autre langue

Cette liste ne représente pas une liste exhaustive de toutes les fonctionnalités de reconnaissance vocale. De nombreuses solutions sont basées sur la combinaison de plusieurs fonctionnalités.

Cet article traite brièvement des APIs Speech-to-Text pré-entraînées dans le but d'apporter une réponse aux questions suivantes :

Quels sont les problèmes qui peuvent être résolus avec ce type d'API ?
Quels sont les principaux fournisseurs sur le marché ?
Quel est le processus optimal d'utilisation des API pré-entraînées ?

Fournisseurs :

Au cours de notre étude sur les APIs pré-entraînées Speech-to-Text, nous avons décidé de choisir 6 fournisseurs d'API qui offrent des performances élevées selon de nombreux articles de blog et classements.

Ceci est la sélection d’APIs des fournisseurs que nous allons tester. Il est intéressant de noter qu'il existe d'autres solutions ainsi que des solutions open source.

Cas d’usages :

Comme indiqué précédemment, les APIs de Speech-to-Text sont utilisées dans des centaines de domaines, pour des cas d'utilisation très variés. Dans cet article, nous allons tester différentes APIs de Speech-to-Text avec différents types d'audio représentant des cas d'utilisation courants.

Nous avons choisi 3 cas d'utilisation avec des locuteurs et des discours différents. Pour chaque cas d'utilisation, nous avons testé l'API Speech-to-Text des 6 fournisseurs, avec un audio par cas d'utilisation. Bien entendu, pour un projet réel, vous devrez tester sur une partie représentative de votre base de données (pas seulement un audio) afin d'avoir le bon aperçu des différentes performances.

AI-Compare :

Pour GCP, AWS, Azure et Watson, nous n'avons pas besoin d'utiliser directement leur API. L'API AI-Compare Speech-to-Text permet en effet d'obtenir les résultats des APIs des 4 fournisseurs en une seule requête simple. Avec quelques lignes de code, nous pouvons avoir accès aux résultats des 4 fournisseurs. Rev.ai et Assembly AI ne sont pas encore implémentés sur AI-Compare, nous utilisons donc directement leur API.

Tests :

La réponse de l'API n'est qu'une réponse textuelle. Cette réponse (souvent au format json) sera utilisée pour développer des applications.Pour notre exemple, la façon de procéder est :

1. Benchmark des APIs de Speech-to-text disponibles sur le marché :

Recherche de fournisseurs
Tester les solutions avec quelques échantillons audio en fonction du projet
Analyser les prix, les performances et les caractéristiques d’intégration

2. Choisissez le fournisseur d'API qui correspond le mieux à votre projet OU combinez plusieurs résultats des différentes APIs

3. Intégrer l'API finale dans votre projet / logiciel :

Regarder comment gérer les APIs en production
Ajouter le prétraitement et le post-traitement en fonction de votre projet

Enfin, en fonction du projet, les résultats visuels avec les encadrements des objets sur les images peuvent être utiles ou non. Mais pour le benchmark, c'est le meilleur moyen et le plus rapide afin de visualiser et d’analyser les performances.

Google Cloud, IBM, AWS, Azure, Rev.ai et Assembly AI fournissent chacun une API performante de Speech-to-text. Ils fournissent différents paramètres spécifiques et il est intéressant d'examiner leurs performances sur différents fichiers audio pour identifier rapidement les points forts et les points faibles de chaque API.

Cas d’usage n°1:

DataGenius / Ai-Compare : comparer les APIS de speech to text — Lire : audio 1

Le premier fichier audio est l'interview d'un jeune homme. Voici le discours exact (que vous pouvez écouter en cliquant au dessus) :

"I am not sure the exact date. It's for Comic relief, a big televised event, where a lot of comedians come together and try to do something funny for money, which is the slogan. And people also go around wearing red noses and trying to raise money like that. It can genuinely be anyone yeah. It is usually students and school children mainly but it can be anyone.”.

AI-Compare API renvoie les réponses pour les APIs AWS, GCP, IBM, Azure :

AI-Comparer permet de comparer les APIs de Speech-To-Text — Speech-to-text - Comparatif de solutions : Google, Amazon, Microsoft et IBM - source : www.ai-compare.com

Réponse de Google Cloud:

“I'm not sure the exact date. It’s for comic relief a big televised event where a lot of comedians come together and try to do something funny for money which is the second and people sick around wearing red noses and trying to raise money like that students in school children mainly but it can be anyI'm not sure the exact date for comic relief a big televised event where lots of comedians come together and try to do something funny for money which is the second and people sick around wearing red noses I'm trying to raise money like that usually students in school children mainly but they have me”

Réponse de AWS:

“I'm not sure the exact date. It's for Comic relief, a big televised event where a lot of comedians come together on and try to do something funny for money, which is the slogan Andi. People also go around wearing red noses and try and raise. Money like that can generally be anyone. It's usually students and schoolchildren, mainly, but it can be anyone.”

Réponse de Microsoft Azure:

“I'm not sure the exact date it's for Comic Relief abig televised event where a lot of comedians come together and try to do something funny for money, which is the slogan and people also go around wearing red noses and try and raise money like that. Can generally be anyone. Yeah, it's usually students and schoolchildren mainly, but it can be anyone.”

Réponse de IBM:

“%HESITATION I'm not sure the exact date it's %HESITATION for comic relief a big televised event %HESITATION relative comedians come together and I try to do something funny for money which is the second %HESITATION and people to go around wearing red noses and trying to raise money like that can generally be anyway it's usually students and school children mainly but it can be anyone”

Réponse de Rev.ai:

“Um, I'm not sure of the exact date it's for comic relief, a big televised event, um, where a lot of comedians come together and try to do something funny for money, which is the slogan. Um, and people also go around wearing red noses and try and raise money like that. It can genuinely be anyone. Yeah. It's usually students in school, children mainly, but it can be anyone.”

Réponse de Assembly AI:

"I'm not sure the exact date. It's for comic release. I'm not sure the exact date. It's for comic relief. A big televised event. A big televised event. Where a lot of comedians come together and try to do something funny for money, which is the slogan. Where a lot of comedians come together and try to do something funny for money, which is the slogan and people ought to go around wearing red noses and try and raise money like that. I can generally read anyone. it's usually students in school children mainly, but it can be anyone. And people also go round wearing red noses and try and raise money like that can generally be anyone? Yeah it's usually students in school children mainly, but it can be anyone."

Bilan du cas d’usage n°1:

Pour ce cas d'utilisation, on peut noter que certains passages complexes entraînent des erreurs pour chaque fournisseur. Mais pour ce cas d'utilisation, Rev.ai fournit clairement la meilleure performance. Il reste important de noter que la gestion de la ponctuation de Assembly AI est impressionnante. De plus, pour Google et Assembly AI, nous avons eu un problème de répétition de texte qui peut être gênant pour l'intégration du projet. En combinant les résultats de différentes API et en identifiant les points forts de chaque API, il est possible d'obtenir des performances très élevées.

Cas d’usage n°2:

Speech to text api Datagenius — Lire : audio 2

Ce deuxième fichier audio est un discours de femme de 27 secondes sur ses moyens de transport personnels :

“In England, we use cars a lot to travel. I go to school on foot or by bike. However, to go further, I would go in the car or on the bus. To go on holiday, I go by plane or by boat. However, I do not like flying because I'm scared of heights. And I do not like going by boat because I feel seasick.”

AI-Compare API renvoie les réponses pour les APIs AWS, GCP, IBM, Azure :

Comparateur - speech-to-text - Intelligence artificielle - AI-Compare - DataGenius — Speech-to-text - Comparatif de solutions : Google, Amazon, Microsoft et IBM - source : www.ai-compare.com

Réponse de Google:

“in England we use cause a lot to travel I go to school on foot or by bike however to go further I would go in the car or on the bus to go on holiday I go by plane go by boat however I do not like flying because I'm scared of heights and I do not like going by boat because I feel seasick in England we use cause a lot to travel I go to school on foot or by bike however to go further I would go in the car or on the bus to go on holiday I go by plane go by boat however I do not like flying because I'm scared of heights and I do not like going by boat because I feel seasick”

Réponse de AWS:

“in England, we use cars a lot to travel. I go to school on foot or by bike. However, to go further, I would go in the car or on the bus. to go on holiday. I go by plane or by boat. However, I do not like flying because I'm scared of heights on. And I do not like going by boat because I feel seasick.”

Réponse de Microsoft Azure:

“In England we use cars allowed to travel. I go to school on foot or by bike. However, to go further, I would go in the car or on the bus . to go on holiday. I go by plane or by boat. However, I do not like flying because I'm scared of Heights and I do not like going by boat because I feel seasick.”

Réponse de IBM:

in England we use because a lot to travel I go to school on foot all bye bye however it to go fed that I would go in the call or on the bus to go on holiday I go by plane or by boat however I do not like flying because I'm scared of heights and I do not like going by both because I feel seasick

Réponse de Rev.ai:

“In England, we cause a lot to travel. I go to school on foot or by bike. However, to go further, I would go in the car or on the bus. to go on holiday. I go by plane or by boat. However, I do not like flying because I am scared of Heights. And I do not like going by boat because I feel seasick.”

Réponse de Assembly AI:

“In England, we use cars a lot to travel. I go to school on foot or by bike. However, to go further, I would go in the car or on the bus. to go on holiday, I go by plane or by boat. However, I do not like flying because I am scared of heights and I do not like going by boat because I feel seasick.”

Bilan du cas d’usage n°2:

Pour ce deuxième cas d'utilisation, nous pouvons constater un énorme écart de performance entre les fournisseurs. Assembly AI offre un niveau de performance très élevé, suivi de Rev.ai un peu moins efficace mais toujours très performant. Derrière, AWS est toujours plus proche que Microsoft, Google et IBM, qui offrent un résultat faible par rapport à Assembly AI et Rev.ai.

Cas d’usage n°3:

DataGenius - ai-compare - APIs - Speech-To-Text — Lire : audio 3

Ce troisième cas d'utilisation est un message téléphonique laissé par un homme qui parle de son nouveau téléphone. Nous verrons brièvement la performance avec un fichier audio de type téléphonique. Voici le discours :

“Hi it’s Paul again, I’m very excited I went and got my new IPhone today with the new software. It’s a very very good phone, everyone should get one. I love it. It does many wonderful things. It allows me to do my email, my web browsing. It’s a phone very very neat. Talk to you soon. Bye !”

AI-Compare API renvoie les réponses pour les APIs AWS, GCP, IBM, Azure :

Speech-To-Text - Comparateur de solutions - AI-Compare - DataGenius — Speech-to-text - Comparatif de solutions : Google, Amazon, Microsoft et IBM - source : www.ai-compare.com

Réponse de Google:

“hi it's Paul again I'm very excited I went and got my new iPhone today with the new software. to very very good phone everyone should get one I love it it does many wonderful things it allows me to do my email on my web browsing it's a phone very very neat talk to you soon bye”

Réponse de AWS:

“Hi It's Paul again. I'm very excited. I went and got my new iPhone today with the new software. It's a very, very good phone. Everyone should get one. I love it. It does many wonderful things. It allows me to do my email, my Web browsing. It's a phone. Very, very neat. Talk to you soon bye.”

Réponse de Microsoft Azure:

“Hi it's Paul again. I'm very excited. I would went and got my new iPhone today with the new software. It's a very very good phone. Everyone should get one. I love it. It does many wonderful things. It allows me to do my email, my web browsing. It's a phone. Very very neat. Talk to you soon bye.”

Réponse de IBM:

“hi it's Paul again %HESITATION I’m very excited I went and got my new iPhone today with the new software it's a very very good phone everyone should get one I love it it does many wonderful things it allows me to do my email on my web browsing it's a phone very very needs talk to you soon bye”

Réponse de Rev.ai:

“Hi, it's Paul. Again, I'm very excited. I went and got my new iPhone today with the new software. It's a very, very good phone. Everyone should get one. I love it. It does many wonderful things. It allows me to do my email, my web browsing. It's a phone. It's very, very neat. Talk to you soon. Bye.”

Réponse de AssemblyAI:

"Hi it's Paul again I'm very excited. I went and got my new iPhone today with a new software it's a very, very good phone. Everyone should get one I love it, it does many wonderful things. It allows me to do my email. My web browsing it's a phone it's very, very neat. Talk to you soon. Bye."

Bilan du cas d’usage n°3:

Pour ce troisième cas d'utilisation, tous les fournisseurs donnent des performances élevées. Il est intéressant de noter que certains fournisseurs réussissent à retranscrire correctement des passages difficiles alors qu'ils échouent pour d’autres plus simples, cela varie en fonction des fournisseurs. Mais pour ce type de cas, le choix de l'API se fait souvent sur la rapidité du traitement ou la tarification.

Tarification :

Concernant les coûts d’appel des APIs, ils sont définis suivant des seuils de durée avec des prix dégressifs :

Speech-To-Text standard pricing (Google, Amazon, Microsoft, IBM, Rev.ai, Assembly AI)

Les prix sont exprimés en dollars par minute. On constate des variations de prix importantes avec 3 gammes de prix qui se dessinent. Google Cloud et Rev.ai font la course en tête et affichent des tarifs supérieurs respectivement de 360% et 350% pour des volumes de traitement supérieurs à 1M de minutes par rapport à IBM. Viennent ensuite AWS et Microsoft qui proposent des tarifs moins élevés relativement similaires. Finalement, IBM et Assembly AI viennent clore la course avec les prix les plus bas. Par ailleurs, ces tarifications correspondent à des offres standards et peuvent évoluer pour des demandes avec des paramètres spécifiques : Google Cloud propose par exemple des tarifs plus élevés pour les modèles dédiés aux vidéos et appels téléphoniques et à l'inverse des prix plus réduits si l'utilisateur autorise l'usage de ses données pour l'amélioration des modèles.

A noter que les prix affichés sur ce tableau sont susceptibles d’avoir évolué selon les fournisseurs à compter du jour de rédaction de cet article.

Conclusion :

Nous avons donc choisi 3 cas d'utilisation différents, cela a permis de montrer que l’approche pour gérer chaque projet dépend des données :

Choisir une API très performante (supérieure aux autres)
Combiner plusieurs résultats d’APIs (bons résultats, mais insuffisants seuls)
Plusieurs APIs sont très performantes, le choix se fait sur d’autres critères, principalement la vitesse de traitement et la tarification.

Selon le cas d'utilisation, la meilleure façon d'obtenir les meilleures performances est toujours différente. Il est important de noter que Google, AWS, IBM et Microsoft prennent en charge le Speech-to-text pour de nombreuses langues. En comparaison, Assembly AI et Rev.ai ne prennent en charge pour l'instant que l'anglais de différents pays anglo saxons mais ils travaillent actuellement au lancement de modèles avec d'autres langues. Une autre chose importante à noter: contrairement à IBM et Google, les APIs de Amazon, Microsoft, Rev.ai et Assembly AI gèrent la ponctuation et c'est une caractéristique très importante. Bien sûr, d'autres caractéristiques spécifiques de chaque fournisseur peuvent faire la différence en fonction de votre projet, nous vous recommandons vivement de vérifier tout paramètre optionnel spécifique, cela peut influencer votre choix !

Avec AI-Compare, vous pouvez accéder rapidement à divers résultats provenant de différents fournisseurs. Vous pouvez ainsi avoir une meilleure idée de la solution qui vous convient le mieux. D'autres fournisseurs seront ajoutés à AI-Compare dans le futur.

Le cheminement de prise de décision est le suivant :

Tout d'abord, vous analysez vos données sur AI-Compare pour comparer les solutions disponibles sur le marché. Ensuite, vous avez trois options :

Vous trouvez un résultat qui vous pousse à choisir une API qui correspond à vos attentes en terme de performances
Les différents fournisseurs donnent d'assez bons résultats, mais pas suffisamment. Vous utilisez donc une combinaison de résultats pour rassembler les forces et obtenir un résultat combiné, meilleur qu'un seul résultat d'un fournisseur. Cette opération peut être fastidieuse pour le Speech-to-text.
Plusieurs fournisseurs donnent de très bonnes performances, vous pouvez donc baser votre choix sur d'autres aspects comme la tarification ou la rapidité de traitement par exemple.

Ce processus vous garantit de faire le bon choix pour réussir votre projet. AI-Compare est un outil qui vous permet de réaliser un benchmark très facilement et rapidement. Enfin, il est possible d'utiliser l'API AI-Compare pour réaliser l'ensemble du projet en évitant les comptes et les facturations de plusieurs fournisseurs, et en gardant la possibilité de ne pas choisir un seul fournisseur et donc une certaine indépendance.

La tarification est ici un facteur décisif dans le choix d'une solution de Speech-To-Text dans la mesure où les écarts entre fournisseurs sont considérables. Cela est d'autant plus vrai que les volumes à traiter sont conséquents.

AI-Compare fournit une API connectée aux grands (AWS, GCP, etc.) et petits fournisseurs d'IA : détection d'objets, OCR, NLP, speech-to-text, vision personnalisée, etc. Notre solution permet aux utilisateurs de comparer les performances des API de ces fournisseurs en fonction de leurs données et de les utiliser directement via notre API offrant ainsi une grande flexibilité et rendant très facile le changement de fournisseur. Nous offrons en particulier de meilleures performances grâce à la fonction "Genius" qui combine intelligemment les résultats de plusieurs fournisseurs.

Notre solution s'adresse aux développeurs qui souhaitent intégrer des briques d'intelligence artificielle dans leurs programmes informatiques. Nous nous adressons ainsi à des entreprises de tailles diverses (des start-ups aux grands groupes) :

L'API de Speech-To-Text de AI-Compare est disponible ici : www.ai-compare.com/audio_apis/speech_recognition

Nous proposons également des prestations de conseil et des formations en Intelligence Artificielle pour aider nos clients à choisir les meilleures solutions en fonction de leurs besoins et de leurs données : contactez-nous.

Suivez l'évolution de AI-Compare : LinkedIn | Twitter | Facebook !

DataGenius

Speech-To-Text et transcription de l'audio vers le texte : Quelle solution et API choisir ?

Posts récents

Commentaires