Accueil l'audio Quelle est la différence entre la synthèse vocale et les chatbots?

Quelle est la différence entre la synthèse vocale et les chatbots?

Anonim

Q:

Quelle est la différence entre la synthèse vocale et les chatbots?

UNE:

Les nombreuses différences importantes entre les technologies de synthèse vocale et les chatbots font partie de ce qui est examiné dans l'évolution rapide des projets de chatbot et de robot vocal.

Une technologie de synthèse vocale est simplement une technologie qui convertit la parole verbale en texte sur une page numérique. C'est sa pleine fonction, mais ce n'est pas simple à concevoir. Afin de convertir la parole verbale en texte, la technologie doit décomposer les mots et les phrases en phonèmes individuels et travailler avec eux selon des algorithmes complexes pour créer un texte précis et représentant ce que le locuteur a dit.

Les chatbots, d'autre part, sont des technologies qui atteignent l'objectif de communiquer avec un humain. Il existe deux types de chatbots: les chatbots texte et les voicebots. Les chatbots texte existent depuis bien plus longtemps, car ils n'ont pas besoin de l'élément de synthèse vocale utilisé par les robots vocaux.

La principale différence entre les technologies de synthèse vocale et les chatbots est la portée. Comme mentionné, tout ce que la technologie de synthèse vocale doit faire est de transcrire le discours verbal. Le chatbot, d'autre part, doit prendre la parole sous quelque forme que ce soit, le comprendre et fournir des réponses qui cherchent à passer le test de Turing - le test de savoir si une technologie peut tromper un humain en lui faisant croire qu'il est parler avec une autre personne.

Dans cet esprit, les chatbots sont beaucoup plus faciles à créer que les voicebots. Le chatbot prend le texte de l'homme et fournit une réponse textuelle. Même les chatbots relativement simples ont été en mesure de fournir des résultats intéressants et agréables pour les humains depuis la fin des années 1980 et le début des années 1990.

Le voicebot, d'autre part, doit prendre en compte la parole verbale, la convertir en texte, en vérifier l'exactitude, produire une réponse et construire cette réponse du langage machine en parole audible. Ce grand nombre de tâches assez importantes signifie que le robot vocal prend beaucoup de puissance de calcul et beaucoup de conception pour être construit.

Des projets comme Siri, Cortana et Alexa démontrent une partie de l'avant-garde des technologies de robot vocal. Ils illustrent également que cette technologie est encore à ses balbutiements. Bien qu'Alexa et d'autres technologies puissent répondre verbalement à la parole humaine, elles ne sont pas extrêmement capables dans le sens que nous associons à la parole humaine verbale en général. En d'autres termes, les réponses que ces technologies peuvent apporter sont assez limitées. La génération actuelle d'assistants personnels a même une capacité limitée à vraiment générer de la parole en texte, par exemple, pour transcrire un e-mail ou aider quelqu'un à écrire un essai sans utiliser ses mains. Certains des programmes spécifiques de synthèse vocale sur le marché le font mieux que Siri ou Cortana, probablement en raison de l'allocation de ressources. Cependant, il y a des signes que les progrès du Voicebot vont bientôt décoller - comme la plate-forme Lex d'Amazon qui permet un environnement de studio pour construire ces types de technologies.

Dans un essai intelligent et instructif sur le sujet, Tobias Goebel parle de la différence entre ces technologies, opposant le processus de «transcription», que fait la parole au texte, au travail de compréhension, que les chatbots sont censés faire.

"Tout en éliminant le besoin de reconnaissance vocale rend les choses plus faciles pour un chatbot, le principal défi pour construire des bots fonctionnels réside dans la compréhension du langage naturel", écrit Goebel.

Goebel identifie également de nombreux acteurs actuels de l'industrie:

Le leader du marché de la reconnaissance vocale est Nuance, qui est derrière des systèmes bien connus tels que Dragon NaturallySpeaking pour la dictée sur un PC, qui existe depuis les années 90, mais aussi Siri: la tâche de reconnaissance / transcription vocale effectuée dans le cloud d'Apple utilise La technologie Nuance dans les coulisses. D'autres sont LumenVox, Verbio ou Interactions, mais la reconnaissance vocale est désormais également proposée en tant que service cloud via des API par Amazon, Google, Microsoft et IBM.

À mesure que les chatbots se développent, il est supposé que leur compréhension continuera à augmenter sur certaines trajectoires - et il est également largement supposé que davantage de technologies de bots passeront des interfaces de texte aux interfaces verbales, nécessitant des quantités supplémentaires de puissance de calcul.

Quelle est la différence entre la synthèse vocale et les chatbots?