Accueil l'audio J'entends des morts? la technologie du langage naturel donne vie aux voix passées et présentes

J'entends des morts? la technologie du langage naturel donne vie aux voix passées et présentes

Table des matières:

Anonim

De nos jours, la plupart des voix informatiques sont dépassées. Vous n'êtes probablement pas trop excité à propos des cyborgs et des robots lorsque vous entendez le "droïde" sur votre téléphone pour vous aider avec un paiement de facture ou vous demander quel département vous voulez. Mais que se passe-t-il si vous entendez soudainement Kurt Cobain vous demander des informations sur votre carte? Ou John F. Kennedy vous parle des merveilles du vote anticipé? Ou Elvis obtenant votre nom et votre adresse avant de pénétrer dans "un morceau, un morceau d'amour brûlant?"


Tout cela serait … un peu bizarre, mais ce qui est encore plus fascinant, c'est que la technologie est déjà là. Il y a à peine une dizaine d'années, nous étions stupéfaits par la capacité d'un ordinateur à parler. Maintenant, nous sommes sur le point d'être terrassés par des voix libres générées par ordinateur qui sonnent comme les gens que nous connaissons.

Grands changements dans la PNL

Si vous prêtez attention au domaine du traitement du langage naturel (PNL), vous avez peut-être entendu parler de certaines avancées récentes qui vont au-delà des types de voix d'assistant virtuel en conserve que nous entendons maintenant dans nos systèmes de positionnement mondial (GPS) et nos activités automatisées. lignes téléphoniques.


Le début de la PNL a nécessité de nombreuses recherches sur la mécanique générale de la parole humaine. Les chercheurs et les ingénieurs ont dû identifier la phonétique individuelle, les intégrer dans de meilleurs algorithmes pour générer des phrases et des phrases, puis essayer de tout gérer à un méta-niveau pour générer quelque chose qui sonnait réel. Au fil du temps, les dirigeants de la PNL ont maîtrisé cela et ont commencé à créer des algorithmes avancés pour comprendre ce que les humains disent. En réunissant ces deux éléments, les entreprises ont trouvé les pilotes des assistants virtuels et des employés de facturation entièrement numériques d'aujourd'hui, dont les manières - bien que gênantes - sont toujours incroyables lorsque vous vous arrêtez pour penser au travail qui leur a été consacré.


Maintenant, certaines entreprises vont au-delà de la voix virtuelle générique pour créer un résultat personnalisé plus spécifique. Cela nécessite de parcourir le lexique d'une personne particulière et de collecter de grandes quantités de vidéos vocales uniques, puis d'appliquer ces archives aux rythmes complexes de la phonétique, de l'accentuation, de la cadence et de tous les autres petits indices que les linguistes regroupent souvent sous la large bannière de la «prosodie».


Ce qui en ressort est une voix que les auditeurs considèrent comme «détenue» par une personne en particulier - soit une personne qu'ils connaissent et avec qui ils ont parlé, soit une personne dont ils reconnaissent la voix en raison de la renommée de la personne.


D'Elvis à Martin Luther King, la voix de n'importe qui peut maintenant être "clonée" de cette façon - à condition qu'il y ait un enregistrement préenregistré substantiel de leur discours. En appliquant une analyse et une manipulation encore plus détaillées aux petits sons individuels, les entreprises sont en mesure de créer une copie carbone virtuelle de la voix de quelqu'un qui ressemble beaucoup à la réalité.

Des créations "Text to Voice" passionnantes sur VivoText

VivoText, par exemple, est une entreprise qui s'efforce de révolutionner l'utilisation des voix humaines artificielles pour toutes sortes de campagnes, des livres audio à la réponse vocale interactive (RVI). Chez VivoText, les équipes de recherche et de production travaillent sur des processus qui, théoriquement, pourraient reproduire spécifiquement les voix de célébrités décédées, comme Ol 'Blue Eyes lui-même.


«Pour cloner la voix de Frank Sinatra, nous passerions en fait par son héritage enregistré», explique Gershon Silbert, PDG de VivoText, expliquant comment ce type de technologie pourrait fonctionner.


À l'heure actuelle, VivoText travaille à l'archivage des voix de ceux qui sont toujours avec nous, comme le correspondant de NPR Neal Conan, qui s'est engagé comme modèle pour ce type de projet pionnier de l'informatique. Une vidéo promotionnelle montre les employés de VivoText créant minutieusement des modules de code phonétique à l'aide de l'entrée vocale fournie par Conan. Ils créent ensuite les modèles d'outils de synthèse vocale (TTS) qui évoquent un résultat dramatiquement humain et personnifié.


Selon Ben Feibleman, vice-président de la stratégie et du développement commercial chez VivoText, l'ordinateur fonctionne au niveau du phonème (en utilisant les plus petites parties uniques du discours) pour se conformer à un modèle prosodique pour une voix humaine individuelle.


«Il sait comment la voix parle», explique Feibleman, ajoutant qu'en utilisant la «sélection d'unité», l'ordinateur choisit un certain nombre de pièces pour assembler un seul mot court, comme lorsque le mot «vendredi» reçoit cinq composants qui aident à développer un accent particulier et un résultat tonal.

Voix artificielle en marketing

Alors, comment ça marche en marketing? Les produits de VivoText pourraient être extrêmement utiles pour créer des produits, comme des livres audio, qui pourraient atteindre des publics cibles. Par exemple, dans quelle mesure une voix d'Elvis serait-elle plus efficace que l'une des voix génériques automatisées d'aujourd'hui si elle était utilisée pour vendre des produits liés au divertissement?


Ou qu'en politique? Feibleman a travaillé sur diverses idées pour utiliser des projets comme ceux-ci afin d'améliorer le marketing pour les entreprises ou autres parties qui ont besoin d'une messagerie plus efficace.


"Si vous connaissez des politiciens candidats à la présidence, 10 millions d'électeurs de l'État de transition pourraient recevoir un appel personnel d'un candidat, les remerciant de leur soutien, leur indiquant où ils doivent aller voter, la météo et tous les accompagnements avant les élections ", a déclaré Feibleman.

Votre voix continue

Il existe une autre application évidente à toute cette technologie. Des entreprises en langage naturel comme VivoText pourraient créer un service personnalisé qui téléchargerait toutes les données vocales d'un client dans un produit qui permettrait à cette personne de «parler pour toujours».


La mise en œuvre pratique soulèverait probablement un certain nombre de questions sur la façon dont nous entendons et intériorisons les voix parlées. Par exemple, que faut-il pour faire sonner un flux sonore exactement comme quelqu'un? Dans quelle mesure devons-nous bien connaître une personne pour reconnaître une voix particulière? Et, fait intéressant, que se passe-t-il si un service en langage naturel produit une caricature grossière, plutôt qu'un mimétisme convaincant?


L'évaluation des résultats, dit Feibleman, dépend souvent de la considération du contexte. Par exemple, il dit que les enfants ne posent généralement pas de questions sur qui parle lorsqu'ils écoutent une histoire. Ils veulent juste plus. Mais aussi, de nombreux adultes peuvent ne pas penser à qui leur parle, compte tenu d'un scénario particulier, comme une émission passive ou un message téléphonique. De plus, il est plus facile d'être trompé par un ordinateur par téléphone, car le son étouffé peut masquer des problèmes ou d'autres écarts entre les résultats de l'ordinateur et une voix humaine.


"Il ne vous vient pas à l'esprit de contester l'authenticité de la voix", explique Feibleman.

En l'an 2525

Alors que les entreprises progressent dans le développement de produits et de services et répondent à ces questions, les technologies de la «parole vivante» pourraient nous faire progresser vers cette convergence de la technologie et de l'esprit humain, qui a été classiquement appelée intelligence artificielle (IA).


Si les ordinateurs peuvent parler comme nous, ils peuvent être en mesure de faire croire aux autres utilisateurs qu'ils pensent comme nous, alimentant le principe plus large de la singularité, comme l'a introduit notre lexique par John von Neumann, un pionnier de la technologie des années 1950 évangélisé par les écrivains et des penseurs comme Ray Kurzweil. Le livre de Kurzweil de 2005, "La singularité est proche", excite certains et effraie d'autres. Kurzweil a prédit que d'ici 2045, "l'intelligence" en tant que phénomène deviendra fortement décollée du cerveau humain et migrera vers la technologie, brouillant les frontières entre les machines et leurs maîtres humains.


Immortalisé dans les paroles de "In the Year 2525" de Zager & Evans (personne ne fait de ballades effrayantes de science-fiction comme ces gars-là)…


En l'an 4545

Tu n'auras pas besoin de tes dents, tu n'auras pas besoin

tes yeux

Vous ne trouverez rien à mâcher

Personne ne te regardera


En l'an 5555

Tes bras pendent à tes côtés

Tes jambes n'ont rien à faire

Une machine fait ça pour toi


Les voix informatiques sont-elles un pas dans cette direction? En tant que nouvelle façon d'externaliser certaines des fonctions du corps humain (ou plus communément, de les simuler), ce type de progrès technologique est l'une des plus grandes - et probablement sous-déclarées - avancées à l'horizon alors que nous envisageons un avenir singulier . (sur "la singularité" dans Les ordinateurs pourront-ils imiter l'esprit humain?)

J'entends des morts? la technologie du langage naturel donne vie aux voix passées et présentes