Principal Innovar La nueva IA de texto a voz de Google es tan buena que apostamos a que no se puede decir de un ser humano real

La nueva IA de texto a voz de Google es tan buena que apostamos a que no se puede decir de un ser humano real

Tu Horóscopo Para Mañana

¿Puede distinguir la diferencia entre el discurso informático generado por IA y un ser humano real y vivo? Quizás siempre pensaste que podrías. Tal vez le gusten Alexa y Siri, pero cree que nunca confundiría a ninguna de ellas con una mujer real.

Las cosas están a punto de ponerse mucho más interesantes. Los ingenieros de Google han trabajado arduamente para crear un sistema de conversión de texto a voz llamado Tacotron 2 . De acuerdo a una papel que publicaron este mes, el sistema primero crea un espectrograma del texto, una representación visual de cómo debería sonar el discurso. Esa imagen se coloca a través del algoritmo WaveNet existente de Google, que utiliza la imagen para producir un habla humana con un sonido extremadamente natural.

alex de target es gay

Con este método, los investigadores informan que 'nuestro modelo alcanza una puntuación de opinión media (MOS) de 4,53 comparable a una MOS de 4,58 para el discurso grabado profesionalmente'. (Una puntuación de opinión media es un término de telecomunicaciones que mide qué tan real suena algo).

Como demuestran las muestras de audio de Google, Tacotron 2 puede detectar a partir del contexto la diferencia entre el sustantivo 'desierto' y el verbo 'desierto', así como el sustantivo 'presente' y el verbo 'presente', y alterar su pronunciación en consecuencia. Puede poner énfasis en palabras en mayúscula y aplicar la inflexión adecuada al hacer una pregunta en lugar de hacer una declaración.

Y puede generar texto que suena tan similar al habla humana que es difícil o imposible saber la diferencia. Si desea ver lo difícil que es, vaya a Google página de muestras de audio y desplácese hacia abajo hasta el último conjunto de muestras, titulado '¿Tacotron 2 o humano?' Allí encontrarás a Tacotron 2 y a una persona real, cada uno de los cuales dice frases como, 'Esa chica hizo un video sobre el lápiz labial de Star Wars'.

ALERTA DE SPOILER: Para ponerte a prueba, escucha las muestras y adivina cuál es cuál antes de leer el resto de esta columna.

Entonces, ¿qué muestras son texto a voz y cuáles son una voz humana real? Los ingenieros de Google no lo dicen, pero han dejado una pista muy importante. Cada una de las muestras de archivos .wav tiene un nombre de archivo que contiene el término 'gen' o 'gt'. Según el artículo, es muy probable que 'gen' indique el habla generada por Tacotron 2 y que 'gt' sea el habla humana real. ('GT' probablemente significa 'verdad fundamental', un término de aprendizaje automático que básicamente significa 'el verdadero negocio').

Suponiendo que esto sea correcto, aquí están las respuestas a la prueba:

¿Georgia Engel se casó alguna vez?

'Esa chica hizo un video sobre el lápiz labial de Star Wars'.

Muestra 1: humano real

Muestra 2: Tacotron 2

'Obtuvo un doctorado en sociología de la Universidad de Columbia'.

Muestra 1: Tacotron 2

Muestra 2: humano real

'George Washington fue el primer presidente de los Estados Unidos'.

Muestra 1: Tacotron 2

Muestra 2: humano real

cuantos años tiene denise nicholas

Estoy demasiado ocupado para el romance.

Muestra 1: humano real

Muestra 2: Tacotron 2

¿Cuántos acertaste? ¿Y realmente podrías notar la diferencia, o simplemente tuviste que adivinar?