sábado, 7 de octubre de 2023

XTTS: ¡alternativa a eleven labs, y gratis!

Hola amigos, ¿cómo están?.

quería contarles  sobre una nueva inteligencia artificial de texto a voz, que es capaz de clonar tu voz con tan solo 3 segundos de audio!.

Hasta hace poco, eleven labs era la única manera confiable de clonar tu voz con alta calidad y  con pocos datos, sin embargo hay que pagar para tener esa funcionalidad.

Pero no hace mucho, exactamente hace dos semanas, Coqui tts lanza xtts, un revolucionario sistema de texto a voz con AI, que es capaz de clonar tu voz empezando con 3 segundos de audio!.

Xtts es basado en coqui tts, que a su  vez es hecho sobre tortoice tts.

Su interface es altamente buena, con la capacidad de expresar emociones dependiendo del archivo de audio que le cargues.

Y la clonación de voz desde 3 segundos de audio es ya demasiado!, aunque suele fallar a veces en el intento, hay veces que lo hace muy bien.

En las versiones que están circulando por ahí de xtts, por ahora puede clonar tu voz desde 3 segundos de audio hasta 20 segundos nomas.

Soporta 13 idiomas, todo el poderío de coqui tts, incluyendo síntesis arbitraria, y síntesis bajo emociones, que también ha sido implementado en xtts.

Por ahora, hay dos maneras de  acceder a esta tecnología.

Por medio de Hugging Face, hay dos espacios o dos demos programados ahí, para probarlo.

La otra es por la página oficial de coqui studio, que desde hace poco implementaron xtts.

Como usar los espacios de Hugging Face.

Existen dos, uno oficial hecho por coqui, y otro enteramente en español hecho por un usuario.

En el caso de la oficial de coqui, ya est encendida y solo toca esperar que cargue.

Una vez cargado, selecciona el idioma, escribe un texto que quieras, cargas un audio de referencia, que tenga de entre 3 a 20 segundos y después de darle a la casilla de agree, le das a submit.

Ese texto es leído con el audio que has puesto, en el idioma que has escogido.

Xtts soporta 13 idiomas, incluido el español.

Al igual que eleven labs, reconoce cuando escribes en español latino o de España, y con los signos de exclamación se hace más expresivo.

La página española en cambio anda algo dormida, pero sabemos cómo despertarla.

Entras y le das donde dice, re star space, tomara unos minutos a que cargue todo, y esta vez el entorno es enteramente en español, y es una versión de tts que solo soporta español también.

Si prefieres probarlo por la página de coqui studio, que incluso es más generosa que eleven labs, lo puedes hacer activando en la página xtts.

Coqui studio se parece mucho a eleven labs, sus síntesis es rápida vesada en coqui tts, soporta emociones, 13 idiomas, y c clonación de voz.

Las limitaciones de los espacios en Hugging Face es que.

1: solo puedes subir un audio desde 3 a 20 segundos, si subes algo más largo el sistema se cuelga.

2: para escribir texto solo te acepta de 2 a 4 oraciones, sin importar cuantos caracteres uses.

3: a veces las voces clonadas no suenan igual como el archivo de referencia, no sé a qué se deba esto, pero hay momentos en que la clonación es bastante parecida y exacta, pero hay momentos que tiene su margen de error y la voz no se parece ni en sueños  al archivo de referencia.

Usarlo desde coqui studio.

Después de registrarte en la página de coqui studio, te encontrarás con lo que te ofrece la versión gratuita.

15 mil caracteres por mes!, y clonar tu voz usando xtts de 3 a 30 segundos de audio.

Hay versiones Premium de coqui studio, que te ofrecen más caracteres y la clonación de voces también tiene más tiempo.

Por ejemplo por 8 dólares al mes, puedes tener hasta 50 mil caracteres, clonar tu voz con xtts hasta 3 minutos de audio.

Nota importante.

Si estas en coqui studio, y usas las voces standard si escribes 150 caracteres, se quedan en 150.

Pero si activas la casilla de xtts, aunque hayas escrito 150 caracteres de los 15 mil que te dan, se ocupa el doble, terminarías usando 300 caracteres.

Aquí he preparado un demo de xtts.

Tomé la voz sueca de piper tts, y luego escribí un texto en español.

En el ejemplo que escucharán, primero sonará la voz sueca de piper tts y a continuación un texto que escribí en español clonándola con xtts.

https://audio.com/milton-paredes/audio/xtts1

 

enlaces:

Espacio de huggin fase oficial de coqui.

https://huggingface.co/spaces/coqui/xtts?duplicate=true

espacio de huging fase en español.

https://huggingface.co/spaces/mrm8488/xtts-spanish

demo de coqui studio, aprovechen su plan gratuito!.

https://app.coqui.ai/studio/3bc9ae37-a8b2-4aff-aca9-18ca4d955677/

 

 

No hay comentarios:

Publicar un comentario