Hola amigos, ¿cómo están?.
quería contarles sobre una nueva inteligencia
artificial de texto a voz, que es capaz de clonar tu voz con tan solo 3
segundos de audio!.
Hasta hace poco, eleven labs era la única manera confiable
de clonar tu voz con alta calidad y con pocos datos, sin embargo hay que
pagar para tener esa funcionalidad.
Pero no hace mucho, exactamente hace dos semanas, Coqui tts
lanza xtts, un revolucionario sistema de texto a voz con AI, que es capaz de
clonar tu voz empezando con 3 segundos de audio!.
Xtts es basado en coqui tts, que a su vez es hecho
sobre tortoice tts.
Su interface es altamente buena, con la capacidad de
expresar emociones dependiendo del archivo de audio que le cargues.
Y la clonación de voz desde 3 segundos de audio es ya
demasiado!, aunque suele fallar a veces en el intento, hay veces que lo hace
muy bien.
En las versiones que están circulando por ahí de xtts, por
ahora puede clonar tu voz desde 3 segundos de audio hasta 20 segundos nomas.
Soporta 13 idiomas, todo el poderío de coqui tts, incluyendo
síntesis arbitraria, y síntesis bajo emociones, que también ha sido
implementado en xtts.
Por ahora, hay dos maneras de acceder a esta tecnología.
Por medio de Hugging Face, hay dos espacios o dos demos
programados ahí, para probarlo.
La otra es por la página oficial de coqui studio, que desde
hace poco implementaron xtts.
Como usar los espacios de Hugging Face.
Existen dos, uno oficial hecho por coqui, y otro enteramente
en español hecho por un usuario.
En el caso de la oficial de coqui, ya est encendida y solo
toca esperar que cargue.
Una vez cargado, selecciona el idioma, escribe un texto que
quieras, cargas un audio de referencia, que tenga de entre 3 a 20 segundos y
después de darle a la casilla de agree, le das a submit.
Ese texto es leído con el audio que has puesto, en el idioma
que has escogido.
Xtts soporta 13 idiomas, incluido el español.
Al igual que eleven labs, reconoce cuando escribes en
español latino o de España, y con los signos de exclamación se hace más
expresivo.
La página española en cambio anda algo dormida, pero sabemos
cómo despertarla.
Entras y le das donde dice, re star space, tomara unos
minutos a que cargue todo, y esta vez el entorno es enteramente en español, y
es una versión de tts que solo soporta español también.
Si prefieres probarlo por la página de coqui studio, que
incluso es más generosa que eleven labs, lo puedes hacer activando en la página
xtts.
Coqui studio se parece mucho a eleven labs, sus síntesis es
rápida vesada en coqui tts, soporta emociones, 13 idiomas, y c clonación de
voz.
Las limitaciones de los espacios en Hugging Face es que.
1: solo puedes subir un audio desde 3 a 20 segundos, si
subes algo más largo el sistema se cuelga.
2: para escribir texto solo te acepta de 2 a 4 oraciones,
sin importar cuantos caracteres uses.
3: a veces las voces clonadas no suenan igual como el
archivo de referencia, no sé a qué se deba esto, pero hay momentos en que la clonación
es bastante parecida y exacta, pero hay momentos que tiene su margen de error y
la voz no se parece ni en sueños al archivo de referencia.
Usarlo desde coqui studio.
Después de registrarte en la página de coqui studio, te
encontrarás con lo que te ofrece la versión gratuita.
15 mil caracteres por mes!, y clonar tu voz usando xtts de 3
a 30 segundos de audio.
Hay versiones Premium de coqui studio, que te ofrecen más
caracteres y la clonación de voces también tiene más tiempo.
Por ejemplo por 8 dólares al mes, puedes tener hasta 50 mil
caracteres, clonar tu voz con xtts hasta 3 minutos de audio.
Nota importante.
Si estas en coqui studio, y usas las voces standard si escribes
150 caracteres, se quedan en 150.
Pero si activas la casilla de xtts, aunque hayas escrito 150
caracteres de los 15 mil que te dan, se ocupa el doble, terminarías usando 300
caracteres.
Aquí he preparado un demo de xtts.
Tomé la voz sueca de piper tts, y luego escribí un texto en
español.
En el ejemplo que escucharán, primero sonará la voz sueca de
piper tts y a continuación un texto que escribí en español clonándola con xtts.
https://audio.com/milton-paredes/audio/xtts1
enlaces:
Espacio de huggin fase oficial de coqui.
https://huggingface.co/spaces/coqui/xtts?duplicate=true
espacio de huging fase en español.
https://huggingface.co/spaces/mrm8488/xtts-spanish
demo de coqui studio, aprovechen su plan gratuito!.
https://app.coqui.ai/studio/3bc9ae37-a8b2-4aff-aca9-18ca4d955677/