Previsualizar la voz antes de generar

Cada voz tiene un boton de previsualizacion que reproduce una muestra corta (unos 3 segundos) sin consumir creditos. Usalo antes de lanzar una sintesis completa, especialmente con voces en idiomas en los que las diferencias entre voces masculinas y femeninas son marcadas. Generar y volver a generar porque la voz no era la adecuada cuesta el doble de creditos.

Formato de audio segun el uso

Tamano de archivo reducido, facil de compartir o incrustar
MP3 tiene la compatibilidad mas amplia entre dispositivos
AAC ofrece ligeramente mejor calidad al mismo bitrate
OGG es de codigo abierto pero no compatible con algunos dispositivos antiguos

Sin perdida o sin comprimir — archivos de gran tamano
WAV y FLAC son la eleccion correcta si necesitas editar el audio despues
FLAC es aproximadamente un 50% mas pequeno que WAV con la misma calidad
PCM es datos de muestra brutos; la mayoria de reproductores no pueden reproducirlo directamente

Rango de velocidad y claridad

La velocidad va de 0,5x (muy lenta) a 4,0x (extremadamente rapida). Entre 1,3x y 1,5x suele ser el limite comodo para audio narrativo. Por encima de 2,0x, la articulacion se degrada notablemente en todas las voces e idiomas. Si necesitas un ritmo mas rapido para un proyecto concreto, prueba a 1,8x antes de optar por valores mas altos.

Marcas de tiempo de palabras (solo en ingles)

Al activar las marcas de tiempo de palabras, se devuelve el tiempo de inicio y fin de cada palabra junto al audio. Durante la reproduccion, la transcripcion resalta la palabra actual en sincronizacion. Es util para crear subtitulos de seguimiento, reproductores para aprendizaje de idiomas o incrustar el audio en una pagina que necesita sincronizacion texto-audio. La opcion aparece desactivada para todos los idiomas que no sean ingles.

Recuento de caracteres y creditos

El limite es de 10.000 caracteres por generacion. Cada caracter cuenta como uno — caracteres chinos o japoneses individuales, letras latinas individuales y numeros cuentan igual. Los creditos se cobran por cada 1.000 caracteres. Una sintesis de 10.000 caracteres equivale aproximadamente a 5.000 caracteres chinos o unas 1.800 palabras en ingles.

Texto a Voz

Previsualizar la voz antes de generar

Formato de audio segun el uso

MP3 / AAC / OGG

WAV / FLAC / PCM

Rango de velocidad y claridad

Marcas de tiempo de palabras (solo en ingles)

Recuento de caracteres y creditos