Inicia sesión para usar esta herramienta
Esta herramienta puede consumir créditos. Inicia sesión para continuar.

Texto a voz con IA

Descripción general

El conversor de texto a voz con IA transforma texto escrito en audio hablado expresivo a través de 11 modelos de calidad de producción: xAI, ElevenLabs, MiniMax, Inworld, Qwen3 de Alibaba (con clonación de voz) y Dia de Nari Labs. La elección del modelo lo decide casi todo: cada uno trae su propio catálogo de voces, idiomas, límite de caracteres y tarifa por cada 1.000 caracteres. La primera diferencia audible suele ser la entonación más que el acento.

Cómo elegir el modelo

Modelos generales

  • xAI TTS — 6 voces, 20+ idiomas, etiquetas en línea <pause> y <emphasis>
  • ElevenLabs v3 — prosodia de estudio, etiquetas de audio dentro del texto, 70+ idiomas, 3.000 caracteres por solicitud
  • ElevenLabs Multilingual v2 — caballo de batalla para 29 idiomas, hasta 10.000 caracteres
  • ElevenLabs Flash / Turbo v2.5 — latencia subsegundo para chatbots, 32 idiomas, hasta 40.000 caracteres
  • Inworld Max / Mini — 75 voces nombradas; Mini es más barato y rápido

Modelos especializados

  • MiniMax Speech 2.8 — 300+ voces, refuerzo de idioma para fijar el idioma de salida
  • Qwen3 CustomVoice — 9 voces preestablecidas con control de estilo
  • Qwen3 Base — clonación de voz a partir de un fragmento de 3 segundos
  • Dia 1.6B — diálogo multipersonaje en inglés con [laugh], [sigh] y etiquetas de hablante

Clonación de voz con Qwen3 Base

Qwen3 Base necesita un fragmento de referencia de 3 a 30 segundos. Dos modos de operación:

Modo ICL (con transcripción)

Aporta el clip de audio y la transcripción exacta de lo que se dice. Mayor similitud y prosodia más natural. Recomendado en producción cuando el clip está limpio y tienes el guion a mano.

Modo x-vector (solo audio)

Deja la transcripción vacía. El modelo usa solo la incrustación del hablante: configuración más rápida, pero la clonación es menos fiel y puede desviarse en salidas largas. Útil para pruebas rápidas.

Por qué ElevenLabs no muestra selector de voz

Los modelos de ElevenLabs en este catálogo usan la voz predeterminada del modelo: el ID por voz no está expuesto en este proveedor. Aún puedes ajustar el resultado con los cuatro deslizadores en "Avanzado":

  • Estabilidad — más bajo aumenta el rango emocional y la variación entre tomas; más alto produce narración monótona consistente
  • Similitud — qué tan cerca se queda el resultado de la voz subyacente; súbelo en Multilingual v2 si la voz se desvía a media frase
  • Estilo — exagera el estilo natural de la voz; valores altos aumentan la latencia
  • Refuerzo del hablante — pequeña mejora de claridad con un coste mínimo de latencia (Flash y Turbo no lo exponen)

Etiquetas en línea útiles

xAI TTS y Dia respetan etiquetas dentro del texto. ElevenLabs v3 admite un conjunto más amplio de etiquetas de audio. Dos ejemplos típicos:

[Captain] (laughs) Tell me that was the last drone.
[Navigator] Last drone? No. Last polite warning? Absolutely.
Welcome to the observatory. <pause time="600ms"/> The comet streaks across the sky like a silver flame, <emphasis level="strong">brilliant</emphasis> and brief.

Qué impulsa la factura

Todos los modelos TTS del catálogo cobran por cada 1.000 caracteres de entrada. La etiqueta de precio en el selector es la tarifa por 1.000 caracteres y el coste total escala linealmente con la longitud del texto. Implicaciones prácticas:

  • Pegar un capítulo de 20.000 caracteres en ElevenLabs Flash cuesta unas 20 veces lo que un subtítulo de una línea
  • La reserva de créditos se dimensiona con la longitud del texto enviado y el cobro final coincide con lo que el proveedor facture
  • El precio listado de Dia corresponde a uso productivo; en este catálogo se factura cerca de Qwen3

Formato y descarga

El botón de descarga de cada resultado respeta el formato seleccionado (MP3, WAV, FLAC u OGG) y etiqueta el nombre del archivo en consecuencia. El historial recuerda el formato con el que se generó cada clip, así que volver a descargar uno antiguo no cambia silenciosamente la extensión.