Inicia sesión para usar esta herramienta
Esta herramienta puede consumir créditos. Inicia sesión para continuar.

Clonacion de Voz IA

Descripción general

La herramienta de clonación de voz con IA toma un clip de audio de referencia y transfiere su timbre vocal a un nuevo texto, generando voz sintetizada que suena como el hablante original. Sube una grabación, escribe lo que quieres que diga y descarga el archivo de audio resultante.

Cómo influye el audio de referencia en el resultado

La grabación de referencia es la variable más importante — determina directamente el parecido entre la voz de salida y el hablante original:

  • Apunta a entre 5 y 30 segundos de audio; menos de 3 segundos produce resultados inestables
  • Un solo hablante, entorno silencioso y sin eco — el ruido de fondo o la reverberación se transfieren a la salida
  • Mantén velocidad de habla y volumen estables; evita cambios de tono extremos — el modelo aprende las características medias de todo el clip
  • Formatos aceptados: MP3, WAV, M4A, OGG

Longitud del texto y cómo dividir guiones largos

El campo de texto admite hasta 2000 caracteres. Para textos más largos, envíalos en fragmentos separados manualmente.

Cuando se usa el mismo audio de referencia en varias generaciones, las pausas y la entonación pueden diferir ligeramente entre segmentos. Para audio de larga duración, mantén cada fragmento en menos de 500 caracteres y une los segmentos después en un editor de audio.

Para qué sirve el campo de texto de referencia

El "Texto de referencia" es una transcripción escrita de lo que se dice en el clip de audio subido — es opcional. Proporcionarlo ayuda al servicio a entender los patrones de pronunciación del clip de referencia, lo que mejora la consistencia de la voz cuando el audio tiene un acento no nativo o muchas pausas. Este campo es especialmente útil cuando el idioma del audio de referencia es distinto al del texto de salida.

Cómo escribir instrucciones de estilo eficaces

Una instrucción de estilo es una frase corta que describe el tono y la emoción deseados — por ejemplo, "calmado y profesional, adecuado para narración" o "enérgico y animado, adecuado para publicidad."

  • Que sea breve y específica — con una frase es suficiente
  • Las descripciones contradictorias ("relajado pero formal") producen resultados inconsistentes
  • Las instrucciones de estilo afectan a la entonación y el ritmo, no al timbre — la voz siempre procede del audio de referencia

Idiomas compatibles

La herramienta admite 10 idiomas, que aparecen en el selector de idioma. Elegir el idioma que coincide con tu texto de salida ayuda al servicio a gestionar correctamente las reglas de pronunciación y acento. El idioma del audio de referencia no tiene que coincidir con el del texto de salida — se admite la transferencia de voz entre idiomas, aunque las características del acento cambiarán algo.