Clonación de voz
Herramienta en línea que usa tecnología IA para clonar tu voz y generar voz natural. Carga una muestra de audio, ingresa el texto que deseas leer y generará voz altamente similar a la voz original. Admite múltiples idiomas y ajuste de parámetros enriquecidos, adecuado para doblaje, audiolibros, asistentes de voz y otros escenarios.
Características
Clonación de voz
Carga archivo de audio que contenga tu voz, la herramienta analizará características como timbre, entonación, velocidad de habla, estableciendo modelo de voz. Luego puedes usar este modelo para leer cualquier texto, la voz generada mantendrá características de la voz original.
Formatos de audio admitidos:
- MP3: Formato de audio comprimido común
- WAV: Formato de audio sin pérdida, recomendado
- M4A: Formato comúnmente usado en dispositivos Apple
- OGG: Formato de audio de código abierto
Transcripción automática
Si no estás seguro del contenido del archivo de audio, puedes dejar el cuadro de texto vacío. La herramienta identificará automáticamente el contenido de voz en el audio y lo transcribirá a texto, luego usará la voz clonada para regenerarlo. Esta función es adecuada para escenarios donde deseas mejorar la calidad del audio o modificar el estilo de habla.
Soporte multilingüe
La voz clonada puede leer texto en diferentes idiomas, no limitándose al idioma del audio original. Por ejemplo, usando muestra de voz en chino, también puedes generar voz en inglés, japonés y otros idiomas.
Ajuste de parámetros
Proporciona 11 parámetros avanzados para controlar finamente el efecto de generación:
Creatividad y diversidad
- Temperatura (0-2): Controla aleatoriedad de generación, predeterminado 0.8
- Probabilidad de muestreo nuclear (0-1): Controla concentración de selección de palabras, predeterminado 0.8
- Rango de muestreo (1-200): Número de candidatos considerados al seleccionar palabra, predeterminado 30
Expresión emocional
- Intensidad emocional (0-1): Controla expresividad emocional de la voz, predeterminado 1
- Aleatorizar emoción: Añade fluctuaciones emocionales naturales a la voz, haciendo que se acerque más a voz humana real
Control de calidad
- Ancho de búsqueda en haz (1-8): Afecta calidad de generación, predeterminado 3
- Penalización de repetición (1-30): Previene repetición de palabras o sílabas, predeterminado 10
- Penalización de longitud (0-5): Afecta longitud del audio generado, predeterminado 0
Configuración de segmentación
- Tokens de audio máximos (256-4096): Limita longitud de generación única de audio, predeterminado 1500
- Silencio de intervalo (0-2000 milisegundos): Tiempo de pausa entre fragmentos, predeterminado 200 ms
- Tokens de texto máximos por segmento (32-300): Número de caracteres incluidos en cada fragmento, predeterminado 120
Reproducción en línea y descarga
El audio generado puede reproducirse directamente en la página para escuchar, también puede descargarse y guardarse como archivo MP3, el nombre de archivo conservará el nombre del archivo de audio original y añadirá prefijo "voice-cloning".
Modo de uso
Uso básico
- Cargar muestra de audio
- Haz clic en área de carga para seleccionar archivo de audio
- Admite formatos MP3, WAV, M4A, OGG
- Recomendado usar grabación clara sin ruido de fondo
- Duración sugerida 5-30 segundos
- Ingresar texto
- Ingresa contenido que deseas leer en cuadro de texto
- Admite chino, inglés y otros idiomas
- Puedes ingresar texto multilínea o párrafos
- Dejar vacío transcribirá automáticamente contenido de audio
- Generar voz
- Haz clic en botón "Clonar voz"
- Espera a que se complete el procesamiento
- Si se habilita transcripción automática, mostrará "Transcribiendo y clonando..."
- Reproducción y descarga
- Mostrará reproductor de audio tras completar generación
- Haz clic en botón reproducir para escuchar efecto
- Haz clic en botón descargar para guardar archivo de audio
Usar parámetros avanzados
- Haz clic en panel "Opciones avanzadas" para expandir configuración de parámetros
- Ajusta parámetros según necesidades:
- Para voz más estable, reduce temperatura y probabilidad de muestreo nuclear
- Para voz más vívida, aumenta intensidad emocional y habilita aleatorización de emoción
- Para mayor calidad, aumenta ancho de búsqueda en haz
- Para evitar repetición, aumenta penalización de repetición
- Haz clic en "Clonar voz" para regenerar tras completar ajustes
Escenarios de aplicación
Doblaje de contenido
Dobla videos, presentaciones o contenido educativo. Usar voz clonada puede mantener timbre consistente, incluso grabando en diferentes momentos puede garantizar audición uniforme.
Creación de audiolibros
Convierte artículos, novelas a versiones de audio. Usar tu propia clonación de voz puede crear audiolibros personalizados, o crear versiones de lectura personalizadas para otros.
Contenido multilingüe
Usa muestra de voz en idioma nativo para generar contenido de voz en otros idiomas. Adecuado para escenarios que necesitan versiones multilingües pero desean mantener consistencia de voz.
Consideraciones
- La calidad de la muestra de audio afecta directamente el efecto de clonación, se recomienda usar grabación de alta calidad
- La transcripción automática requiere tiempo adicional, audio largo puede necesitar espera prolongada
- La voz clonada es solo para uso personal, no la uses para hacerse pasar por otros o fines ilegales
- La calidad de voz generada está afectada por múltiples factores, no puede garantizarse completamente consistente
- Algunos timbres especiales o dialectos pueden tener efecto de clonación deficiente
- Se recomienda generar texto largo por secciones, evitando generar audio demasiado largo de una vez
- El ajuste de parámetros requiere múltiples intentos para encontrar la mejor combinación
- Temperatura demasiado alta puede causar distorsión o inestabilidad de voz
- Ancho de búsqueda en haz demasiado grande aumentará significativamente el tiempo de procesamiento
- El efecto de clonación de diferentes idiomas puede variar
- Los archivos de audio generados expirarán tras actualizar la página, descárgalos oportunamente
- Respeta los derechos de autor de voz de otros, no clones voz de otros para uso comercial
- Red inestable puede causar fallo de carga o generación