El audio a audio con IA reinterpreta una pista existente en un nuevo estilo, conservando la melodía y traduciéndola a otro género, otra voz u otro arreglo. Bajo la misma interfaz conviven dos familias de modelos: MiniMax Music Cover, especializado en versiones canción a canción, y ACE-Step v1.5 (Base / Turbo), un modelo de generación musical que también admite un audio de referencia para versiones o remezclas.
Reglas del audio fuente
MiniMax Music Cover requiere un audio fuente de entre 6 segundos y 6 minutos. ACE-Step lo acepta como opcional: cuando está presente, el modelo lo trata como semilla de remezcla y la duración del resultado sigue al clip fuente en lugar del control deslizante de duración. La duración se lee de los metadatos antes de subir el archivo, así que los archivos que no se puedan decodificar no se envían.
Letras, etiquetas Verse y salida instrumental
MiniMax y ACE-Step aceptan un campo de letra estructurado con etiquetas de sección. El proveedor no infiere la estructura desde párrafos en prosa: los corchetes son obligatorios.
[Intro]
[Verse]
Wheels in circles on a painted line
Neon streaks and a borrowed shine
[Chorus]
Glide with me through the afterglow
Where the silver speakers throb real low
[Bridge]
[Outro]
Para versiones de MiniMax que deben conservar la letra original, el patrón habitual consiste en escribir el esqueleto de secciones y añadir una indicación corta para que el modelo respete la voz de origen:
[Intro]
[Verse]
Keep the original lyrics and phrasing from the source vocal.
[Chorus]
Keep the original lyrics and phrasing from the source vocal.
ACE-Step genera instrumentales cuando el campo de letra está vacío (o contiene solo etiquetas estructurales). Cambia el idioma vocal a "Instrumental / Auto" en Avanzado para resultados más limpios.
Parámetros avanzados de ACE-Step
Con audio fuente
- Strength — proporción de pasos de denoising que siguen al audio fuente. 0 lo ignora, 1 lo respeta al máximo. Empieza en 0,5 para cambios notables sin perder margen creativo
- Cover conditioning — cuánto se preserva la estructura del tema original. Valores altos mantienen reconocible la fuente
- El control de duración se oculta: la salida sigue al clip fuente
Sin audio fuente
- Duración define la longitud de salida (6–300 segundos, por defecto 60)
- Strength y cover conditioning no aplican y la interfaz los desactiva
- Steps controla el detalle: Base permite hasta 300 (por defecto 100), Turbo hasta 20 (por defecto 10)
- CFG Scale rige cuán cerca se sigue el prompt. Debe ser mayor que 1 si das un prompt negativo: el servidor lo eleva a 1,5 si hace falta
Cómo escribir el prompt de estilo
Un prompt útil para generación musical se parece más a una nota del director musical que a una caption poética. Enumera los elementos que quieres oír:
Late-70s funk-pop cover with a bright female lead, tight disco drums, elastic bassline, crisp rhythm guitar, brass stabs, sparkling synth accents, dramatic breakdown, triumphant final chorus.
Lo-fi hip-hop, jazzy electric piano chords, mellow boom-bap drums at 88 BPM, vinyl crackle, late-night focus mood, no vocals.
Indica el BPM tanto en el prompt como en el slider de BPM para mejor adherencia. Si generas con letra, declara el idioma vocal de forma explícita; en caso contrario, ACE-Step asume inglés.
Coste y reservas de crédito
MiniMax Music Cover tiene tarifa plana por generación, sin importar la longitud de entrada. ACE-Step cobra por la duración de la pista generada:
- Sin audio fuente, la reserva de créditos se dimensiona desde el slider de duración
- Con audio fuente, la reserva se calcula a partir de la duración medida del clip fuente, así que un fragmento de 4 minutos reserva crédito suficiente aunque el campo esté oculto
- La liquidación final coincide con lo facturado por el proveedor en cada tarea
Reproducción y descarga
Cada pista generada se reproduce en línea. El botón de descarga respeta el formato seleccionado (MP3, WAV, FLAC u OGG) y el historial guarda el formato con el que se generó cada resultado, así que volver a descargar uno antiguo no cambia silenciosamente la extensión. La semilla mostrada junto al resultado permite reproducir o ajustar una generación variando un único parámetro.