Inicia sesión para usar esta herramienta
Esta herramienta puede consumir créditos. Inicia sesión para continuar.

Transcripcion de Audio

Descripción general

La herramienta de transcripción de audio convierte archivos de audio y video en texto. Admite MP3, WAV, FLAC, AAC, OPUS, OGG, M4A, MP4, MPEG, MOV y WebM, con un límite de 100 MB por archivo. El formato de salida que elijas tiene consecuencias prácticas según el uso posterior, por lo que conviene entender las diferencias antes de enviar.

Qué formato de salida usar

Formatos de subtítulos

  • SRT — el formato de subtítulos más compatible; funciona en Premiere, Final Cut, CapCut, VLC y PotPlayer
  • VTT — ideal para elementos <video> de HTML5 en sitios web

Formatos de texto y datos

  • Text — texto plano para leer o pegar en un documento
  • JSON — segmentos estructurados con tiempos de inicio y fin, útil para procesamiento por programa
  • JSON detallado — añade marcas de tiempo por palabra y anotaciones de hablantes; necesario para sincronización a nivel de palabra o datos de diarización

Las marcas de tiempo por palabra solo se pueden activar con el formato "JSON detallado" seleccionado. Las etiquetas de hablantes también producen sus datos más completos en JSON detallado; en otros formatos la anotación puede ser parcial.

Cómo configurar bien las etiquetas de hablantes

Activa las etiquetas de hablantes cuando la grabación contenga más de una voz. Ajusta el número mínimo y máximo de hablantes para acotar el modelo: para una entrevista de dos personas, pon ambos a 2; para un panel de 5 a 8 participantes, pon mínimo 3 y máximo 8 o 10. Cuanto más estrecho sea el rango, menos asignaciones incorrectas habrá cuando los turnos de habla están bien diferenciados.

La diarización funciona mejor cuando las voces son acústicamente distintas y los hablantes no se interrumpen con frecuencia. Las grabaciones donde dos personas suenan de forma parecida o se solapan constantemente tendrán menor precisión en el etiquetado independientemente del rango configurado.

Para qué sirve el campo de indicaciones

El campo de indicaciones no es un filtro de búsqueda. Informa al modelo sobre el vocabulario que puede aparecer en la grabación, lo que mejora la ortografía y el reconocimiento de términos poco comunes:

  • Términos técnicos y siglas: WebAssembly, gRPC, CORS
  • Nombres propios: Satoshi Nakamoto, Cloudflare, Anthropic
  • Contexto breve: Este es un episodio de podcast sobre compiladores de TypeScript

Las indicaciones no afectan al idioma de salida ni cambian qué segmentos se transcriben.

Condiciones de audio que afectan a la precisión

Los resultados mejoran notablemente cuando:

  • El habla es clara y el ruido de fondo es bajo (una sala de reuniones funciona mejor que una cafetería)
  • El ritmo del hablante es moderado y la pronunciación es nítida
  • Se habla un solo idioma a lo largo de toda la grabación sin cambios de código

La precisión baja con: acentos marcados, velocidad muy rápida, música de fondo que cubre las voces, varias personas hablando a la vez, o audio comprimido con baja tasa de bits.

La opción de traducción

Activar la traducción produce una transcripción en inglés aunque el audio esté en otro idioma. Es unidireccional: convierte cualquier idioma al inglés, pero no traduce audio en inglés a otros idiomas. El resultado puede diferir de una traducción humana profesional, especialmente con expresiones idiomáticas o contenido técnico — revísalo antes de publicar.