Qué formato de salida usar

SRT — el formato de subtítulos más compatible; funciona en Premiere, Final Cut, CapCut, VLC y PotPlayer
VTT — ideal para elementos <video> de HTML5 en sitios web

Text — texto plano para leer o pegar en un documento
JSON — segmentos estructurados con tiempos de inicio y fin, útil para procesamiento por programa
JSON detallado — añade marcas de tiempo por palabra y anotaciones de hablantes; necesario para sincronización a nivel de palabra o datos de diarización

Las marcas de tiempo por palabra solo se pueden activar con el formato "JSON detallado" seleccionado. Las etiquetas de hablantes también producen sus datos más completos en JSON detallado; en otros formatos la anotación puede ser parcial.

Cómo configurar bien las etiquetas de hablantes

Activa las etiquetas de hablantes cuando la grabación contenga más de una voz. Ajusta el número mínimo y máximo de hablantes para acotar el modelo: para una entrevista de dos personas, pon ambos a 2; para un panel de 5 a 8 participantes, pon mínimo 3 y máximo 8 o 10. Cuanto más estrecho sea el rango, menos asignaciones incorrectas habrá cuando los turnos de habla están bien diferenciados.

La diarización funciona mejor cuando las voces son acústicamente distintas y los hablantes no se interrumpen con frecuencia. Las grabaciones donde dos personas suenan de forma parecida o se solapan constantemente tendrán menor precisión en el etiquetado independientemente del rango configurado.

Para qué sirve el campo de indicaciones

El campo de indicaciones no es un filtro de búsqueda. Informa al modelo sobre el vocabulario que puede aparecer en la grabación, lo que mejora la ortografía y el reconocimiento de términos poco comunes:

Términos técnicos y siglas: WebAssembly, gRPC, CORS

Nombres propios: Satoshi Nakamoto, Cloudflare, Anthropic

Contexto breve: Este es un episodio de podcast sobre compiladores de TypeScript

Las indicaciones no afectan al idioma de salida ni cambian qué segmentos se transcriben.

Condiciones de audio que afectan a la precisión

Los resultados mejoran notablemente cuando:

El habla es clara y el ruido de fondo es bajo (una sala de reuniones funciona mejor que una cafetería)

El ritmo del hablante es moderado y la pronunciación es nítida

Se habla un solo idioma a lo largo de toda la grabación sin cambios de código

La precisión baja con: acentos marcados, velocidad muy rápida, música de fondo que cubre las voces, varias personas hablando a la vez, o audio comprimido con baja tasa de bits.

La opción de traducción

Activar la traducción produce una transcripción en inglés aunque el audio esté en otro idioma. Es unidireccional: convierte cualquier idioma al inglés, pero no traduce audio en inglés a otros idiomas. El resultado puede diferir de una traducción humana profesional, especialmente con expresiones idiomáticas o contenido técnico — revísalo antes de publicar.

Transcripcion de Audio

Qué formato de salida usar

Formatos de subtítulos

Formatos de texto y datos

Cómo configurar bien las etiquetas de hablantes

Para qué sirve el campo de indicaciones

Condiciones de audio que afectan a la precisión

La opción de traducción