Esta herramienta de OCR extrae texto de imagenes y documentos PDF convirtiendolo a Markdown estructurado, con soporte para tablas, hipervinculos e imagenes incrustadas ademas del texto plano. Sube un archivo y el reconocimiento comienza automaticamente; los resultados se devuelven pagina a pagina, con opcion de copiar por pagina o descargar el documento completo.
Que afecta a la calidad del reconocimiento
La calidad del archivo de origen es el factor determinante. Para mejores resultados:
- Documentos escaneados a 150 DPI o mas con texto claro y sin obstrucciones dan los mejores resultados
- Fotos borrosas, paginas muy inclinadas, marcas de agua densas o tipo muy pequeno (por debajo de 6pt) introducen errores
- Los diseños de varias columnas y el formato complejo se gestionan mejor que con OCR tradicional basado en reglas
Para PDFs, cada pagina se procesa de forma independiente. El tiempo de procesamiento es proporcional al numero de paginas — se recomienda no superar las 50 paginas por envio.
Que contiene el resultado de cada pagina
Tras el reconocimiento, cada pagina devuelve:
- Cuerpo Markdown — titulos, parrafos, listas, bloques de codigo
- Tablas — extraidas en sintaxis de tabla Markdown, copiables por separado
- Hipervinculos — las URL encontradas en el documento se listan individualmente
- Imagenes incrustadas — graficos e ilustraciones se extraen como imagenes base64 en linea cuando son detectables
- Dimensiones y DPI de la pagina — dimensiones en pixeles originales de la pagina fuente
Formatos de archivo admitidos
Formatos de imagen
- JPEG, PNG, WEBP
- GIF, BMP, TIFF
- SVG (graficos vectoriales)
- Ideal para escaneos de una sola pagina y capturas de pantalla
Formato de documento
- PDF (cualquier numero de paginas)
- Cada pagina reconocida de forma independiente
- Resultados por pagina con descarga individual
Descarga de resultados
Las paginas individuales se pueden descargar como .md (Markdown) o .txt (texto plano). Para documentos de varias paginas, "Descargar todo" combina todas las paginas en un unico archivo con separadores --- entre paginas.