La herramienta de eliminación de duplicados divide el texto con el separador que elijas, elimina los segmentos idénticos y muestra qué elementos se repitieron y cuántas veces apareció cada uno. Es la forma más rápida de deduplicar listas de correos, bancos de palabras clave, líneas de log o cualquier texto donde haya que eliminar repetidos.
Solo coincidencia exacta, sin deduplicación aproximada
La deduplicación compara byte a byte. Los siguientes pares se tratan como distintos por defecto:
Manzanaymanzana— diferencia de mayúsculas, no se fusionanholayhola— el espacio al final importa,y,(coma de ancho completo) — se consideran caracteres diferentes
Esto es intencionado: la coincidencia aproximada fusionaría silenciosamente elementos que tienen significados distintos en datos reales. Si necesitas deduplicación sin distinción de mayúsculas, convierte todo el texto a un mismo tipo primero.
Sintaxis del separador
El campo de separador acepta secuencias de escape. Valores habituales:
\n— deduplicar línea por línea (por defecto, funciona para la mayoría de las listas),— valores separados por comas\t— separados por tabulador (datos TSV);— separados por punto y coma||o|— cualquier cadena de varios caracteres funciona como separador
Si el propio texto contiene el mismo carácter que el separador, se dividirá de forma incorrecta. Elige un separador que no aparezca dentro de los elementos individuales.
Orden y estadísticas
El resultado conserva la primera aparición de cada elemento único en su posición original; todas las repeticiones posteriores se eliminan. La lista de estadísticas de duplicados que aparece bajo el resultado muestra cada valor eliminado y su recuento total — útil para detectar los elementos más repetidos o identificar problemas de calidad en los datos.
Ejemplos de salida
Deduplicar una lista línea por línea
Entrada con separador \n:
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
Salida:
[email protected]
[email protected]
[email protected]
Duplicados encontrados: [email protected] (2), [email protected] (2)
Deduplicar una cadena separada por comas
Entrada con separador ,: rojo,azul,verde,rojo,amarillo,azul
Salida: rojo,azul,verde,amarillo