重複行削除

概要

重複削除ツールは、選択した区切り文字でテキストを分割し、重複するセグメントを除去して、どの項目が何回重複していたかを報告します。メーリングリスト・キーワードデータベース・ログ行など、重複を取り除きたいテキストを素早く処理するのに最適です。

完全一致のみ — あいまい一致なし

重複判定はバイト単位の完全一致です。以下のペアはデフォルトで別の項目として扱われます。

  • Appleapple — 大文字小文字の違いがあるため統合されない
  • hello hello — 末尾のスペースが判定に影響する
  • (全角カンマ)と ,(半角カンマ) — 異なる文字として扱われる

これは意図的な設計です。あいまい一致を使うと、実データでは意味が異なる項目が誤って統合されてしまいます。大文字小文字を区別せずに重複削除したい場合は、事前にテキストをすべて小文字または大文字に変換してください。

区切り文字の書き方

区切り文字フィールドはエスケープシーケンスを受け付けます。よく使う値:

  • \n — 行単位で重複削除(デフォルト。大部分のリストに対応)
  • , — カンマ区切り値
  • \t — タブ区切り(TSVデータ)
  • ; — セミコロン区切り
  • ||| — 複数文字の文字列も区切り文字として使用できる

テキスト自体に区切り文字と同じ文字が含まれている場合、誤った位置で分割されます。個々の項目の中に現れない文字を区切り文字として選んでください。

順序と統計

結果は各ユニーク項目の最初の出現位置を保持します。2回目以降の重複はすべて削除されます。出力の下に表示される重複統計リストには、削除された各値とその合計回数が示されます — リスト内で最も繰り返されている項目を見つけたり、データ品質の問題を特定するのに役立ちます。

出力例

行ごとのリストを重複削除する

区切り文字\nを使った入力:

[email protected]
[email protected]
[email protected]
[email protected]
[email protected]

出力:

[email protected]
[email protected]
[email protected]

見つかった重複:[email protected] (2回)、[email protected] (2回)

カンマ区切り文字列を重複削除する

区切り文字,を使った入力:red,blue,green,red,yellow,blue

出力:red,blue,green,yellow