テキストファイルの重複行を抽出する方法

この記事の所要時間は約 2 分 です。

-shared-img-thumb-N811_notepcwosawarubiz_TP_V

当ブログの人気記事のひとつにサクラエディタの便利TIPSを紹介する記事があるのだけれど、流入元で検索されていた検索ワードを分析していたら、「サクラエディタ 重複行 抽出」というものがあった。

仕事の生産性を驚くほどアップさせる「さくらエディタ」の使い方を3つ
さくらエディタは、フリーウェアであるにも関わらず、シェアウェアの秀丸エディタに匹敵するほどの操作感と機能を誇る素晴らしいテキストエディタであ...

重複行を削除することは、サクラエディタのマージ機能を使うと簡単にできるのだが、おそらく、サクラエディタの機能では、重複行を抽出することはできない。

ウェブで検索してみたところ、サクラエディタで重複削除したファイルと元の重複削除前のファイルをWinMergeで比較する方法を提案している方もいたが、重複行を抽出する為に先ずは削除する……というのが直感的に分かりにくく、混乱するのではないか、と思った。

そこで、重複行を抽出する目的で、当サイトに辿りついた方のために、Excelを使った方法を提案しておきたい。

具体的な方法

Excelは、表計算だけでなく、実は、テキストの整形にも有効なツールだ。

方法は簡単。

A列に重複行を抽出したいテキストファイルを貼り付けて、B列に重複を抽出する関数を入れれば良い。B1セルには「=COUNTIF(A:A,$A1)」、B2セルには「=COUNTIF(A:A,$A2)」と入れて、後は、コピー&ペーストしていけばよい。

これで、A列のテキストと重複行が何行あるかが、B列に表示されるはずだ。

Excelのフィルタ機能で、B列が2以上の行で絞り込んで、その結果をコピーすると、そのテキストファイル内で、複数重複する行が抽出できているはずだ。