Power BIで重複行をチェックする方法と注意点
Power BIには「重複列の削除」という非常に便利なコマンドがあり、
特定の列に重複がある場合、一発でその重複を取り除いてくれます。
しかし、ちょっと待って下さい。
それは本当に削除してもいいデータなのでしょうか?
削除するということは、最悪ゴッソリとデータが抜け落ちてしまうわけであり、
分析レポートの信ぴょう性に大きく影響を与えてきます。
そこで、重複行を「削除」する前に、重複行をチェックして削除する前に確認する必要があるのです。
行件数のカウント方法
実際には、「行件数のカウント」を使って進めていきます。
行件数のカウントとは、特定の指定した列にあるテキストや数値が、その列の中で何回登場したのか数を数える機能です。
重複があるということは、1列の中に同じ文字・数字が複数回発生しているというわけですから、
その数が2以上である行については重複が発生していると考えられるわけです。
具体的な方法を紹介します。
動画版はこちら→
1.グループ化を選択
Power Queryを起動した状態で、「変換」>「グループ化」をクリックします。
2.下図のような画面が出てくるので、赤丸した詳細設定をクリックします。
3.赤丸部分の集計の追加を選択します。
4.追加した集計列の「操作」で「すべての行」を選択します。
※これを追加しておかないと、重複を調査している列以外の列が抜け落ちてしまいます。
5.下図の追加した集計列の赤丸のアイコンをクリックします。
6.表示したい追加列を選択します。
※下の図では「ID」を選択しているので、追加で表示されます。
7.「カウント」列で2以上のものにフィルターをかけます。
※2件以上存在しているという意味です。
8.下図のように重複行が表示されます。
以上です。
いかがでしたでしょうか?
個人的には、特に大規模データを扱う場合などでは結構重要な機能だと思っています。
そのまま重複の削除をしてしまうと、原因もわからずに削除することになるので危険です。
少なくとも重要な局面(ゴッソリデータを削除する時等)は重複行をチェックするように心がけましょう!
では、また。
動画版はこちら→
コメントを残す