ITTI STAFF
BLOG

イッティWEBスタッフの制作ブログ

スクレイピングの確認と対処方法

スクレイピングしていたサイトが、クローキングしていて、詐欺ECサイトという役満サイトへの対処方法です。

先日、Googleのジョン・ミューラー氏がパクリコンテンツを容認してしまったので、盗作サイト対策には手動で対応するしかありません。

コンテンツを盗作して文章のボリュームを増やしたり、自作自演のコメントで文章のバリエーションを増やすグレーゾーンのSEOは昔から行われています。

今回は、スクレイピングされたウェブサイトがあったので、その対処方法です。

作業としては下記になります。

  1. Search Consoleで異常なバックリンクを調査
  2. aguseでスクレイピングの詳細を調査
  3. htaccessで拒否する

Search Consoleを確認する

Search Consoleはの「サイトへのリンク」を確認すると、バックリックが異常に多いドメインがありました。

scraiping01

数字としては247あります。
どのようなページがリンクを貼っているのか確認します。

怪しいドメインをクリック

リンクされているページをクリック

発リンクが表示されます。

怪しいリンクがズラズラと表示されています。
画像では割愛していますが、かなりのページ数です。

scraiping02

拡張子が「shtml」なので、SSIを使ってスクレイピングされているようです。

Chromeのデベロッパーツールでページを確認する方法

スクレイピングしているページにアクセスしても何も表示されません。
「クローラーだけに表示させている」いわゆるクローキングです。

ページを確認するためにChromeのデベロッパーツールのユーザーエージェントにGooglebotを追加します。

1.右クリック→「検証」をクリックします

2.デベロッパーツールの「モバイル」検証ボタンをクリック

scraiping0

3.デバイス選択で「Edit」を選択します

scraiping3

4.「Add custom device」をクリック

scraiping4

5.GoogleBotを追加します。

scraiping5

これで「Google Bot」のユーザーエージェントが追加されました。


発リンクのページに再びアクセスすると表示されました。

ページ下にオリジナルサイトがスクレイピングされて表示されていました。

scraiping6

aguseでサーバーやドメイン登録者情報を調べる

aguseを使えば、サーバーやドメイン情報などを調べられます。
スクレイピングしているドメインを入力して調べます。

scraiping07

調査するとサーバーのIPアドレスが「208.110.○○.○○」と分かりました。

アメリカのカンザスにあるサーバーを利用している中国の詐欺ECサイトのようです。

htaccessでIPアドレスを拒否する

サーバーのログからスクレイピングしているIPを探るのも良いのですが、かなり面倒です。
今回はaguseで分かったIPアドレスからのアクセスを拒否してみます。

htaccessに下記を記入して、サーバーにアップします

htaccess
order allow,deny
allow from all
deny from 208.110.○○○.○○○

これで、スクレイピングしているサーバーからのアクセスが拒否されます。

スクレイピングがキャッシュされている場合

キャッシュされているため、htaccessでIPを拒否してもスクレイピングされた箇所が表示されています。

GoogleのDMCAに通報するか、カンザスのサーバーに連絡するしかありません。

今回は詐欺ECサイトでしたので「DMCA」と「スパムレポート」に通報しました。

DMCAの申告した結果はこちらから確認できます。

承認されていれば「承認されたURL」に件数が表示されます。
1回目で承認されなくても2回目で承認されることも多々あります。

dfafaea3a

旅行やグルメサイトはスクレイピングのターゲットになりやすいかもしれません。

新しい記事

東京のWEB制作会社イッティ