アクセス解析からロボットを除く
ロボットのアクセスが多くて分けのわからんログでしたが、どのページにアクセスが多いのかわかるようになりました
ホームページのアクセス解析にANALOGを利用しています。しかしロボットからのアクセスが多く、単純に統計をとっただけでは意味の無いデータになってしまいます。
各種ロボットは定期的にアクセスして来ますのでアクセス解析から除外しないとアクセス数に周期性が出てしまいます。
検索サイトのロボットはアクセスログを見ると容易に判別できるのであまり気になりませんが、問題はメールアドレス収集ロボットやブログにスパムをバラまくロボットです。
これらはrefererやagentを詐称しているので判別が難しいもしくは不可能なものもあります。ログを見ながら一つ一つ通常のプラウザかロボットか判別が必要なものもありました。
こちらにこれまで蓄積したロボットのリストを載せておきます。
analogの初期設定に組み込んでおつかいください。
一見普通のagentもありますが、ログを見てみるとアクセスの間隔が異常であったりPOSTしかしていなかったり(コメントスパムロボット)、refererスパムをバラまいていたりと実害があったものです。
その他のロボットを御存じの方はお知らせください。
リストはH18.9.4最終更新です。