[ Top > FreeBSD > Webサーバーで検索ロボット拒否 ]

Webサーバーで検索ロボット拒否

2006.9.18

検索ロボットとはWWW上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである．クローラ，サーチボットなどとも呼ばれる． Webページを公開すると，どこからともなく検索ロボットがやってきて，検索エンジンに登録してくれる．しかし諸事情から検索エンジンに登録して欲しくない場合もある．

ここでは，FreeBSDなどでwebサーバーを立ち上げている場合に，apacheの設定ファイルでこれらのロボットに対するアクセス制限を行なう方法を説明する．

/var/log/httpd-access.logについて

apacheのログについてはよく知っているというかたはここは読み飛ばしてください．

apache22のログ/var/log/httpd-acess.logの書式（形式）は，ファイル/use/local/etc/apache22/httpd.confにおいて，デフォルトでは以下のように指定されている．

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined

それぞれの項目の意味は以下のとおり．

%h
- リクエストしたコンピュータの名称またはIPアドレス．ただしapacheの設定ファイルにおいてHostNameLookupsがOffならIPアドレスが数字で表示される．
%l
- リモートログ名（identdをクライアントがサポートしているとき）．
%u
- クライアント側のユーザー名．
%t
- リクエストされた時間．
%r
- リクエストの最初の行．代表的なものは以下のとおり．
  - GET：情報を得る（本文を読み込む）．
  - HEAD：情報を得る（ヘッダを読み込む）．
  - POST：情報を新しく作る（掲示板への投稿など）．
%s
- リクエストに対するHTTPのステータスコード．代表的なものは以下のとおり．
  - 200：読み込み成功．
  - 403：読み込む資格なし．
  - 404：ファイル存在せず．
%b
- そのリクエストで行われたデータの転送量（bytes）．
%{Foobar}i
- リクエストヘッダ（Foobarで指定したもの）の内容．上記の設定では，1つ前にアクセスしていた場所（Referer）とクライアントが使っているWebブラウザ（User-Agent）が記録される．

代表的なログの1行（改変してあります）：
mttkyo217195.tkyo.nt.adsl.ppp.infoweb.ne.jp - - [03/Mar/2006:05:27:37 +0900] "GET /bakuretsu/radio/index.html HTTP/1.1" 200 948 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.1)"

意味：
mttkyo217195.tkyo.nt.adsl.ppp.infoweb.ne.jpのURLを持つホストが2006年3月3日5時27分37秒に当Webサーバーの/bakuretsu/radio/index.htmlを読み込み，正常終了した．読み込んだデータ量は948バイトであった．ブラウザはMozilla互換のもの（Internet Explorer）であった．

なおこの例ではリモートログ名，クライアントのユーザー名，一つ前にアクセスしていた場所は記録されていない．

検索ロボットを排除する設定

アドレス（URL）を指定する方法

/var/log/httpd-access.logを調べて，検索ロボットが特定のアドレス（またはURL）から来ていることがわかっている場合．httpd.confのセクションで設定を行なう．たとえば，ディレクトリ/full-path-to-directoryに関して，ホスト57.198.52.207とkonaide.search.comから来て欲しくなければ，以下のようにする．

<Directory "/full-path-to-directory">
    Options Indexes FollowSymLinks
    AllowOverride None
    Order allow,deny
    Allow from all
    Deny from 57.198.52.207 konaide.search.com
</Directory>

環境変数User-Agentを使う方法

/var/log/httpd-access.logを見てみると，Mozilla以外にもたくさんの種類のUser-Agentがあることがわかる．Opera，w3m，WWWC，Sleipnir，DoCoMo，Vodafoneなどは問題ないが，以下のようなものは検索ロボット（あるいはそれに準じた働きをするもの）である．

Alexa Toolbar
Baiduspider+(+http://www.baidu.com/search/spider.htm)
Bookmark Renewal Check Agent [http://www.bookmark.ne.jp/]
Feed::Find/0.06
Gigabot/2.0; http://www.gigablast.com/spider.html
Googlebot
Hatena Bookmark/0.1
HatenaScreenshot
ia_archiver
ichiro/2.0 (http://help.goo.ne.jp/door/crawler.html)
Infoseek SideWinder/2.0B (Linux 2.4 i686)
MaSagool/1.0 (MaSagool; http://sagool.jp/; masagool@sagool.jp)
MFcrawler/1.0
MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+)
msnbot/0.9 (+http://search.msn.com/msnbot.htm)
MVAClient
psbot/0.1 (+http://www.picsearch.com/bot.html)
Scooter/3.3
Shim-Crawler
Snapbot
WebCrawler/1.7
Yahoo-MMCrawler/3.x
Yahoo! Slurp
zia-httpmirror/1.144

以下のものは検索ロボットではないようであるが，別に来てくれなくてもいいものである．

BasicHTTP/1.0
Java
page_verifier
Plagger/0.7.10 (http://plagger.org/)
squidclam

これらを拒否するため，httpd.confを以下のようにする．

    SetEnvIf User-Agent "Alexa Toolbar" deny_ua
    SetEnvIf User-Agent "^Baiduspider" deny_ua
    SetEnvIf User-Agent "^BasicHTTP" deny_ua
    SetEnvIf User-Agent "^Bookmark" deny_ua
    SetEnvIf User-Agent "^Gigabot" deny_ua
    SetEnvIf User-Agent "Girafabot" deny_ua
    SetEnvIf User-Agent "^Googlebot" deny_ua
    SetEnvIf User-Agent "^Hatena" deny_ua
    SetEnvIf User-Agent "^ia_archiver" deny_ua
    SetEnvIf User-Agent "^ichiro" deny_ua
    SetEnvIf User-Agent "^Infoseek" deny_ua
    SetEnvIf User-Agent "^Java" deny_ua
    SetEnvIf User-Agent "^MaSagool" deny_ua
    SetEnvIf User-Agent "^MFcrawler" deny_ua
    SetEnvIf User-Agent "^MJ12bot" deny_ua
    SetEnvIf User-Agent "^msnbot" deny_ua
    SetEnvIf User-Agent "^MVAClient" deny_ua
    SetEnvIf User-Agent "^page_verifier" deny_ua
    SetEnvIf User-Agent "^Plagger" deny_ua
    SetEnvIf User-Agent "^psbot" deny_ua
    SetEnvIf User-Agent "^scidclam" deny_ua
    SetEnvIf User-Agent "^Scooter" deny_ua
    SetEnvIf User-Agent "^Shim-Crawler" deny_ua
    SetEnvIf User-Agent "^Snapbot" deny_ua
    SetEnvIf User-Agent "^WebCrawler" deny_ua
    SetEnvIf User-Agent "^Yahoo" deny_ua
    SetEnvIf User-Agent "Yahoo! Slurp" deny_ua
    SetEnvIf User-Agent "^zia-httpmirror" deny_ua


<Directory "/full-path-to-directory">
    Options Indexes FollowSymLinks
    AllowOverride None
    Order allow,deny
    Allow from all
    Deny from env=deny_ua
</Directory>

上の設定の働き：apacheがリクエストを受け付けたとき，User-Agentの中に指定された文字列があればdeny_uaという環境変数をセットする．Deny from env=deny_uaにより，指定されたディレクトリへのアクセスは拒否される．

なお，SetEnvIfの指定で「^」がついているものはUser-Agentの最初にその文字列が現れるものである．途中から現れるものには「^」がついていない．もちろん「^」は正規表現で行頭を表す）．

注意・その他

ここまで書いてきた検索ロボット対策は完全ではない．まず，このページに書いた以外にも検索ロボットは存在するであろうし，今後も新しく作られるはずだからである．また，User-Agentを詐称しているものも存在するであろう．しかし，何もしないよりも対策をとっておいたほうが良いことは間違いない．

[ Top > FreeBSD > Webサーバーで検索ロボット拒否 ]