検索エンジンの巡回クロールを回避する方法

サイトの運営をしていく中で、サイトが公開前の準備段階である場合や管理画面URLなど、検索エンジンにクロールされては困る状況があると思いますが、そういった時はHTMLの「metaタグ」による設定方法や「robots.txt」を利用してそれらを回避する方法があります。

検索ロボットとは？

サーチエンジンの検索データベースを作成するために、世界中に存在するWEBサイトの情報を自動的に回収するプログラムのことを言います。全文検索型サーチエンジンでは、WEBページの内容をサーチエンジン側のデータベースに保存しておき、検索要求のあった際にそのデータベースを検索して結果を出しています。検索ロボットはこのデータベースの内容を充実させたり点検したりするプログラムであり、まだデータベースに収録されていないWEBページや更新されたWEBページを発見して内容を回収し、結果をデータベースに反映させています。

簡単に言ってしまえば、クローラーがWEBサイトをクロールすることで、私たちが「Google Chrome」や「Yahoo!」などの検索エンジンで何かを検索する際に、より良い情報を検索結果に出力してくれているということになります。

では、その巡回クロールを回避する方法を見ていきましょう。

1.metaタグによる設定方法

HTMLの「metaタグ」に下記内容を記述し検索ロボットの巡回を制御します。

NOINDEX	検索エンジンにインデックスさせず、検索結果に表示させない
NOFOLLOW	ページ内に存在するリンク先を巡回させない

指定のページを検索エンジンに登録させたくない場合

<meta name="ROBOTS" content="NOINDEX">

1	<meta name="ROBOTS" content="NOINDEX">

ページ内のリンク先の巡回をさせたくない場合

<meta name="ROBOTS" content="NOFOLLOW">

1	<meta name="ROBOTS" content="NOFOLLOW">

両方とも制御したい場合

<meta name="ROBOTS" content="NOINDEX,NOFOLLOW">

1	<meta name="ROBOTS" content="NOINDEX,NOFOLLOW">

※”NOINDEX”などの指定は必ず「大文字」で指定します。

2.robots.txtによる設定方法

「robots.txt」を設置すると検索ロボットは「robots.txt」にアクセスするようになり、robots.txtで巡回を拒否するように設定している場合は、HTMLにアクセスしなくなります。

※robots.txt はウェブサイトのルートディレクトリに配置します。

検索ロボットにWEBサイト全体を巡回させたい場合

User-agent: *
Disallow:

1 2	User-agent: * Disallow:

検索ロボットにWEBサイト全体を巡回させたくない場合

User-agent: *
Disallow: /

1 2	User-agent: * Disallow: /

検索ロボットにある特定のページのみアクセスさせたくない場合

User-agent: *
Disallow: /category/
Disallow: /sample.html

User-agent: *

Disallow: /category/

Disallow: /sample.html

検索ロボットを限定して制御したい場合

User-agent: googlebot
Disallow: /

1 2	User-agent: googlebot Disallow: /

巡回クロールを回避する機会は多くはないと思いますが、知っていて損はないと思いますので覚えておきます。