Web

robots.txt ファイルとは?

投稿日:

1. robots.txt ファイルとは?

robots.txt ファイルとは、「Google などのクローラやボットに対して、ページの取得を受け入れる/拒否する意思を伝えるためのファイル」です。

robots.txt ファイルで利用される規約は、「Robots Exclusion Standard(RES)」「Robots Exclusion Protocol」「ロボット排除規約」「robots.txt プロトコル」など様々な呼称があります。

このファイルはあくまで「意思を伝える」だけであるため、クローラ(プログラム)がそれを尊重するかどうかはまた別の話しです。但し、robots.txt で拒否しているのにそれを無視してページを取得していることが分かれば悪評が立つでしょう。

クローラやボットについて

クローラ」は、ウェブサイトのページデータ(主に htmlファイルや画像ファイル)を取得するプログラムを指します。それに対して「ボット(インターネットボット、Webボット)」はもう少し範囲が広く、インターネット上で何らかのタスクを行うために常時稼働しているプログラムを指します。そのため、ボットの中にクローラも含まれると言えます。

2. 使い方

2-1. ファイルの設置

ウェブサイトのドキュメントルートの位置に、robots.txt という名前のファイルを設置します。

2-2. 記述例

そこで、クローラプログラムを表す名前に対して、Allow(許可する) / Disallow(許可しない)などを指定します。

例えば、Wayback Machine というウェブサービスでは、あらゆるウェブサイトを日々クロールして取得し、取得した日付別に公開しています。この Wayback Machine からのクロールを拒否したい場合は、robots.txt ファイルに以下を記述します。

User-agent: ia_archiver
Disallow: /

全てのクローラやボットが全ファイルを走査できないようにするには、「*」を使って以下のように記述することができますが、これだと無視されることもあるようです。

User-agent: *
Disallow: /

全てのクローラやボットが、「特定のファイル」を見ないよう指定する場合は以下のように書きます。

User-agent: *
Disallow: /directory/file.html

3. 参考

📂-Web

執筆者:labo


comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

関連記事

Web Programming

Webプログラミングのための Web入門

この記事では、Webプログラミングで必要になる Webの知識をご紹介します。 目次1. インターネット2. インターネットを土台として存在するプロトコル3. Web とは?4. URL5. HTML2 …

Chrome

Chrome の通信ログ(TCP/IPも含む)を記録する

Chrome の通信ログ(TCP/IPも含む)を記録する方法を紹介します。

SQLite

PHP から SQLite を使う手順

PHP から SQLite を使う手順について説明します。

SQLite

PHP + SQLite を利用してアクセスカウンターを作る

PHP + SQLite を利用してアクセスカウンターを作ります。

Chrome

Chrome 78 デベロッパーツールの新機能

Chrome 78 のデベロッパーツールにおいて、主な新機能を紹介します。