重複コンテンツ対策には使えないrobots.txtと使い方

robots.txtはロボットテキストと呼ばれ、 検索エンジンのクローラーのアクセスを制御するのに使用されています。 ただし、言う事を聞かないお行儀の悪いクローラーも存在します。 ファイル名はrobots.txt、ロボットにSが付くので要注意です。
ロビもロボット

robots.txtを置く場所

robots.txtを置く場所はドメインかサブドメインのトップに限られています。 例えば、
http://eax.jp/robots.txt OK
https://b.eax.jp/robots.txt OK
https://b.eax.jp/sub-dir/robots.txt NG
となり、サブドメインとルートドメイン上はOKですが、 ディレクトリー下に入ると使えないので要注意です。
よって、プロバイダのホームページサービスなどはディレクトリーで区切られる ので使えない事になります。

robots.txtの基本命令4つ

User-Agent

検索エンジンのクローラーを指定します。 すべてのクローラーを対象とするなら*とします。 例 User-agent: * グーグルを指定するならGooglebotを指定します。

Disallow

アクセスを拒否したいファイルやディレクトリを指定します。 例 Disallow: /blog.cgi Disallow: /category/日々の出来事/

Allow

アクセスを許可したい時に使用しますが、 基本的には使用する機会は有りませんが、拒否したディレクトリの中にアクセスを許可 したいディレクトリがある場合には使用します。 例 Allow: /category/日々の出来事/sub-dir/

Sitemap

サイトのサイトマップを指定します。 指定するサイトマップは人間が見るhtmlのサイトマップでは無く XML形式のサイトマップを指定します。 例 Sitemap: https://b.eax.jp/sitemap.xml

重複コンテンツ対策での使用はダメ?

矛盾するGoogleのヘルプ:重複コンテンツをrobots.txtでブロックするのはOK?、NG? link rel=”canonical”によるURL正規化タグ——SEOにとって非常に重要な進歩(前編)

重複コンテンツ対策としてはcanonical属性を使うのが一番良いみたいです。
ただ、古くなったり、記事の質が低いなどでインデックスから消えても良い場合は
robots.txtでブロックしても良いと思います。

まとめ

robots.txtは効率的に検索エンジンのロボットをブロック出来ますが、
逆に設定を間違えると大変な事になります。
アップロードする前に範囲に間違いは無いか、DisallowとAllowを
間違ってないか確認してして下さい。
アップロード時はアスキーモードでアップロードしましょう。

スポンサーリンク

関連する記事(一部広告)