重複コンテンツ対策には使えないrobots.txtと使い方

2014/04/13 2017/09/14

※記事内に商品プロモーションを含む場合があります

robots.txtはロボットテキストと呼ばれ、検索エンジンのクローラーのアクセスを制御するのに使用されています。ただし、言う事を聞かないお行儀の悪いクローラーも存在します。ファイル名はrobots.txt、ロボットにSが付くので要注意です。

robots.txtを置く場所

robots.txtを置く場所はドメインかサブドメインのトップに限られています。例えば、
http://eax.jp/robots.txt　OK
https://b.eax.jp/robots.txt　OK
https://b.eax.jp/sub-dir/robots.txt　NG
となり、サブドメインとルートドメイン上はOKですが、ディレクトリー下に入ると使えないので要注意です。
よって、プロバイダのホームページサービスなどはディレクトリーで区切られるので使えない事になります。

robots.txtの基本命令４つ

User-Agent

検索エンジンのクローラーを指定します。すべてのクローラーを対象とするなら*とします。例 User-agent: * グーグルを指定するならGooglebotを指定します。

Disallow

アクセスを拒否したいファイルやディレクトリを指定します。例 Disallow: /blog.cgi Disallow: /category/日々の出来事/

Allow

アクセスを許可したい時に使用しますが、基本的には使用する機会は有りませんが、拒否したディレクトリの中にアクセスを許可したいディレクトリがある場合には使用します。例 Allow: /category/日々の出来事/sub-dir/

Sitemap

サイトのサイトマップを指定します。指定するサイトマップは人間が見るhtmlのサイトマップでは無く XML形式のサイトマップを指定します。例 Sitemap: https://b.eax.jp/sitemap.xml

重複コンテンツ対策での使用はダメ？

矛盾するGoogleのヘルプ：重複コンテンツをrobots.txtでブロックするのはOK？、NG？ link rel=”canonical”によるURL正規化タグ——SEOにとって非常に重要な進歩（前編）

重複コンテンツ対策としてはcanonical属性を使うのが一番良いみたいです。
ただ、古くなったり、記事の質が低いなどでインデックスから消えても良い場合は
robots.txtでブロックしても良いと思います。

まとめ

robots.txtは効率的に検索エンジンのロボットをブロック出来ますが、
逆に設定を間違えると大変な事になります。
アップロードする前に範囲に間違いは無いか、DisallowとAllowを
間違ってないか確認してして下さい。
アップロード時はアスキーモードでアップロードしましょう。

前の記事

メタデータをアーカイブページから消しました

次の記事

ワードプレスのカテゴリ分けから始めるカテゴライズSEO