▼ なるほど!よくわかる!ホームページ運営 第13号
実はこの「ウェブマスターツール」でGoogleに
「ここから先は見ないで~~っ!」という規制を入れる
robots.txt というファイルのテストが出来ます。
■ robots.txt とは
■■━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
robots.txt とは Googleをはじめとする検索エンジンのサイトを回ってくる
ロボット(コンピュータ)に対して
「ここはOK」「ここはNG」という規制をかけてあげるものです。
ただ、Google、gooなどはこの robots.txt に従うようですが、絶対的な
ものではなく「自主規制」的なものなので「絶対見られない」というもの
ではないことを理解してください。
■ 早速 robots.txt を書いてみましょう!
■■━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
——————————————————————
■ robots.txt の配置場所
——————————————————————
robots.txt は ホームページのトップページ(index.htmlなど)
と同じ階層にアップロードして使用します。
——————————————————————
■ robots.txt の記述
——————————————————————
今回は Google ウェブマスターツール を使用して書いていきましょう。
▼ Google ウェブマスターツール(日本語)
上記ページを開いていただくとログイン画面が現れます。
このとき、「ウェブマスターツールに入ってしまった!」という方は
それで結構です。
GoogleにログインされたままになっていたということですのでOKです。
アカウントを持っている方はそのままログイン処理を行ってください。
持っていない方はバックナンバーにアカウント作成について書いております
ので参考にして、まずアカウント作成をお願いします。
▼ なるほど!よくわかる!ホームページ運営 第12号
●ログインできましたら・・・
サイトの一覧が出てきます。
ここで登録を行っていないかたは
下記バックナンバーを参考に「サイトの登録」を行ってください。
▼ なるほど!よくわかる!ホームページ運営 第13号
●サイトを選びます!
登録されているサイトから今回 robots.txt を記述したいサイトを
選びます。
サイトを選ぶと「概要」という画面が表示されます。
●左側のサイドメニューから「robots.txt解析」をクリックします!
「キャッシュに保存された robots.txtの分析」という画面が表示されます
ここで robots.txt をすでにアップロードされている方は
その内容が表示されていると思います。
まだの方は「ステータス」という箇所に赤い字で
「404 見つかりませんでした」
と表示されているはずです。
今回はまず、この画面中央にある小窓のような編集可能エリアにてテスト
をしながら記述したいと思います。
まず、サンプルから
——————————————————————
■ robots.txt サンプル
——————————————————————
---------↓--キリトリ--↓--------------
User-agent: *
Disallow: /images/
Disallow: /logs/
Disallow: /cgi-bin/
---------↑--キリトリ--↑--------------
「この robots.txt ファイルをテストして変更をチェック」の下に
記述されたファイルが存在すればその内容が表示されていますので
そこから変更します。
上記はあくまでもサンプルです。
この場合は
「User-agentがなにであろうが・・・」
・imagesフォルダの中は調べないでね
・dataフォルダの中も調べちゃダメよ
・もちろんlogsだって中身拾っていかないで!
・あ、わかってると思うけど cgi-bin フォルダはもってのほかだから
ということになります。
「 User-agent: * 」というのは
検索ロボットの種類を指定しています。
「 * 」というのは「すべて」ということです。
これは ディレクトリ(フォルダ)ごとでなくてもOKで
たとえば
Disallow: /secret.html
とか
Disallow: /data.txt
という指定もできます。
逆に
Disallow: /
としてしまうと そのサイト すべてが検索対象外になってしまいますので
ご注意を!!!
それでは実験してみましょう!
すぐ上で「ご注意を!」と言っているくせに「すべて検索対象外!」を
テストしてみましょう!
「この robots.txt ファイルをテストして変更をチェック」の下にある
テキストボックスに
User-agent: *
Disallow: /
とだけ書いて
「この robots.txt ファイルに対して URL をテスト」の下に自サイトの
URLを記述(そのまま記述されていると思いますのでそのままでOK)して
一番下にある「テスト」ボタンを押します。
テストなので本当にそうなるわけではありません!!
気軽に押してみてください。
●すると・・・
「次のメールでブロック 2: Disallow: / ディレクトリとして
検出されました。ファイルによっては固有の制限がある可能性があります」
とやばそうなメッセージが現れました。
こんな指定は絶対しないと思いますがこれで
入ってこれないということが証明されたわけです。
●それでは ただしく設定しましょう!
先ほどのサンプルの通りなのですが、もうちょっと詳細を記述します。
適宜修正して使用してください。
---------↓--キリトリ--↓--------------
User-agent
検索ロボットの指定をします。
例)すべてに対して有効
User-agent: *
例)Googleのみの場合
User-agent: Googlebot
User-agent: *
Disallow: /ディレクトリ名 で
その指定ディレクトリ内を巡回しなくなります。
Disallow: /*.gif$ という指定により
GIF画像を検索対象としないという設定も出来ます。
#
Disallow: / とだけ記述するとすべてが巡回できなくなりますので注意!
Disallow: /images/
Disallow: /logs/
Disallow: /cgi-bin/
---------↑--キリトリ--↑--------------
● テストしてみよう!
ご自分のサイトに合わせた書き方が出来たらテストしてみましょう!
先ほどと同様
「この robots.txt ファイルをテストして変更をチェック」の下にある
テキストボックスに書いた内容を貼り付けます。
「この robots.txt ファイルに対して URL をテスト」の下に自サイトの
URLを記述します。
このとき、この中に
http://www.○○.com/ だけでなく実際に規制をかけたディレクトリを
記述します。
例)※リンクにならないように先頭hは全角にしております。
http://www.○○.com/
http://www.○○.com/images/
http://www.○○.com/logs/
http://www.○○.com/cgi-bin/
そして、一番下にある「テスト」ボタンを押してみましょう!
実際には規制をかけたいのに「許可」と表示されている箇所は記述が
まちがっていますのでやり直しましょう。
何度かやってみて、納得がいったら
本番のサーバーにアップロードしてください。
アップロードしてからGoogleにキャッシュされたら次回は
その内容が表示されるようになります。
ご健闘を祈ります!
■ robots.txt によって秘密を知られる危険性
■■━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
▼ All About より
ロボットが見なくても人が見るかも… Robots.txtで秘密がバレる!?
上記、記事の通りなのですが、robots.txtに「Googleの検索結果」として
挙げて欲しくないディレクトリ(フォルダ)を指定したはずなのに
http://○○.com/robots.txt と直接指定することで
人間が見ることが出来てしまいます。
それにより「なんとなく」見て欲しくないところを
見られてしまう!
ということがあるのでご注意ください。
上記の記事にあるとおり、絶対見て欲しくないところは
認証をかけることを強くおすすめします!———————————————————————-
この内容は
私が発行しているメルマガ 「なるほど!よくわかる!ホームページ運営」にて掲載したものです!
毎週木曜日発行のメルマガ
「なるほど!よくわかる!ホームページ運営」ご購読希望の方は
↓フォームよりご登録下さい!よろしくお願いいたします。