Googleは同じパスが3回含まれるURLをインデックスしない
DeepCrawlチームは、1つのURLに同じパスが繰り返し含まれているURLがインデックスされなくなるという事象を発見しました。これは公式には文書化されていない内容です。
URLパスを2回以上繰り返されている場合、そのURLはインデックスされません。例えば、以下のURLはGoogleにインデックスされません。.
example.com/path/path/path/
また、繰り返されているパスが別の一意のパスによって分割されている場合でも、繰り返しが発生している以上、そのURLはインデックスされません。
例えば、以下のURLはGoogleにインデックスされません。
example.com/path/path/unique/path/
同じパスが繰り返し発生する場合
きわめて稀なケースですが、気づかないうちに偶然このような繰り返しを含むURLが発生する場合があります。
DeepCrawlチームが検証を行なったあるサイトでは、変数の保存に固定パスを使用するという珍しいURL構造が取られており、そこでは以下のようなURLが生成されていました。
example.com/-/-/-/page
なぜGoogleはこのような対応をとるのか
これはGoogleがURLトラップに遭遇したと判断するためです。
URLトラップが最もよく発生するのは、相対リンクにそのページが位置する場所と同じパスが含まれている場合です。相対URLはリンクを含むURLパスの最後に追加されます。
例えば、example.com/path/page.htmlというページがあり、このページ自身へリンクする相対リンク“/path/page1.html”が含まれているとします。この相対リンクの実際のURLはexample.com/path/path/page1.htmlです。このページがサーバーから返されると、もう1つ追加で“/path/page1.html”への相対リンクが含まれることになり、実際のURLがexample.com/path/path/path/page1.htmlとなってしまい、これが無限に続きます。
DeepCrawlが知る限りこの現象は文書化されていませんが、DeepCrawlチームが行なった検証では一貫した結果が得られました。John Mueller氏にこれを連絡したところ、次の返事を受け取りました。
「URL書き換えのミスにより、無限にネストされたディレクトリを持つ多くのサイトにとってはそのような最適化が有効な場合があります。」