Stránky zakázané v robots.txt mohou být indexovány pokud na ně vede odkaz

Poměrně zásadní informaci prozradil John Mueller na Google Webmaster Central, kterou není dobré brát na lehkou váhu, protože může potenciálně způsobit problémy. Aktivní odkazy ze stránek mohou donutit GoogleBota, aby procrawloval i stránky, které jsou zakázané v robots.txt. Ten však vrátí prázdnou stránku, kterou teoreticky může zařadit do indexu.

V podstatě GoogleBot navštíví jakýkoliv odkaz, který najde na stránce. Jeho úkolem je procházet internet a hledat informace. Jde i tam, kde to má zakázané, protože hledá další odkazy, které jej posunou k dalšímu obsahu.

Zajímavá je však situace, kdy se dostane na stránku, kterou mu zakážete procházet, například přes robots.txt. V ten okamžik se totiž začne řídit pravidlem v robots.txt a slušně vrátí žádný obsah – prázdnou stránku. Chtělo by to provést pár testů, ale kdysi jsem v Google viděl prázdné stránky. V samotném těle (body) nebyl žádný obsah. Google vzal jen title a meta description. Pokud by to platilo i v tomto případě může to být potenciální bezpečnostní hrozba. Nějakému robotovi, který takto sbírá informace, kde jsou přihlašovací formuláře pomůžete.

Otázkou samozřejmě je jak Google pracuje s nalezeným obsahem. Když jsou tam odkazy započítá je? Jak se dívá na problémový obsah porušující pravidla? Mohou takovéto prázdné stránky poškodit image celého webu, když to dokáže velký počet 404?

V každém případě John Mueller doporučuje tomuto předcházet a na každou stránku, kterou nechcete indexovat dát do meta tagu robot noindex.

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup

One Comment

  • Zdeněk Dvořák

    To není žádné prozrazení, ale běžná funkce robots.txt. Ten řídí procházení, nikoliv indexaci.

    (0)

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *