Stránky zakázané v robots.txt mohou být indexovány pokud na ně vede odkaz

Poměrně zásadní informaci prozradil John Mueller na Google Webmaster Central, kterou není dobré brát na lehkou váhu, protože může potenciálně způsobit problémy. Aktivní odkazy ze stránek mohou donutit GoogleBota, aby procrawloval i stránky, které jsou zakázané v robots.txt. Ten však vrátí prázdnou stránku, kterou teoreticky může zařadit do indexu.

V podstatě GoogleBot navštíví jakýkoliv odkaz, který najde na stránce. Jeho úkolem je procházet internet a hledat informace. Jde i tam, kde to má zakázané, protože hledá další odkazy, které jej posunou k dalšímu obsahu.

Zajímavá je však situace, kdy se dostane na stránku, kterou mu zakážete procházet, například přes robots.txt. V ten okamžik se totiž začne řídit pravidlem v robots.txt a slušně vrátí žádný obsah – prázdnou stránku. Chtělo by to provést pár testů, ale kdysi jsem v Google viděl prázdné stránky. V samotném těle (body) nebyl žádný obsah. Google vzal jen title a meta description. Pokud by to platilo i v tomto případě může to být potenciální bezpečnostní hrozba. Nějakému robotovi, který takto sbírá informace, kde jsou přihlašovací formuláře pomůžete.

Otázkou samozřejmě je jak Google pracuje s nalezeným obsahem. Když jsou tam odkazy započítá je? Jak se dívá na problémový obsah porušující pravidla? Mohou takovéto prázdné stránky poškodit image celého webu, když to dokáže velký počet 404?

V každém případě John Mueller doporučuje tomuto předcházet a na každou stránku, kterou nechcete indexovat dát do meta tagu robot noindex.

Jak bude reklama vypadat?

Kup si reklamu navždy pod tímto článkem jen za 100 Kč

Zobrazit formulář pro nákup

One Reply to “Stránky zakázané v robots.txt mohou být indexovány pokud na ně vede odkaz”

Zdeněk Dvořák napsal:

15.6.2018 (13:46)

To není žádné prozrazení, ale běžná funkce robots.txt. Ten řídí procházení, nikoliv indexaci.

Comments are closed.

Díky za komentář, dobré připomínky.

Nastavení ceny domény podle inflace je neskutečně alibistickým řešením. Místo jasně dané ceny podle příjmů/výdajů. Za pár let, protože inflace…

Ja si myslim, ze by to mohlo byt fajn. Minimalne srovnana startovni cara pro vsechny. Samozrejme cena muze byt vyssi,…

S tímto souhlasím. Údržba, zázemí, podpora a infrastruktura čistě pro .cz doménu asi nebudou největší položkou v nákladech CZ.NIC. Pokud…

Bude - protoze se k tomu dostanou i realny zajemci. Za 200 fakt nebudou, ale i kdyz je mi proti…