Když to GoogleBot přežene

Na Google Webmaster Central Help Forum jsem našel zajímavou diskuzi. Jeden z diskutujících se podělil o problém s GoogleBot. Ten zhruba každé dvě vteřiny přistupoval na neexistující stránku a vytvářel mraky chyb 404 (stránka nenalezena). Za den to bylo údajně 50 až 60 tisíc přístupů, což je opravdu hodně. Diskutující měl samozřejmě starosti o pozice, ale také řešil nadměrnou zátěž.

Vliv na pozice

Sám Google tvrdí, že chyby 404 jsou zcela přirozenou součástí webu. Mohou se zde vyskytovat například když někdo udělá chybu při odkazování. Na přímou otázku zdali mohou web poškodit odpovídá:

“If some URLs on your site 404, this fact alone does not hurt you or count against you in Google’s search results.”

  • Česky doslovně – Pokud některé adresy na tvém webu jsou 404, tento fakt tě nepoškozuje anebo není proti tobě ve vyhledávání Google.
  • Česky volně – Několik 404 ti neublíží.

A máme tu právě to slovíčko několik. Z vlastní zkušenosti vím, že Google posílá při zvýšením počtu nenalezených stránek varování emailem. Můj odhad je 10 %.

Dále rozlišuje falešné 404 a skutečné. Falešné 404 jsou potenciálně existující stránky, které však nemusí vůbec existovat. Většinou je vytváří javascript. Skutečné 404 bývají zrušené stránky.

Můj zcela nepodložený názor je, že jakmile začnou skutečné užitečné stránky mizet ve velkém a nahradí je 404, tak to bude mít negativní vliv na pozice ve vyhledávačích. Google se primárně stará o své uživatele a určitě je na rozbitý web nechce posílat, pokud to nebude nezbytně nutné (obsah nikde jinde není).

Nadměrná zátěž

V době kdy váš web navštěvuje 10x tolik robotů co lidí, tak nějaké slušného Googlebota nemá většinou cenu řešit. I když je pravda, že 50 – 60 tisíc mě překvapilo.

Řešení přes Search Console

  • Stačí jít do Search Console.
  • Vybrat web.
  • Kliknout na ozubené kolečko v pravém horním rohu.
  • Vybrat Nastavení webu.
  • U Rychlost procházení vyberte checkbox Omezit maximální rychlost procházení Googlem.
  • Vyberte vhodné nastavení.

Hlavička, statická stránka a hezky generovaná stránka 404

Spousta lidí si se stránkou 404 opravdu vyhraje. Dokáží jí generovat podle toho, co uživatel hledal, popřípadě vyšperkovat, aby opravdu stála za to. Problém je v tom, že na 404 končí opravdu hodně bordelu. To znamená, že pokud se na míru generuje třeba 2 vteřiny a její zdrojový kód má 250 KB, tak dokáže celkem slušně ždímat zcela zbytečně serverové prostředky a i přenesená data, které mohou chybět jinde. Při 20K impresí to je necelých 5 GB na přenesených datech za den, pokud by roboti stahovaly všechen obsah.

Proto opravdu zvažte zdali necháte například WordPress generovat chybovou stránku 404. Místo toho můžete zvolit cachovanou verzi anebo statickou stránku. Samozřejmě výkonnostně ideální je hlavička, kterou vrátí přímo webserver

Závěr


Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup

2 Replies to “Když to GoogleBot přežene”

  1. zdar, pro zajimavost mohu doplnit, ze nevyzadana uprava sitemap.xml take dokaze patricne zamestnat server ;]
    ps: rad te ctu, jen tak dal! nutis mne vice pouzivat mozkove zavity

  2. Pokud nějaká stránka neexistuje tak nemůže snad poškodit vyhledávání ne? Existující obsah je stále existující a neexistující prostě není takže? :)

Comments are closed.