Blokovat anebo neblokovat roboty, kteří prodávají informace o odkazech?

Jedním z prvních pravidel při tvorbě PBN je zablokovat na serveru přístup všem robotům, kteří shromažďují informace o zpětných odkazech. Důvodem je, aby případná konkurence nezjistila, kde jste si nakoupili podpůrný linkjuice pro vaše weby. Mohlo by je totiž napadnout, vše preventivně nahlásit. Ostatně někdy je jednodušší prostě poškodit konkurenci než jí férově předehnat. Na druhou stranu kdo to myslí vážně, tak spíše zvolí kvalitnější tématické weby, kde se za odkaz nebude muset stydět. Ovšem zde už je cena někde jinde.

V rámci testování útoků na WordPress sleduju prakticky všechen provoz. U 404M tvoří robotí zhruba 90 – 93 % přístupů. Zbylých 7 – 10 % jsou lidé. U ostatních webů je poměr návštěv i IP na člověka o dost nižší. První větší nával robotů všeho druhu vám zajistí, pokud se dostanete do top 1 milionu Alexa. Tedy budete mezi jedním milionem nejnavštěvovanějších webů. Alexa totiž poskytuje zdarma ke stažení seznam webů z top 1 milion, který ochotně právě různí roboti využívají. Další metou je top 100 tisíc Alexa. Je úplně jedno jakou máte návštěvnost, v momentě kdy se dostanete pod toto číslo, tak se vám po webu prožene horda lačných robotů, které na Google Analytics neuvidíte.

Aktivita robotů za posledních 22 dnů na 404M.
Aktivita robotů za posledních 22 dnů na 404M. Přes 177 tisíc přístupů od robotů. Část z toho jsou vyhledávače, kontrola reklam a dostupnosti přes HTTP.

Pokud pomineme různé roboty, kteří se snaží hledat bezpečnostní díry ve vašem redakčním systému, tak si možná řeknete, že to zas tak moc nevadí. No popravdě občas dokáží web pěkně zabrzdit, zvláště pokud máte vyhrazené prostředky (VPS/VMS) a šetříte. Roboti nejsou lidé, nenavštěvují to co je právě zajímavé, jdou jednu stránku za druhou. Napříkald většina cachovacích pluginů pro WordPress cachuje obsah na půl hodiny. Takže když máte 1000 starých článků, na které někdo jednou za čas zabloudí, tak roboti je projdou jeden za druhým. K tomu samozřejmě přidají i stránkování rubrik, štítků, komentářů prostě všechno na co vedou odkazy. Ve výsledku to mohou být i tisíce stránek necachovaného obsahu. Když jedou co stránka to vteřina, 503ky na sebe nenechají dlouho čekat. Samozřejmě takováto činnost se většinou řeší na úrovni serveru. Robota, který se neumí chovat je třeba zablokovat.

Naproti tomu roboti, kteří počítají zpětné odkazy, dělají statistiky anebo různé průzkumy, mají bezpečnostní pojistky. Jednak se snaží nepřetěžovat server, odkud zrovna stahují data a také respektují pravidla v robots.txt. Celkový dopad na chod služby tak může být prakticky neznatelný. Většinou nestahují nic jiného než HTML kód, tedy žádné velké objemy dat v porovnání třeba s multimédii. Na druhou stranu pořád jsou to většinou stránky necachované, které chvilku trvá vygenerovat. On i slušný robot zacyklený na nesprávném místě může nadělat pořádnou paseku.

Otázkou je co s nimi? Pokud někdo někdo kolektuje data pro veřejně prospěšné statistiky, tak nad tím mávneme rukou. Kolik se v ČR používá WordPress anebo na kolika stránkách je ještě AdobeFlash nám nevadí. Co ale s roboty, kteří sbírají data pro společnosti prodávající nějaká marketingová data. Například výše zmíněné zpětné odkazy. Podobných robotů je ohromné množství a fakt poctivě prochází stránku po stránce. Nic z nich nemáme a zatěžování našeho webu je pro je pro ně výnosný byznys.

Většina z nás to asi nebude řešit do okamžiku, kdy nám vše bude fungovat bez problému. Než se začnou objevovat právě ty chyby 503. Pak se podíváme do access logu, zakroutíme hlavou a začneme blokovat v .htaccess jednoho robota za druhým. Otázkou tedy je, jestli si neušetřit práci, a rovnou tam nenaházet všechny nepotřebné roboty.

Pokud chcete tip na jeden takový menší seznam robotů, zkuste Htaccess Security and The Largest Block Bots List On The Web. Nachází se na konci článku v sekci The Code. Jen pozor je na něm i Seznambot :)

Share Button
(1)(0)

Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup

2 Comments

  • Jan

    Určitě blokovat, ale seznam si udělat vlastní. Já osobně blokuju každou IP na půl hodky pokud během minuty stáhne více jak 150 stránek (google a seznam ve whitelistu). Dokud jsem to nedělal tak jsem jen a jen posiloval HW. Nicméně více zatím neřeším, ale mám to v plánu. Jinak jsem setkal i s crawlerem z amazon AWS, zvažuju bloknout celý amazon.

    btw. letmo jsem si prošel ten blacklist co zminuješ, vtipné je že tam je celý rozsah seznam.cz :-)

    (0)

Comments are closed.