Kde najít informace o crawlerech, robotech a scannerech, kteří prochází váš web

Čím více odkazů na váš web vede, tím více různých automatických robotů jej navštěvuje. Ve většině případů se jedná o neškodné automatické skripty, které jen sbírají data. Ovšem někdy se mohou splašit a nadělat celkem dost problémů. Ostatně běžný web navštíví za den desítky i klidně stovky z nich. Přístupy jak se k nim zachovat se různí. Někdo doporučuje jít cestou whitelistování a někdo preferuje svobodu a blacklisty.

Obsah

Robotů jsou různé druhy

Nejznámější jsou web crawleři jako je třeba Googlebot anebo Seznambot. Prochází si a stahují data z vašeho webu, aby jej mohli zpracovaný uložit do databáze a zařadit do svého indexu. Pokud chcete být ve vyhledávačích tak jim musíte povolit návštěvu.

Pak tu máme feed fetchery. Ti hledají na vašem webu RSS kanál. Většinou se jedná o roboty různých čteček, ale občas přes ně může někdo kopírovat obsah vašeho webu a vydávat jej za svůj. Proto byste přes RSS měli zobrazovat maximálně perex anebo prvních pár vět.

Scrapeři stahují část obsahu webu. Někteří to dělají k analytickým účelům ale většinou se jedná o snahu kopírovat obsah.

Monitorovací boti patří nejčastěji službám na sledování dostupnosti webu. Chtějí zjistit zdali je stránka dostupná, pokud ano tak jestli se na ní nenachází nějaký chyba. Monitorovací boti se snaží být ke stránce ohleduplní a často stahují jen hlavičku stránky. Teprve při nalezení problému provedou komplexní analýzu a hledají kde by mohl být problém (ping, trasování atd.). Problém je že když se na jednom fyzickém serveru nachází velké množství webů, které používají stejný monitoring, tak mohou být ochranou vyhodnoceny jako útok.

Scanneři mají za úkol hledat něco konkrétního. Nejčastěji jsou to bohužel zranitelnosti webu. Trpí na to hlavně WordPress a další známé redakční systémy. Jsou většinou součástí botnetu a jakmile najdou zranitelnost, tak to sdělí command & control serveru, který ovládá botnet, a následuje útok.

Existují však i další roboti. Například testují zdali na webu něco funguje. Mohou dokonce zadávat falešné objednávky anebo zkoušet slovníkové útoky na hesla.

Jak poznám dobrého a zlého robota?

Především aktivita robota se běžnými metodami zjišťuje špatně. Jednak ti zlý roboti hledají tam, kde většinou nemáte měření návštěvnosti a také je měření návštěvnosti na JavaScriptu (třeba Google Analytics) nevidí. Pro jejich detekci potřebujte buď měření na úrovni serveru (access log) anebo úrovni skriptu co generuje stránku. U WordPress je to například počítadlo návštěvnosti Slim Stats.

Aktivita robota je pak vidět na provozu. Prochází určité stránky a moc dlouho se na nich nezdrží. Pokud je to dobrý robot tak se k tomu přizná. Jako název prohlížeče uvede své jméno. Podle jména jej pak můžete dohledat v jedné z internetových databází třeba Bot Database. Ovšem ti zlý roboti se většinou maskují za reálného uživatele, takže je třeba dívat se na to co hledají, respektive co zkouší. Například volají neexistující stránky (hledají plugin ze zranitelností).

Whitelist anebo blacklist?

Jsou dva postoje jak se k botům chovat. Buď si vytvořím seznam těch, které na stránku pustím (whitelist) anebo ty, kteří budou zlobit tak zakážu (blacklist). Zatímco whitelist si lze víceméně spravovat sám, jen je třeba kontrolovat zdali nějaký bot, kterého na stránkách chcete nezměnil své značení anebo IP adresu. Tak u blacklistu je to složitější. Počet zlých botů neustále roste a proto se buď spolehnete na třetí stranu, která vám seznam dodá a aktualizuje, anebo na blaclist přidáváte IP adresy podle toho co zrovna dělají. Například když nějaký bot leze kam nemá, dostane ban na 24 hodin. 10 pokusů o přihlášení ban na 72 hodin atd. U WordPress existuje například skvělý plugin WordFence, který to umí. Stačí si jen pohrát s nastavením.

Proč to řešit?

Podle společnosti Wedos, která poskytuje nejvíce sdílených hostingů v Česku, tvoří objem zbytečných přenosů tvořených boty téměř 50 %. Velkou část z toho blokují pomocí IPS/IDS ochrany a výrazně tím ubylo zátěže na servery a napadených redakčních systému.

Já používám na vytížených webech, kde potřebuji šetřit přidělené serverové prostředky, zmíněný plugin WordFence. Mám tam nastavené tvrdší pravidla. V blacklistu jsou také všechny služby, které sbírají velký objem dat (například MOZ) a nic z nich nemám. U menších webů to moc neřeším. Používám silná hesla a pravidelně aktualizuji :) I když stalo se mi, že jsem na to dojel. Nějaký robot se “zblíznil” protože nepochopil jak funguje vyhledávání přes parametry. Byly to tisíce dotazů za hodinu. Kde je problém jsem se dozvěděl až z access logu. Dal jsem na jeho IP adresu ban a bylo po problému.

Závěr

Na roboty si to v dnešní době chce dávat pozor. Přibývá jich a jejich aktivita roste. Na 404M tvoří téměř 90 % všech přístupů.

Jak bude reklama vypadat?

Kup si reklamu navždy pod tímto článkem jen za 100 Kč

Zobrazit formulář pro nákup

2 Replies to “Kde najít informace o crawlerech, robotech a scannerech, kteří prochází váš web”

Poradna napsal:

30.5.2018 (10:42)

Crawlery si tvrdě hlídám, jakmile překočí nějaký z nich určitou hranici přístupů za měsíc a není pro mě přínosný jde na black list. Nonstop si hlidám všechny IP crawlerů, takže v okamžiku blokace už mám velmi slušný seznam IP adres, které používá. Jen za rok 2018 už mám 10.000 UIP crawlerů.

Drtivá většina nerespektuje zákaz v robots, ani ty co se uvádí jako slušné.

Potírám i ahrefs apd. Je to jen lákadlo pro spamery, který potírám taky, velmi slušně. :-D
Poradna napsal:

30.5.2018 (10:45)

Roboti zpravidla nemají nastavený jazyk, který používají. Takže pokud se nepřizná, že je crawler jde takto celkem spolehlivě poznat + počet stran za min.