Nástrahy čekající na botíky

Kvůli vylepšování mého scanovacícho skriptu na monitorování domén jsem se dostal k zajímavím informacím. Neustálý souboj s antiroboty vyžaduje nějaké to nasazení a hlavně se držet co možná na nejnižší úrovně jaká vůbec lze pro průzkum internetu použít. A upřimně celá ta síť je pěkně zamotaná. Při hledání potřebných informací jsem se dostal k pár zajímavostem.

Čené díry na internetu – už od počátku internetu se občas ztratí nějaký ten paket. Ale věděli jste, že to nemusí být tím že servr neodpovídá? Prostě může být něco mezi vámi a cílovím servrem. Četl jsem spoustu teorií a příčin. Některé jsou SCIFI, jiné zase doslova fantasy. Existuje dokonce i ústav na monitorování Internetových černých děr. Více info…

Deep web – část internetu neviditelná pro vyhledávače. Většinou chráněná přístupovím formulářem, ajax skriptem, flash nebo javou. I obyčejný formulář se může stát nepředstavitelnou překážkou pro crawlera. Google nedávno oznámil, že se jejich robot pokusí náhodně zadávat data a proniknout tak do Deep webu. Podle současných odhadhů je možné indexovat pouze 16% celého internetu.

Velikost internetu – v roce 2001 obsahoval internet 550 miliard dokumentů. Další studije jsou spíše odhady. Pro jejich základ většinou sloužili vyhledávače, ty se ale nedkáží dostat na Deep web, popřípadě Darknet (privátní sítě). Oficialně v roce 2005 uvedlo několik vědců, že vělikost internetu už nelze určit.

Rychlost potřebná k odchytu domén – Některé společnosti to nabízejí. Není problém si udělat svůj vlastní odchytávací skript a zkusit konkurovat. Osobně používám skriptík který na 99% předběhne člověka. Ale jak rychlí by musel být na registraci třeba expirované .com domény. Stačí pokud budete schopní poslat 250 pokusu o registraci za vteřinu. O nejcenější domény se tak vytvoří třeba 2000 požadavků za vteřinu.

Crawlers mines – Miny na roboty, kteří prochází stránky. Dokáží identifikovat falešného návštěvníka podstrčit mu minu, která jej zahltí nepodstatnými informacemi. Stalo se mi to jen jedenkrát. Potřeboval jsem pro jednoho člověka nasbírat pár dat z jednoho webu a do cesty se mi postavil jakýsi Anticrawl protector (už přesně nevím jak se to jmenovalo), ale pokusilo se to injectovat SQL dotaz. V té době jsem ale všechny data a logy ukládal do .txt souboru a pomocí dalšího skriptu třídil. Celkem mě to zaskočilo. Původně jsem myslel že majitel očekával “útok”.

Tarpit – občas když se provádí masivní scan a servr to postřehne dostanete se do dehtové jámi. Prostě servr odpovídá pomalu. Musíte čekat na odpoveď i několik vteřin. Což normálnímu člověku nevadí ale pokud děláte masivní scan v řádech desítek tisíc tak i vteřina už je dlouhá doba.

Jak bude reklama vypadat?

Kup si reklamu navždy pod tímto článkem jen za 100 Kč

Zobrazit formulář pro nákup