Nástrahy čekající na botíky

Kvůli vylepšování mého scanovacícho skriptu na monitorování domén jsem se dostal k zajímavím informacím. Neustálý souboj s antiroboty vyžaduje nějaké to nasazení a hlavně se držet co možná na nejnižší úrovně jaká vůbec lze pro průzkum internetu použít. A upřimně celá ta síť je pěkně zamotaná. Při hledání potřebných informací jsem se dostal k pár zajímavostem.

Čené díry na internetu – už od počátku internetu se občas ztratí nějaký ten paket. Ale věděli jste, že to nemusí být tím že servr neodpovídá? Prostě může být něco mezi vámi a cílovím servrem. Četl jsem spoustu teorií a příčin. Některé jsou SCIFI, jiné zase doslova fantasy. Existuje dokonce i ústav na monitorování Internetových černých děr. Více info…

Deep web – část internetu neviditelná pro vyhledávače. Většinou chráněná přístupovím formulářem, ajax skriptem, flash nebo javou. I obyčejný formulář se může stát nepředstavitelnou překážkou pro crawlera. Google nedávno oznámil, že se jejich robot pokusí náhodně zadávat data a proniknout tak do Deep webu. Podle současných odhadhů je možné indexovat pouze 16% celého internetu.

Velikost internetu – v roce 2001 obsahoval internet 550 miliard dokumentů. Další studije jsou spíše odhady. Pro jejich základ většinou sloužili vyhledávače, ty se ale nedkáží dostat na Deep web, popřípadě Darknet (privátní sítě). Oficialně v roce 2005 uvedlo několik vědců, že vělikost internetu už nelze určit.

Rychlost potřebná k odchytu domén – Některé společnosti to nabízejí. Není problém si udělat svůj vlastní odchytávací skript a zkusit konkurovat. Osobně používám skriptík který na 99% předběhne člověka. Ale jak rychlí by musel být na registraci třeba expirované .com domény. Stačí pokud budete schopní poslat 250 pokusu o registraci za vteřinu. O nejcenější domény se tak vytvoří třeba 2000 požadavků za vteřinu.

Crawlers mines – Miny na roboty, kteří prochází stránky. Dokáží identifikovat falešného návštěvníka podstrčit mu minu, která jej zahltí nepodstatnými informacemi. Stalo se mi to jen jedenkrát. Potřeboval jsem pro jednoho člověka nasbírat pár dat z jednoho webu a do cesty se mi postavil jakýsi Anticrawl protector (už přesně nevím jak se to jmenovalo), ale pokusilo se to injectovat SQL dotaz. V té době jsem ale všechny data a logy ukládal do .txt souboru a pomocí dalšího skriptu třídil. Celkem mě to zaskočilo. Původně jsem myslel že majitel očekával „útok“.

Tarpit – občas když se provádí masivní scan a servr to postřehne dostanete se do dehtové jámi. Prostě servr odpovídá pomalu. Musíte čekat na odpoveď i několik vteřin. Což normálnímu člověku nevadí ale pokud děláte masivní scan v řádech desítek tisíc tak i vteřina už je dlouhá doba.

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup

Další články k tématu

  • Konečně je čas jít spát5.1.2010 Konečně je čas jít spát Tak dnešek se vůbec nezdál. Měl jsem v plánu jen navštívit FÚ, kde na mě čekalo potvrzení o […]
  • Cesta domény u domainera12.4.2008 Cesta domény u domainera Už dělám domaining přes půl roku (sice aktivně až od ledna) a tak si postupně začínám vytvářet […]
  • Online biz27.5.2009 Online biz Online biz je něco naprosto skvělého. V podstatě čím víc děláte tím víc vyděláváte. Vše se navíc […]
  • Alexa rank8.12.2009 Alexa rank Poslední dobou se trochu více mluví o alexa ranku. Možná za to může Ahydův poslední článek nebo […]
  • 22.4.2017 Unášejí se nejen lidé ale i domény 16. dubna byla ukradena doména 411Mania.com. Prostě k ní zloděj získal přístup a převedl si jí k […]
  • CyberSquatting.cz má nový design 2.15.9.2009 CyberSquatting.cz má nový design 2. Ok tak první pokus se vůbec nepovedl. Uznávám i můj oblíbený design založený na čtverečkách jsem […]