Aktualizace W8

Jak jsem nedávno slíbil na cn130, při výpadku hostingu, tak i plním. Projekt W8, který je zařazen pod další projekty na cybersquatting.cz byl aktualizován. Nově si můžete zkontrolovat zpětné odkazy vedoucí na více jak 260 tisíc domén. Crawler i přepočet má ještě nějaké ty mouchy, ale už má dostatek dat, aby se dal orientačně použít.

W8 je postaven na autoritě domény, tedy že body za zpětné odkazy dostává pouze ona, nikoliv jednotlivé stránky. Asi největší nepořádek to dělá u subdomén a domén .co.uk apod. Byly procházeny jen titulní stránky webů. Uvažoval jsem i o podstránkách, ale na to je myslím ještě čas.

Aby jsem se dostal dál než posledně, musel jsem pustit robota W8:crawler i na jiné TLD než .cz. Že zabloudí na Slovensko mi nevadilo. S tím jsem počítal. Ostatně weby Česko-Slovenska jsou stále provázány. Problém mi začali dělat asijské weby. Nedokážu teď říci jak se mi tam robot zatoulal, ale pořádné jej to zpomalilo. Když crawlujete velké množství stránek jeden z problémů je rychlost. Nedělají vám problém přenesená data, ale odezva. A asijské weby jsou ohledně odezvy opravdu strašné. Čekáte i několik vteřin na odpověď. Kvůli nim jsem musel stáhnout limit na 6 vteřin. Původně byl 12 a problém to nedělalo, protože jen velmi málo serverů za tuto dobu neodpoví. Jenomže před robotem najednou byla výzva v podobě stovek pomalých webů.

Další problém bylo jak rozeznat český web od nečeského. Jen málo z nich používá <html dir=“ltr“ lang=“cs-CZ“>. Postupem času jsem se dopracoval k postupné selekci, kdy jsem testoval přítomnost jazyka, kódování a výskyt diakritiky. Jenomže různá kódování různé znaky. Tady má můj robot stále problém a čeká mě výzva v podobě jeho vylepšení.

Projekt W8 do budoucna plánuji vylepšit. Zjistil jsem, že se hodí i databáze českých domén, které jsem tímto způsobem získal. Napadlo mě například propojení s projektem doménový rejstřík. @DoménovýRobot by tak mohl získat další kousky na testování. Během crawlování mi hodně domén vrátilo chybu. Můžou být volné.

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup

Další články k tématu

9 komentářů

  1. Palio napsal:

    A čo tak pri crawlovani použiť vlákna? Potom by na odozve webu moc nezáležalo. V prípade pomalej odozvy by sa proste rozbehlo viac webov naraz.

    Btw počítadlo spätných odkazov mám v pláne na tento rok, ale aj vrátane podstránok ;)

    (0)
  2. Jay-Roh napsal:

    ad ta čeština: to už se nepoužívá ani ..?

    (0)
  3. Jay-Roh napsal:

    aha vypadlo todle: <meta http-equiv="Content-Language" content="cs">

    (0)
  4. Pari napsal:

    Zajímavý nástroj, to máš celé postavené na PHPčku?

    (0)
    • admin napsal:

      Pari: jj
      Jay-Roh: tak to nevím, mě dělají problém spíše zahraniční stránky nepostavené na žádném CMS.
      Palio: přeju hodně štěstí s vývojem. Není to zas tak těžké, jak se zdá. Jen to crawlování trvá :)

      (0)
  5. Pravda napsal:

    Nedávno jsem taky programoval robota na zálohování bloguje.cz… sic jen v PHP... spíš skript to byl než robot no.. Ty to programuješ v PHP nebo jinak?

    (0)
  6. Martin Kohout napsal:

    Hezké, každá tvorba, dobrá tvorba. Jen tak dále a hodně zdarů s odezvou.

    (0)
  7. Beach Boy napsal:

    Super zprava. Jak si uz naznacil tak ti to mozna prinese i nejaky ovoce v podobe informaci ci volnych domen. Tomuhle projektu opravdu fandim, drzim palce pri vyvoji...

    (0)
  8. petr napsal:

    No, s díky jsem vyzkoušel pro http://www.kosmetikamrtvemore.cz, ale našlo mi to jen 1 odkaz. Vím, že na tom nejsem úplně super ale tak tragické to snad zase není.

    (0)