Nový nástroj pro cybersquatting.cz – Zpětné odkazy na doménu

Už delší dobu jsem chtěl udělat nástroj, který by monitoroval zpětné odkazy na českém internetu. Aby jsem nemusel skladovat stovky milionů stránek, rozhodl jsem se omezit nástroj pouze na odkazy  z hlavní stránky webu. Dále jsem se rozhodl vynechat domény třetího řádu, podobně jak to dělá alexa. Pokud něco odkazuje na subdoménu, je to bod pro doménu druhého řádu.

Po zhruba týdnu crawlování a řešení různých problémů jsem se dopracoval k 132482 .cz doménám. Z těch vede odkaz na celkem 190889 dalších domén. Což považuju za úspěch, protože jsem na začátek chtěl dosáhnout na 10% .cz domén.

Nástroj si můžete otestovat na cybersquatting.cz/zpetne-odkazy-na-domenu.php. Původně měl mít projekt vlastní doménu, ale nejsem zcela spokojený s výsledkem, takže jsem jej zařadil mezi ostatní nástroje na Cybersquatting.cz.

Několik zajímavých výsledků:

  • Facebook vs Twitter – 18345 vs 4882
  • Google.com vs Google.cz vs Seznam – 3846 – 1460 – 990

Tabulka nejsilnějších webů podle zpětných odkazů z hlavních stránek

Doména Odkazů
toplist.cz 29046
facebook.com 18345
twitter.com 4882
google.com 3846
youtube.com 3562
navrcholu.cz 3353
w3.org 3259
mapy.cz 2702
wordpress.org 2361
webnode.cz 2125
adobe.com 1969
blueboard.cz 1669
idnes.cz 1588
google.cz 1460
czin.eu 1363
netagent.cz 1104
pagerank.cz 1097
wz.cz 1087
estranky.cz 1083
eshop-rychle.cz 1072
co.uk 1 1034
wikipedia.org 998
seznam.cz 990
heureka.cz 968
joomla.org 952
ic.cz_ 2 901
ic.c 2 901
ic.cz 823
naakup.cz 647
banan.cz 633
  1. Přiznám se, že jsem při návrhu pozapomněl na domény jako .co.uk
  2. Lidi opravdu neumí psát správně URL. Ty šílenosti co se občas najdou jsou neuvěřitelné

Další fáze projektu momentálně probíhá. Už do něj budu započítávat i české stránky na gTLD. V současné době jsem na cca 205K procrawlovaných doménách z toho cca 30K není česky.

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup

Další články k tématu

8 komentářů

  1. tom11111 napsal:

    Ahoj, jak určuješ, že stránka je česky?

    (0)
    • admin napsal:

      tom11111: momentálně mám provizorní řešení. Stránka musí projít testem na kódování (win-1250, 8859), když neprojde zkouším ještě UTF-8, pokud je pozitivní tak v ní hledám české znaky. Dále .cz domény mají výjimku. Ty beru vždy jako české.

      (0)
  2. Unreal][ napsal:

    Jinak řečeno, tak odkazy jsou pouze z ceskych domen. Ja si rikal, ze mi to naslo jenom 160 odkazu :)

    (0)
  3. Pari napsal:

    Dobrá práce!

    (0)
  4. Zbyšek napsal:

    Moc zajímavý nápad, vím že crawlovat celé weby a zjišťovat i onesite odkazy bude mnohem náročnější, nicméně by bylo super kdyby do toho stádia tvůj bot dospěl (pak už máš jen krůček k vlastnímu searchy). Počet sitewide odkazů přece není ve white hat seo moc klíčový...

    Na Seznamu dobře umístěný web se SR70 (možná už jen 60) to našlo jen jeden odkaz a to z inu.cz...

    Předpokládám že to jsou jen porodní bolesti (sám píšeš že máš zatím jen část cz.netu), tak to neber jako stížnost, ale spíš jako feedback. Chystáš se vlastnímu botovi nějak dlouhodoběji věnovat? Moc se mi to líbí a rád bych aby se ti podařilo bota dlouhodobě rozvíjet. Držim palce...

    (0)
  5. Whispere napsal:

    Máš někde API? Zatím je to ve velmi rané fázi, ale ty to vychytáš.

    (0)
    • admin napsal:

      Pari: díky, snad to někomu pomůže
      Zbyšek: dělám to spíše ze zvědavosti. Nadchlo mě jak z 4K domén sem se postupně dopracoval přes odkazy až k 50K. Do podstránek se mi zatím moc nechce :)
      Whispere: API není, protože zatím není co zveřejňovat :)

      (0)
  6. Josef napsal:

    Pěkný nástroj. Díky.

    (0)