Už delší dobu jsem chtěl udělat nástroj, který by monitoroval zpětné odkazy na českém internetu. Aby jsem nemusel skladovat stovky milionů stránek, rozhodl jsem se omezit nástroj pouze na odkazy z hlavní stránky webu. Dále jsem se rozhodl vynechat domény třetího řádu, podobně jak to dělá alexa. Pokud něco odkazuje na subdoménu, je to bod pro doménu druhého řádu.
Po zhruba týdnu crawlování a řešení různých problémů jsem se dopracoval k 132482 .cz doménám. Z těch vede odkaz na celkem 190889 dalších domén. Což považuju za úspěch, protože jsem na začátek chtěl dosáhnout na 10% .cz domén.
Nástroj si můžete otestovat na cybersquatting.cz/zpetne-odkazy-na-domenu.php. Původně měl mít projekt vlastní doménu, ale nejsem zcela spokojený s výsledkem, takže jsem jej zařadil mezi ostatní nástroje na Cybersquatting.cz.
Několik zajímavých výsledků:
- Facebook vs Twitter – 18345 vs 4882
- Google.com vs Google.cz vs Seznam – 3846 – 1460 – 990
Tabulka nejsilnějších webů podle zpětných odkazů z hlavních stránek
| Doména | Odkazů |
|---|---|
| toplist.cz | 29046 |
| facebook.com | 18345 |
| twitter.com | 4882 |
| google.com | 3846 |
| youtube.com | 3562 |
| navrcholu.cz | 3353 |
| w3.org | 3259 |
| mapy.cz | 2702 |
| wordpress.org | 2361 |
| webnode.cz | 2125 |
| adobe.com | 1969 |
| blueboard.cz | 1669 |
| idnes.cz | 1588 |
| google.cz | 1460 |
| czin.eu | 1363 |
| netagent.cz | 1104 |
| pagerank.cz | 1097 |
| wz.cz | 1087 |
| estranky.cz | 1083 |
| eshop-rychle.cz | 1072 |
| co.uk 1 | 1034 |
| wikipedia.org | 998 |
| seznam.cz | 990 |
| heureka.cz | 968 |
| joomla.org | 952 |
| ic.cz_ 2 | 901 |
| ic.c 2 | 901 |
| ic.cz | 823 |
| naakup.cz | 647 |
| banan.cz | 633 |
- Přiznám se, že jsem při návrhu pozapomněl na domény jako .co.uk
- Lidi opravdu neumí psát správně URL. Ty šílenosti co se občas najdou jsou neuvěřitelné
Další fáze projektu momentálně probíhá. Už do něj budu započítávat i české stránky na gTLD. V současné době jsem na cca 205K procrawlovaných doménách z toho cca 30K není česky.
Ahoj, jak určuješ, že stránka je česky?
tom11111: momentálně mám provizorní řešení. Stránka musí projít testem na kódování (win-1250, 8859), když neprojde zkouším ještě UTF-8, pokud je pozitivní tak v ní hledám české znaky. Dále .cz domény mají výjimku. Ty beru vždy jako české.
Jinak řečeno, tak odkazy jsou pouze z ceskych domen. Ja si rikal, ze mi to naslo jenom 160 odkazu :)
Dobrá práce!
Moc zajímavý nápad, vím že crawlovat celé weby a zjišťovat i onesite odkazy bude mnohem náročnější, nicméně by bylo super kdyby do toho stádia tvůj bot dospěl (pak už máš jen krůček k vlastnímu searchy). Počet sitewide odkazů přece není ve white hat seo moc klíčový…
Na Seznamu dobře umístěný web se SR70 (možná už jen 60) to našlo jen jeden odkaz a to z inu.cz…
Předpokládám že to jsou jen porodní bolesti (sám píšeš že máš zatím jen část cz.netu), tak to neber jako stížnost, ale spíš jako feedback. Chystáš se vlastnímu botovi nějak dlouhodoběji věnovat? Moc se mi to líbí a rád bych aby se ti podařilo bota dlouhodobě rozvíjet. Držim palce…
Máš někde API? Zatím je to ve velmi rané fázi, ale ty to vychytáš.
Pari: díky, snad to někomu pomůže
Zbyšek: dělám to spíše ze zvědavosti. Nadchlo mě jak z 4K domén sem se postupně dopracoval přes odkazy až k 50K. Do podstránek se mi zatím moc nechce :)
Whispere: API není, protože zatím není co zveřejňovat :)
Pěkný nástroj. Díky.