Aktualizace volnedomeny.xyz – kdo hostuje weby na sledovaných doménách

Poslední dva týdny po večerech, když je čas, postupně dělám na poslední velké aktualizaci mého posledního projektu volnedomeny.xyz. Abychom mohli sledovat jestli a jak se uchytí nTLD na českém internetu, bylo potřeba zjistit na kolika z nich jsou živé weby. To jsem vyřešil v minulé aktualizaci před dvěma týdny. Nicméně chyběla ještě jedna část a to zjisti, kde jsou weby hostovány. nTLD má v nabídce a aktivně propaguje několik hostingových společností, ale právě kolik webů na nTLD u nich vzniká by nám mohlo napovědět jak jsou úspěšní.

Jak jsem znovu-vynalezl kolo :)

Projekt volnedomeny.xyz je zajímavý, protože více času strávím přemýšlením jak to celé navrhnout a naprogramovat, než samotným programováním :)

Při návrhu databáze pro crawlera jsem s tímto počítal. Jeho úkolem je na aktivních webech (ty co vrátí stavový kód 200) zapsat do databáze i IPv4 adresu. IPv6 není třeba řešit. Jen zanedbatelné množství webů na celém Internetu používá výhradně IPv6 a na IPv4 neodpovídá.

A teď vám povím jak jsem znovu-vynalezlo kolo :)

Sehnal jsem si databázi ISP podle ASN a rozsahy IPv4, které používají. Jenomže s tímto jsem nikdy v databázi nepracoval. Vrtalo mi hlavou jak to vymyslet. Jak si do řádku z tabulky procrawlovaných webů, kde je IPv4 sáhnout do tabulky ISP a podle rozsahu zjistit kam IPv4 patří. Pracoval jsem s řetězci a to nebylo zrovna ideální.

V autobuse mě napadlo, že by nejlepším řešením bylo převést IPv4 adresy na nějaké čísla. Intenzivně jsem nad tím dumal a najednou mi začal ten nápad dávat smysl. A.B.C.D. Každé písmeno může mít od 0 do 255. D tedy končí na 255 a C začíná na 256. Od toho byl jen krůček k vzorci:

A * 16777216 + B * 65536 + C * 256 + D

Když si takto přepočtu rozsahy od do, tak nebude problém mezi nimi dohledat IP adresu, kterou si také převedu na číslo.

Jak už asi tušíte, doma jsem zjistil, že jsem vynalezl kolo, protože IPv4 adresy ve skutečnosti jsou čísla. Dokonce když zadáte http://2130706433 tak se dostanete na localhost a http://3232235521 vás pravděpodobně přesměruje na váš router.

Ale je fajn si na to přijít sám :)

Samozřejmě jakmile jsem pochopil, že jsem neobjevil nic nového, tak mi bylo jasné, že tyto přepočty budou mít jistě oporu i v PHP a SQL. Nakonec jsem si vystačil jen se SQL funkcemi INET_ATON()INET_NTOA().

Konečně si můžu vyzkoušet TreeMap

Znáte takové ty burzovní grafy, kde je vidět jak si vedou jednotlivé sektory a přitom vizuálně vidíte i jejich velikost? To se nazývá TreeMap a patří mezi grafy, které mě nejvíce fascinují. Už dlouho jsem je chtěl vyzkoušet a právě pro účel kolik toho kdo hostuje se perfektně hodí. Jeho aktuální a interaktivní verzi najdete na stránce Statistiky ISP.

Tento graf toho ukazuje opravdu hodně. Je postaven na vzorku 5487 slovech (řětezcích) a 13 TLD k nim. Pokud vyfiltrujeme jen ISP z ČR, tak vidíme kolik toho kdo u nás vlastně hostuje a jaký je poměr jednotlivých TLD.

Samozřejmě detailnější by to bylo, pokud bych znal rozsahy jednotlivých hostingů a nejen registrovaných ISP.

V každém případě tento graf ukazuje, že ty velké slevové akce, které Wedos pořádal a dokonce i rozdávání domén .fun zdarma vedli ke vzniku existujících webů. Na druhou stranu od roku 2021 má v akci i .art a ta zatím neprorazila.

Celkem překvapením je, že u českých ISP je více živých webů na .online než .com. Tohle však může být ovlivněné tím, že slovníková slova jsou prostře rozebraná, zaparkovaná anebo přesměrovaná. Pokud si tento graf dáte pro všechny ISP, tak .com je druhá, ale většina živých webů je právě u zahraničních ISP.

S daty ISP budu do budoucna ještě více pracovat.

Další novinky

Vylepšil jsem profil slov. Nově tam najdete i kdo hostuje živé weby.

Opravil jsem pár bugů a chybných výpočtů. Celý systém je navržený celkem přehledně, ovšem v některých částech jsem měl výjimky a ty dělaly problémy.

Provedl jsem menší vizuální úpravy pro lepší čitelnost.

Závěr

Z programování už mám většinu hotovo. Dokončil jsem automatizace a projekt si může žít svým životem bez mého zásahu. Chtěl bych ale přidat ještě nějaké slovníky.  Pokud by vás něco napadlo tak dejte vědět.

Přemýšlím jestli si nenapsat vlastní řešení pro automatické publikování na Twitter. Zatím jsem vše řešil přes službu IFTTT, která však má řadu omezení.


Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup