Harvestování dat je nuda

Už ani nevím kolikátý den to vlastně můj komp jede v kuse a shání surová data pro nadcházející projekty. Na kontrolce mi hlásí Session 110900 což odpovídá zhruba 55% pokroku. Bouhžel dneska v sedm ráno nám vypnou poud takže budu muset kompa na noc vypnout. Konečně si alespoň odpočine. Zatím jakýkoliv pokus o urychlení scanu měl negativní dopad, takže jedu standatně přes 3 proxy servry. Pokud někdo plánujete, že budete nějakým způsobem shromaždovat slovní spojení tak vás od toho musím odradit – je to vážně nuda. Takže co si od toho ultra zdlouhavého projektu vlastně slibuju? Jakmile budou data stažena (počítám tak 70MB MySQL) začnu jejich analýzu. Pomocí několika algoritmů je postupně vytřídím na ty použitelné a zbytečné. Vyberu z toho tak 20K záznamů (z 1M) a z nich pak vytvořím dseznam10, což bude nástupcem dseznam09. Snad tentokrát uspokojim naprosto všechny. Další možný projekt, který se z těchto dat dá vytvořit je oblíbená slovní spojení. Zadáte slovo a v databázy se najdou všechna spojení s tímto slovem. Mohlo by to slušně pomoct webmástrům pro optimalizaci webu. Pokud by někdo udělal nějakou detailnější statistiku hledanosti pro každé slovo mohlo by z toho vzniknout něco jako legendární overture nástroj, který se poměrně úspěšně používal pro určení jestli může mít doména nějaky type in traffik. Bouhžel už na tento nástroj nemám odkaz, poslední reinstall ho vzal sebou do binárního nebe. Pokud někdo máte tak můžete hodit do diskuze pod příspěvkem. Možnosti surovích dat, ale nekončí. Pokud by se slovní spojení vytřídila mohl by v klidu vzniknout nástroj jako je můj DomainWalker, dokonce daleko efektivnější protože by měl i používané více slovné spojení a ne jen obyčejná slova ze tří slovníků. Ovšem neumím si předtsavit na to ještě kontrolovat volnost domény. Trvalo by to dny a bez nějakého algoritmu, který by určit která může mít hodnotu by to bylo nekonečné pak procházet ty seznami. No možností co s harvestovanými daty pak udělat je spousta, zatím chci hlavně udělat další dseznam. Další možnosti se uvidí.

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup

Další články k tématu

4 komentáře

  1. sh napsal:

    Drago, můžeš mi úpřímně vysvětlit proč to pak prodáváš po stovce ? Sláva, charita nebo vlastní blbost ? Nechci tě urážet, ale na těch datech se nechají svépomocí vydělat řádově jiné částky než abys je takhle rozdával prakticky zadarmo.

    Ale co už...jinak nudu si z toho děláš sám, že to píšeš v phpku(myslim) což je ač se ti to možná nezdá sakra omezující :P

    (0)
  2. admin napsal:

    Já to klidně vysvětlím. Je to vlastní blbost, mě je líto chtít za něco s čím "nemám zad tolik práce" velké částky. Kdyby jsem nebyl blbej už sem bohatej to mi říká přítelkyně pořád. Asi před půl rokem jsem chytnul smazanou expirovanou domenu jedne velké firmy, kteří vlivem komunikačního šumu jí nechali propadnout. Pak mi volali že jsem nový zprávce jejich domény a nejdou jim emaily. Mě je bylo líto tak jsem jim tu doménu prodla zpět za 500Kč :)

    Kámoš mi říká, že pokud ze mě nebude pořádný tvrďák tak budu chudej jak kostelní myš.

    PHPko je na to dost pomalé, ale musím stejně často běh skriptu spomalovat. Co by jsi doporučil?

    (0)
  3. haaja napsal:

    Nějak jsem přesně nepochopil o co se snažíš, každopádně pokud by jsi chtěl pomoci nějak (ať už využít pár procesorů na mých serverech nebo konektivitu na stahovaní) Dej mi vědět. Možná že by se pak dal i optimalizovat daný script, ale to podle toho co dělá. Na to zpracovávání dat myslím že perl by byla lepší varianta. :)

    Haaja

    (0)
  4. Vembl napsal:

    Drago zůstaň takový jaký jsi. Tvrďákem umí být každý, ale podnikatelem s lidskou tváří je málokdo. Moje manželka mi také říká, že nikdy nebudeme bohatí, ale mě to ani nevadí. Na chleba máme bez problémů a v životě jsou i důležitější věci než jen peníze:)

    (0)