Harvestování dat je nuda

Už ani nevím kolikátý den to vlastně můj komp jede v kuse a shání surová data pro nadcházející projekty. Na kontrolce mi hlásí Session 110900 což odpovídá zhruba 55% pokroku. Bouhžel dneska v sedm ráno nám vypnou poud takže budu muset kompa na noc vypnout. Konečně si alespoň odpočine. Zatím jakýkoliv pokus o urychlení scanu měl negativní dopad, takže jedu standatně přes 3 proxy servry. Pokud někdo plánujete, že budete nějakým způsobem shromaždovat slovní spojení tak vás od toho musím odradit – je to vážně nuda. Takže co si od toho ultra zdlouhavého projektu vlastně slibuju? Jakmile budou data stažena (počítám tak 70MB MySQL) začnu jejich analýzu. Pomocí několika algoritmů je postupně vytřídím na ty použitelné a zbytečné. Vyberu z … Pokračování textu Harvestování dat je nuda