Wikipedii crawlovat nemusíte, data jdou stáhnout

Nedávno jsem vidět diskuzi, kde se řešilo jak co nejefektivněji vycrawlovat data z wikipedie, protože tazatel na datech chtěl postavit vlastní “projekt”. Jak už nadpis napovídá, tohle není potřeba. Navíc takovéto chování značně zatěžuje servery.

Všechna data, která na Wikipedii jsou si můžete stáhnout na stránce dumps.wikimedia.org. Konkrétně česká verze je na dumps.wikimedia.org/cswiki/.

Osobně jsem takto velký objem dat ještě nikdy neimportoval do Mediawiki, takže vám s tím neporadím, ale na běžném sdíleném hostingu to může být problém.

Obsah je pod stejnou licencí jako na Wikipedii, takže nahodit texty a reklamu samozřejmě jde. . Jen když je budete rozšiřovat tak je může kdokoliv “okopírovat” a šířit pod stejnou licencí dále.

K čemu se data dají použít

Co si pamatuji tak největší poptávka byla vždy po roztřídění a pojmenování dat a následně uložení do MySQL. Třeba tak že vezmete tabulky ve stránkách s filmy a vytáhnete z nich data. Ty pak uložíte do SQL tabulek. Výsledkem je databáze na které můžete postavit podobný web jako CSFD. Resp. k tomu ještě potřebujte vytáhnout data s informacemi o hercích, režisérech, skladatelích, cenách atd.

Filmy to samozřejmě nekončí. Tento druh databází už je hodně zajímavý, protože se na nich dají stavět specializované weby na míru, rozšířit stávající anebo propojit s dalšími a vzniknou zcela unikátní projekty.


Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup