Z Dragovi kuchyně

Nebojte se toto nebude instruktáž, kde vám představím své kuchařské umění. Teda spíše anarchii. Vařím ještě hůř než píšu diktáty. Nějak totiž nevím o čem by jsem psal, protože většinu energie teď věnuju vytvářením nových Dragovích seznamů. Nějak jsem to ale tentokrát přepískl a rozhodl se, že nashromáždím opravdu masivní seznam. Pod heslem čím větší tím lepší jsem se pustil do shánění základní suroviny a tou jsou surové data, kterými nakrmím vyhledávače. Jelikož poslední skript který podstrkoval našeptávači seznamu pouze kombinací písmen dosáhl výsledku pouhých cca 17 tisíc slovních spojení, rozhodl jsem se být tentokrát trochu radikálnější. Vytáhl jsem svůj domain slovník, složených ze 3 výkladových slovníků a různých generátorů algoritmů. Tedy necelých 200K slov a propijit to s generátorem. Ten čítá nějakých 36 písmen a písmených kombinací. Když jsem to seskládal dohromady a pustil tak mě napadlo, že by jsem si vlastně mohl alespoň zkusit kolik potenciálních kombinací to může vygenerovat. Jelikož počítám, že většian skončí jako nepoužitelná data, tak jsem se tím ani nějak nezabívál. Včera když jsem byl posedět s kamarády mě ale napadlo, že i přes obrovské ztráty t oasi bude opravdu hodně. Mávnul jsem nad tím rukou s tím že 7,2M potenciálních kombinací stejně při velkých ztrátách skončí na maximálně na 100K funkčních. Když jsem se vrátil domů a dokončil skript, aby mohl jet 24 hodin v kuse (byly 4 ráno), tak jsem si říkal uvidíme ráno. No už jede skoro 19 hodin a zatím v surových datech jsem na cca 180K a mám za sebou jen 15% scanu rozsahu. Trochu uvažuju, že možná by jsem měl nějak zvýšit výkon. Což o to google poskytuje data poměrně v pohodě. V porovnání třeba se seznamem je možné z jeho servrů harvestovat až 30x rychleji. Jenomže jak neumí moc dobře česky tak není tak efektivní jako například seznam. Což o to dalo by se to zjednodušit. Pomocí algoritmu anulovat některé kombinace, ale to už pak nebylo z čeho vycházet. Nedostával by jsem tak skvělé výsledky z kterých pak budu moct vytvořit statistiky.

Hmm zase jsem se rozepsal, respektive prepisuju svoje myšlenkové pochody. Ačkoliv je hotových jen 15% scanu můžu pro zábavu zkusit co zatím mám. Jsou to jen surová nesetříděná data, ale můžeme třeba zkusit zadat do databe nějaké zajímavé slovo ze začátku abecedy. Třeba zkusíme blbec (už tu nemám google adsense takže zkusíme co nám internet nabídne).

id slovo
41335 aktivita den blbec
87483 blbec k večeři
87486 blbec
88233 blbecek
88234 blbec na krku
88237 blbec.cz
88238 blbec jménem zákona
88239 blbec k veceri
88240 blbec k večeři divadlo
88267 blb a blbec
88282 blbec k večeři recenze
88283 blbec k večeři vydra
155359 divadelní hra blbec k večeři

Samozřejmě jsouto suchá data, na to aby získala nějakou hodnotu je teptve musím opatřit nějakým číslem, které by je ohodnotilo. Díky těmto hodnotám pak budu moct zjistit, nebo spíše objevit klíče k lepší seo optimalizaci, anebo najít nové domény. Základem k tomu je ale nahromadit surové data. Mimochodem za těch 19 hodin IMON (modul NOD32, který kontroluje internetový porvoz) otestoval 1,1M stránek.

Btw když jsem teď procházel ty slova ohledně blblce díky překlepu jsem našel jiné zajímavé slovo. Takže kdo z vás optimalizuje pro softcore možná se mu to bude líbit. Mě teda lidská představivost opravdu dostala a to jsem teprve na 15% scanu.

id slovo
85394 bílé bradavky
92362 bolavé bradavky
92582 bolest bradavky
92710 bolestivé bradavky
95856 bradavky
96049 bradavky ewy farne
96050 bradavky tmave
96051 bradavky slavných
96052 bradavky fotky
96053 bradavky holek
96054 bradavky kojení
96055 bradavky.cz
96056 bradavky vakuum
96057 bradavky venku
96058 bradavky videa
96059 bradavky video
96060 bradavky v těhotenství
96061 bradavky bartošové
96062 bradavky na veřejnosti
124513 citlivé bradavky
158272 dlouhé bradavky
158460 dlouhý bradavky
175227 dvorec bradavky
196112 extrémní bradavky

Až proscanuju zajímavějí písmena určitě na blog ještě něco hodím :)

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Nechceš zde reklamu napořád jen za 121 Kč?
Zobrazit formulář pro nákup

Další články k tématu

1 Response

  1. networ napsal:

    muzu se optat z kama beres data? naseptavac pro google? nebo google trends pro ceskou republiku ?

    (0)