dseznam10 dokončen

Po mnoha útrapách, chybách v propočtech a 2x opravované databázy se mi konečně podařilo dokončit dseznam10. Sice se spožděním asi 12 dnů, ale je tady. Co vám tedy nová verze přináší.

Pomocí slovníků z domainwalkera a náhodněho generátoru se mi podařilo získat z několika zdrojů celkem 821,714 slovních spojení, které lidé používají při hledání na interentu. Nakonec se ukázalo, že přes 90% se kryje s našeptávačem seznamu.Takže z tohoto neuvěřitelného množství slovních spojení jsem pomocí nástrojů google vybral 63,291 výsledků do nového dseznamu. V seznamu najdete 24,618 výsledků s rozšířenou shodou a 7,275 s přesnou shodou. Ostatní výsledky jsou fráze, které mají více jak 35000 google výsledků pokud je dáte do úvozovek na google.cz.

Celkové statistiky:

Položek: 63291

Položek s přesnou shodou: 7275

Položek s rozšířenou shodou: 24618

Položek s google hits: cca 63000

O shánění dat i metodice jsem toho tady napsal už hodně.

http://404m.com/2008/10/14/z-dragovi-kuchyne/

http://404m.com/2008/10/17/harvestovani-dat-je-nuda/

http://404m.com/2008/10/19/shromazdovani-dat-bylo-dokonceno/

http://404m.com/2008/10/23/zverejneni-seznamu-se-protahne/

Teď máte šanci si tento seznam koupit na webtrh.cz

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Nechceš zde reklamu napořád jen za 121 Kč?
Zobrazit formulář pro nákup

5 komentářů

  1. 505n napsal:

    Teda Hujere, co ta hrubka? To jsou chyby...

    (0)
  2. networ napsal:

    super:)

    prave dokoncuji taky svuj scan, pac jsem nemohl tveho dockat ;) dseznam9 uz neni moc aktualni...

    (0)
  3. Online hry zdarma napsal:

    Super

    (0)
  4. Dr. House napsal:

    Zajímalo by mne kolik lidí si to už koupilo?

    (0)
  5. hypebeast napsal:

    Diky, diky, minulej seznam jsem nestihl, dal sem si te do RSS a desitkou jsem prave zaplatil :) Delas vybornou praci ;-)

    (0)