Staré projekty II. – Projekt Slum

Celkem jsem udělal dvě obsahové farmy. Jedna z nich dodnes funguje (cca 7 tisíc stránek) a vydělává nějaké drobné. Ta druhá byla užitečná (databáze technické dokumentace aut, která nikde v češtině není), ale špatně navržená (přes 27 tisíc html souborů) a musel jsem jí při stěhování na nový webhosting zrušit (adresář se soubory jsem ani nemohl otevřít).

Projekt Slum byl experiment, který měl za úkol vytvořit imaginární sociální síť s tisíci profily, které si budou navzájem povídat a vytvoří stovky tisíc indexovatelných stránek. Ačkoliv by jsem dokázal něco takového naprogramovat neměl jsem tehdy ještě dostatečné technické know how. Dnes už by jsem začal úplně jinak. Ovšem to nebyl zas takový problém. Otázkou bylo kde vzít tunu nekvalitního textu pro povídání si?

Poměrně dlouhou dobu jsem nic rozumného nemohl vymyslet. Náhodné generování textu nepřipadalo v úvahu. Překlad už existujícího by byl velmi brzo odhalen. Nakonec jsem se zaměřil na už existující sociální sítě. Zjišťoval jsem jak je to s indexací jednotlivých stránek a skupin. Původně jsem chtěl použít text pouze z těch uzavřených. Ovšem všiml jsem si, že Google to zrovna s procházením Facebooku moc nepřehání a Seznam v té době o Facebook ani nezavadil.

Zkusil jsem manuální vytváření textů z útržků komentářů. Bohužel se ukázalo, že to moc nefunguje. Na Facebooku totiž psal každý jak se mu zlíbilo. Jednotlivé věty se nedaly vůbec kombinovat. Navíc pravopis, to byla hrůza i na mě :) Přeci jen Google toleruje překlepy a hrubky jen do určité míry.

Projekt Slum jsem tak odkládal a občas oživil, vždy když mě něco napadlo. Tedy dokud nepřešel aktualne.cz na facebookové komentáře. Dodnes je pro mě záhadou, kolik textu lidé dokáží v rámci politických témat vytvořit. Navíc jsou poměrně kompatibilní. Dají se propojovat, vkládat do sebe a ve výsledku je to i použitelné.

Manuální experimentování ale ukázalo zajímavou věc. Ačkoliv diskuze na aktualne.cz Google indexoval s celkem velkým zpožděním, tak vždy jim dal přednost před těmi „mými“. Prostě jsem je nakopíroval, vytvořil článek, nacpal Google do chřtánu, ale nedošlo na indexaci. Po pár dnech se ale objevily v indexu z aktuálně. Bylo to podivné a tak jsem toho nechal. Vypadalo to, že Googlebot čeká s indexací. U Seznamu jsem měl problém s indexací takovýchto textů obecně. Přišlo mi, že je nějak dokáže selektovat a úspěšně ignorovat.

No prostě jeden fail za druhým u projektu Slum. Tedy až na jednu věc. Je to taková prkotina, která je známá už roky a používá se na automatické spamování komentářů blogů. Najdete uzavřenou FB skupinu, kde se diskutuje k nějakému tématu, na který potřebujete dělat komentářový spam. Zkopírujete si příspěvky. Vyselektujete ty nejdelší a máte texty pro komentování. Z automatickým software je pak nalezení tématických příspěvků a vkládání otázkou minut. Spíše desítek, ale jede to automaticky, jen občas musíte ručně vyplnit captcha kód.

Závěr

Obsahové farmy jsou zajímavý počin. Dají se vytvořit za odpoledne. Uděláte si robota co nacrawluje někde nějakou databázi. Pak vytvoříte českou variantu té databáze. Pak už jen necháte vyhledávače pracovat. Popravdě ty obsahové farmy jsou často i užitečné. Dokonce jsem u nich zaznamenal i přirozený linkbuilding.

Ovšem projekt Slum by užitečný rozhodně nebyl :)

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Nechceš zde reklamu napořád jen za 121 Kč?
Zobrazit formulář pro nákup

4 komentáře

  1. Pavel napsal:

    ano to je přesně ten důvod proč sleduji, kolik si jaká IP stáhne stránek za určitý čas a přichází blacklist :)

    (0)
    • admin napsal:

      Pavel: tak to rozhodně není na škodu už jen kvůli nějakým brute force útokům a spam robotům, kteří lámou captcha s účinností v řádu procent.

      (0)
  2. Norb napsal:

    v dnešnej dobe po internete behá až príliš veľa rôznych robotov a automatických programov. Treba si dávať veľký pozor.

    (0)
  3. Martin napsal:

    Přesně jak říká Norb. Google je poslední dobou až příliš "chytrý" a penalizuje za hodně blbostí, a proto je třeba si dávat velký pozor. Je blbost strávit x hodin tvoření projektu, který ti Google zabanuje.

    (0)