Jak se zbavit referrer spam v Google Analytics

Dneska jsem na Twitter zahlédl od Zdeňka Dvořáka tip na seznam odkazujících domén, které se využívají pro takzvaný referrer spam (ano už jsme jej přidal na Seopedie 😎). Vzhledem k tomu, že nedávno jsme na Webdeal probírali referrer spam v Google Analytics, napadlo mě udělat takový krátký návod jak s využitím seznamu od Zdeňka se referrer spam zbavit.

Google Analytics na to má speciální formulář Vyloučení této domény z odkazované návštěvnosti, kam můžete jednotlivé domény přidávat. Dostanete se k němu přes Správce – Údaje o měření.

jak-se-zbavit-referrer-spam-01

Do formuláře je bohužel musíte přidávat po jedné. Což je vzhledem k jejich narůstajícímu počtu celkem zdlouhavá záležitost. Ideální by bylo je tam prostě všechny naházet naráz přes CTRL+C a CTRL+V.

jak-se-zbavit-referrer-spam-02

Návštěvnost z těchto domén se nebude odteď nijak započítávat. Měla by zmizet kompletně. Kdykoliv můžete doménu zase odstranit.

jak-se-zbavit-referrer-spam-03

Kompletní list referrer spam najdete zde.

Google si problém s referrer spam uvědomuje. Minulý rok na něj přes jeho sociální síť Google plus uživatelé tlačili ať s tím něco udělá. Objevila se totiž nová metoda, která cílí přímo na měřící kódy GA, takže blokování dotazů přes .htaccess nefungovalo. Tehdy slíbil, že se na tom pracuje a prozatím si máme zapnout zrušení sledování robotů. Právě přes tuto funkci se to do budoucna “mělo řešit”. Nějaký větší pokrok jsem však nezaznamenal.

zakaz-referer-spam-darodar

 

 


Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup

26 Replies to “Jak se zbavit referrer spam v Google Analytics”

  1. Bohužel nikoliv, tímto způsobem se návštěvnost započítá, jen nebude jako referral, ale jako (direct) / (none). Pro úplné vyloučení lze použít jeden ze tří způsobů:
    1) Filtr v google analytics podle domény
    2) Vlastní segment, který vyloučí návštěvy z těchto domén podle zdroje
    3) Rozšířený filtr, který vyloučí návštěvy opět podle zdroje.

    Můj nejoblíbenější způsob je č. 2. Výhodou je, že lze vylučovat i regexem, tedy při správném seřazení lze zahrnout více domén najednou pomocí svislítka ( | ).

  2. Skutečně se návštěvnost blokovaná přes “Vyloučení této domény z odkazované návštěvnosti” nijak nezapočítá? Někdo tvrdí, že se pouze přeleje do directu (viz třeba http://www.blackbeltrobots.com/blog/fight-referral-spam-google-analytics/), v diskusích jsem našel i zmínku, že na Semalt to nefunguje. Sám používám klasické filtry, které jsou bohužel omezené na nějakých 255 znaků. Když se poskládají všechny spam domény do regulárního výrazu, celkem to dá asi 5 filtrů a to ještě jde (viz http://lonegoatuk.tumblr.com/post/107307494431/google-analytics-referral-spambot-list). Každopádně dokud to nebude GA filtrovat automaticky (i zpětně), pořád se jedná o dost neefektivní a nesystémové řešení.

      1. To je sice pravda, ale vztahuje se to na případ, kdy už na daném serveru je návštěva spuštěna. Pokud z takového zdroje přijde návštěva, která ještě novou session/návštěvu ptevřenou nemám spustí se, ale započítá se jako direct / none.

    1. Tip: Ve vlastních segmentech a rozšířených filtrech (přímo v daném přehledu) se regex štěpit nemusí, systém vezme i dlouhé seznamy domén :)

  3. Díky za nový postup. Je opravdu blbé, že se musí každá adresa přidávat zvlášť. Také je dost na nic, že se o to musí starat sami uživatelé. Přidal jsem si tedy všechny URL do výjimek, ale asi to nefunguje zpětně. Minimálně v kampaních se mi tenhle SPAM objevuje.

  4. Ja som to riešil na strane servera. V configu nginx som ich zakázal. Ale je nie je to nič platné, lebo časom sa objavia nové a treba súbor stále aktualizovať. Najlepšie riešenie bude keď to Google zakáže, ale nejak mu to dlho trvá.

  5. tiez mi pride ze to nefunguje spatne. a zakazat ich v nginx configu resp. .htaccess je k nicomu, pretoze na generovanie spamovej referral navstevnosti sa vacsinou pouziva len tvoj kod, bez skutocnej navstevy stranky.

    1. Jasné, že stačí zobrať GA kód a použiť ho. Ale nie je to tak, že robot kód najskôr musí nájsť? Problémovým stránkam som nastavil 403, ale zas na druhej strane som nezistil ako ku GA kódu prichádzajú.

      1. Martin: kód máš veřejně na stránkách, robot co ho bude hledat může měnit IP adresu. Anebo to vezme brute force :) GA je jen číslo. Takže robot začne pálit všechno od UA-0000001 až po UA-9999999 :)

      2. Uz z toho ze to tam mame v analytics vsetci sa da tusit, ze kody pravdepodobne generuju (je otazne ci ich Analytics vydava inkrementalne, ak ano, potom je to velmi jednoduche).

  6. a to jsou v googlu tak neschopni zamestnat jednoho brigadnika kterej by nahlasene referer SPAM stranky jednoduse proveril a v pripad opravnene zadosti okamzite zakazal pro vsechny? ja vim jsou dokud jim na to nekdo nenaprogramuje robota tak neudelaji NIC… :(

    1. Kdyby Google měl na každou věc co ho pálí najímat brigádníka, tak zaměstná všechny studenty světa ;)

  7. Udělal jsem jednoduchý generátor filtrů do GA: http://tools.lynt.cz/spammers.php

    Určitě také doporučuji si nastavit jako první filtr propuštění jen návštěvnosti na vaši vlastní doménu/domény (hostname, jméno hostitele). Ti kdo UA kódy generují netuší, jaká je vaše doména, tak je v tomto poli často hloupost nebo nic.

  8. S directem je opravdu problém, pokud je útočník dostatečně chytrý tak ho nezastavíš, jen můžeš reagovat. Zvláště, pokud se umí dostatečně schovat za principy GA jako je nikdy neukázat IP adresu atd. Na firmě jsme to hodl řešili přes awstats a tvorbu blacklistu ip na firewallu co šel k server farmě.

  9. Zabrániť spamu cez Google analytics je len kozmetické riešenie. Ak máte prístup k svojmu .htaccess súboru tak môžete vykonať nasledujúci zápis:

    RewriteCond %{HTTP_REFERER} (priceg) [NC,OR]
    RewriteCond %{HTTP_REFERER} (darodar) [NC,OR]
    RewriteCond %{HTTP_REFERER} (hulfingtonpost) [NC,OR]
    RewriteCond %{HTTP_REFERER} (ilovevitaly) [NC,OR]
    RewriteCond %{HTTP_REFERER} (buy-cheap-online) [NC,OR]
    RewriteCond %{HTTP_REFERER} (free-share-buttons) [NC,OR]
    RewriteCond %{HTTP_REFERER} (4webmasters) [NC,OR]
    RewriteCond %{HTTP_REFERER} (theguardlan) [NC,OR]
    RewriteCond %{HTTP_REFERER} (buttons-for-website) [NC,OR]
    RewriteCond %{HTTP_REFERER} (see-your-website-here) [NC,OR]
    RewriteCond %{HTTP_REFERER} (googlsucks) [NC,OR]
    RewriteCond %{HTTP_REFERER} (guardlink) [NC,OR]
    RewriteCond %{HTTP_REFERER} (Get-Free-Traffic-Now) [NC,OR]
    RewriteCond %{HTTP_REFERER} (event-tracking) [NC,OR]
    RewriteCond %{HTTP_REFERER} (free-share-buttons) [NC,OR]
    RewriteCond %{HTTP_REFERER} (simple-share-buttons) [NC]
    RewriteCond %{HTTP_REFERER} (aliexpress) [NC,OR]
    RewriteCond %{HTTP_REFERER} (bestwebsitesawards) [NC,OR]
    RewriteCond %{HTTP_REFERER} (erot) [NC,OR]
    RewriteCond %{HTTP_REFERER} (howtostopreferralspam) [NC,OR]
    RewriteCond %{HTTP_REFERER} (humanorightswatch) [NC,OR]
    RewriteCond %{HTTP_REFERER} (o-o-6-o-o) [NC,OR]
    RewriteCond %{HTTP_REFERER} (sanjosestartups) [NC,OR]
    RewriteCond %{HTTP_REFERER} (semalt) [NC,OR]
    RewriteCond %{HTTP_REFERER} (sexyteens) [NC,OR]
    RewriteCond %{HTTP_REFERER} (smailik) [NC,OR]
    RewriteCond %{HTTP_REFERER} (social-buttons) [NC,OR]
    RewriteRule .* – [F]
    je možnosť aj inakšie, takto po prečítaní log súborov:

    SetEnvIF X-Forwarded-For “IP.NUM.00.000” DenyIP
    SetEnvIF X-Forwarded-For “IP.NUM.00.00” DenyIP
    Deny from env=DenyIP

    Bodky v IP adrese netreba oeskapovať. Zabránite tak aj fyzicky vstup na doménu.

  10. Pavol Knut Navrátil, to ti moc nepomůže proto spam bot nenavštěvuje často ani stránky, ale využívá measurement protocol a posílá pageviews a eventy bez toho aby byl na tvém webu přímo do GA, proto pomůže jen filtrace v GA.

  11. Nemůžu se zbavit tohoto spamu с.новым.годом.рф Do filtrů jsem ho zadal, ale v návštěvnosti se stále objevuje.

Comments are closed.