Dneska jsem na Twitter zahlédl od Zdeňka Dvořáka tip na seznam odkazujících domén, které se využívají pro takzvaný referrer spam (ano už jsme jej přidal na Seopedie 😎). Vzhledem k tomu, že nedávno jsme na Webdeal probírali referrer spam v Google Analytics, napadlo mě udělat takový krátký návod jak s využitím seznamu od Zdeňka se referrer spam zbavit.
Google Analytics na to má speciální formulář Vyloučení této domény z odkazované návštěvnosti, kam můžete jednotlivé domény přidávat. Dostanete se k němu přes Správce – Údaje o měření.
Do formuláře je bohužel musíte přidávat po jedné. Což je vzhledem k jejich narůstajícímu počtu celkem zdlouhavá záležitost. Ideální by bylo je tam prostě všechny naházet naráz přes CTRL+C a CTRL+V.
Návštěvnost z těchto domén se nebude odteď nijak započítávat. Měla by zmizet kompletně. Kdykoliv můžete doménu zase odstranit.
Kompletní list referrer spam najdete zde.
Google si problém s referrer spam uvědomuje. Minulý rok na něj přes jeho sociální síť Google plus uživatelé tlačili ať s tím něco udělá. Objevila se totiž nová metoda, která cílí přímo na měřící kódy GA, takže blokování dotazů přes .htaccess nefungovalo. Tehdy slíbil, že se na tom pracuje a prozatím si máme zapnout zrušení sledování robotů. Právě přes tuto funkci se to do budoucna “mělo řešit”. Nějaký větší pokrok jsem však nezaznamenal.
Bohužel nikoliv, tímto způsobem se návštěvnost započítá, jen nebude jako referral, ale jako (direct) / (none). Pro úplné vyloučení lze použít jeden ze tří způsobů:
1) Filtr v google analytics podle domény
2) Vlastní segment, který vyloučí návštěvy z těchto domén podle zdroje
3) Rozšířený filtr, který vyloučí návštěvy opět podle zdroje.
Můj nejoblíbenější způsob je č. 2. Výhodou je, že lze vylučovat i regexem, tedy při správném seřazení lze zahrnout více domén najednou pomocí svislítka ( | ).
Skutečně se návštěvnost blokovaná přes “Vyloučení této domény z odkazované návštěvnosti” nijak nezapočítá? Někdo tvrdí, že se pouze přeleje do directu (viz třeba http://www.blackbeltrobots.com/blog/fight-referral-spam-google-analytics/), v diskusích jsem našel i zmínku, že na Semalt to nefunguje. Sám používám klasické filtry, které jsou bohužel omezené na nějakých 255 znaků. Když se poskládají všechny spam domény do regulárního výrazu, celkem to dá asi 5 filtrů a to ještě jde (viz http://lonegoatuk.tumblr.com/post/107307494431/google-analytics-referral-spambot-list). Každopádně dokud to nebude GA filtrovat automaticky (i zpětně), pořád se jedná o dost neefektivní a nesystémové řešení.
Vycházel jsem z textu v nápovědě GA: https://support.google.com/analytics/answer/2795830?hl=cs
“Ve výchozím nastavení odkazující stránka automaticky spustí novou návštěvu. Pokud některý zdroj odkazu vyloučíte, pak provoz, který se na váš web z vyloučené domény dostane, novou návštěvu nespustí.”
To je sice pravda, ale vztahuje se to na případ, kdy už na daném serveru je návštěva spuštěna. Pokud z takového zdroje přijde návštěva, která ještě novou session/návštěvu ptevřenou nemám spustí se, ale započítá se jako direct / none.
Tip: Ve vlastních segmentech a rozšířených filtrech (přímo v daném přehledu) se regex štěpit nemusí, systém vezme i dlouhé seznamy domén :)
Díky za nový postup. Je opravdu blbé, že se musí každá adresa přidávat zvlášť. Také je dost na nic, že se o to musí starat sami uživatelé. Přidal jsem si tedy všechny URL do výjimek, ale asi to nefunguje zpětně. Minimálně v kampaních se mi tenhle SPAM objevuje.
Ja som to riešil na strane servera. V configu nginx som ich zakázal. Ale je nie je to nič platné, lebo časom sa objavia nové a treba súbor stále aktualizovať. Najlepšie riešenie bude keď to Google zakáže, ale nejak mu to dlho trvá.
tiez mi pride ze to nefunguje spatne. a zakazat ich v nginx configu resp. .htaccess je k nicomu, pretoze na generovanie spamovej referral navstevnosti sa vacsinou pouziva len tvoj kod, bez skutocnej navstevy stranky.
Jasné, že stačí zobrať GA kód a použiť ho. Ale nie je to tak, že robot kód najskôr musí nájsť? Problémovým stránkam som nastavil 403, ale zas na druhej strane som nezistil ako ku GA kódu prichádzajú.
Martin: kód máš veřejně na stránkách, robot co ho bude hledat může měnit IP adresu. Anebo to vezme brute force :) GA je jen číslo. Takže robot začne pálit všechno od UA-0000001 až po UA-9999999 :)
Uz z toho ze to tam mame v analytics vsetci sa da tusit, ze kody pravdepodobne generuju (je otazne ci ich Analytics vydava inkrementalne, ak ano, potom je to velmi jednoduche).
a to jsou v googlu tak neschopni zamestnat jednoho brigadnika kterej by nahlasene referer SPAM stranky jednoduse proveril a v pripad opravnene zadosti okamzite zakazal pro vsechny? ja vim jsou dokud jim na to nekdo nenaprogramuje robota tak neudelaji NIC… :(
Kdyby Google měl na každou věc co ho pálí najímat brigádníka, tak zaměstná všechny studenty světa ;)
Udělal jsem jednoduchý generátor filtrů do GA: http://tools.lynt.cz/spammers.php
Určitě také doporučuji si nastavit jako první filtr propuštění jen návštěvnosti na vaši vlastní doménu/domény (hostname, jméno hostitele). Ti kdo UA kódy generují netuší, jaká je vaše doména, tak je v tomto poli často hloupost nebo nic.
Ďakujem, jednoduché a funkčné :)
Díky za tip, už dlouho dobu mé refferal spamy trápí.
Nebaví vás kopírovat spam filtr do 20 profilů, pěkně po jednom…
Mám pro vás nástroj kde zvládnete všechno nastavení aktuálních Spam filtrů za pár vteřin.
http://MarekLecian.cz/spamfilter/
Používáte WordPress? Zkuste Plugin Spam Referrer Block, mají velký a aktualizovaný Blacklist a podle reakcí jsou celkem účinný.
Sami, ale píší že na přímí útok GA ID tohle nefunguje! Tady pomůže tenhle návod https://support.google.com/analytics/answer/2795830?hl=en.
len mensi dodatok – dana spam navstevnost tecie nie len do referral trafficu ale dobre to zasiera aj direct – vid. mensi pokus ktory som robil http://www.hrkut.sk/2015/06/referrer-spam-nielen-v-google-analytcis/
S directem je opravdu problém, pokud je útočník dostatečně chytrý tak ho nezastavíš, jen můžeš reagovat. Zvláště, pokud se umí dostatečně schovat za principy GA jako je nikdy neukázat IP adresu atd. Na firmě jsme to hodl řešili přes awstats a tvorbu blacklistu ip na firewallu co šel k server farmě.
Nová aktualizace 15.6.2015 , přidal jsem dalších 81 referrer spam domén. Celkem filtruji 220 spam domén.
A pro čištění historických dat jsem i vytvořil pokročilý segment do GA.
http://mareklecian.cz/chcete-jednoduse-vycistit-historicka-data-v-google-analytics-od-referral-spamu/
Boj za čisté data v GA pokračuje.
Perfektní, díky za tip! Sdílím dále v seznamu českých článků o Analytice :-) http://www.affilo.cz/clanek/zobrazit/26/
Zabrániť spamu cez Google analytics je len kozmetické riešenie. Ak máte prístup k svojmu .htaccess súboru tak môžete vykonať nasledujúci zápis:
RewriteCond %{HTTP_REFERER} (priceg) [NC,OR]
RewriteCond %{HTTP_REFERER} (darodar) [NC,OR]
RewriteCond %{HTTP_REFERER} (hulfingtonpost) [NC,OR]
RewriteCond %{HTTP_REFERER} (ilovevitaly) [NC,OR]
RewriteCond %{HTTP_REFERER} (buy-cheap-online) [NC,OR]
RewriteCond %{HTTP_REFERER} (free-share-buttons) [NC,OR]
RewriteCond %{HTTP_REFERER} (4webmasters) [NC,OR]
RewriteCond %{HTTP_REFERER} (theguardlan) [NC,OR]
RewriteCond %{HTTP_REFERER} (buttons-for-website) [NC,OR]
RewriteCond %{HTTP_REFERER} (see-your-website-here) [NC,OR]
RewriteCond %{HTTP_REFERER} (googlsucks) [NC,OR]
RewriteCond %{HTTP_REFERER} (guardlink) [NC,OR]
RewriteCond %{HTTP_REFERER} (Get-Free-Traffic-Now) [NC,OR]
RewriteCond %{HTTP_REFERER} (event-tracking) [NC,OR]
RewriteCond %{HTTP_REFERER} (free-share-buttons) [NC,OR]
RewriteCond %{HTTP_REFERER} (simple-share-buttons) [NC]
RewriteCond %{HTTP_REFERER} (aliexpress) [NC,OR]
RewriteCond %{HTTP_REFERER} (bestwebsitesawards) [NC,OR]
RewriteCond %{HTTP_REFERER} (erot) [NC,OR]
RewriteCond %{HTTP_REFERER} (howtostopreferralspam) [NC,OR]
RewriteCond %{HTTP_REFERER} (humanorightswatch) [NC,OR]
RewriteCond %{HTTP_REFERER} (o-o-6-o-o) [NC,OR]
RewriteCond %{HTTP_REFERER} (sanjosestartups) [NC,OR]
RewriteCond %{HTTP_REFERER} (semalt) [NC,OR]
RewriteCond %{HTTP_REFERER} (sexyteens) [NC,OR]
RewriteCond %{HTTP_REFERER} (smailik) [NC,OR]
RewriteCond %{HTTP_REFERER} (social-buttons) [NC,OR]
RewriteRule .* – [F]
je možnosť aj inakšie, takto po prečítaní log súborov:
SetEnvIF X-Forwarded-For “IP.NUM.00.000” DenyIP
SetEnvIF X-Forwarded-For “IP.NUM.00.00” DenyIP
Deny from env=DenyIP
Bodky v IP adrese netreba oeskapovať. Zabránite tak aj fyzicky vstup na doménu.
Pavol Knut Navrátil, to ti moc nepomůže proto spam bot nenavštěvuje často ani stránky, ale využívá measurement protocol a posílá pageviews a eventy bez toho aby byl na tvém webu přímo do GA, proto pomůže jen filtrace v GA.
Sám jsem vyzkoušel více možností a musím rozhodně doporučit řešení Marka Leciána, které je rychlé, jednoduché a HLAVNĚ účinné. Všechny mé závěry jsem srhrnul v článku zde http://www.servistl.cz/blog/zbavte-se-referrer-spamu-v-google-analytics/
Nemůžu se zbavit tohoto spamu с.новым.годом.рф Do filtrů jsem ho zadal, ale v návštěvnosti se stále objevuje.