Před pár dny Google vydal na svém blogu pro webmastery zprávu o tom jak bojoval se spamem a dalším závadným obsahem v roce 2019. Ačkoliv je tento druh reportů určen hlavně pro média (text je jednoduchý, necílí na odborníky), tak se v nich dají dohledat zajímavá čísla a mezi řádky najít i co zrovna Google trápí a kam by rád směřoval další postup.
Obsah
Google je v odhalování spamu zase o něco lepší
Stovky miliard webových stránek v indexu Google poskytují odpovědi pro miliardy hledání každý den (v červnu 2019 to bylo 5,4 miliardy/den). Samozřejmě se mezi těmi výsledky průběžně objevují ty špatné a další nové stránky, které Google nechce v indexu, vznikají v obrovské škále každý den. Google tvrdí že každý den to bylo v roce 2019 až 25 miliard závadných stránek.
A co si pod tím představit? Závadný obsah má pro Google široký záběr, od přímo škodlivých webů, obsahujících malware, phishing, přes automaticky generovaný obsah až po prodej zpětných odkazů. Do hledáčku algoritmů, které odstraní váš web z indexu Google se můžete dostat poměrně rychle. Stačí podcenit bezpečnost vašeho webu a za chvilku už na něm máte škodlivý obsah. Tyto případy se dějí na denním pořádku, stačí si přečíst diskuze v komunitách různých redakčních systémů.
V roce 2018 se Google pochlubil, že zredukoval množství spamu ve výsledcích o 80 %. Toto číslo se mu podařilo udržet i v roce 2019. Největší starosti jim však dělá odkazový spam. Ten se jim daří zachytávat v 90 % případů. Jedná se hlavně o prodej anebo výměnu zpětných odkazů. Odkazy z napadených webů meziročně nijak výrazně nenarostly.
S těmito čísly by člověk řekl, že snad většina webů má už nějakou formu penalizace ;)
Co se týká webů s automaticky generovaným a scrapovaným (vykradeným/upraveným) obsahem, které obsahují abnormální množství reklam, malware, podezřelá přesměrování atd. tak v jejich detekci se zlepšil Google meziročně o 60 %. Tato aktivita je také často spojena s podvodnými stránkami. Ty se snaží Google rovněž zachytávat. V roce 2019 mu v tom výrazně pomohlo strojové učení. No snad si to dobře natrénoval. Rok 2020 je zatím v porovnání s 2019 úplně jiná liga.
Na druhou stranu Google také přiznává že dokáže před různou formou spamu ochránit pouze 99 % návštěvníků, což je v číslech celkem dost lidi, kteří se “závadným” obsahem potkají.
Manuální hlášení
Google se do značné míry spoléhá i na hlášení od lidí. Existuje řada formulářů přes které můžete hlásit různé podezřelé aktivity, a to od podvodných webů přes ty napadené, spam až po prodej/výměnu odkazů. Jedná se o důležitý zdroj informací a Google dosti okatě vyzývá k jejich používání.
“We appreciate all the reports you sent to us and your help in keeping search results clean!”
Na jednu stranu je určitě chválihodné najít si čas, sepsat report a poslat jej Google, aby mohl upozornit majitele webu na to že web je napadený, na druhou stranu ten zbytek už mi přijde dosti sporný. Buď se Google postaví do role soudce a řekne – tento web je podvodný a odstaví jej, čímž může legitimní byznys značně ohrozit anebo třeba jen informace použije pro své strojové učení. Nevíme, tato část je dosti neprůhledná.
Co však Google prozradil je, že v roce 2019 takovýchto reportů obdržel 230K a v 82 % provedl nějakou akci.
Manuální penalizace
Pokud máte všechno v pořádku, tak jediné čeho se můžete obávat je manuální penalizace. Google zaměstnává takzvané Search Quality evaluator, kteří manuálně kontrolují přidělené weby a vyhodnocují je podle různých kritérií. Tato kritéria unikla na veřejnost v roce 2015 v příručce Google General Guidelines.
Tito lidé slouží jako lidský faktor pro vylepšování všech algoritmů Google, ale právě oni mohou odhalit že je něco s vašim webem špatně a ve výsledném procesu stát za manuální penalizací.
V roce 2019 bylo celkem přiděleno 4,3 milionů manuálních penalizací, za porušení pravidel Webmaster Guidelines, což jsou většinou black hat SEO prakticky anebo nějaká forma obchodování s odkazy.
Na čem Google v roce 2019 záleželo
Ve zprávě jsou zmíněny 4 důležité věci.
- Site Kit plugin od Google pro WordPress
- Zavedení automatické DNS verifikace pro Search Console
- Nový systém zpráv v Search Console
- Nové označení pro “nepřirozené” odkazy (rel=”sponsored”, rel=”ugc”)
Google si potřebuje udržet s webmastery nějaký komunikační kanál. Co si budeme povídat před lety bylo top používat Google Analytics, ovšem dnes už je to pomalé a zbytečně komplikované řešení. Navíc stále více a více nepřesné, protože je často zneužívané napříkald pro Referrer spam a různé doplňky v prohlížečích jej blokují. To co ukazuje Google Analytics se tak může až o desítky procent lišit od reality. A to se bavíme o živé návštěvnosti, roboty GA nevidí vůbec. Právě GA byla většinou cesta jak se lidi dozvěděli o Search Console, která je naopak nenehraditelná.
Prostřednictvím Search Console vás Google může usměrňovat v používání technologii, které potřebuje. No a samozřejmě i upozornit pokud děláte něco, co se mu nelíbí.
Google tedy potřebuje udržet s tvůrci webu kontakt, a tak se dá předpokládat, že bude hledat další způsoby jak to zajistit. Mimo Search Console to jsou ještě pravidelné online office hours, offline setkání a také komunitní fórum.