Matt Cutts: „Neblokujte CSS a JavaScript před GoogleBotem“

Google adsense pravidlaPřed 10 dny se na YouTube objevila výzva Don’t block Googlebot from crawling JavaScript and CSS, ve které Matt Cutts slušně žádá webmástry, aby nebránili GoogleBotovi v procházení souborů JavaScritpu a CSS. Na internetu se objevilo hned několik zajímavých diskuzí a postřehů, které rozhodně stojí za povšimnutí.

Neblokujte Googlebota před procházením JavaScriptu a CSS

„Zdravím všechny. Tady Matt Cutss. Mám tu dnes jednu veřejnou výzvu, místo odpovědi na otázku. A tato veřejná výzva je následující.

Pokud bráníte Googlebotovi. před procházením JavaScriptu anebo CSS, prosím věnujte pár minut na odstranění z robots.txt. Nechte nás projít JavaScript, nechte nás projít CSS, ať lépe pochopíme co se děje na stránce.

Spousta lidí tomu brání, protože si myslí, že to bude náročné na zdroje, že nechtějí přijít o bandwidth (přenes data) anebo tak něco. Ale GoogleBot je celkem chytrý co se týká procházení věcí příliš rychle. A spousta lidí dělá věci, jako testování přítomnosti flash, ale pak vkládají nějaký JavaScript. A neuvědomují si, že vložení JavaScriptu, je JavaScript zablokován*. A tak nejsme schopni procházet stránky tak efektivně jak by jsme si přáli. Navíc Google je lepší při zpracovávání JavaScriptu. Zlepšuje se v pohledu na CSS, aby rozeznal co je důležité na stránce. Takže pokud blokujete GoogleBota, rád by jsem vás požádal o trochu času. Běžte a odstraňte blokování z robots.txt, aby jste mohli pustit GoogleBota, aby lépe pochopil co se děje na stránkách, co se děje s vašimi stránkami. A toto pomůže každému, z hlediska pokud najdeme nejlepší výsledek vyhledávání, budeme jej moct vrátit výše uživateli.

Takže díky, pokud nám dáte šanci. Vím, že to je běžný idiom (jazyková zvláštnost) prost jen říct lidem. Chystám se zablokovat JavaScript a CSS. Ale nemusíte to dělat. Takže prosím, aktivně nechte GoogleBota projít tito věci jako JavaScript a CSS, pokud můžete.

Díky“

* Nepochopil jsem jak to myslel.

Co se tedy děje?

Google nasazuje nové algoritmy, technologické postupy a metody k pochopení stránky jako celku. Většině se spíše vybaví připravovaná penalizace za Too Many Ads Above The Fold, tedy penalizaci za velké množství reklamy na stránce. Bez správného chápání rozložení prvků na stránce by provedení takovéto penalizace bylo více než obtížné.

Problém je, že podle vyhledávačů se dřív nedělalo jen SEO ale také internetové stránky. Aby byly stránky srozumitelnější, přišly vyhledávače s metodami, jak ulehčit jejich pochopení. Ať už je to zmiňovaný robots.txt, sitemap.xml, nové meta tagy anebo třeba jen favicon. Většina webmástrů pod příslibem lepší indexace, či představě zvýšené návštěvnosti začala stránky dělat s přihlédnutím na nové standardy. Tak vzniklo white hat SEO. Aby se v indexu vyhledávání zbytečně neobjevovalo, co nemá některé soubory se vyřazovaly pomocí robots.txt. Google bot se totiž i dnes umí dostat přes jednoduché formuláře.

Asi vás teď napadlo, tak proč to jednoduše Google u těchto souboru neignoruje? U nofollow to přeci šlo, tak proč ne tady? Protože ignorování nofollow je vlastně irelevantní. Nikdo se to nedozví, nemusí to dokonce mít ani žádné následky. Pokud projdu nofollow odkaz, ale stránka nemá noindex, tak to nemusím řešit. Klidně se dá hodit do indexu, dokonce by jsem se nedivil ani za nějaké ty pomyslné SEO body. Jenomže tohle je něco jiného. Implicitně zakázané soubory v robots.txt, na které nevedou žádné odkazy jsou tu prostě od toho, aby se na ně nechodilo. Je to soukromá záležitost vlastníka webu. Může se jednat například o adresář s textem určených jen pro určitý okruh lidí. Nemusí mít dokonce nic společného s obsahem webu. Dokonce to může být soukromý obsah.

Z nějakého důvodu prostě Google nechce překročit pomyslnou čáru a nahlédnout do zakázaných URL. Já osobně jsem byl celkem překvapený. Na jednu stranu má informace o všem možném a na druhou respektovat takto soukromý veřejných internetových stránek.

Možná je to také úplně jinak. Nese toto matoucí poselství nějakou zprávu?

[poll id=“155″]

 

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Kup si reklamu navždy pod tímto článkem jen za 100 Kč
Zobrazit formulář pro nákup

Další články k tématu

10 komentářů

  1. Maki napsal:

    Nejlepší článek o Google za posledních pár let affhelper.com/googles-hypocrisy-exposed/

    (0)
  2. Ja by som v tom nehľadal žiadnu zradu. Proste chce Google pochopiť lepšie štruktúru. Udám príklad. Dám pätičku webu hneď pod tag a v CSS ju naštýľujem tak, aby bola dolu, ako štandardná pätička. V nej si nalinkujem nejaké moje vlastné weby. Google bot by štandardne rátal s tým, že sú to hodnotné odchádzajúce odkazy hore na webe, pri práci s CSSkom však zistí, že to je pätička a prisúdi im nižší význam.

    (0)
  3. fragia napsal:

    * podle mě to bylo myšleno takto: máš menu ve flashi, ale víš že někteří klienti flash neumí, proto otestuješ jestli klient flash umí nebo ne (třeba googlebot), a když zjistíš že ne, tak pošleš jednodušší javascriptovou variantu.Jenže když máš javascript pro googlebota zablokovaný, tak google menu nedostane žádné, ani flashové ani javascriptové, a nemůže pak tvůj web indexovat.

    Jinak poselstvím celé té zprávy chápu tak, že kdo bude blokovat javascript, dostane brzo penalizaci. Javascriptem se dá stránka úplně překopat - pošeš klientovi nějakou krásnou nevinnou stránku, ale za ní pošleš javascript, který ji celou přemění na propagaci adult affiliate. Když googlu ten javascript nedáš, tak to nepozná a zařadí si do indexu tu falešnou věc. To se jim samozřejmě nelíbí, ale připouští, že někdo může blokovat javascript i s dobrým úmyslem, proto (zatím) nechtějí paušálně penalizovat všechny takové weby. Teď ale požádali ty s dobrý úmyslem, aby to blokovat přestali, a kdo nepřestane, tak je jasné že má k blokování nějaký podlý důvod...

    (0)
  4. Unreal][ napsal:

    Lidi si zacinaj uvedomovat, ze ten crawler neni zas tak moc zazracny. Pokud neprecte CSS (se styly skryvajicim bloky) a JS (s prepisovacem obsahu), tak se muze na crawlovani vykaslat.

    Ja bych ten text bral jako priznani, ze se takto deje a oni s myslenkou nejchytrejsiho robota na svete pekne narazili :)

    (0)
  5. Pravda napsal:

    CSS ani JS neskrývám, pro white seo není důvod.
    Google se chce dostat všude, dokonce v adsense mu mužeš dát přístopvé jméno a heslo, aby se dostal do stránek pod heslem.

    (0)
  6. Martin Kohout napsal:

    Jak už bylo psáno, chce načíst strukturu a lépe pochopit web, s tím, že bude mít větší kontrolu tam, kam se zatím nedostal.

    (0)
  7. Jakub Čižmař napsal:

    On si Google nakonec stejně najde způsob, jak se dostat kamkoli chce... Tohle je jen slušná prosba, ale když bude chtít, vezme si co chce bez otázek a proseb :)

    (0)
  8. Gransy napsal:

    Muzou ignorovat robots.txt a maj vsichni po srande :D Takhle to delame my nasim odkazatorem :D

    (0)
  9. Pravda napsal:

    Ani bych se nedivil, kdyby existoval robot, který prohledává právě to, co je zakázáno (robots.txt je tak trochu hrozba viz http://mozektevidi.net/clanek/robots.txt )

    (0)
  10. Já jsem si to poslechl v angličtině a pochopil jsem to jinak.

    V podstatě tam říká asi toto: Prosím Vás, neblokujte nám věci, které si myslíte, že vyhledávač neumí v robots.txt. Postupně se stáváme lepším a lepším a náš crawler se stává chytřejší a chytřejší. Stává se lepším a efektivnějším v chápání JavaScriptu a CSS.

    Teď to trochu převyprávím podle smyslu, ne otrocky: Prostě v Google mají/chystají crawler, který lépe bude chápat (a právě ho ladí a budou ladit) JavaScript a CSS. Jenže blokování těchto věcí v robots.txt je pro ně brzdou a chtějí aby Googlebootu lidi nabízeli i JavaScript i CSS (tedy neblokovali ho), aby Google mohl v budoucnu využít i tyhle věci.

    Jednoduše dnes půlka webů bez JavaScriptu nefunguje – a Google na to musel reagovat. A narazil, protože řada webů má vše kromě HTML pro Google zakázané v robots.txt.

    A v okamžiku kdy Google začne robots.txt ignorovat, tak se poměrně rychle společensky znemožní. Protože pak weby uspořádají rychlou odvetu a soukromé stránky budou skrývat před Google mnohem drsněji a Google to odnese špatně. Protože není problém blokovat aktivně tím, že se crawler někam nedostane vůbec namísto dnešního, že je to pouze v robots.txt.

    (0)