První nahlédnutí do Seznam API – Chyby na webu

Před pár dny jsem napsal článek Seznam spustil vlastní obdobu Google Webmaster Tools. Od jeho napsání jsem se dostal k hrátkám s API jen párkrát. Bohužel se mi to ze začátku moc nedařilo. Nemohl jsem vyřešit ani tak jednoduchou věc jako přes GET (parametr v URL) komunikovat s API. Fakt jsem to málem vzdal. Nic mi to nevracelo ať jsem zkusil cokoliv…

Naštěstí to bylo zřejmě jen tím, že nově přidaný web potřebuje nějaký čas anebo to byl nějaký problém na straně serveru. To je už jedno. Skript jsem po pár dnech zkusil znovu spustit a heuréka!

Samozřejmě jako první mě zajímalo jaké mám vlastně na webu chyby. Celkem mě překvapilo, že v seznamu chyb jsou:

RSS Feed, tedy XML

Tohle je trochu záhada. Většina chyb byla tento druh souborů:

Příklady:

WordPress vytváří takovéto URL automaticky pro odběr komentářů. Přidáte si tuto adresu do čtečky a uvidíte nové komentáře. Že je Seznam považuje za chybu jsem ani netušil. Pro jistotu jsem je prohnal online validátorem. Ten je vyhodnotil jako v pořádku. Máme tedy SeznamBota upozornit aby tyto soubory neindexoval?

Na druhou stranu proč je takto označeno jen několik desítek těchto souborů. RSS feed s notifikacemi existuje ke každému příspěvku, stránce i příloze. Celkem jich je tu kolem 3,5 tisíc.

Zazipované soubory

V seznamu jsem našel 4 malé zazipované soubory (od 7 do 40 KB). Dva obsahovaly .php soubor a dva xls (tabulky). Na 404M je hodně zazipovaných souborů, které jsou jako součást článku. Většinou se jedná o různé seznamy.

Že by SeznamBot koukal i do malých zazipovaných souborů?

Soubor .ico

Překvapivě mezi 86 chybami byla i stránka 404m.com/favicon.ico. Jedná se o ikonku webu.

Obrázky

Mezi chybami jsem našel tento obrázek.

http://404m.com/wp-content/uploads/2009/12/daukce.jpg

U něj netuším, co může být špatně. Nějaké nápady?

PDF

V Seznamu chyb jsem našel odkazy na dvě PDF, které jsou nahrané přímo na 404M:

  • 404m.com/wp-content/uploads/2011/02/us-patent-godaddy.pdf
  • 404m.com/soubory/404m-com-knizka.pdf

Na 404M je PDF souborů více. Nejsou však tak objemné jako tyto dva soubory. Mimochodem Google první ze souborů také neindexuje. Druhý ano, ale dostanete se k němu jen přes operátor site:.

Problém může být právě ve velikosti souborů.

Závěr

O poznatek z chyb jsem se chtěl s vámi podělit. Třeba přijdeme na to, kde může být problém.

Share Button
(0)(0)

Jak bude reklama vypadat?
-
Nechceš zde reklamu napořád jen za 121 Kč?
Zobrazit formulář pro nákup

Další články k tématu

6 komentářů

  1. Radim napsal:

    Mi vyhodil jako chyby 6 obrázků generovaných pomocí PHP tak nevím. A stránky, které odhycují jen kliknutí a přesměrovávájí jinde.

    (0)
  2. Petr napsal:

    Já už jsem si taky s API trošku pohrál a taky mě udivilo, proč má Seznam problém s adresami, které končí /feed/ a ještě více mě udivilo právě to, že jen u některých stránek.
    Jinak naštěstí, u jiných stránek mi to chybu nevyhazuje.

    Snad by se mělo nějak pomocí API dát zjistit, co přesně se Seznam BOTu nelíbí na dané stránce.

    (0)
  3. Petr napsal:

    Podělíš o krátký návod jak z API dostat tento seznam daných chyb? Je to celkem zajímavé :)

    (0)
    • admin napsal:

      Doladím pár věcí a celý skript dám zdarma ke stažení.
      Pro přehled stačí dát v Chrome do URL https://reporter.seznam.cz/wm-api/web?key=klíč kde klíč je vygenerovaný API key. Chrome to rovnou převede do čitelné podoby.

      (1)
    • Petr napsal:

      Ahoj,
      sám jsem si takový menší nástroj vytvořil a dal jej online. Stačí zadat swt.doprofilu.cz a vložit API. Popřípadě návod je na odkazu u jména ;) .

      (0)
  4. Lydie napsal:

    Co tak nehledat chybu u sebe? Třeba je to jen zatím nevychytané na straně Seznamu.

    (0)

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *