Copak to ten seznam chystá?

Tak jo seznam pracuje na novém fulltextu o tom už víme. Ba co víc už ho začíná i v reálu testovat. Odzkoušet si to můžete na searchtest.seznam.cz.

Já jsem si s tím hrál celé odpoledne a zkoušel jak na co reaguje. Teď toho mám plný ods soubor (xls varianta pro open office). Hledal jsem výchylky, které by naznačily nějaké protěžování atributů podobně jak funguje u starého fulltextu, ale asi jsem měl špatné keywordy anebo cokoliv co by vybočovali z řadi je preventivně zakázáno.

Princip zaběhnutých stránek (jakéhosi trust ranku) zřejmě zůstává. Většina keywordů byla ve výsledku obsažena i v title webu. I nadále tak bude zřejmě title velice důležitým onpage faktorem. Co se týká klíčového slova v URL, tak v porovnání se starou verzí ubylo výsledků s keywordem v URL. Seznam také přestává myslet za nás. Například ze slova pocitac už nepreferuje počítače nebo počítačových. Bude zřejmě nutné optimalizovat na skloňování. Jednoduše už nebude stačit věta Prodáváme počítače, která by automaticky optimalizovala pro všechny tvary. Zřejmě to bude chtít se rozepsat. Nedělal jsem nějakou hlubší analýzu výsledků, ale třeba u minisites si lépe vedou stránky s větší variabilitou textu i objemem. Což je dobře, protože u starého seznamu to je naopak.

Ještě přihodím pár oficiálních vyjádření z blogu

Co se týká reklamy, pamatujte, že se každý web musí nějak živit, takže její přítomnost by neměla znamenat penalizaci. U reklamy je spíš blbé, že stránky zpomaluje. Přítomnost webu na freehostingu taky není důvodk k penalizaci.
Na zahraniční hosting náš robot normálně chodí…
Soumrak (patičkářu) s tímhle novým enginem nesouvisí, projeví se jindy.
Teď k té kosmetice a protežování domén. [81] Určitě se na to podívám. Dávat web nahoru jenom kvůli tomu, že má v doméně klíčové slovo, je prostě kravina, v tom se shodnem asi všichni, kdo tu nejsme doménoví spekulanti. Teď jsem si ale zkusil váhu URL vypnout úplně a výsledek se moc nezměnil. A nastavovat váhu zápornou mi přijde jako kravina ještě větší. Takže se na to budu muset velmi mrknout. Ovšem u té kosmetiky hraje fakt i to, že hodně webů staví dobrý obsah na doméně s kosmetikou v názvu (to dělají cca od roku 2007, protože až do listopadu 2008 měla doména váhu velkou), takže je jejich výskyt ve výsledcích částečně přirozený

Jak bude reklama vypadat?

Kup si reklamu navždy pod tímto článkem jen za 100 Kč

Zobrazit formulář pro nákup

16 Replies to “Copak to ten seznam chystá?”

Marek Stejskal napsal:

6.10.2009 (18:39)

Souhlasím ze skloňováním slov, již jsem o tom psal na webtrhu. Jednostránkové MFA půjdou asi do kytek :) Zajímalo by mě proč seznam indexuje méně stránek na doméně.
Důkaz pro skloňování: stará verze najde na klíčové slovo “horoskopy” 6M stránek, kdežto nová verze najde stránek 8M a to je přitom zaindexováno méně stránek na doménách. Z toho plyne, že seznam nehledá jen slovo horoskopy, ale hledá i slova tohoto názvu skloňovaná.
BigLebowski napsal:

6.10.2009 (18:49)

Ta diskuze je tam velice zajímavá. Hlavně v tom kolik je tam v.lů, kteří jsou úplně mimo…

A většina lidí tam ten nový fulltext bere podle toho, jak jim weby poskočily nebo se propadly…
admin napsal:

6.10.2009 (19:10)

Marek Stejskal: to s tím počtem výsledků mají rozbité. Někde to tam přiznali i v diskuzi.

Celkově přiznávají, že je tam spousta věcí ještě na doladění a chtějí vylepšovat postupně. Takže na webtrhu budeme mít počítám každý měsíc nové vlákno jak někdo spadnul dolů :)
kamil napsal:

6.10.2009 (19:42)

Jiste zvyhodneni webu v SE obsahujici keyword v domene mi prijde logicke. Podle me by melo ale byt zvyhodneni progresivni. Za predpokladu souhry ostatnich, nejen onpage faktoru. Namatkou toto treba splnuji hodinky.cz, zde by jsem ocekaval daleko vetsi zvyhodneni keyword v domene, nez treba vonasek-stehovani.cz (fiktivni web). Ne proto, ze prvni priklad ma cisci domenu, ale z duvodu vyssi autoritativnosti webu. Autoritativnost muze vyhledavac podle mnoha kriterii (a diky datum co ma k dispozici)vcelku slusne stanovit. Dejte mi seznamaci 300k/mes. + par programatoru k ruce a do pul roku vam vyseknu takove algoritmy, ze nebudete vedet co je to MFA :)
Marek Stejskal napsal:

6.10.2009 (21:12)

To Admin: Co to je rozbité? Prostě jim to počítá i weby které by nemělo, ale i přesto se web ve výsledku objeví. :) Zkuste si zadat do hledání např.: kw “kulaťoučké” a zanořte se až na poslední výsledky vyhledávání. Možná se mílim, jen je to má teorie. Počítadlo ve staré verzi fungovalo?
Yuhů napsal:

7.10.2009 (0:20)

Skloňování — slovo počítač jsme na “počítačových” myslím neexpandovali nikdy. Že je počítačových ztučněné, bude práce starého sekundárního zvýrazňovače. Vyskloňování slova do textu stránky v různých verzích doporučuju pouze u slov, které mají různé slovní základy, např. stopky/stopka, bar/barum apod.

Marku Stejskale, rozbité je počítání výsledků, ale na druhou stranu, než uvádíte. Nový motor zatím nenajde některé stránky, které by mělo, ne naopak. Takže uvádí nižší čísla. Druhá rozbitá věc je zvýrazňovač, takže to nevypíše tučně “kulaťoučký”, přestože stránka to slovo obsahuje (zkuste si, fakt je v nějakém tvaru ve všech nalezených). A ano, stará verze počítá správně.

Ještě musím trochu reagovat na Kamila. S investicí v řádu 4 milióny (plat Kamila a 3 programátorů plus odvody) by myslím do půl roku dokázal udělat filtr na MFA každý. Ne každý by to ale zvládnul tak, aby se to počítalo nad 340 milióny dokumentů. Otázka hlavně zní, proč to dělat, když jsou jiné cesty, které k cíli (k relevantním výsledkům) vedou taky.
kamil napsal:

7.10.2009 (8:31)

Na MFA by jsem se nezameroval vubec. Chapu, ze z pozice seznamu je nesmysl se MFA vubec zabyvat. K relevantnim vysledkum by jsem ale dosel vyhradne pres hodnoceni pozitiv webu (naopak cestu “badrank” (jeste s moznosti infikace od jineho webu) pokladam za chybu) – tedy uplne by jsem prekopal SR (neresim jestli by byl verejny ci ne). Zminene MFA stranky by vypadly automaticky. Objem 340M dokumentu pri maximalne milionu domen (weby v cestine) prave pokladam spise za vyhodu pro lokalni vyhledavac, protoze se da relativne kvalitne pri nizkych nakladech zpracovavat. Na “proverene” weby by nebylo nutne se vracet tak casto.
BigLebowski napsal:

7.10.2009 (9:27)

Asi tady nechápu to uvažování lidí nad MFA. Nějaké opatření sice zastaví ty dětičky, které si regnou domenu baumax-ikea-tesco.info, hodí tam stránku textu, adsense a čekají, že se z nich stanou milionáři. To opatření teda zastaví dětičky a tu celkovou mánii, jenže pořád zůstane řada lidí, kteří dělají MFA ve velkém. Ti rozumí seo, mají dobrý linkbuilding a dokáží využít mezer seznamu. A správný čech nějakou mezeru najde vždy (ať už je to seznam, google nebo jiný vyhledávač)…

IMHO by bylo lepší začít pořádně penalizovat třeba duplicitní obsah, stránky s velkým počtem externích odkazů atd. Jednoduše takové věci, které smetou “sračkoidní” webíky.
kubiz napsal:

7.10.2009 (11:45)

Z měho pohledu bude zatím kombinace vyhledávač, stránka s hledanou informací (v lepším případě aktuální a hodnotná) a kontextově cílená reklama nejlepší varianta pro člověka, který hledá informace před pravděpodobným nákupem.

Nevšiml jsem si zatím běžného mechanismu, kdy eshopy poskytují maximální informace, nebo naopak informační web něco prodává.

Nezastávám se MFA, ale reálně nikomu neškodí – jen jsou trnem v oku. (Affily zatím ne – zvláštní)
kubiz napsal:

7.10.2009 (11:55)

… jo a je celkem smutné, že to vypadá na boj mezi vyhledávačem a webmastery různých, i černějších, kategorií, ale osobně bych se zaměřil spíše na vyhledávač vs. vyhledávající (možnost značit si výsledky, dávat jim vlastní poznámky, komentáře atp. viz G.). Jinak to neodnese (nebo mu to nic nepřinese) zase nikdo jiný, než běžný uživatel. P.S.: není v plánu například po novém fulltextu i nasazení Skliku, nebo čehosi takového pro webmastery? ;-) P.S.2.: porovnání parní stroj a spalovací motor jasně říká, jakým směrem se to opět vy(kur)vine!
Marek Stejskal napsal:

7.10.2009 (12:58)

To Yuhů: prozatím si musím stát za svým tvrzením, jen mám pocit, že jste si ho špatně vyložil (lépe řečeno, já to špatně formuloval) :). Pokud tedy hledám slovo kulaťoučké ( http://searchtest.seznam.cz/?q=kula%C5%A5ou%C4%8Dk%C3%A9&count=10&from=991&pId=mP7An-TCCYxPcKgz8VWl&source=web ) a ve výsledku vyhledávání se mi zobrazí i web ( http://paja.klan-most.info/drd/story/abarin/arimain/d01.htm ), který obsahuje pouze slovo kulaťoučkých pak mám pocit, že pravidlo o kterém se již zmiňujete je pravdivě. Vyhledávač pak nalezne více webů a to přeci musí být vidět i v počítadle.
Yuhů napsal:

7.10.2009 (17:01)

Aha, já na dotaz “kulaťoučký” pokládám dokument obsahující slovo “kulaťoučkých” za relevantní. Nechť tedy relevantní není. Potom máte pravdu a počítá se víc výsledků.
Marek Stejskal napsal:

7.10.2009 (19:45)

To Yuhů: Připadám si jak Alenka v říši divů. Ptám se tedy v čem je počítadlo rozbité?
Má doměnka je takováto: Vyhledávač hledá i skloňovaná jména a tím pádam nalezne nový vyhledávač více výsledků.
Starý vyhedávač hledal pouze slovo kulaťoučké. Kdežto nový vyhledávač hledá slovo kulaťoučké i slovo kulaťoučkých včetně atp. Každopádně vím o to, že polemizuji na nesprávném místě.
PS: tyto slova jsou navzájem relevantní, o tom nepolemizuji. Polemizuji pouze o počítadle.
Dave napsal:

7.10.2009 (20:22)

Nevím jestli mi to uniklo, ale ví se odkdy má být nové vyhledávání v provozu? V jaké fázi je vývoj?

Docela mi to zamávalo se stránkama, vypadá to, že docela bere v potaz titulek stránek, ještě si s tím pohraju, ať tady neplácám :-)
Yuhů napsal:

8.10.2009 (17:23)

Marku Stejskale, staré i nové počitadlo počítají všechny dokumenty, které obsahují nějaký tvar slova kulaťoučký. V tom se nic nemění. Novéhledání (na searchtestu) je jenom ještě nějaké trochu rozbité, takže teď ukazuje méně výsledků a počitadlo tím pádem menší čísla.
Marek Stejskal napsal:

9.10.2009 (12:24)

To Yuhů: Ok děkuji za upřesnění, jen se mi zdálo že to počítá více výsledků v nové verzi. Koukám na searchtest a vidím velké zlepšení oproti původní verzi. Jen tak dál :) začíná to být pro uživatele velmi přívětivé. Těším se na další vylepšení.
btw. searchtest.seznam.cz chtěl po mě vyplnění capthy, na tom by nebylo nic zvláštního už se mi to stalo vícekrát, ale je zvláštní ta informace o mé IP adrese která se objevuje pod capthou. Ta informace je milná, a zavádějící. Nemám takovou ip adresu ani uvnitř naší sítě. Můžete mi prosím sdělit kam ten script pro IP adresu šahá? whatismyip.com, mojeip.cz, atp.. sdělují IP korektně.
Poslední otázka: opravdu searchtest šlape na stejné DB? Spustil jsem web kontejnerynaodpad.cz který se již v aktuálni verzi objevuje, ale v testovací verze o něm není zmíňka. :(