„Potřebujeme být lépe vidět ve vyhledávačích“, bývá tématem většiny dotazů a poptávek v SEO. Bohužel, spousta klientů a leckdy i konzultantů vztahuje to „být lépe vidět“ jen na stránky (dotazy, klíčová slova), které už nějak vidět jsou, byť třeba špatně. Výkon webu lze přitom často úrůrazně zvýšit lepší péčí o to, co zatím není vidět vůbec. Obvykle proto, že to vyhledávači není tzv. „zaindexováno“
Pozor: článek je staršího data a v mezičase vznikly chytřejší postupy, pro aktuální info o analýze indexace čtěte článek Pavla Ungra
Co je to indexace?
Úvodem rychlý exkurz do fungování vyhledávačů. Kdykoliv někdo něco hledá na internetu, nehledá to doslova „na internetu“ – vyhledává v databázi vyhledávače, který aktuálně používá – hledá v tzv. „indexu„. Tento index není bohužel souborem všeho, co reálně na internetu je – ale pouze těch informací, které vyhledávač zná a zobrazovat chce.
Indexace nějakého webu je, zjednodušeně, proces nalezení jeho jednotlivých stránek (obsahu) a rozhodnutí, zda a jakým způsobem dá tu danou informaci do svého indexu. To se ne vždy poštěstí hned a v celém rozsahu, v jakém by si majitelé webů přáli.
Příčiny potíží s indexací
Hlavní důvody jsou v zásadě dva: buď vyhledávač informaci na vašem webu nenajde, nebo se ji rozhodne do indexu nezařadit. V prvním případě jde zpravidla o situace, kdy na nějakou stránku nevedou žádné odkazy nebo je tak „zabordelená“ ve struktuře webu, že se k ní vyhledávač nepropracuje.
V druhém případě tak dělá buď z vaší vůle – protože mu indexaci té které stránky zakážete (třeba přes značku „robots“ ve zdrojovém kódu eventuálně přes soubor „robots.txt„), nebo protože mu k indexaci nedáte dost dobrý důvod.
Pro pochopení je dobré dívat se na problém z pohledu vyhledávače – najít, třídit, uchovávat a nabízet informace na internetu a dělat to stále lépe, to chce hodně výpočetního výkonu. A lidí. A snahy a vývoje. A to je vše velmi drahé. Čím méně zbytečných, špatných, neužitečných stránek bude vyhledávač v indexu držet, tím efektivnější bude jeho provoz. A zisk jeho majitelů.
Máte problém s indexací?
Po pár letech v oboru si troufám říct, že skoro každý web má tak trochu problém s indexací. Otázka je, jak velký je a jestli je potřeba ho řešit, jak intenzivně. V první řadě je dobré mít alespoň hrubý přehled o tom, jak velkou část mého webu vyhledávače do indexu zařadily.
Poznání svého webu
Nejprve zmapujte,které typy stránek na webu vůbec existují, podle jakých pravidel vznikají a jak se skládá dohromady jejich obsah. Mám zkušenost, že po letech provozu, pár programátorech a konzultach majitel webu sám neví, kde se podstatný kus jeho webu vůbec bere a kdo rozhodl, že bude vypadat právě takhle. Udělejte si přehled o tom:
- kolik různých typů stránek na webu je (homepage, kategorie, podkategorie, parametrické výpisy a filtrace, řazení, stránkování, …) a jakými pravidly se řídí jejich URL adresy, titulky, nadpisy, další obsah, různé meta značky (pomůže např. nástroj ScreamingFrog nebo Xenu).
- kolik máte různých (současných i historických) jazykových verzí a mutací, různých vývojových verzí v adresářích (www.mujweb.cz/novy/…) eventuálně subdoménách (new.mujweb.cz/…)
- co se děje, když se něco na webu změní – přejmenuje se nebo přesune nějaká jeho část (třeba kategorie produktů), přidá se nový obsah (články, produkty, typy) nebo naopak zruší
- zda je obsah webu vůbec v souladu s potřebami cílové skupiny či analýzou klíčových slov
- jaké instrukce dáváte vyhledávačům a proč
Zmapování obsahu webu je užitečné mít a držet aktuální z mnoha dalších důvodů, nejen kvůli snazšímu řešení indexace. Využijete jej při marketingu, práci s designem i řešení všelijakých technických potíží.
Zeptejte se vyhledávačů
Nejjednodušší je zeptat se na indexaci napřímo. Stačí do vyhledávače zadat příkaz „site:www.mujweb.cz“ (event. bez www) resp. „site:subdomena.mujweb.cz“. Vyhledávač vám vrátí orientační počet a seznam stránek, které v indexu má. Ten můžete porovnat s tím, kolik stránek víte, že na webu máte.
Číslo je nicméně jen orientační (nemusí zcela odpovídat realitě, odchylka může být i dost markantní) a navíc vám neřekne, kde je případně problém (které stránky v indexu chybí), vyplatí se proto zkoumat dál. Máte-li zmapované typy stránek na webu, můžete dotazy s operátorem site prohnat jednotlivé typy a experimentálně na nějakém vzorku „růčo“ ověřit, zda ten který vyhledávače znají (zobrazují), či nikoliv.
U Google využijte nástroj Google Webmaster Tools. V něm můžete zadat jednotlivé mapy webu (sitemapy, stukturované seznamy stránek webu) a zjistit, kolik % stránek z nich indexuje. V návaznosti na zmapování webu se vyplatí mít několik různých sitemap pro různé typy stránek nebo různé typy obsahu webu (třeba pro kategorie eshopu, jednotlivé produkty, nově přidané položky, obrázky, videa apod.) v GWT najdete i záložky „Index status“ popisující zaindexované, příkazy pro roboty zablokované nebo tzv. „nevybrané“ stránky.
Pro větší weby se vyplatí nechat si napsat nástroj (robota, skript), který skutečně „proleze“ různými dotazy, co z vašeho webu vyhledávač zná a porovná výstup se seznamem skutečně existujících stránek. Sám nevím, jak přesně to technicky vykoumat, ale vím, že to jde a že existují šikovní kouzelníci, kteří to umí.
Nejde o penalizaci?
Důvodem, proč váš web není v indexu může být i tzv. „penalizace“. Situace, kdy vás vyhledávač sice v indexu měl, ale cíleně vás z nej v nějakém rozsahu dal pryč.Příčin může být celá řada – nebezpečný malware na webu (leckdy bez vašeho vědomí), nešetrná práce s odkazy nebo otevřená snaha s vyhledávači manipulovat.
V Google Webmaster Tools se můžete dozvědět o tzv. „ručních penalizacích„. Existují i algoritmické – algoritmické – penalizace, které lze vyčíst z různých dat. Pokud pozorujete náhlý dramatický propad viditelnosti webu a nejste si jistí, poraďte se s profíkem.
Pátrejte v Google Analytics
Další možností je zapátrat v datech o návštěvnosti webu. Můžete se například podívat, které stránky webu získávají z daného vyhledávače alespoň nějaké návštěvy z přirozených výsledků vyhledávání a odečíst je opět od seznamu všech existujících. Získáte potenciálně problémové stránky u kterých můžete zase po jednotlivých typech ověřit, zda je problém skutečně v indexaci nebo v tom, že prostě nejste dostatečně dobře vidět.
Jak indexaci řešit?
Dejte o problémových stránkách vědět
Zajistěte, aby o všech stránkách webu vyhledávače věděly. K tomu je potřeba:
- povolit indexaci: ujistěte se, že v instrukcích pro roboty není nedopatřením zákaz indexace (parametr „noindex“ respektive instrukce v robots.txt, aby vyhledávač stránku do indexu nezařadil)
- neházet vyhledávači klacky pod nohy – vyvarujte se přehršle parametrů v URL, používání hashtagu (#) v URL které chcete mít zaindexovány nebo nadbytečných nebo zmatečných přesměrování
- na stránku odkazujte alespoň z vlastního webu. Podle mých zkušeností nemusí stačit mít stránky v sitemapě (natož tak návštěvy z Chrome), je důležité na každou stránku alespoň 1x zevnitř webu odkázat
Zbavte se duplicit
Nezatěžujte vyhledávače snahou vnutit jim vícero stránek o tomtéž. Z každého webu jim pro nějaký dotaz bohatě stačí jedna dobrá odpověď. Zmapování webu by vám mělo pomoci odhalit, jestli někde nedopatřením nemáte nějaká témata pokrytá zbytečně vícekrát – pokud ano, zkonsolidujte svůj obsah.
Držte se pravidla Jedna stránka pro jeden dotaz (resp. skupinu velmi úzce souvisejících dotazů, synonym, opisů apod.).Duplicity také mohou vznikat kvůli nedostatkům technického řešení webu. Google Webmaster Tools nebo Screaming Frog vám pomůžou najít situace, kdy v různých dokumentech (stránky s odlišnými URL) máte tentýž obsah, nebo velmi podobný. Duplicity buď zredukujte, nebo si pomožte kanonizací. Snadno lze řešit i duplicity vzniklé stránkováním.
Podpořte autoritu stránky
Některé stránky webu mohou být tak hluboko vnořené nebo tak málo odkazované, že jsou zkrátka vnímány jako málo důležité. Pokud jsou si podobné s jinými stránkami, nebo je daného obsahu na internetu už hodně, nemusí do indexu prorazit.
Řešením je přidat stránce na důležitosti. Posuňte stránky (nebo jejich sekci) výše v hierarchii webu. Veďte na ně více vnitřních odkazů – ne nutně jen z hlavní navigace, ale i různých kontextových boxů, z textového obsahu příbuzných stránek, z pomocné navigace, z různých článků nebo blogu. Například parametrické stránky u e-shopů lze šikovně odkazovat z detailů produktů – dílčí vlastnosti zboží se stanou odkazem na odpovídající parametrickou stránku.
V problémové stránky se zaměřte při získávání externích odkazů, zmínek, lakjů a sdílení. Leckdy není potřeba upozornit na každou jednotlivou stránku, ale jen poposunout odpovídající sekci webu. Nedopusťte, aby z celého vašeho webu byla populární jen homepage – naopak, směřujte získané odkazy a zmínky do různých částí webu, do hloubky i šířky.
Zlepšete kvalitu obsahu stránky
Možná nejčastějším důvodem špatné indexace ve věku mantry „Obsah je král“ je to, že stránka nedostojí za to, aby v indexu byla. Určitě jste je viděli – stránky, které od pohledu vznikly jen proto, aby „pokryly nějaké klíčové slovo“, aniž by na nich byl nějaký unikátní, užitečný obsah. Jsou tam prostě jen pro SEO, podobná jedna druhé (a dalším obdobným na internetu) jako vejce vejci. To dá rozum, že o ně vyhledávače velký zájem nemají.Nesnažte se být za každou cenu odpovědí na vše, ale jen na to, na co umíte odpovědět skutečně dobře. Dodejte problémovým stránkám unikátní obsah, který jinde na internetu (ani vašem webu) není a zároveň má hlavu a patu. Nemyslím tím nutně SEO texty napěchované klíčovými slovy – ale třeba:
- skutečně hodnotné informace
- mikrodata ulehčující vyhledávači skutečné porozumění obsahu
- správně otaggané obrázky a videa
- užitečné odkazy na jiné stránky
- uživateli generovaný obsah – otázky, komentáře, recenze, hodnocení
Pokud to nepůjde, zamyslete se, jestli má smysl takovou stránku na webu skutečně mít.
Ne vždy to u velkého objemu stránek půjde „růčo“, kus po kusu. Dají se vymyslet ale i (polo)automatizovaná řešení, která návštěvníkovi sdělí relevantní informaci o stránce (kde je, co má dělat, kam pokračovat). Poraďte se s Martinem Matějkou, jak to šikovně řešil pro Smallcars.cz :-)
Nedělejte hlouposti
V každém případě nepanikařte a nesnažte se oheň uhasit olejem. Typickou chybou při řešení indexace jsou neuvážené zásahy do designu „jen kvůli SEO“, získávání tun mizerných externích odkazů narychlo nebo co hůř snaha si zrychlení indexace koupit nějakým pochybným SEO nástrojem (patičkou, výměnným systémem). To se týká hlavně nových webů, jejichž vlastníci chtějí být netrpělivě vidět hned a všude. Ano, některé berličky mohou pomoci (a nemusí) – velmi pravděpodobně si ale zaděláte na průšvih do budoucna.
Zrychlení indexace není něco, k čemu byste měli chtít vyhledávač zmanipulovat, ale něco, co byste si měli zasloužit. Přemýšlejte, jak u nového webu (nebo sekce) vyslat signál, že za rychlejší zaindexování stojí. Držte se doporučení Google a Seznamu. Šiřte stránky mezi svou cílovkou, využijte sociální sítě, komunitní weby a diskuze, oslovte média. Snažte se na nové stránky upozornit z více směrů bez kompromisů v kvalitě.
16.12.2013 napsal Lukáš Pítra
Díky za krásný článek Lukáši. Pouze bych doplnil ze zkušenosti:
– Sitemap v případě většího objemu dat, je dobré převádět do GNU Zipped format
– V případě kanonizace a odstraňování duplicit je dobré počítat s tím, že takové URL se v indexu neobjevují, proto pokud je takových stránek velká část, nedivte se, že počet zaindexovaných stránek neodpovídá reálně existujícím (i s duplicitními).
Perfektně napsáno. V poslední době mi přijde, že problém s indexací má smysl řešit jen u Seznamu. Googlu stačí předhodit xml a v krátké době indexuje 99% obsahu. U Seznamu se mi osvědčilo skriptem „pingnout“ přidávací formulář.
perfektní článek, díky za něj
Super článek! Díky za osvěžení :-)
Dobrý den, je to pro mě víc, než aktuální téma, proto děkuji za skvělý článek. Obecně mi tento typ informací na internetu chybí. Když člověk na začátku nevyužije služeb odborníka, či „odborníka“, tak vlastně neví kde začít.
Supr článek, chválím.