Kanonizace – řešení přirozených duplicit

Vlastimil Malík | 26. 11. 2015

Duplicity nejsou na internetu žádoucí. Zbytečně okupují internetový prostor, pro uživatele jsou obtěžující, pro vyhledávače nežádoucí. Nejenom z hlediska SEO se proto vyplatí duplicitám, tedy jakémukoliv kopírování obsahu, vyhnout.

Duplicity nejsou na internetu žádoucí. Zbytečně okupují internetový prostor, pro uživatele jsou obtěžující, pro vyhledávače nežádoucí. Nejenom z hlediska SEO se proto vyplatí duplicitám, tedy jakémukoliv kopírování obsahu, vyhnout.

V praxi se však duplicity zcela eliminovat nedají. Vedle nepřirozených duplicit, které vznikly záměrně kopírováním, totiž existují i tzv. přirozené duplicity.

Přirozené duplicity

Přirozené duplicity představují webové stránky s různými url adresami, avšak téměř totožným obsahem. Nevznikly přitom s cílem kopírovat stránky. Často je vytváří přímo redakční systém daného webu nebo eshopu.

V eshopech se lze běžně setkat s několika téměř identickými stranami, které popisují tentýž produkt pouze v různých variantách, například se mění jen barva daného produktu. V případě služeb může jít o popis totožného vzdělávacího kurzu, s různými termíny konání.

Přirozené duplicity často vytváří i produkt nebo článek, který je zařazen v několika kategoriích. Setkáváme se s nimi také při vyhledávání nebo u různých typů řazení. Například stejné diskuzní vlákno se jednou řadí podle data, podruhé podle uživatele nebo tématu.

rel="canonical"

Soubor algoritmů vyhledávačů, který přirozené duplicity řeší, se obecně označuje jako kanonizace. Ten všechny webové strany s téměř identickým obsahem řadí do tzv. kanonické množiny a vybírá z nich jednoho zástupce, který se bude zobrazovat ve výsledcích vyhledávání.

Kanonickou množinu, hlavní kanonickou stránku i všechny její verze, lze definovat v hlavičce html stránky pomocí prvku

s atributem rel="canonical".

Takový zápis v hlavičce html stránky je pro vyhledávač informací o tom, že jde o webovou stránku z kanonické množiny.
Prostřednictvím parametru href je také přesně definováno, která stránka z kanonické množiny je nejdůležitější. Je zástupcem kanonické množiny (označuje se jednoduše také jako „kanonická stránka“).

Vyhledávač uživateli předkládá vždy jenom jednu stránku z kanonické množiny, právě tu definovanou v atributu rel="canonical" parametrem href. Tato stránka také přebírá od ostatních kanonických stránek hodnocení (dochází ke sčítání ranku).

Nemusí přitom jít pouze o stránky s totožnou doménou, kanonizace funguje i napříč doménami. Tag rel="canonical" však vyhledávač bere v potaz pouze v případě, že obsah stránky obsahující tento tag a stránky, na kterou tag linkuje, jsou úplně nebo částečně identické.

Cílem kanonizace je zpřehlednit přirozené duplicitní stránky a definovat jejich strukturu.

V počátcích tag registroval pouze vyhledávač Google, již v roce 2011 ho začal zohledňovat i český vyhledávač Seznam a dnes s ním bez obtíží pracuje. Přesto mnoho webových stránek dosud stále nepoužívá kanonické url nebo tag rel="canonical" umísťuje špatně.

I v roce 2015 patří kanonizace údajně k těm nejčastějším problematickým místům webů. A tak se vyplatí užívání tagu rel="canonical" revidovat.

Máte kanonické množiny definovány správně? Odkazujete v tagu rel="canonical" skutečně na zástupce celé kanonické množiny? Máte tag u všech duplicitních url?

Tři tipy pro kanonizaci

Označení kanonických stránek není nutností, avšak sám Google doporučuje definovat hlavní kanonickou url. Jinak ji vyhledávač vybírá dle svého uvážení.
Pro jednu webovou stránku nikdy neuvádějte několik různých kanonických url adres (např. jednu pomocí atributu rel="canonical" a současně jinou v souboru Sitemap).
Ke kanonizaci nepoužívejte soubor robots.txt ani nástroj na odstranění url adres. Ten z vyhledávání odstraní všechny verze dané webové stránky.
Kanonizace není přesměrování

Za přirozené duplicity jsou považovány i www aliasy, tedy např.:

Dalším případem jsou i duplicity typu:

Jde o cesty, jak se dostat na jednu a tutéž webovou stranu. V tomto případě není vhodným řešením použitím atributu rel="canonical", avšak přesměrování [permanent redirect] R 301.

Ze všech kanonických url adres vybereme jednu hlavní. Provoz z dalších adres na ni přesměrujeme na straně serveru permanentním redirectem 301. Ten značí, že daná stránka byla natrvalo přemístěna jinam.

Autor: Ing. Radka Křivánková a kolektiv