Tajemství algoritmů internetových vyhledávačů

Vlastimil Malík | 5. 5. 2023

Jak fungují moderní vyhledávače? Přečtěte si o čtyřech základních fázích vyhledávání a jak je využít v SEO.

Současné vyhledávače využívají technicky pokročilé algoritmy, aby zajistily, že výsledky vyhledávání budou maximálně relevantní. Pro odborníky na SEO je klíčové, aby chápali, jak moderní vyhledávače fungují, a aby znali rozdíly mezi crawlingem, renderováním, indexací a rankingem. Někteří odborníci v této oblasti tápou a jednotlivé fáze vyhledávání zaměňují.

Čtyři fáze vyhledávání

Na zobrazení obsahu webu ve výsledcích vyhledávání se podílí mnoho různých procesů. Říci, že existují jen několik samostatných fází, je v podstatě velmi zjednodušené. Každá ze čtyř fází, o nichž se v tomto článku dozvíte, zahrnuje několik dalších podprocesů, které v dané fázi probíhají. Nicméně my se nyní zaměříme na čtyři konkrétní fáze:

Crawling – proces shromažďování informací o stránkách pomocí crawlerů neboli prohledávacích botů.
Renderování – proces načtení zdrojového kódu webové stránky a zobrazení zformátovaného obsahu do okna webového prohlížeče, tedy takzvané vykreslení.
Indexace – proces, při kterém crawler vyhledávače jednotlivé stránky webu hodnotí a ukládá si je do své databáze neboli indexu. Následně je ve formě výsledků vyhledávání zobrazuje uživatelům, kteří zadali vyhledávací dotaz.
Ranking – hodnocení webových stránek s cílem stanovit pozici zobrazení webové stránky ve výsledcích organického vyhledávání

Pojďme se na tyto čtyři důležité fáze, které jsou důležité pro úspěšné SEO, podívat podrobněji.

CRAWLING

Enginy vyhledávačů navštěvují webové stránky podobně jako uživatelé. Pokaždé, když vyhledávač navštíví webovou stránku, pořídí kopii této stránky a zaznamená všechny odkazy, které se na ní nacházejí. Poté, co vyhledávač shromáždí danou webovou stránku, navštíví další odkaz v seznamu odkazů, které je třeba ještě navštívit.

Tento postup se označuje jako „prohledávání“ nebo „procházení“, někdy se také můžeme setkat s názvem „pavoukování“ (angl. spidering). Toto pojmenování je velmi výstižné, protože web je ve skutečnosti rozsáhlá virtuální síť vzájemně propojených odkazů.

Programům vyhledávače, které provádějí sběr informací o stránkách, se říká „crawlery“, „pavouci“ nebo také „roboty“ či zkráceně „boty“. Prohledávacích programů je celá řada, například Google jich používá rovnou několik. Pozadu nejsou ani jiné vyhledávače, v čele se Seznamem. Primárním procházecím programem společnosti Google je Googlebot. Existují také další specializované roboty pro návštěvu reklam (GoogleAdsBot a AdIdxBot), mobilních stránek a další.

Tento proces vypadá jednoduše, nicméně je velmi složitý. Boty neustále prohledávají miliardy stránek. Je potřeba uvědomit si, kolik může existovat webových serverů, na kterých běží různé operační systémy různých verzí společně s různými systémy pro správu obsahu (tj. WordPress, Wix, Squarespace). Plus je nutno mít na paměti také jedinečné úpravy každého webu.

Vyhledávač musí nejdříve v určitém okamžiku najít odkaz na stránku. Vyhledávače mohou odkazy na webové stránky zjistit různými způsoby:

Když provozovatel webových stránek prezentuje odkaz přímo nebo zveřejní mapu stránek vyhledávači.
Když na stránku odkazují jiné webové stránky.
Prostřednictvím odkazů na stránku z vlastních webových stránek.
Příspěvky v sociálních médiích.
Odkazy nalezené v dokumentech.
Adresy URL nalezené v psaném textu, které nejsou hypertextovými odkazy.
Prostřednictvím metadat různých druhů souborů.

Soubor robots.txt

Webové stránky mohou prostřednictvím souboru robots.txt, který se nachází na základní úrovni domény a webového serveru, usměrnit crawlery, tj. nařídit jim, které webové stránky mají, nebo naopak nemají procházet. Když se crawler dostane na webovou stránku, hledá soubor robots.txt, který by se měl nacházet v kořenovém adresáři webové stránky. Pokud soubor robots.txt není vytvořený, případně není uložen v kořenovém adresáři, crawler má automaticky přístup k procházení všech podstránek.

Problémy při procházení webových stránek

Když webové stránky zabrání crawlerům v procházení určitých stránek nebo části webu, může to mít vážný dopad na schopnost webových stránek dobře se umístit na SERP.

Kromě toho mohou mít vyhledávače potíže s procházením webu, pokud dané webové stránky crawlery automaticky blokují. K tomu může dojít, když systémy webu zjistí, že bot si vyžádá za určitý časový úsek více stránek, než by dokázal člověk, případně požaduje více stránek současně, nebo když bot svými požadavky zahlcuje zdroje serveru, což má za následek zpomalení nebo chyby při zobrazování stránek atd. Avšak crawlery vyhledávačů jsou naprogramovány tak, aby automaticky měnily prodlevy mezi požadavky, když zjistí, že server nestíhá uspokojovat poptávku.

RENDEROVÁNÍ

Poté, co vyhledávač prohledá nějakou webovou stránku, ji následně „vykreslí“. To znamená, že z informací HTML, JavaScriptu a kaskádových stylů (CSS) vygeneruje, jak se stránka bude zobrazovat uživatelům PC anebo mobilních zařízení. Vyhledávače obvykle považují vykreslování za dílčí krok, který spadá do fáze crawlingu, tedy procházení. V tomto článku je renderování uváděno jako samostatný krok procesu, protože načtení webové stránky a následné zpracování obsahu s cílem pochopit, jak by se zobrazil složený v prohlížeči, představují dva odlišné procesy.

Dopad renderování na SEO

Vykreslování se stává problémem v oblasti SEO hlavně u webových stránek, jejichž klíčové části obsahu jsou závislé na JavaScriptu nebo AJAXu. Google spustí JavaScript, aby viděl veškerý obsah stránky. Složitější konstrukce JavaScriptu mohou být pro vyhledávače náročné, případně až neviditelné.

Existují i další podmínky, které mohou mít negativní vliv na vykreslování. Jedná se například o situace, kdy crawlery vyhledávačů nemají přístup k jednomu nebo několika souborům JavaScript nebo CSS, protože patří mezi soubory zakázané souborem robots.txt.

A zatřetí se mohou nedostatečně nebo chybně vykreslit stránky, které podmíněně poskytují některé klíčové prvky na základě souborů cookie.

INDEXACE

Po procházení a vykreslení webové stránky provedou vyhledávače další zpracování, v jehož rámci stanoví, zda daná stránka bude, či nebude uložena do databáze, tedy indexu. Index vyhledávače má podobnou podstatu jako rejstřík pojmů uvedený na konci knihy.

Index vyhledávače obsahuje široké spektrum jednotlivých klíčových slov a sekvencí klíčových slov, které souvisejí se seznamem webových stránek, na nichž se daná klíčová slova vyskytují.

Proč je indexace důležitá?

Když uživatel na internetu zadá prostřednictvím vyhledávače hledání nějakého pojmu, vyhledávač nezačne prohledávat celý internet. Nejdříve nahlédne do své vlastní databáze a na základě jejího obsahu pak uživateli nabídne relevantní výsledky odpovídající jeho dotazu. Z toho vyplývá, že nabízené stránky musí být uloženy v indexu vyhledávače. Pokud tam nejsou, pak se uživateli nezobrazí.

V jakých případech neproběhne indexace?

Do indexu vyhledávání se nedostanou zdaleka všechny procházené stránky. Například pokud crawler narazí na meta tag robots s hodnotou noindex, ukončí renderování stránky a danou webovou stránku do indexu nezařadí.

Podobně může být v hlavičce webové stránky značka X-Robots-Tag informující crawler vyhledávače, že má zakázáno indexování dané URL adresy.

V dalších případech zase může kanonická značka webové stránky informovat crawler vyhledávače, že za hlavní verzi stránky má být považována jiná stránka, než je ta aktuální. V podstatě jde o fragment kódu HTML, který definuje hlavní verzi pro duplicitní, téměř duplicitní a podobné stránky.

Google může také vyřadit ze svého indexu webové stránky s nízkou kvalitou, která může být důsledkem duplicitního obsahu, řídkého obsahu nebo velkého množství irelevantního obsahu.

Také příliš nízký rozpočet na procházení může vést k tomu, že webové stránky nebudou indexovány všechny.

RANKING

Ranking je systém hodnocení webových stránek, který vyhledávače zavedly s cílem ohodnotit relevanci, důležitost a důvěryhodnost webu. Jakmile má vyhledávač k dispozici seznam všech webových stránek spojených s určitým klíčovým slovem nebo frází, přikročí k dalšímu kroku, kterým je seřazení stránek při vyhledávání daného klíčového slova.

Co má vliv na ranking webových stránek?

Pozice webové stránky ve výsledcích vyhledávání je ovlivňována celou řadou faktorů. Společnost Google uvedla, že její algoritmus řazení využívá více než 200 faktorů hodnocení.

Google využívá k hodnocení takzvaný PageRank (PR). Tento systém hodnotí věrohodnost a důležitost webové stránky a posuzuje „hodnotu“ webové stránky na základě množství a kvality jiných stránek, které na ni odkazují. Systém nabízí hodnocení na stupnici 0 až 10. Vyhledávač Seznam má podobný algoritmus – nazývá se S-rank. Dříve se počítal ve škále 0 až 100, dnes se rovněž zaokrouhluje na celá čísla ve škále 0 až 10.

Ranking lze zlepšit vytvářením informačně bohatého, v ideálním případě unikátního obsahu, odkazováním na kvalitní webové stránky a vytvářením kvalitních zpětných odkazů.

Slovo na závěr

Vyhledávače neustále upravují a zdokonalují své algoritmy. Úspěch tedy není nikdy zaručen. Nicméně dobrá znalost a porozumění klíčovým fázím vyhledávání může odborníkům na SEO pomoci eliminovat potenciální problémy a výrazně zlepšit pozici webových stránek ve výsledcích organického vyhledávání.

Zdroj: marketingland.com, facebook.com, cpcstrategy.com

Autor: Vlastimil Malík

Foto zdroj: pixabay.com