Proč jsou logy ze serveru důležité pro SEO?

Vlastimil Malík | 20. 5. 2022

Analýza logů ze serveru může poskytnout bezkonkurenční přehled o prioritách procházení webu. Jak na to?

Co v článku najdete

Proč jsou server logy důležité?
Jaká cenná data server logy obsahují?
Jak používat server logy?
Kde začít?

Většina provozovatelů webových stránek si neuvědomuje důležitost server logů. Nezaznamenávají tak, ani neanalyzují logy ze serveru svých webových stránek. Zejména velké značky nedokáží vydělat na analýze logů ze serveru a nenávratně ztrácejí nezaznamenaná data ze server logů.

Organizace, které se rozhodnou zaměřit na analýzu logů ze serverů jako součást svého trvalého úsilí o lepší a efektivnější SEO, často vynikají ve vyhledávání na Googlu. Pokud váš web obsahuje 100 000 nebo více stránek a chcete zjistit, jak a proč server logy představují obrovskou příležitost k růstu, pokračujte ve čtení.

Proč jsou server logy důležité?

Pokaždé, když robot požaduje adresu URL hostovanou na webovém serveru, automaticky se vytvoří záznam záznamu odrážející informace vyměňované v procesu procházení vašeho webu. Při pokrytí delšího časového období se protokoly serveru stanou reprezentativními pro historii přijatých požadavků a vrácených odpovědí.

►Informace uchovávané v server logu obvykle zahrnují IP adresu klienta, datum a čas požadavku, požadovanou adresu URL stránky, kód odpovědi HTTP, objem obsluhovaných bajtů a také uživatelského agenta prohlížeče a referer.

Jaká cenná data server logy obsahují?

Pokaždé, když robot požádá o stránku hostovanou na serveru, vytvoří se instance protokolu, která zaznamená řadu datových bodů, včetně následujících:

IP adresa žádajícího klienta
Přesný čas požadavku, často na základě interních hodin serveru
Požadovaná adresa URL
Http protokol, který byl použit při požadavku na server
Vrácený kód stavu odpovědi (např. 200, 301, 404, 500 nebo jiný)
Řetězec uživatelského agenta od žádající entity (např. název robota vyhledávače jako Googlebot/2.1).

Typický ukázkový záznam protokolu serveru může vypadat takto:

150.174.193.196 - - [15/Dec/2021:11:25:14 +0100] "GET /index.html HTTP/1.0" 200 1050 "-" "Googlebot/2.1 (+https://www.google.com /bot.html)" www.example.ai

V tomto příkladu:

150.174.193.196 je IP žádajícího subjektu.
[15/Dec/2021:11:25:14 +0100] je časové pásmo i čas požadavku.
"GET /index.html HTTP/1.0" je použitá metoda HTTP (GET), požadovaný soubor (index.html) a použitá verze protokolu HTTP
200 je vrácená odpověď na stavový kód HTTP serveru
1050 je velikost bajtů odpovědi serveru
„Googlebot/2.1 (+http://www.google.com/bot.html)“ je uživatelským agentem žádajícího subjektu
„www.example.ai“ je odkazující adresa URL

success

Jak používat server logy?

Z pohledu SEO existují tři hlavní důvody, proč protokoly webového serveru poskytují bezkonkurenční statistiky:

Server logy pomáhají odfiltrovat nežádoucí provoz botů, které pro SEO nemají žádný význam, od žádoucích a legitimních botů, jako jsou Googlebot, Bingbot nebo YandexBot. Další výhodou server logů je poskytování SEO přehledů o prioritách procházení, které SEO týmu umožňují proaktivně vyladit a doladit správu rozpočtu procházení. Dále umožňují sledování a poskytování záznamů o odpovědích serveru odeslaných vyhledávačům.

Falešní vyhledávací roboti mohou být na obtíž, ale jen výjimečně ovlivňují webové stránky. Existuje řada specializovaných poskytovatelů služeb, jako je Cloudflare a AWS Shield, kteří mohou pomoci při řízení nežádoucího provozu botů. V procesu analýzy protokolů webových serverů mají falešní roboti vyhledávačů tendenci hrát podřízenou roli.

►Aby bylo možné přesně odhadnout, které části webu jsou upřednostňovány, musí být při provádění analýzy protokolu filtrován provoz robotů. V závislosti na cílených trzích se lze zaměřit na roboty vyhledávačů, jako jsou Google, Apple, Bing, Yandex nebo další.

Zatímco Google má tendenci procházet všechny dostupné informace a pravidelně znovu procházet již známé vzory adres URL, jeho zdroje pro procházení nejsou neomezené. To je důvod, proč u velkých webových stránek se stovkami tisíc vstupních stránek závisí cykly opětovného procházení na algoritmech pro přidělování priorit procházení společnosti Google.

Tuto alokaci lze pozitivně stimulovat pomocí spolehlivých a vysoce citlivých webových služeb optimalizovaných speciálně pro rychlý provoz. Tyto kroky samy o sobě vedou k lepšímu SEO. Pouze analýzou úplných server logů, které pokrývají delší časové období, je však možné určit míru překrývání mezi celkovým objemem všech vstupních stránek, které lze procházet, obvykle menším počtem relevantních, optimalizovaných a indexovatelných vstupních stránek zastoupených v sitemapě a tím, co Google pravidelně upřednostňuje při procházení, indexování a hodnocení.

Taková analýza logů je nedílnou součástí technického SEO auditu a je jedinou metodou, jak odhalit míru plýtvání rozpočtem. Analýza server logů navíc nabízí kritické SEO statistiky pro velké weby. Může poskytnout odpověď na to, jakou dobu potřebuje Google k opětovnému procházení celého webu. Pokud je tato odpověď dlouhá – měsíce nebo déle – může být opodstatněná akce, která zajistí procházení indexovatelných vstupních stránek. V opačném případě existuje velké riziko, že jakékoli vylepšení SEO na webu zůstane bez povšimnutí vyhledávačů po dobu měsíců po vydání.

Odezvy serveru jsou zásadní pro dobrou viditelnost webu ve vyhledávání na Googlu. Přestože Google Search Console nabízí důležitý pohled na nedávné odpovědi serveru, jakákoli data, která Google Search Console nabízí provozovatelům webových stránek, musí být považována za reprezentativní, ale zároveň omezený vzorek.

Ačkoli to může být užitečné k identifikaci závažných problémů, pomocí analýzy server logů je možné analyzovat a identifikovat všechny odpovědi HTTP, včetně všech kvantitativně relevantních odpovědí jiných než 200 OK, které mohou ohrozit hodnocení. Možné alternativní reakce mohou naznačovat problémy s výkonem (např. plánovaná odstávka 503 Service Unavailable), pokud jsou nadměrné.

Kde začít?

Navzdory potenciálu, který analýza server logů nabízí, většina provozovatelů webových stránek dané příležitosti nevyužívá. Server logy se buď vůbec nezaznamenávají, nebo se pravidelně přepisují, nebo jsou dokonce neúplné. Převážná většina webových stránek neuchovává data server logů po žádnou smysluplnou dobu. To je dobrá zpráva pro všechny SEO specialisty, kteří jsou ochotni na rozdíl od svých konkurentů shromažďovat a využívat soubory server logů pro optimalizaci pro vyhledávače.

Při plánování shromažďování dat server logů je vhodné poznamenat, která datová pole musí být minimálně zachována v souborech protokolu serveru, aby byla data použitelná. Následující seznam lze považovat za vodítko:

vzdálená IP adresa žádající entity
řetězec uživatelského agenta žádající entity
schéma požadavku (např. byl požadavek HTTP na http nebo https nebo wss nebo něco jiného)
název hostitele požadavku (např. pro kterou subdoménu nebo doménu byl požadavek HTTP)
cesta požadavku, často je to cesta k souboru na serveru jako relativní URL
parametry požadavku, které mohou být součástí cesty požadavku
čas požadavku, včetně data, času a časového pásma
způsob požadavku
http stavový kód
čas odezvy

Při shromažďování souborů protokolů serveru je také důležité zahrnout protokoly pocházející z CDN a dalších služeb třetích stran, které web může používat. Informujte se u těchto služeb třetích stran o tom, jak pravidelně extrahovat a ukládat soubory logů.

Proti naléhavé potřebě uchovávat data ze server logů se často kladou dvě hlavní překážky: náklady a právní obavy. Zatímco oba faktory jsou nakonec určeny individuálními okolnostmi, jako je rozpočet a právní jurisdikce, ani jeden z nich nemusí představovat vážnou překážku.

Zdroj: marketingland.com, facebook.com, cpcstrategy.com

Autor: Vlastimil Malík

Foto zdroj: pixabay.com