Jak mění Google přístup k obsahu AI

Vlastimil Malík | 22. 2. 2024

Podívejme se na šíření obsahu generovaného umělou inteligencí, jeho dopad na budoucnost v boji proti spamu a na kvalitu vyhledávání.

Spamování ve hře

Masově produkovaný obsah generovaný umělou inteligencí Googlu značně ztěžuje odhalování spamu. A obsah generovaný umělou inteligencí také znesnadňuje posouzení toho, co je pro Google kvalitní obsah. Proto se nyní snaží zlepšovat svou schopnost algoritmicky identifikovat obsah umělé inteligence s nízkou kvalitou.

Spamový obsah AI na celém webu

Určitě nemusíte být špičkový SEO specialista, abyste si všimli, že generativní obsah vytvořený umělou inteligencí si za uplynulý rok našel cestu do výsledků vyhledávání Google. Během této doby musela společnost vyvinout opravdu velké úsilí k tomu, aby vytvořila vhodný postoj k obsahu vytvořenému právě umělou inteligencí. Oficiální stanovisko se přesunulo z: „Jedná se o spam a porušuje naše pokyny“ na „Zaměřujeme se na kvalitu obsahu než na to, jak je obsah vytvořený“.

Jsme přesvědčeni, že prohlášení společnosti Google o zaměření na kvalitu se dostalo do mnoha interních balíčků SEO představujících strategii obsahu generovanou umělou inteligencí. Postoj společnosti Google bezpochyby poskytl hodně prostoru k tomu, aby v mnoha organizacích získal souhlas vedení. A jaký je výsledek? Web je zaplavován spoustou nekvalitního textu vytvořeného umělou inteligencí. A některé z těchto textů se zpočátku dostaly do výsledků vyhledávání společnosti.

Neviditelné harampádí

Část webu, kterou se vyhledávače rozhodnou indexovat a zobrazovat ve výsledcích vyhledávání, se označuje jako „viditelný web“.

A podle aktuálních informací o tom, jak Google funguje, víme, že spravuje index asi 400 miliard dokumentů. Google během procházení najde biliony dokumentů. To znamená, že Google indexuje jen asi 4 % dokumentů, na které narazí při procházení webu (400 miliard/10 bilionů).

Google říká, že chrání hledající před spamem v 99 % kliknutí na dotaz. Pokud se na to podíváme realisticky a toto tvrzení je, byť jen vzdáleně, přesné, odstraňuje to většinu obsahu, který nestojí za to vidět.

Obsah je král – a algoritmus je císařovo nové oblečení

Google je přesvědčen o tom, že je při určování kvality obsahu dobrý. Ale mnoho SEO specialistů a zkušených správců webových stránek nesouhlasí. Většina z nich má příklady, které poukazují na to, že horší obsah převyšuje nadřazený obsah.

Jakákoli renomovaná společnost investující do kvalitního obsahu se pravděpodobně zařadí mezi top pár procent kvalitního obsahu na webu. Pravděpodobně tam bude i konkurence. Google totiž vyřadil mnoho menších kandidátů ze zařazení.

Z pohledu Googlu odvedl Google skvělou práci. Neuvěřitelných 96 % dokumentů se do indexu nedostalo. Některé problémy jsou lidem jasné, ale stroj je jen obtížně rozpozná. V praxi jsme se už setkali s příklady, které vedly k závěru, že Google je zběhlý v chápání toho, které stránky jsou „dobré“ a které „špatné“ z technického hlediska, ale neefektivní při rozlišování dobrého obsahu od toho skvělého.

Google se při posuzování kvality obsahu spoléhá na interakce uživatelů se SERP

Google se spoléhal na interakce uživatelů ze SERP, aby pochopil, jak kvalitní je obsah dokumentů. Vysvětluje, že „každý hledající těží z odpovědí minulých uživatelů a přispívá odpověďmi, které jsou přínosem pro další uživatele“.

Údaje o indexaci, které Google používá k posuzování kvality, se staly žhavým diskutovaným tématem. Google je poměrně transparentní v tom, že používá údaje o kliknutích k hodnocení webu. Proto věříme, že Google používá k rozhodování o kvalitě obsahu interakce téměř výhradně informace z jejich SERP, nikoli z webových stránek. Tím se vylučují metriky měřené webem, jako je míra okamžitého opuštění.

Se zajímavou informací přišel inženýr společnosti Google Paul Haahr, který na SMX West v roce 2016 představil „How Google Works: A Google Ranking Engineer's Story“. Haahr zde hovořil o SERP společnosti Google a o tom, jak vyhledávač „hledá změny ve vzorcích kliknutí“. Dodal, že tato uživatelská data jsou „hůře pochopitelná, než byste čekali“. Haahrův komentář je ještě posílen v prezentačním snímku „Ranking for Research“, který je součástí exponátů DOJ:

Schopnost Googlu interpretovat uživatelská data a přeměnit je v něco použitelného závisí na pochopení příčiny a následku mezi proměnnými a jejich souvisejícími výsledky. SERP je jediným místem, které Google může použít k pochopení toho, které proměnné jsou přítomny. Interakce na webových stránkách představují velké množství proměnných, které Google už nevidí.
I kdyby se stalo, že by Google dokázal identifikovat a kvantifikovat interakce s internetových stránkami (což by bylo zřejmě obtížnější než posouzení kvality obsahu), došlo by k dominovému efektu s exponenciálním růstem různých souborů proměnných. Z toho každá vyžaduje prahové hodnoty návštěvnosti.
Google ve svých dokumentech přiznává, že „rostoucí složitost uživatelského prostředí činí zpětnou vazbu pozvolna obtížně přeměnitelnou na konkrétní posouzení hodnoty“, když odkazuje na SERP.

Značky a odpad

Google říká, že dialog mezi uživateli a SERP je „zdrojem magie“ v tom, jak se mu daří „falšovat“ porozumění dokumentů. Tady je krásně vidět, jak Google používá interakci uživatele v hodnocení.

Co je pro nás obzvláště zajímavé, je „Skóre kvality webu“, které se zabývá vztahy jako:

Když se zdá, že uživatelé vybírají konkrétní výsledek v rámci SERP.
Když hledající zahrne do svého dotazy výrazy týkající se navigace nebo značky. Nebo když je weby zahrnou do svých ukotvení. Například ukotvení odkazu nebo vyhledávací dotaz pro „SEO news searchengineland“ spíše než „SEO news“.

Tyto signály nám mohou naznačovat, že webová stránka je skvěle relevantní odpovědí na dotaz. Tato metoda posuzování kvality je v souladu s výrokem Erica Schmidta z Googlu. Ten říká, že „značky jsou řešením.“ Toto tvrzení dává smysl u studií, které ukazují, že uživatelé mají silný sklon ke značkám.

Například, když byli podle RED. C průzkumu dotázaní požádáni, aby provedli výzkumný úkol, jako je nákup společenských šatů nebo hledání dovolené na výletní lodi. Celkem 82 % účastníků si vybralo značku, kterou znají. A to bez ohledu na to, kde se umístila v SERP. Vytváření značek a jejich stažení z trhu je nákladné. Dává smysl, že by na ně při hodnocení výsledků vyhledávání Google spoléhal.

Co považuje Google za AI spam?

Letos Google zveřejnil pokyny k obsahu vytvořenému umělou inteligencí, odkazující na její zásady týkající se spamu a přímo definuje obsah, který je určen pro manipulaci s výsledky vyhledávání.

Podle definice Google je spam „textem generovaným automatizovanými procesy bez ohledu na uživatelský dojem nebo kvalitu“. Chápeme to tak, že kdokoli používá systém AI k vytváření obsahu bez lidského procesu kontroly kvality.

Samozřejmě by mohly nastat případy, kdy je systém generativní umělé inteligence trénován na soukromých či proprietárních datech. Mohl by být nakonfigurován tak, aby měl determinističtější výstup pro snížení chyb.

Vše ostatní budeme nazývat „spam“

Tento vygenerovaný druh spamu býval vyhrazen pro ty, kteří měli schopnost vytvářet databáze pro madLibbing, sbírat data nebo používat PHP ke generování textu pomocí Markovových řetězců. ChatGPT zpřístupnil spam pomocí několika výzev a snadného rozhraní API a špatně vynucených publikačních zásad OpenAi, který uvádí:

„Role umělé inteligence je při formulování obsahu jasně odhalena způsobem, který by žádný čtenář nemohl přehlédnout, a který by typický čtenář považoval za dostatečně snadno pochopitelný. Objem obsahu generovaného umělou inteligencí publikovaný na webových stránkách je obrovský. Vyhledávání Google pro „regenerate response-chatgpt-results“ zobrazuje desítky tisíc stránek s obsahem umělé inteligence generovaným „ručně“, tedy bez použití umělé inteligence. V mnoha případech bylo QA tak špatnými autory, kteří zůstali v „regenerované odpovědi“ ze starších verzí ChatGPT během jejich vkládání a kopírování.

Vzorce spamu s obsahem AI

Když zasáhl GPT-3, chtěli jsme vidět, jak bude Google reagovat na neupravený obsah generovaný umělou inteligencí. Tak jsme založili svůj vlastní testovací web.

Udělali jsme následující:

Koupili jste si novou doménu a nastavili základní instalaci WordPressu.
Vzali jsme 10 000 nejlepších her, které se prodávaly na Steamu.
Zavedli jsme tyto hry do rozhraní AlsoAsked API, abychom dostali otázky, které jsou jim přiřazeny.
Použili jsme GPT-3 k vygenerování odpovědí na tyto otázky.
Následně jsme vygenerovali schéma FAQPage pro každou otázku a odpověď.
Odstranili jsme adresu URL videa YouTube o hře, které jsme chtěli vložit na stránku.
Pomocí WordPress API jsme vytvořili stránku pro každou hru.

Na webu nebyly žádné reklamy ani jiné funkce zpeněžení.

Celý proces trval několik hodin a měli jsme nový 10000stránkový web s nějakým obsahem obrázků a odpovědí o oblíbených videohrách.

Zajímavé bylo, že Google i Bing vzaly celý obsah a během tří měsíců indexovaly většinu stránek. Na svém vrcholu dosahoval Google více než 100 kliknutí za den a Bing ještě více.

A jaké byly celkové výsledky testu?

Asi po 4 měsících se Google rozhodl nehodnotit některý obsah, což vedlo k 25% zásahu v návštěvnosti.
O měsíc později Google přestal posílat provoz.
Bing po celou dobu odesílal provoz.

Co je na celé věci nejzajímavější?

Je pravděpodobné, že Google neprovedl ruční zásah. V Google Search Console nebyla žádná zpráva a dvoufázové snížení návštěvnosti v nás vyvolalo skepsi, že došlo k nějakému ručnímu zásahu.

Tento vzor jsme pozorovali opakovaně s čistým obsahem AI:

Google stránky indexuje.
Provoz je poskytován rychle se stálými zisky týden po týdnu.
Provoz pak vrcholí, po čemž následuje rychlý spád.

Dalším ukázkovým příkladem na příklad Casual.app. V této „SEO loupeži“ byla mapa stránek konkurence odstraněna a pomocí AI bylo vygenerování přes 1 800 článků. Provoz probíhal podle stejného vzoru. Několik měsíců stoupal. Pak přišlo pozastavení a následoval pokles o přibližně 25 %. A co následovalo? Nehoda, která vyřadila skoro celý provoz. Co se komunity SEO týče, existuje tu určitá diskuze o tom, zda tento pokles nebyl manuálním zásahem kvůli veškerému pokrytí zisku, které se mu dostalo. Věříme, že algoritmus fungoval.

Ještě možná zajímavější studie se týkala článků LinkedIn o „spolupráci“ AI. Tyto články vygenerované umělou inteligencí vytvořené LinkedInem vyzývaly uživatele ke spolupráci při opravách, doplňcích a ověřování faktu. Odměňovali se nejlepší přispěvatelé odkazem LinkedInu za jejich úsilí. Stejně jako ve výše zmíněných případech, tok nových příchozích vzrostl a následně klesl. LinkedIn však udržoval určitou návštěvnost. Údaje naznačují, že kolísání provozu bylo způsobeno spíše algoritmem než ruční akcí. Když přišla úprava člověkem, některé články založené na spolupráci na LinkedInu zjevně splňovaly definici užitečného obsahu. Ostatní podle odhadů Googlu tyto definice nesplňovaly. Možná to má Google v tomto případě správně.

Pokud je to spam, proč se vůbec hodnotí?

Hodnocení je pro Google vícestupňový proces. Čas, omezení přístupu k datům a náklady brání implementaci složitějších systémů. Samozřejmě, že se posuzování dokumentů nikdy nezastaví. To je důvod, proč se vzor opakuje. Obsah projde nejdříve počátečním „sniffovým testem“, aby byl později identifikován.

Podívat se můžeme na některé důkazy pro toto tvrzení. Před chvílí jsme se podívali na patent společnosti Google „Kvalita stránek“ a na to, jak využívá údaje o interakci uživatelů ke generování skóre pro hodnocení.

V situaci, kdy je web úplně nový, uživatelé neinteragovali s obsahem na SERP. Google proto nemá přístup ke kvalitě obsahu. Tuto situaci však pokrývá další chytrý patent, a to Predicting Site Quality. Pro zjednodušení: pro nové internetové stránky se skóre kvality předpovídá nejprve získáním relativní frekvence pro každou z různých frázích nalezených na novém webu. Tyto míry jsou pak mapovány podle dříve vygenerovaného frázového modelu sestaveného ze skóre kvality vytvořených z dříve hodnocených stránek.

Pokud by Google stále používal tuto taktiku, znamenalo by to, že by bylo hodně nových internetových stránek hodnoceno na základě „prvního odhadu“ s metrikou kvality zahrnutou v algoritmu. Později se hodnocení upřesňuje na základě údajů o interakci uživatelů. V praxi jsme si všimli, že Google mnohdy zvyšuje hodnocení webů na to, co se zdá být „testovacím obdobím“.

Naší teorií bylo, že tou dobou probíhalo měření, aby se zjistilo, zda chování uživatelů odpovídá předpovědi Googlu. Pokud ne, návštěvnost klesala stejně rychle, jako stoupala. Ve chvíli, kdy vše fungovalo správně, pokračovalo se ve zdravé pozici na SERP.

Hodně patentů Google obsahuje odkazy na „implicitní zpětnou vazbu od uživatelů“, včetně tohoto prohlášení AJ Kohna: „Hodnotící podsystém může zahrnovat modifikátor hodnocení, využívající implicitní zpětnou vazbu od uživatelů k přehodnocení výsledků ve vyhledávání za účelem vylepšení konečného hodnocení prezentovaného uživateli.“

Nutno podotknout, že se jedná o jeden z mnoha patentů. Od zveřejnění tohoto patentu Google vyvinul další řešení, například:

SpamBrain: jeden z hlavních nástrojů společnosti Google pro boj se spamem.
RankBain: citován pro zpracování „nových“ dotazů pro Google.

Google: Pozor na tu mezeru

Nejsme si jisti, zda někdo kromě těch, kteří mají v Googlu inženýrské znalosti z první ruky, přesně ví, kolik dat o interakci mezi SERP a uživatelem bylo použito na jednotlivé weby spíše než na celkový SERP. Víme ale, že moderní systém jako například RankBain je alespoň částečně trénován na údajích o kliknutích uživatelů.

Zaujala nás také analýza AJ Kohna ohledně svědectví Doj o těchto nových systémech, který řekl, že existuje několik odkazů na přesun souboru dokumentů ze zeleného kruhu do modrého. Dokument, kterého se to týká, se nám ale zatím nepodařilo najít. Na základě svědectví se však zdá, že vizualizuje způsob, jakým Google vyřazuje výsledky z velkého souboru do souboru menšího, kde může použít další hodnotící faktory.

To podporuje naši teorii, že pokud web projde, přesune se do jiného „kruhu“ pro časově či výpočetně náročnější zpracování, aby se zvýšila přesnost.

Aktuální stav může být následující:

Současné hodnotící systémy Google neudrží krok s tvorbou a publikováním obsahu generovaného umělou inteligencí.
Protože systémy produkují většinou rozumný a gramaticky správný obsah, projdou „sniff testy“ Google a budou se hodit, dokud nebude dokončena další analýza.

A tady vzniká problém: rychlost, s jakou je obsah tvořen generativní umělou inteligencí, znamená, že existuje nekonečná fronta stránek čekajících na počáteční hodnocení Googlem.

Přeskočil HCU do UGC, aby porazil GPT?

Věříme, že Google ví, že je to jedna z hlavních výzev, kterým čelí. Pokud si troufneme na nějaké spekulace, je možné, že nedávné aktualizace Google, jako je aktualizace užitečného obsahu HCU, byly použity jako kompenzace této slabosti. Není žádným tajemstvím, že systémy HCU prospívaly webům s obsahem vytvářeným UGC, jako je Reddit.

Reddit byl totiž jednou z nejnavštěvovanějších webových stránek. Nedávné změny přinesly více než dvojnásobnou viditelnost vyhledávání na úkor jiných internetových stránek. Naší konspirační teorií je, že až na pár výjimek jsou weby UGC jedny z nejméně pravděpodobných míst, kde lze najít masově vyráběný obsah umělou inteligencí, protože velká část obsahu publikovaného na webech UGC je moderována. Samozřejmě, že to nemusí být dokonalé. Ale celková spokojenost s procházením některých neupravených UGC může být vyšší. Protože Google konzistentně hodnotí cokoliv, co ChatGPT naposledy vrátil na web. Zaměření na UGC může být skvělou opravou ke zvýšení kvality. Google se totiž nedokáže vypořádat se spamem umělé inteligence dostatečně rychle.

Jak vypadá dlouhodobý plán Googlu pro spam AI?

Velká část svědectví o Googlu v procesu DOJ pochází od bývalého 17letého zaměstnance, který tam pracoval jako softwarový inženýr na kvalitě hodnocení a vyhledávání, Erica Lehmana. Jedním z neustálých témat byla Lehmanova tvrzení, že systémy strojového učení MUM, BERT a Google se stávají důležitějšími než uživatelská data. Jsou tak pravděpodobné a výkonné, že se na ně bude Google v budoucnosti spoléhat více než na uživatelská data.

Stačí kousky dat o interakci uživatelů, aby měly vyhledávače vynikající proxy, pro kterou se mohou rozhodovat. Omezením je shromažďování určitého množství dat, aby bylo možné držet krok se změnami, proto některé systémy používají jiné metody.

Pokud budeme předpokládat, že Google dokáže vytvořit své modely pomocí průlomů, jako je BERT pro výrazné zlepšení přesnosti jejich první analýzy obsahu, pak v takovém případě mohou být schopni zacelit mezeru a drasticky zkrátit čas potřebný ke snížení hodnocení spamu a identifikaci. Tento systém už existuje a je velmi snadno zneužitelný. Na Google je neustále vyvíjen tlak, aby řešil své nedostatky, protože stále více lidí hledá příležitosti za nízké úsilí s vysokými výsledky. Je to ironie, ale když se systém stane účinným v boji proti specifickému typu spamu ve velkém, systém se může stát téměř nadbytečným. Protože motivace k účasti se snižují.

Zdroj: marketingland.com, facebook.com, cpcstrategy.com

Autor: Kristýna Franclová

Foto zdroj: pixabay.com