Člověk versus strojová inteligence: Jak vyhrát, když je duplicitní obsah unikátní

Někdy se lidé a stroje neshodnou o tom, jaký obsah je vlastně duplicitní obsah. Tady je několik důvodů proč tomu tak je a jak to může porazit celý systém, pokud se to stane.
 

Jak jen úžasné může být strojové učení a umělá inteligence založená na algoritmech, často jim schází to něco, které máme my lidé tak nějak od přírody: jistý selský rozum.
 
Je obecně známá věc to, že pokud dáte stejný obsah na několik různých stránek, vyprodukujete tzv. duplicitní obsah. Ale co když vytvoříte stránky, které mají podobné věci, s rozdíly, na kterých opravdu záleží? Algoritmy je označí jako duplikáty, i když lidé vůbec žádný problém s rozlišením těchto stránek nemají, jako v těchto příkladech:

  • E-komerce = podobné produkty s mnoha odlišnými variantami nebo kritickými rozdíly
  • Cestování = hotelové řetězce, balíčky destinací s obdobným obsahem
  • Klasifikované = vyčerpávající seznamy pro identické předměty
  • Byznys = stránky pro místní řetězce, které nabízejí stejné služby v několika rozdílných regionech

Jak se vlastně tohle všechno může stát? Jak můžete problém zachytit? A co s ním můžete dělat?
 

Nebezpečí duplicitního obsahu

Duplicitní obsah nám trošku ovlivňuje naši schopnost zviditelnit stránku pro uživatele internetového hledání skrze:

  • Ztrátu hodnocení pro unikátní stránky, které neúmyslně soutěží o stejná klíčová slova
  • Nemožnost hodnotit stránky v nějaké skupině, protože Google zvolí jednu stránku jako kanonickou
  • Ztráta autority stránky pro velké počty a kvantity velmi tenkého obsahu

 

Jak strojové učení identifikuje duplicitní obsah

Google využívá algoritmů k determinaci toho, jestli mají dvě stránky nebo dvě součásti stránky duplicitní obsah, což Google definuje jako obsah, který je „shodně a pravděpodobně podobný“.
 
Detekce podobnosti od Google je založená na jejich patentovaném Simhash algoritmu, který analyzuje jednotlivé bloky obsahu na webové stránce. Poté vykalkuluje unikátní identifikační znak pro každý blok a poskládá tak „hash“, nebo-li otisk prstu pro každou stránku.
 
Protož je počet internetových stránek kolosální, škálovatelnost je klíčová. Právě nyní je SimHash jedinou úspěšnou a dobrou metodou, jak najít duplicitní obsah v takovém gigantickém měřítku.
 
Simhas otisky jsou:

  • Velmi levné k vypočtení. Jsou určeny v jediném procházení stránky.
  • Jednoduché na porovnání, díky jejich fixované a pevně stanovené délce.
  • Schopny najít i skoro-duplikáty. Vyrovnávají mírné změny na stránce s mírnými změnami v hashi, na rozdíl od ostatních algoritmů.

 
To poslední znamená, že rozdíl mezi dvěma otisky stránky mohou být změřeny algoritmicky a vyjádřeny jako procento. Aby se redukovaly náklady evaluace jednotlivých párů stránek, Google zařadil do algoritmu techniky jako:

  • Shromažďování = seskupením setů dostatečně podobných stránek dohromady, jedině otisky v tomto seskupení musí být porovnány, poněvadž všechno ostatní je klasifikováno jako „odlišné“.
  • Odhady = pro výjimečně velké seskupení je průměrná podobnost aplikována po určitém počtu párů otisků, které jsou kalkulovány.

 
A v poslední řadě, Google využívá poměr zvážené podobnosti, která vylučuje určité bloky identického obsahu (boilerplate:header, navigaci, sidebars, footer, disclaimer…). Bere v potaz subjekt stránky za použití analýzy n-gramu k určení toho, které klíčové slova na stránce se objevují nejčastěji a, v kontextu této stránky – jsou nejdůležitější.
 

Analýza duplicitního obsahu se SimHash

Nyní se podíváme na mapu obsahových seskupení, která byla označena jako podobná za použití Simhash. Tento graf od OnCrawl překrývá analýzu vašich strategii duplicitního obsahu na seskupení duplicitního obsahu.
 
Obsah OnCrawl analýzy také zahrnuje poměry podobnosti, obsahové seskupení a také analýzu n-gram. OnCrawl také pracuje na jisté experimentální tepelné mapě, která nám napovídá jistou podobnost v procentech za každý obsahový blok, který mohl být překryt na webové stránce.

 

Validace seskupení za použití kanonických URL

Použitím kanonických URL k indikaci hlavní stránky ve skupině podobných stránek je vlastně způsobem, jak můžete vědomě seskupit stránky. Ideálně by se měly seskupení vytvořit kanonickými URL a ty určené Simhashem by měly být identické.

Byť tohle není ten případ, je to často proto, protože tady není žádná kanonická politika, která by působila na vaší webové stránce:
 
 
 
 
 
 
Nebo možná proto, protož je tady spousta konfliktů mezi vaší kanonickou strategií a metodami, které Google používá k seskupení podobných obsahů:

 
Seskupení vaší stránky nevypadá jako ty výše zmíněné. Určitě jste pravděpodobně následovali a využili těch nejlepších praktik pro duplicitní obsah. URL, které obsahují ten samý obsah – jako jsou tisknutelné / mobilní verze, nebo alternativní URL generované CMS – deklarují tu správnou kanonickou URL.

Odfiltrujte duplicitní obsah, který je správně zvládnuty vaší kanonickou strategií. Zbývající nekanonizované URL jsou stránky, které chcete ohodnotit.

URL, které se stále objevují v seskupení na základě Simhash a sémantické analýzi jsou URL, na kterých se vy a Google neshodnete.
 

Vyřešení problémů s duplicitním obsahem pro unikátní obsah

 Není tady žádný trik, který vás spasí všech problémů a který by správně poupravil úhel pohledu stroje, jakým vidí unikátní stránky, které se jemu objevují jako duplikáty. Nemůžeme změnit to, jak Google identifikuje duplicitní obsah. Každopádně i tak zde stále existují jistá řešení, jak vlastně můžete sjednotit vaši koncepci a vaše vnímání unikátního obsahu s Googlem -zatímco se stále budou hodnotit pro klíčová slova, která potřebujete.
 
Tady je hned pět strategií, jak adaptovat vaší stránku.
 
Vyřešte okrajové případy
 
Začněte tím, že se podíváte na okrajové případy: seskupení s velmi nízkým nebo velmi vysokým poměrem podobnosti.

  • Pod dvacet procent podobnosti = podobné, ale ne tak podobné, aby to bolelo. Můžete signalizovat Google, aby s nimi zacházel jako s odlišnými stránkami tím, že na ně bude odkazovat mezi stránkami v seskupení, použitím odlišného anchor textu pro každou stránku.

Maximální podobnost = nalezněte ten problém, který je společný pro všechny. Budete potřebovat buď obohatit obsah, abyste mohli odlišit stránky nebo spojit stránky do jedné.
 
Zredukujte počet facet
 
Pokud vaše duplicitní stránky jsou nějakým způsobem spojeny s facety, měli byste zvážit to, že se jedná o problém indexace. Nechte a udržujte facety, které jsou již ohodnoceny nebo se hodnotí a limitujte počet facet, které povolíte Google indexovat.

 
Udělejte stránky (více) unikátní
 
Zapamatujte si: i maličké rozdíly v obsahu vytvářejí maličké rozdíly v Simhash otiscích. Potřebujete udělat opravdu velké a očividné změny obsahu na stránce, raději než jenom nějaké maličké změny nebo úpravy.
 
Obohaťte obsah stránky:

  • Přidejte obsahový text pro stránky

    • Přidejte rozdílné popisky k obrázkům
    • Zahrňte úplné recenze konzumentů (pokud se recenze vztahují k více stranám, spojte stránky do jedné)
    • Přidejte dodatečné informace
    • Přidejte další relevantní informace
  • Zkuste použít odlišné obrázky
  • Otestujte použití velmi odlišných anchor textů pro odkazy na odlišné stránky
  • Redukujte počet zdrojového kódu společného mezi dvěma podobnými stránkami.
  • Zlepšete sémantickou hustotu na stránce

    • Navyšte si slovní zásobu relevantní k dané problematice a redukujte filtrování a filtr.

 

Vytvořte stránky pro hodnocení referencí
Pokud obohacení vaší stránky není možné nebo to není vhodné, zkuste se zamyslet nad vytvořením nějaké jednotné stránky referencí, která se bude hodnotit namísto všech těch duplicitních stránek. Tato strategie používá stejný princip jako obsahové huby k propagaci hlavní stránky pro mnoho klíčových slov. Je to zvláště užitečné, když máte mnoho verzí jednoho produktu, který potřebujete udržet na separátních a odlišných stránkách.
 
Tato strategie může být využita pro tvorbu stránek, které cílí potřebnou nebo sezónní příležitost. Může to pomoci rodinám stránek tím, že poskytne daleko silnější sémantiku a hodnocení.
 
Může se to také oplatit klasifikovaným stránkám, stránkám s nabídkami práce, a dalším stránkám s mnoha, často podobnými, seznamy. Stránky referencí by měly seskupit seznamy jednou charakteristikou – lokace (město) je často velmi úspěšně užívána.

Co udělat:

  1. Vytvořte referenční stránku, která sjednotí sémantický obsah všech duplicitních produktových stránek. Měla by propagovat všechna klíčová slova, která chcete využít a odkazovat na všechny duplicitní stránky
  2. Nastavte kanonickou URL pro každou duplicitní stránku na referennčí stránku a také kanonickou URL referenční stránky na sebe samu.
  3. Odkazujte mezi duplicitními stránkami
  4. Optimalizujte navigaci na stránce k propagaci referenční stránky

 
Zkombinujte vaše stránky
 

Pokud se rozhodnete zkombinovat vaše stránky do jedné:

  • Nechte si URL, která je nejvýkonnější
  • Redirektujte (301) stránky, kterých se chcete zbavit na tu jednu, kterou si necháváte
  • Přidejte obsah ze stránek, kterých se zbavujete, na stránku, kterou si necháváte a optimalizujte ji tak, aby se hodnotila pro všechna klíčová slova seskupení.

 

Budoucnost duplicitního obsahu

Schopnosti Google pochopit obsah na stránce se neustále vyvíjí. S neustále rostoucí preciznosti této schopnosti identifikovat boilerplate a diferenciovat mezi jednotlivými úmysly na webových stránkách, unikátní obsah identifikovaný jako duplicitní by se měl dříve nebo později stát pouze věcí minulosti.
 
Ale do té doby, chápání toho, proč se váš obsah objevuje jako duplicitní Google a adaptováním se, abyste přesvědčili Google o opaku, jsou klíči k úspěšnému SEO pro podobné stránky.