Data-driven SEO, seznam validátorů

Navážu na definici data-driven SEO a uvedu příklady co a jak daignostikovat. Zdrojem dat bude Scraping Camel. Ten je naveden do MERGADO Edotoru. Export je ve fromtáu Scraping Camel. Nad elementy je řada výběrů. Pro výběry jsou pravidla, která do elementu SEO_STATUS zapisují informace o stavu dané položky. Osobně výstupy exportuji pomocí Fox Data+ do reportů. Sedmidenního, TOP a všech produktů.

Validátory berte jako náměty. Jistě domyslíte vlastní, případně si uvedené příklady vylepšíte na míru vlastní potřebě.

Uvedu vždy oblast. Vysvětlím souvislosti. Následně uvedu zápis výběrů a navazující pravidla. Výběry pojmenuji anglicky. Názvosloví je srozumitelné a bude jasně, co daný výběr sleduje. Obsahuje klasifikaci nálezu (error = podstatná chyba, warning = upozornění), element kterého se týká (obvykle začíná znakem #).

SEO validátory

H1

Nadpis H1

Element H1 je hlavní nadpis stránky. Na každé stránce by měl být uveden právě jednou. Měl by být výstižný, vést uživatele k cíli stránky, obsahovat klíčová slova. Délka nadpisu H1 by měla být přiměřená. Odborníci ideální délku diksutují, v našem případě doporučím do 80 znaků, s tím že jde o doporučení. V diagnostice zkontrolujeme také, zda není nadpis příliš krátký. Někdy se totiž do nadpisu vloudí různé kódy a podobně.[1]

Výběry pro diagnostiku H1

  • SEO: error #h1 empty
    [H1] = ""
  • SEO: warning #h1 long
    [H1] ~ "^.{81,}$"
  • SEO: warning #h1 short
    [H1] ~ "^.{1,4}$"
META DESCRIPTION

META DESCRIPTION

META DESCRIPTION je HTML element, obsahující popis stránky. Jde o text napsaný větami, nikoliv výčet klíčových slov atp. META DESCRIPTION se někdy zobrazuje ve výsledcích fulltextových vyhledávačů Google a Seznam.cz jako součást upoutávky stránky. Proto je vhodné, když je výstižný a obsahuje klíčová slova. Délku doporučuji do cca 200 znaků. Měl by být vyplněn a neměl by být příliš krátký.

Výběry pro diagnostiku H1

  • SEO: error #metadescription empty
    [METADESCRIPTION] = ""
  • SEO: warning #metadescription long
    [METADESCRIPTION] ~ "^.{201,}$"
  • SEO: warning #metadescription short
    [METADESCRIPTION] ~ "^.{1,29}$"
HTTPSTATUS

HTTP(S) status

Do elementu HTTPSTATUS zapisuje Scraping Camel http status, který vrátí URL. Obvykle jde o hodnotu 200 (stránka nalezena, OK), 301 (přesměrování na jinou URL), 404 (stránka nenalezena), 5XX (chyba serveru). Informace je cenná pro odhalení přesměrování či chybových stránek. Vzhledem k tomu, že Scraping Camel bere seznam URL stránky ze sitemap.xml, mělo by být ideálně všude 200.

Výběry pro diagnostiku HTTPSTATUS

  • SEO: warning #httpstatus not 200
    [HTTPSTATUS] != "200"
OG:IMAGE

OG:IMAGE

Do elementu OGIMAGE zapisuje Scraping Camel URL obrázku z element OG:IMAGE (s dvojtečkou). Tento obrázek uživatel přímo v internetovém prohlížeči nevidí. Zobrazuje se jako náhledový, pokud URL stránky sdílí někdo na Facebooku. Dále obrázek jako náhledový zobrazují Google Docs (pozoroval jsem v Google Sheets) či jiné systémy. Vřele proto doporučuji element vyplňovat. A to obrázkem unikátním, na míru konkrétní stránce. Vyplnění jedním obrázkem pro celý web je dočasné, nedostatečně dobré řešení.

Výběry pro diagnostiku OGIMAGE

  • SEO: warning #ogimage empty
    [OGIMAGE] = ""
  • SEO: warning #ogimage default
    [OGIMAGE] = "https://www.domain.com/some-image.png"

Místo https://www.domain.com/some-image.png doplňte vlastní hodnotu. Obvykle ji rozpoznáte při prohlédnutí hodnot elementu OG:IMAGE v MERGADO Editoru (stránka Elementy → OG:IMAGE). Pokud výchozí obrázek existuje, mívá nejvyšší četnost. Pozor také na situace, kdy URL vypadá např. takto: https://www.domain.com/some-image.png?id=123 kde “123” je ID položky. Tím se jeví hodnoty OG:IMAGE unikátní. Zobrazí však vždy stejný obrázek.

TITLE

TITLE

Titulek TITLE označuje stránku. V prohlížeči se zobrazí v hlavičce panelu. Ve výsledcích vyhledávání fulltextových vyhledávačů Google a Seznam.cz se často zobrazuje jako nadpis stránky. Často se skládá z obsahu nadpisu H1, oddělovače (polčka, svislítko) a brandu webu. TITLE by měl obsahovat klíčová slova, vystihovat obsah stránky, motivovat uživatele ke splnění cíle stránky, být přiměřeně atraktivní. V příkladech níže doporučuji délku menší než 120 znaků a větší než 20 znaků.

Výběry pro diagnostiku TITLE

  • SEO: error title empty
    [TITLE] = ""
  • SEO: warning title long
    [TITLE] ~ "^.{121,}$"
  • SEO: warning title short
    [TITLE] ~ "^.{1,21}$"
URL

URL

URL představuje adresu stránky. Ta by měla být na protokolu https. Další výběry jsou spíše orientační. Je vhodné, když není příliš dlouhá, neměla by obsahovat mezery, znaky s diakritikou a podobně. Třetí příklad v pořadí níže ukazuje situaci, kdy na webu máte stránky jako např. https://www.domain.com/page-0 a podobně. Číslo na konci někdy znamená, že existuje také stránka https://www.domain.com/page. Mít dvě stránky na stejné téma nemusí být žádoucí. Podobným výběrem je odhalíte hromadně.

Výběry pro diagnostiku URL

  • SEO: warning url without https
    [URL] NOT CONTAINS "https://"
  • SEO: warning url long
    [URL] ~ "^.{116,}$"
  • SEO: warning url contains special characters
    [URL] ~ " |ě|š|č|ř|ž|ý|á|í|é|ú|ů"
  • SEO: warning url duplicated or strange
    [URL] ~ "-0$"
Počet slov na stránce

Počet slov na stránce

Do elementu SC_NUMBER_OF_WORDS zapisuje Scraping Camel číslo, které vystihuje počet slov, které na stránce našel. Běžné články mívají kolem 200 slov. Pokud má stránka slov málo, je to podezřelé. Pokud jsou sov tisíce, je to pozoruhodné. Příkladem příčiny malého počtu slov na stránce je např. umístění videa z YouTube. Autor má pocit, že stránka je obsahově bohatá. Fakticky tam vyhledávače, jak Google či Seznam.cz, tak interní vyhledávání webu, mnoho informací nenajdou. A to může být špatně.

Výběry pro diagnostiku URL

  • SEO: warning #words_count low
    [SC_NUMBER_OF_WORDS] < 50
Typ stránky (PAGETYPE)

Typ stránky (PAGETYPE)

Weby obvykle nejsou homogenní. Obsahují stránky různých typů. Například:

  • detail produktu
  • kategorie produktů (či článků)
  • článek
  • štítek (tag)
  • hlavní stránka
  • obecná stránka statická

Je dobré poznat z jakých typů stránek se web skládá a jaké jsou jejich podíly. Ve správě např. kategorií pak zvolíme jiné postupy než v případě produktových stránek. Typ stránky je mterika zajímavá sama o sobě. Mocná je však také v kombinacích. Např. stránky typu článek, které nemají vyplnění žádný štítek (tag). Nebo stránky typu kategorie, které neobsahují žádné produkty. A podobně.

jak detekovat typ stránky

Teoreticky by se dal použít element og_tipe, ze Scraping Camela ve feedu jako element OGTYPE. Jenže ten je obvykle v žalostném stavu. Ne webech často není nasazen správně. Já v praxi používám dále URL, drobečkovou navigaci, či jiné prvky, které Scraping Camel dokáže ze stránek získat a podle nichž lze pak typ stránky identifikovat.

Jazyk stránek

Jazyk stránek

Scraping Camel nabízí dva elementy pro jazyk stránky. Element LANG je získán z meta elementů, zatímco element SC_DETECTED_LANGUAGE je získán zpracováním textu stránky. Pokud element SC_DETECTED_LANGUAGE nabývá jiné hodnoty, než očekáváte, může to mít více příčin. Některé jsou přirozené. Např. pokud stránka má málo slov a navíc jsou většina z nich e-mailové adresy, nemá se algoritmus Craping Camel AI moc čeho při detekci jazyka chytit. Viděl jsem však případy, kdy mezi tisícovkami stránek e-shopu v češtině byly ukryty desítky stránek v polštině. Příčina byla v importu produktových dat od polského dodavatele. Že pár produktů nepřeložil si, v tom objemu, nikdo nevšiml.

Výběry pro diagnostiku Jazyka stránek

  • SEO: warning #language different
    [SC_DETECTED_LANGUAGE] != [LANG]
Data z Google Analytics

Data z Google Analytics

Bidding Fox Elements umožňují do exportu importovat data z Google Analytics. Pro weby bez košíku používám BFE_GA_CLICKS_SUM_30. Pro e-shopy navíc BFE_GA_SALES_SUM_30 a BFE_GA_ORDERS_SUM_N_30. Ty mi umožní jednoduše vybrat TOP stránky podle významu. Stačí např. výběr viz příklad níže. Dále je možné detekovat např. stránky typu článek (viz výše), starší dvou dní, ne více než sedmi dní, které nezaznamenaly žádnou návštěvu, což je i při použití cookie lišty divné, a podobně.

Výběry pro diagnostiku Data z Google Analytics

  • PRIORITY: top
    [BFE_GA_CLICKS_SUM_30] >= 10
Klíčová slova

Klíčová slova

Scraping Camel AI umí generovat klíčová slova, vystihující obsah stránky. Metody nyní nabízí tři, zapisující do elementů: SC_WORDS_COUNT, SC_WORDS_TUPLES_COUNT a SC_WORDS_AGG_MIN_FREQ_3. Osobně nyní preferuji poslední uvedenou. Pokud nedokázal Camel obsah vytvořit, je to signál o kvalitě textu. Nemusel být dostatečně konkrétní. Zajímavá je také hodnota. Pokud vygenerovaná klíčová slova neodpovídají tématu stránky, stojí její obsah za kontrolu.

Výběry pro diagnostiku Klíčových slov

  • SEO: warning #SC_WORDS_3 empty
    [SC_WORDS_AGG_MIN_FREQ_3] = ""
Stáří stránky

Stáří stránky

Z bIdding Fox Elements dále používám BFE_P_DAYS_IN_FEED, případně BFE_P_CREATED_AT. Výběry dělám podle BFE_P_DAYS_IN_FEED. Viz příklad výše na nové stránky, které nemají prokliky z Google Analytics. Dále element využívám pro reporting nových stránek na webu.

Výběry pro diagnostiku Stáří stránky

  • Monitoring :: new
    [BFE_P_DAYS_IN_FEED] <= 7
Počet produktů v kategorii

Počet produktů v kategorii

U e-shopů obvykle z kódu stránek ve Scraping Camelovi parsuji počet produktů v kategorii. Ten využívám jednak pro vyhledání kategorií bez produktů, jednak pro segmentaci např. pro PPC reklamu.


  1. Např. nadpis H1 ve znění 18d4 obvykle žádoucí není. ↩︎