Jak vyloučit URL ze scrapování

Od verze 4 můžete upřesnit v nastavení Scraping Camela jaké stránky webu má zpracovávat. Resp. které má ignorovat. Nastavení je intuitivní. Přesto se hodí zapsat některé technické podrobnosti.

Kde nastavit zpracování URL

Na stránce Nastavení webu je vespod agenda viz náhled.

Způsoby nastavení

  • Nastavení není povinné.
  • Lze uvést jednu či více podmínek.
  • Přepínačem vpravo určíte, zda daná URL do zpracování zahrnout nebo je vyloučit.
  • Nastavení URL je dvojího typu: obsahuje hodnotu a regulární výraz.
  • Regulární výraz:
    • Zpracovává celé URL. Včetně domény a protokolu (https, http…) na začátku.
    • Příklad zápisu: https:\/\/www\.scrapingcamel\.com\/[0-9].* vyloučí stránky, které za doménou v URL podstránky budou mít alespoň jednu číslici.
    • Příklad: ^https:\/\/www\.scrapingcamel\.com\/$ vyloučí hlavní stránku webu.

Příklady využití

Viz k čemu se hodí nastavení crawlovaných URL.

1 Like