Scraping Camel NEWS

:camel: Scraping Camel - 5. verze - AI elementy

2022-10-16T22:00:00Z

Scraping Camel AI

Nová verze Scraping Camel přinese tři nové elementy. Najdete je v editaci elementů, v nové kategorii Scraping Camel AI. Na rozdíl od dosavadních elementů, jejichž obsah ze zdrojového kódu definujete buď ručně či je Scraping Camel vyhledá automaticky pomocí regulárních výrazů či textu před a za danou hodnotou, nové AI elementy vyhledají automaticky speciální matematické funkce (AI je zkratka Artificial Intelligence a znamená umělou inteligenci).

Jaké elementy jsou a jaké hodnoty ze stránek získají

Element Výstup Obsah
SC_NUMBER_OF_WORDS číslo Počet slov na stránce
SC_MAIN_TITLE krátký text Titulek stránky. Malými písmeny.
SC_WORDS_COUNT seznam slov oddělených čárkami Klíčová slova informující o obsahu stránky. Vždy jedno slovo.

Jak s elementy pracovat

Hodnoty berte jako signál. Neřešte příliš, jak jsou počítané. Například SC_NUMBER_OF_WORDS informuje o počtu slov na stránce. Scraping Camel AI nejprve webovou stránku zpracuje. Odstraní HTML značky a další obsah, který považuje za nepodstatný. Následně spočítá, kolik je v tomto, již zpracovaném obsahu, slov. Pokud byste se na cílové webové stránce snažili jednotlivá slova počítat, nejspíš vám vyjde jiné číslo. I tak je element SC_NUMBER_OF_WORDS velmi cenný. Pokud bude obsahovat číslo 2000, bude na stránce jistě mnohem více slov, než pokud bude obsahovat hodnotu 50. Zde je jich na stránce ve stutečnosti 1999 nebo 2004 je druhořadé. Ostatně i toto číslo se počítá docela špatně a neznamená vlastně nic. Ale o tom si povíme na některém z webinářů :wink:

Kde Scraping Camel AI najdete

Elementy najdete na stejných místech co běžné elementy. Tedy v průvodci vytvořením nového webu či stránce editace elementů.


Nastavení Scraping Camel AI

Na stránce Nastavení najdete nově sekundární menu. Klikněte na Nastavení AI elementů. Zde můžete nastavit parametry generování klíčových slov, stop slova, která chcete z generování vypustit a další.

Co nás čeká do budoucna

Element SC_WORDS_COUNT resp. metoda, která jeho obsah vypočítává je první z metod, kterou jsme uveřejnili. Testujeme nyní cca desítku dalších metod. Ty se liší svými výsledky. Nejlepší z metod budeme postupně uveřejňovat v budoucích verzích Scraping Camel. O tom, proč připravíme metod více a o jejich vlastnostech, si povíme více na některém z budoucích webinářů.


Ilustrace

1 Líbí se