Scraping Camel - 5. verze - AI elementy
2022-10-16T22:00:00Z
Scraping Camel AI
Nová verze Scraping Camel přinese tři nové elementy. Najdete je v editaci elementů, v nové kategorii Scraping Camel AI. Na rozdíl od dosavadních elementů, jejichž obsah ze zdrojového kódu definujete buď ručně či je Scraping Camel vyhledá automaticky pomocí regulárních výrazů či textu před a za danou hodnotou, nové AI elementy vyhledají automaticky speciální matematické funkce (AI je zkratka Artificial Intelligence a znamená umělou inteligenci).
Jaké elementy jsou a jaké hodnoty ze stránek získají
Element | Výstup | Obsah |
---|---|---|
SC_NUMBER_OF_WORDS |
číslo | Počet slov na stránce |
SC_MAIN_TITLE |
krátký text | Titulek stránky. Malými písmeny. |
SC_WORDS_COUNT |
seznam slov oddělených čárkami | Klíčová slova informující o obsahu stránky. Vždy jedno slovo. |
Jak s elementy pracovat
Hodnoty berte jako signál. Neřešte příliš, jak jsou počítané. Například SC_NUMBER_OF_WORDS
informuje o počtu slov na stránce. Scraping Camel AI nejprve webovou stránku zpracuje. Odstraní HTML značky a další obsah, který považuje za nepodstatný. Následně spočítá, kolik je v tomto, již zpracovaném obsahu, slov. Pokud byste se na cílové webové stránce snažili jednotlivá slova počítat, nejspíš vám vyjde jiné číslo. I tak je element SC_NUMBER_OF_WORDS
velmi cenný. Pokud bude obsahovat číslo 2000, bude na stránce jistě mnohem více slov, než pokud bude obsahovat hodnotu 50. Zde je jich na stránce ve stutečnosti 1999 nebo 2004 je druhořadé. Ostatně i toto číslo se počítá docela špatně a neznamená vlastně nic. Ale o tom si povíme na některém z webinářů
Kde Scraping Camel AI najdete
Elementy najdete na stejných místech co běžné elementy. Tedy v průvodci vytvořením nového webu či stránce editace elementů.
Nastavení Scraping Camel AI
Na stránce Nastavení najdete nově sekundární menu. Klikněte na Nastavení AI elementů. Zde můžete nastavit parametry generování klíčových slov, stop slova, která chcete z generování vypustit a další.
Co nás čeká do budoucna
Element SC_WORDS_COUNT
resp. metoda, která jeho obsah vypočítává je první z metod, kterou jsme uveřejnili. Testujeme nyní cca desítku dalších metod. Ty se liší svými výsledky. Nejlepší z metod budeme postupně uveřejňovat v budoucích verzích Scraping Camel. O tom, proč připravíme metod více a o jejich vlastnostech, si povíme více na některém z budoucích webinářů.