From e73836707275644bf7402c92410dcd9ba85c3763 Mon Sep 17 00:00:00 2001 From: loviuz Date: Sat, 8 Jan 2022 20:46:00 +0100 Subject: [PATCH] Aggiornamento README --- README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/README.md b/README.md index 6097c72..b953a37 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,12 @@ # Structured Scraper Uno scraper di documenti configurabile e strutturato. +Permette di definire una lista di URL da scansionare e per ciascuna viene letto il contenuto HTML, vengono estratti eventuali sub-link per scansionare le pagine più interne, fino a che non si arriva a un link con mimetype definito nel file di configurazione per scaricarlo. + +Qual è la novità? Che non scansiona tutti i link ma solo quelli corrispondenti ad un filtro XPath configurabile per ogni livello di sub-link, per cui dal primo URL potrebbe scansionare tutti i link dentro un `
` con classe `.actions`, dal secondo URL tutti i link dentro un `` dentro una `table` con un determinato `id` e così via. + +In questo modo lo scraping va configurato su siti web che hanno una determinata struttura per arrivare al documenti in modo preciso e rapido. + ## Come installare Scaricare le dipendende con composer: