Aggiornamento README

2022-01-08 20:46:00 +01:00 · 2022-01-08 20:46:00 +01:00 · e738367072
commit e738367072
parent b5ff9c2899
1 changed files with 6 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -1,6 +1,12 @@
 # Structured Scraper
 Uno scraper di documenti configurabile e strutturato.

+Permette di definire una lista di URL da scansionare e per ciascuna viene letto il contenuto HTML, vengono estratti eventuali sub-link per scansionare le pagine più interne, fino a che non si arriva a un link con mimetype definito nel file di configurazione per scaricarlo.
+
+Qual è la novità? Che non scansiona tutti i link ma solo quelli corrispondenti ad un filtro XPath configurabile per ogni livello di sub-link, per cui dal primo URL potrebbe scansionare tutti i link dentro un `<div>` con classe `.actions`, dal secondo URL tutti i link dentro un `<td>` dentro una `table` con un determinato `id` e così via.
+
+In questo modo lo scraping va configurato su siti web che hanno una determinata struttura per arrivare al documenti in modo preciso e rapido.
+
 ## Come installare
 Scaricare le dipendende con composer: