Aggiornamento README

This commit is contained in:
loviuz 2022-01-08 20:46:00 +01:00
parent b5ff9c2899
commit e738367072
1 changed files with 6 additions and 0 deletions

View File

@ -1,6 +1,12 @@
# Structured Scraper
Uno scraper di documenti configurabile e strutturato.
Permette di definire una lista di URL da scansionare e per ciascuna viene letto il contenuto HTML, vengono estratti eventuali sub-link per scansionare le pagine più interne, fino a che non si arriva a un link con mimetype definito nel file di configurazione per scaricarlo.
Qual è la novità? Che non scansiona tutti i link ma solo quelli corrispondenti ad un filtro XPath configurabile per ogni livello di sub-link, per cui dal primo URL potrebbe scansionare tutti i link dentro un `<div>` con classe `.actions`, dal secondo URL tutti i link dentro un `<td>` dentro una `table` con un determinato `id` e così via.
In questo modo lo scraping va configurato su siti web che hanno una determinata struttura per arrivare al documenti in modo preciso e rapido.
## Come installare
Scaricare le dipendende con composer: