Aggiornamento README
This commit is contained in:
parent
b5ff9c2899
commit
e738367072
@ -1,6 +1,12 @@
|
||||
# Structured Scraper
|
||||
Uno scraper di documenti configurabile e strutturato.
|
||||
|
||||
Permette di definire una lista di URL da scansionare e per ciascuna viene letto il contenuto HTML, vengono estratti eventuali sub-link per scansionare le pagine più interne, fino a che non si arriva a un link con mimetype definito nel file di configurazione per scaricarlo.
|
||||
|
||||
Qual è la novità? Che non scansiona tutti i link ma solo quelli corrispondenti ad un filtro XPath configurabile per ogni livello di sub-link, per cui dal primo URL potrebbe scansionare tutti i link dentro un `<div>` con classe `.actions`, dal secondo URL tutti i link dentro un `<td>` dentro una `table` con un determinato `id` e così via.
|
||||
|
||||
In questo modo lo scraping va configurato su siti web che hanno una determinata struttura per arrivare al documenti in modo preciso e rapido.
|
||||
|
||||
## Come installare
|
||||
Scaricare le dipendende con composer:
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user