Completamento scraping con dowload

This commit is contained in:
loviuz
2022-01-08 20:30:33 +01:00
parent c6f1a79792
commit 2ebea9e816
5 changed files with 129 additions and 34 deletions

View File

@@ -1,10 +1,24 @@
<?php
$start_url = 'https://www.iltuocomune.it/amministrazione-trasparente-url';
// URL da cui iniziare lo scraping
$start_urls = [
'https://www.iltuocomune.it/amministrazione-trasparente-url'
];
$filters = [
// Regole di estrazione link.
// Ogni regola è applicata alle pagine trovate in base al livello di profondità.
// Esempio: la prima regola viene applicata alle start_urls, la seconda alle
// sotto-pagine, e così via.
$link_rules = [
'//td[@class="actions"]/a[@title="Visualizza "]',
'//table[@class="allegati"]/a[@title="Download versione non firmata"]'
];
// Mimetype da salvare, con associazione mime-type => estensione con cui salvare
// i file
$allowedMimetypes = [
'application/pdf' => 'pdf'
];
// Directory dove salvare i file trovati
$download_dir = __DIR__.'/pdf';