2022-01-06 17:22:41 +01:00
|
|
|
<?php
|
|
|
|
|
2022-01-08 20:30:33 +01:00
|
|
|
// URL da cui iniziare lo scraping
|
|
|
|
$start_urls = [
|
|
|
|
'https://www.iltuocomune.it/amministrazione-trasparente-url'
|
|
|
|
];
|
2022-01-06 17:22:41 +01:00
|
|
|
|
2022-01-08 20:30:33 +01:00
|
|
|
// Regole di estrazione link.
|
|
|
|
// Ogni regola è applicata alle pagine trovate in base al livello di profondità.
|
|
|
|
// Esempio: la prima regola viene applicata alle start_urls, la seconda alle
|
|
|
|
// sotto-pagine, e così via.
|
|
|
|
$link_rules = [
|
2022-01-06 17:22:41 +01:00
|
|
|
'//td[@class="actions"]/a[@title="Visualizza "]',
|
|
|
|
'//table[@class="allegati"]/a[@title="Download versione non firmata"]'
|
|
|
|
];
|
|
|
|
|
2022-01-08 20:30:33 +01:00
|
|
|
// Mimetype da salvare, con associazione mime-type => estensione con cui salvare
|
|
|
|
// i file
|
|
|
|
$allowedMimetypes = [
|
|
|
|
'application/pdf' => 'pdf'
|
|
|
|
];
|
|
|
|
|
|
|
|
// Directory dove salvare i file trovati
|
2022-01-06 17:22:41 +01:00
|
|
|
$download_dir = __DIR__.'/pdf';
|