Completamento scraping con dowload
This commit is contained in:
@@ -1,10 +1,24 @@
|
||||
<?php
|
||||
|
||||
$start_url = 'https://www.iltuocomune.it/amministrazione-trasparente-url';
|
||||
// URL da cui iniziare lo scraping
|
||||
$start_urls = [
|
||||
'https://www.iltuocomune.it/amministrazione-trasparente-url'
|
||||
];
|
||||
|
||||
$filters = [
|
||||
// Regole di estrazione link.
|
||||
// Ogni regola è applicata alle pagine trovate in base al livello di profondità.
|
||||
// Esempio: la prima regola viene applicata alle start_urls, la seconda alle
|
||||
// sotto-pagine, e così via.
|
||||
$link_rules = [
|
||||
'//td[@class="actions"]/a[@title="Visualizza "]',
|
||||
'//table[@class="allegati"]/a[@title="Download versione non firmata"]'
|
||||
];
|
||||
|
||||
// Mimetype da salvare, con associazione mime-type => estensione con cui salvare
|
||||
// i file
|
||||
$allowedMimetypes = [
|
||||
'application/pdf' => 'pdf'
|
||||
];
|
||||
|
||||
// Directory dove salvare i file trovati
|
||||
$download_dir = __DIR__.'/pdf';
|
||||
|
Reference in New Issue
Block a user