structured_scraper/config.example.php

28 lines
781 B
PHP
Raw Normal View History

2022-01-06 17:22:41 +01:00
<?php
2022-01-08 20:30:33 +01:00
// URL da cui iniziare lo scraping
$start_urls = [
'https://www.iltuocomune.it/amministrazione-trasparente-url'
];
2022-01-06 17:22:41 +01:00
2022-01-08 20:30:33 +01:00
// Regole di estrazione link.
// Ogni regola è applicata alle pagine trovate in base al livello di profondità.
// Esempio: la prima regola viene applicata alle start_urls, la seconda alle
// sotto-pagine, e così via.
$link_rules = [
2022-01-06 17:22:41 +01:00
'//td[@class="actions"]/a[@title="Visualizza "]',
'//table[@class="allegati"]/a[@title="Download versione non firmata"]'
];
2022-01-08 20:30:33 +01:00
// Mimetype da salvare, con associazione mime-type => estensione con cui salvare
// i file
$allowedMimetypes = [
'application/pdf' => 'pdf'
];
2022-01-08 20:41:41 +01:00
// Specifica se visualizzare le URL scansionate
$debug = true;
2022-01-08 20:30:33 +01:00
// Directory dove salvare i file trovati
2022-01-06 17:22:41 +01:00
$download_dir = __DIR__.'/pdf';