Completamento scraping con dowload

2022-01-08 20:30:33 +01:00
parent c6f1a79792
commit 2ebea9e816
5 changed files with 129 additions and 34 deletions
--- a/config.example.php
+++ b/config.example.php
@@ -1,10 +1,24 @@
 <?php

-$start_url = 'https://www.iltuocomune.it/amministrazione-trasparente-url';
+// URL da cui iniziare lo scraping
+$start_urls = [
+    'https://www.iltuocomune.it/amministrazione-trasparente-url'
+];

-$filters = [
+// Regole di estrazione link.
+// Ogni regola è applicata alle pagine trovate in base al livello di profondità.
+// Esempio: la prima regola viene applicata alle start_urls, la seconda alle
+// sotto-pagine, e così via.
+$link_rules = [
    '//td[@class="actions"]/a[@title="Visualizza "]',
    '//table[@class="allegati"]/a[@title="Download versione non firmata"]'
 ];

+// Mimetype da salvare, con associazione mime-type => estensione con cui salvare
+// i file
+$allowedMimetypes = [
+    'application/pdf' => 'pdf'
+];
+
+// Directory dove salvare i file trovati
 $download_dir = __DIR__.'/pdf';