Direttiva Public Sector Information, open data e dati parlamentari

Articolo realizzato da ADL Consulting in collaborazione con Elif Lab

Il settore pubblico degli Stati membri raccoglie, produce, riproduce e diffonde un’ampia gamma di informazioni in molti settori di attività, per esempio informazioni di tipo sociale, politico, economico, giuridico, geografico, ambientale, meteorologico, sismico, turistico, informazioni in materia di affari, di brevetti e di istruzione. I documenti prodotti dagli enti pubblici di natura esecutiva, legislativa o giudiziaria costituiscono un ampio bacino di risorse diversificato e prezioso in grado di favorire la società. La fornitura di tali informazioni, che comprendono dati dinamici, in un formato elettronico di uso comune consente ai cittadini e alle persone giuridiche di individuare nuovi modi di utilizzarle e di creare prodotti e servizi nuovi e innovativi.

Questa considerazione, riportata in apertura alla Direttiva (UE) 2019/1024 che è intervenuta rifondendo la Direttiva 2003/98/CE e le sue successive modifiche – la cosiddetta direttiva PSI (Public Sector Information) – ben illustra la necessità per le pubbliche amministrazioni di rendere pubblici e liberamente accessibili i dati da esse prodotti, al fine di facilitarne la diffusione e il riutilizzo, tanto per garantire la trasparenza del proprio operato, quanto per alimentare quella che possiamo definire l’economia della conoscenza.

%%parallax1%%

In coerenza con quanto indicato nella PSI del 2003 e nella sua revisione operata nel 2013, in Italia il Codice dell’Amministrazione digitale (CAD) del 2005 e successivamente modificato, definisce, all’articolo 1, lettera I-ter) i dati aperti (i cosiddetti open data) come dati che:

  • sono disponibili secondo i termini di una licenza o di una previsione normativa che ne permetta l’utilizzo da parte di chiunque, anche per finalità commerciali, in formato disaggregato;
  • sono accessibili attraverso le tecnologie dell’informazione e della comunicazione, ivi comprese le reti telematiche pubbliche e private, in formati aperti ai sensi della lettera l-bis) (aperto è un formato di dati reso pubblico, documentato esaustivamente e neutro rispetto agli strumenti tecnologici necessari per la fruizione dei dati stessi), sono adatti all’utilizzo automatico da parte di programmi per elaboratori e sono provvisti dei relativi metadati;
  • sono resi disponibili gratuitamente attraverso le tecnologie dell’informazione e della comunicazione, ivi comprese le reti telematiche pubbliche e private, oppure sono resi disponibili ai costi marginali sostenuti per la loro riproduzione e divulgazione salvo quanto previsto dall’articolo 7 del decreto legislativo 24 gennaio 2006, n. 36

Ogni anno la Commissione Europea realizza un’indagine sull’applicazione nei 27 Paesi UE della direttiva Public Sector Information. In Italia è l’AGID (Agenzia per l’Italia Digitale), che già cura il portale di dati aperti della pubblica amministrazione dati.gov.it, a fornire le informazioni necessarie per valutare il grado di adozione delle policy relative agli open data nel Paese.

 

Grado di maturità dei Paesi Europei nell’implementazione della direttiva Public Sector Information-Dati 2020 Fonte

L’ultimo report, datato 2020, evidenzia come l’Italia sia tra i cosiddetti Fast-Trackers, ancora lontana dai Paesi riconosciuti come più avanzati su questi temi (su tutti Danimarca, Irlanda, Spagna e Francia), ma in ascesa sui 4 indici considerati:

  • L’indice Open Data Policy, che riguarda le strategie pubbliche sul riutilizzo dei dati, il coordinamento tra i diversi livelli amministrativi e l’implementazione delle menzionate linee strategiche, anche attraverso la formazione del personale pubblico, è passato dall’87% del 2019 al 91% del 2020.
  • L’Open Data Impact è passato invece dal 78% al 93%: in questo caso viene valutato il grado di maturità di un Paese nel capire quanto gli open data pubblicati siano effettivamente riutilizzati dagli stakeholder pubblici e privati e quali siano gli impatti effettivi delle strategie messe in campo, tanto in termini politici e sociali, quanto rispetto ai risvolti ambientali e economici.
  • Open Data Portal (70% nel 2019, 80% nel 2020) è, invece, un indice che misura la qualità del portale ufficiale dei dati aperti prodotti dall’amministrazione pubblica (in Italia dati.gov.it). Entrano nella valutazione le funzionalità di interazione offerte dal sito, il suo utilizzo effettivo, la possibilità di poter interagire, proporre e integrare nuovi dataset, la sua sostenibilità e visibilità.
  • L’indice Open Data Quality (passato dal 72% al 77%) si concentra invece sulla qualità dei metadata, l’armonizzazione tra le fonti primarie e il portale “aggregatore” nazionale, il monitoraggio della qualità del dato rilasciato e della sua struttura complessiva.

Grado di maturità dei Paesi Europei nell’implementazione della direttiva Public Sector Information – Dati 2020 – Confronto tra gli indici analizzati Fonte

Nonostante la data ultima per il recepimento negli Stati Membri della nuova Direttiva (UE) 2019/1024 fosse indicata per il 17 Luglio 2021, in Italia, al 19 Luglio 2021, pur essendo previsto nella legge di delegazione europea 2019-2020, non è stato ancora deliberato il decreto legislativo atto ad accogliere le nuove indicazioni. Secondo quanto stabilito dalla legge delega 53/2021, ci si attende che il Governo riesca nell’intento entro l’8 Agosto di quest’anno. Questi ritardi probabilmente andranno a impattare sulle future valutazioni relative al grado di attuazione della direttiva PSI nel Paese.

 

Aggiornamento 2022

 

Un focus sugli open data parlamentari

Andando nel dettaglio di un tipo di dato peculiare, quello prodotto dalle assemblee legislative, abbiamo messo a confronto i portali open data dedicati all’attività parlamentare in Italia, Francia, Germania, oltre che nel Parlamento Europeo.

Si tratta di portali parzialmente separati dal sito istituzionale vero e proprio: parliamo quindi, ad esempio, di dati.camera.it e non di Camera.it. Tale divisione è dovuta alla necessità di creare uno spazio apposito per l’esposizione di dati leggibili dalle macchine, mentre i siti istituzionali sono prevalentemente pensati per una visualizzazione ed esplorazione da parte del singolo utente sul proprio browser.

%%parallax2%%

Ci siamo quindi soffermati maggiormente sulla qualità, in termini di standard utilizzati e l’accessibilità del dato pubblicato, prendendo a riferimento le caratteristiche che Tim Berners-Lee, riconosciuto tra gli inventori del Web, indica come fondamentali per una buona struttura di open data.

I requisiti minimi sono:

  • Dati aperti facilmente leggibili meccanicamente perché strutturati e corredati di metadata
  • Possibilità di accedere al dato senza la necessità di ricorrere alla scrittura di un software specifico o utilizzare un software proprietario
  • Formato del dato che non richiede l’utilizzo di software proprietario

I portali open data di maggiore qualità prevedono anche che:

  • I dati siano predisposti per l’interoperabilità con altri dataset attraverso l’adozione di un framework condiviso per la codifica, lo scambio e il riutilizzo di metadati strutturati (es. RDF): ogni elemento ha un suo identificativo univoco (URI) ed è descritto mediante una struttura che ne evidenzia i collegamenti con gli altri elementi del dataset e/o esterni
  • Il dato sia facilmente linkabile dall’esterno e quindi integrabile o, auspicabilmente, già integrato in maniera armoniosa con altri dataset

L’Assemblea Nazionale in Francia

 %%parallax3%%

I dati sono pubblicati in tre formati differenti: *.xml, *.json e *.csv. I primi due sono formati più orientati all’interazione tra sistemi informatici, i file *.csv sono invece totalmente leggibili mediante fogli di calcolo.

In linea con le buone pratiche che abbiamo individuato per gli open data, le differenti risorse sono identificate da URI (Uniform Resource Identifier) fisse per avere la stabilità dell’accessibilità al dato da eventuali sistemi esterni.

I dati sono inoltre dotati di MD5: si tratta di uno strumento utile per fare emergere l’eventuale esistenza di errori di trasmissione dati o segnalare una loro sostituzione prima dell’arrivo al richiedente.

MD5 è infatti un algoritmo che, partendo da un dato in input, genera una stringa con particolari caratteristiche crittografiche. In questo caso la stringa è formata da 32 caratteri. Chi recupera i dati esposti può calcolare in modo indipendente l’MD5; se la stringa calcolata è differente rispetto a quella esposta, allora i dati scaricati sono diversi da quelli presenti sulla fonte ufficiale.

%%block_image_and_text3%%

I principali dati pubblicati sono relativi a:

  • Persone e mandati
  • Lavori parlamentari (attività legislativa, atti di controllo, voti, emendamenti)
  • Sedute di assemblea e commissioni
  • Consultazioni popolari e democrazia digitale
  • Indennità percepite dai parlamentari
  • Documentazione sulla struttura degli open data stessi

È ovviamente disponibile l’ultima legislatura, ma è anche possibile accedere agli archivi relativi ai precedenti mandati.

Per i campi e le colonne dell’export sono presenti descrizioni e metadati che agevolano l’interpretazione. Ogni singolo dataset riporta la data di aggiornamento. La frequenza di aggiornamento è giornaliera per una parte dei dati.

La licenza d’utilizzo è presente e disponibile in formato *.pdf e *.rdf.

Come capita spesso per questo tipo di open data, l’interfaccia web di interazione con l’utente esterno non è particolarmente curata ma, principalmente, si è puntato a garantire l’accesso attraverso strumenti relativamente semplici e stabili.

Il Bundestag in Germania

%%parallax4%%

La prima è l’archivio classico che si trova all’indirizzo https://www.bundestag.de/services/opendata

Se analizziamo i dati qui pubblicati in relazione alle votazioni, questi sono disponibili sia in formato *.xlsx (trattasi di un formato associato al software proprietario Excel e quindi una piccola pecca in termini di apertura del dato) sia in *.pdf.

Il file PDF sembra essere uno degli strumenti base della pubblicazione dei dati parlamentari. Questa scelta (in parte condivisa anche dal Parlamento Europeo) probabilmente origina dall’esposizione di documenti interni all’aula. Il PDF è infatti facilmente stampabile. Non è però facilmente leggibile da una macchina, se non attraverso software per l’estrazione e la ristrutturazione delle informazioni in esso contenute, e non ricade quindi a pieno titolo sotto l’etichetta open data.

Oltre ai formati *.xlsx e *.pdf , il Bundestag ha designato come veicolo open data per sistemi esterni il formato xml.

La scelta è più classica rispetto a quella proposta dall’Assemblée Nationale in Francia. Il formato *.json è infatti assente e ciò comporta una necessità di (semplice) conversione per sistemi che lo utilizzano in modo nativo.

In formato XML si trovano i verbali della plenaria a partire dalla prima legislatura e i dati dei parlamentari tedeschi dal 1949.

La documentazione relativa ai campi dei file *.xml è presente sul sito ma in formato di documento tecnico PDF.

%%block_image_and_text4%%

La pagina open data indirizza poi a un ulteriore servizio. Si tratta di un’API JSON che espone i dati sia del Bundestag che del Bundesrat in una modalità di più facile integrazione per i moderni sistemi informatici.

Tuttavia, per potervi accedere ed effettuare interrogazioni è necessario richiedere al Parlamento stesso un API KEY, una chiave privata. In questo modo i servizi informativi possono controllare, limitare e impedire gli accessi a determinati servizi e server.

Questa applicazione, implementata di recente, si inserisce all’interno di un più complessivo progetto di ristrutturazione delle informazioni parlamentari denominato DIP. Su questo nuovo portale, che come detto accomuna Bundestag e Bundesrat, è già possibile effettuare ricerche attraverso un motore su atti e procedimenti.

Camera e Senato in Italia

%%parallax5%%

La filosofia che guida i database è quella dei linked data: ogni dato è identificato in maniera univoca e descritto evidenziandone i collegamenti con gli altri elementi del dataset.

I siti che espongono gli open data di Camera e Senato e i rispettivi dataset sono separati, anche se molto affini. Vengono esposti due endpoint SPARQL (un linguaggio per interrogare questo tipo di strutture) che permettono di sfruttare le potenzialità dei linked data, potenzialità dovute proprio dall’avere a disposizione dati pensati come interconnessi tra loro. È possibile quindi strutturare viste personalizzate, andando ad estrarre unicamente le informazioni di interesse.

Purtroppo i sistemi di Camera e Senato sono simili ma differenti e le strutture dei dati non sono condivise dai due rami del Parlamento. Le cause principali delle differenze relative ai due dataset sono ricercabili nell’autodichia e nel potere di autoregolamentazione dei due organi, che hanno portato le due camere a gestire in autonomia il problema della pubblicazione del dato. Ad esempio, entrambi i portali utilizzano il linguaggio SPARQL ma, paradossalmente, hanno adottato due differenti versioni dello stesso.

%%block_image_and_text5%%

I due siti forniscono un accesso semplificato ai dati per l’utente che non sa o non è interessato ad usare SPARQL perché, per il suo caso d’uso, risulta essere uno strato superfluo, non essendovi magari necessità di insistere sulle relazioni tra diversi dataset.

La Camera fornisce dei dump (delle estrazioni) standard dei dati: è possibile così scaricare in formato XML/RDF dei dataset già composti relativi alle persone, agli atti legislativi, a voti, atti di indirizzo e controllo e ulteriori dati di contorno.

Il Senato fornisce invece un’interfaccia web che permette di inserire alcuni parametri di filtro e di esportare alcune viste standard pre-indirizzate. Anche nel caso del Senato sono disponibili dati relativi alle persone, agli atti legislativi, a voti e atti di indirizzo e controllo: per il download è possibile scegliere tra i formati XML, JSON e CSV.

Nello spirito dei linked data, le entità (elementi definiti della struttura dati) sono accessibili tramite URI fisse. Ad esempio http://dati.camera.it/ocd/deputato.rdf/d302875_18 corrisponde ai dati relativi al deputato della diciottesima legislatura Renato Brunetta.

Oltre che a essere ben strutturato, il dato disponibile è anche aggiornato in modo relativamente rapido, benché nel migliore dei casi con circa un giorno di attesa rispetto ai siti istituzionali.

Il Parlamento Europeo

%%parallax6%%

Dal Parlamento europeo passano infatti questioni che superano le leggi dei singoli Paesi e la distanza rispetto al cittadino (dovuta anche a una minore copertura mediatica) è maggiore.

Una complessità ulteriore deriva poi dalla necessità di operare in una modalità multi-lingua.

Dal punto di vista tecnico, il formato scelto da Bruxelles e Strasburgo per rendere disponibili i dati ad altri sistemi è l’XML.

Una parte dei dati, tuttavia, non sono accessibili via XML ma sono presenti nelle pagine web del sito ufficiale: la struttura del dataset non è quindi formalmente disponibile mediante il protocollo scelto, né si può parlare di dati totalmente aperti.

Disponibile in XML è la lista totale dei parlamentari europei dell’attuale legislatura, affiancata da due liste che espongono i dati di base dei parlamentari entranti e uscenti (il parlamento europeo ha un discreto turnover). Tuttavia, per informazioni di dettaglio rispetto alle membership del singolo deputato, è necessario passare dalla sua pagina personale sul sito ufficiale.

I dati delle votazioni in aula sono presenti in tre formati: *.pdf, *.doc e *.xml (quest’ultimo, l’unico vero formato aperto tra i tre, è curiosamente generato solo nella versione francese). Come in altri casi, il formato *.pdf viene utilizzato come veicolo di open data non davvero “aperti”, non essendo un formato pensato per l’interscambio dei dati tra sistemi informatici.

I documenti relativi alle diverse attività parlamentari (sedute, interrogazioni, atti) sono presenti in formato XML e sono di norma messi a disposizione in più lingue. I documenti sono consultabili sia attraverso interfaccia web, sia tramite download in formato PDF o DOC.

Oltre al sito ufficiale, per rintracciare queste informazioni è importante fare riferimento al repository documentale Public Register of Documents.

Si tratta di un approccio non proprio in linea con la promozione della generazione e riutilizzo degli open data. Fino a poco tempo fa, alcune di queste informazioni erano presenti su un vero e proprio portale dedicato agli open data europei “EU Open Data Portal”. Questo sito è stato di recente sostituito da un nuovo portale ufficiale data.europa.eu

Il nuovo portale ha il pregio di fare molti passi in avanti rispetto all’adozione di una filosofia open data, puntando esplicitamente sui linked data, sulle informazioni relative alla qualità dei metadati e sulla formazione. Il progetto è estremamente ambizioso, ospitando oggi 1372868 dataset, prodotti da 36 Paesi. Nonostante gli sforzi nel creare un motore di ricerca avanzato, con questi numeri è piuttosto facile perdersi. I dati relativi al Parlamento Europeo sono qui una piccolissima parte dei dati ospitati e rimandano unicamente alle informazioni in formato XML degli elenchi dei parlamentari eletti e alle relative pagine web di riferimento sul sito ufficiale dell’Europarlamento.

 

%%block_image_and_text6%%

Oltre la disponibilità del dato

Come sempre, quando si lavora con i dati, la disponibilità e la relativa accessibilità sono solo il primo passo del percorso. Per utilizzi differenti, innanzitutto, si porrà attenzione a caratteristiche diverse: si pensi, ad esempio, a quanto può impattare la velocità di aggiornamento su chi intenda utilizzare gli open data per un’attività di monitoraggio giornaliero di quanto accade in Parlamento.

Per capire poi in maniera esatta cosa questi dati stiano rappresentando, sono necessari studio, esperienza e conoscenza del dominio, anche al fine di evitare errori grossolani quando li si va ad analizzare. Ad esempio, non conoscere le differenze nei regolamenti tra Camera e Senato potrebbe portare ad analisi “guidate dai dati” parzialmente fuorvianti rispetto ai motivi per cui si instaurano alcuni meccanismi in Assemblea

Lo sforzo operato dai parlamenti è sicuramente necessario, finanche lodevole, ma le complessità della democrazia rappresentativa e delle sue mille sfumature richiedono ancora uno strato di traduzione tra il dato e l’utente finale meno esperto o con meno tempo a disposizione per seguire l’attività di organismi complessi che pure a lui dovrebbero rispondere.

 

 

Leggi anche

Tutti gli articoli