









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
I BIG DATA- INFORMATICA GIURIDICA
Tipologia: Dispense
1 / 16
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Big Data: una lettura informatico-giuridica Sebastiano Faro, Nicola Lettieri 1 SOMMARIO: 1. Il «diluvio dei dati» nella società dell’informazione. –
individui producono costantemente informazioni, che vengono raccolte, conservate e frequentemente usate per finalità diverse da quelle per cui esse sono state originariamente raccolte. Il processo appena descritto trae alimento da due diversi fenomeni: la c.d. datizzazione , la raccolta di informazioni su un fenomeno – ad esempio, la frequenza delle maree o l’ubicazione di una persona – per convertirle in forma quantitativa in modo da poterle analizzare e la digitalizzazione che consiste nel convertire le informazioni in un formato elaborabile dal computer. «Big Data» 3 è l’espressione usata per indicare, nel complesso, l’accumulo di enormi moli di dati e il loro utilizzo per analisi orientate ad estrare nuova conoscenza da esse a scopi tanto scientifici quanto applicativi. I Big Data sono impiegati in un numero crescente di aree che spaziano dal management e dal marketing alle attività delle pubbliche amministrazioni e dei governi fino ad arrivare alla ricerca scientifica. Considerato nel suo complesso, il fenomeno dei Big Data si presta a letture diverse a seconda dell’aspetto preso in considerazione: l’impatto sulla società, la tecnologia e l’economia; le ricadute sull’indagine scientifica o, ancora, il problema della loro regolazione giuridica, tema, questo, proprio del Diritto dell’informatica 4 . successiva combinazione di dati relativi ai singoli – sia al fine di misurare i dati che riguardano lo specifico ambiente in cui si muove la singola persona sia al fine di osservare in modo specifico e analizzare le sue abitudini. Da quando l’idea dell’Internet delle cose come integrazione del mondo digitale con quello fisico, che collega oggetti, persone e luoghi, è stata proposta da INTERNATIONAL TELECOMMUNICATION UNION, ITU internet reports 2005: The internet of things , 2005, disponibile all’indirizzo: https://www.itu.int/net/wsis/tunis/newsroom/stats/The-Internet-of-Things- 2005.pdf, la letteratura in materia si è sviluppata ampiamente (si v., ex multis , R.H. WEBER - R. WEBER, Internet of Things: Legal Perspectives , New York, Springer, 2010, e, sul piano operativo, ARTICLE 29 DATA PROTECTION WORKING PARTY, Opinion 8/2014 on the on Recent Developments on the Internet of Things , 16 settembre 2014). (^3) Questa espressione è comunemente diffusa, anche in Italia, nel suo originale inglese; a questa ci atterremo, anche se segnaliamo la sua possibile traduzione con la parola «megadati», che è utilizzata dal Garante europeo per la protezione dei dati personali. (^4) Tra le prospettive di interesse per il Diritto dell’informatica, de iure condito e de iure condendo , citiamo, a titolo di esempio, quelle relative alla protezione dei dati
non è più compatibile con le capacità di raccolta, gestione, archiviazione e analisi dei software comunemente utilizzati per la gestione dei database. Di giganteschi insiemi di dati detenuti da imprese, governi e altre grandi organizzazioni parla anche il «Gruppo di lavoro articolo 29» dell’Unione europea evidenziando come essi siano destinati ad essere analizzati attraverso l’uso di algoritmi 7
. Nella stessa prospettiva, con particolare attenzione all’uso dei dati, si è detto che l’espressione serve a designare un nuovo modo in cui organizzazioni pubbliche e private «combinano diversi insiemi di dati digitali e poi usano tecniche statistiche e di estrazione di informazioni per ricavare dai dati stessi informazioni nascoste e scoprire correlazioni inaspettate» 8 . (a) Caratteri Nell’espressione Big Data, la grandezza evocata dal termine « big » ha almeno due significati, riferendosi non solo alla quantità di dati trattati ma anche alla portata straordinariamente profonda e alla granularità delle analisi effettuabili su di essi 9 . Per concretizzare il concetto di «grandezza» dei dati, si utilizzano le «tre V» corrispondenti rispettivamente alle tre dimensioni del all’indirizzo: http://www.mckinsey.com/insights/business_technology/big_data_the_next_fronti er_for_innovation. (^7) ARTICLE 29 DATA PROTECTION WORKING PARTY, Opinion 3/2013 on purpose limitation , 2 aprile 2013. 8 I.S. RUBINSTEIN, Big Data: The End of Privacy or a New Beginning? , in International Data Privacy Law, 2013, disponibile all’indirizzo: http://idpl.oxfordjournals.org/content/early/2013/01/24/idpl.ips036, a p. 1 (traduzione nostra). (^9) Queste due accezioni del concetto di «grandezza» sono collegate alla disponibilità di nuove infrastrutture informatiche in grado di abilitare processi di archiviazione e analisi di dati su vasta scala. Si tratta di infrastrutture tecnologiche ( hardware e software ) che nel recente passato erano disponibili solo alle grandi organizzazioni pubbliche e private e che oggi sono accessibili anche a piccole imprese o a singoli individui. Queste strutture sono rappresentate tanto da piattaforme «centralizzate» in cui convergono enormi risorse di calcolo e memorizzazione dati ( data center ), quanto da servizi distribuiti in luoghi diversi tra di loro connessi attraverso la rete in virtù di una complessa infrastruttura web ( cloud computing ).
«volume», della «velocità» e della «varietà» 10
. Il volume che caratterizza i Big Data è quello di insiemi di dati così grandi da non poter essere gestiti e analizzati con metodi «tradizionali» (fogli di calcolo, database relazionali), ma solo con strumenti più avanzati concepiti ad hoc. Con il concetto di varietà si fa riferimento al fatto che i dati provengono da fonti diverse e hanno formati diversi. Con il concetto di velocità , infine, si evoca la rapidità di trasferimento delle informazioni e la possibilità di analizzarle in tempo reale. Le tecniche di analisi dei Big Data vengono applicate non solo a insiemi di dati ospitati in enormi archivi ma anche a dati «in movimento», nel momento stesso in cui essi vengono prodotti o registrati (caratteristica di particolare importanza in certi contesti). Quando riferito alle analisi, il concetto di «grandezza» si concretizza nella possibilità di estrarre dai dati una conoscenza esistente solo in termini impliciti al loro interno sotto forma di relazioni tra informazioni disponibili. L’insieme di tecniche che consente l’estrazione di conoscenza dai Big Data ha dato vita alla « Analytics » (reso in italiano come «analitica»), un’area di ricerca autonoma il cui scopo è quello di elaborare algoritmi e strategie capaci di operare sui dati inferenze sempre più raffinate e affidabili. In estrema sintesi, la prospettiva dell’analitica è quella di associare all’approccio tradizionale, nel quale i dati vengono analizzati per validare teorie e/o ipotesi, un approccio di tipo euristico nel quale i dati sono il punto di partenza per la identificazione di regolarità e correlazioni rilevanti per comprendere meglio un fenomeno o per fare previsioni sui suoi sviluppi futuri. In questo contesto, vengono in gioco diverse tecniche che vanno dal « data mining », il processo computazionale orientato alla identificazione di regolarità (cd. « pattern » 11 ) all’interno di grandi insiemi di dati in formato digitale, alla integrazione di dati e informazioni (« data fusion and information (^10) Cfr. la definizione fornita dal Gartner IT glossary (disponibile all’indirizzo: http://www.gartner.com/it-glossary/big-data): « Big Data is high-volume, high- velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making ». 11 Cfr. S. DULLI - S. FURINI - E. PERON, Data Mining: metodi e strategie , Milano, Springer, 2009, a p. 159, secondo cui il termine pattern indica una «regolarità che si osserva nello spazio e/o nel tempo nel fare o generare delle cose» e anche «una regolarità che si riscontra comune a delle cose».
partire dal numero di visite ad un negozio e dal tipo di articoli acquistati); (iv) dedotti : prodotti sfruttando euristiche capaci di trovare correlazioni e regolarità in altri dati e usando queste correlazioni per categorizzare o profilare individui 13 . (c) Utilizzo Il valore dei Big Data si materializza in una ampia serie di operazioni, ricche di proiezioni sul piano scientifico e applicativo, che vanno dalla classificazione (assegnazione di oggetti o eventi a categorie note) al « clustering » (raggruppamento, per similitudine, di oggetti o di eventi in categorie definite ad hoc ) alla regressione (inferenza e previsione di quantità numeriche a partire da dati noti – una banca, ad esempio, utilizzando questa tecnica può inferire da alcune caratteristiche di una domanda di prestito la probabilità di insolvenza del richiedente – ). È possibile inoltre realizzare operazioni di associazione (identificazione di relazioni tra elementi diversi di un insieme di dati strutturati ); rilevamento di anomalie (identificazione di elementi atipici all’interno di un insieme di dati strutturati); riepilogo (identificazione e presentazione di caratteristiche salienti dei dati 14 ).
3. …e impatto sull’Informatica giuridica Come abbiamo già avuto modo di anticipare, i Big Data sembrano destinati ad avere un impatto rilevante sul piano scientifico. Le «tracce digitali» prodotte dalle nostre interazioni in rete sono alla base di un nuovo paradigma di ricerca, quello della c.d. «scienza sociale computazionale» delineato per la prima volta solo pochi anni (^13) Cfr. OECD WORKING PARTY ON PRIVACY AND SECURITY IN THE DIGITAL ECONOMY, Summary of the OECD privacy expert roundtable. Protecting privacy in a data-driven economy: taking stock of current thinking, 2014, disponibile all’indirizzo: http://www.oecd.org/officialdocuments/publicdisplaydocumentpdf/?cote=dsti/iccp /reg(2014)3&doclanguage=en. 14 Questo tipo di operazione include semplici statistiche, ad esempio, i punteggi medi dei test degli studenti di scuola e degli insegnanti, e anche analisi di livello superiore, ad esempio, un elenco di fatti rilevanti relativi ad un individuo raccolti nei diversi siti web che lo menzionano.
fa – nel 2009 – in un articolo seminale 15 in cui si evidenzia come queste tracce «poss[a]no essere ricomposte in una rappresentazione complessiva dei comportamenti individuali e di gruppo, con la possibilità di trasformare la nostra comprensione delle nostre vite, organizzazioni e società» 16
. Ad avviso degli autori dell’articolo, 15 studiosi di formazione estremamente eterogenea, la possibilità di raccogliere e analizzare enormi quantità di dati è destinata a svolgere un ruolo fondamentale nel futuro della scienza, un futuro in cui i progressi scientifici sono in larga parte frutto dell’applicazione di euristiche computazionali a enormi insiemi di dati. Combinandosi con nuove metodologie di ricerca 17 , i Big Data danno vita ad un approccio realmente interdisciplinare 18 in cui scienziati sociali e comportamentali, scienziati cognitivi, informatici, 15 D. LAZER - A. PENTLAND - L. ADAMIC - S. ARAL - A.-L. BARABÁSI - D. BREWER
rispettivamente, l’analisi del linguaggio, l’analisi delle reti e la c.d. « predictive analytics ». 3.1. Analisi del linguaggio Nel campo della linguistica computazionale un n-gramma è una sottosequenza di n elementi di una data sequenza. Gli elementi considerati possono essere fonemi, sillabe, lettere, parole, ecc. Pur essendo da tempo noto agli studiosi di linguistica, il concetto di n- gramma è stato recentemente reso popolare dalla messa online di Google N-gram Viewer 21 , un progetto collaterale alla Biblioteca digitale di Google 22
. Sfruttando tecniche di analisi statistica delle occorrenze degli n-grammi nei libri presenti nella Biblioteca digitale, l’ N-gram viewer consente agli utenti di esplorare l’emersione e la diffusione di concetti, l’evoluzione del linguaggio nonché i processi di trasformazione istituzionale e culturale 23 . Quella che si profila è la nascita di una nuovo settore di indagine scientifica in cui Big Data e linguistica convergono per dare nuove risposte alle domande di ricerca di discipline diverse, dalla sociologia all’antropologia culturale. In ambito giuridico 24 le prime esperienze in materia risalgono a pochi anni or sono. Un esempio interessante è rappresentato da una ricerca che ha utilizzato gli n-grammi per analizzare un corpus costituito dal testo integrale di tutte le sentenze pronunciate alla Corte suprema degli Stati Uniti negli anni 1791-2005. L’esperimento si (^21) https://books.google.com/ngrams. 22 Si tratta della nota iniziativa che prevede l'accordo di Google con biblioteche pubbliche e universitarie per la digitalizzazione di circa 15 milioni di volumi e la loro messa a disposizione in un’interfaccia di ricerca online. 23 È il caso, quest’ultimo, della c.d. « Culturomics » definita come « a form of computational lexicology that studies human behavior and cultural trends through the quantitative analysis of digitized texts » (B. HAYES, Bit Lit , in American Scientist , 2011, p. 190). Sul tema v. J-B. MICHEL - Y. K. SHEN - A. PRESSER AIDEN - et al. , Quantitative Analysis of Culture Using Millions of Digitized Books , in Science , 2010, vol. 331, n. 6014. pp. 176-18; J. BOHANNON, Google Books, Wikipedia, and the Future of Culturomics , ivi , p. 135. 24 D.M. KATZ - M.J. BOMMARITO - J. SEAMAN - A. CANDEUB - E. AGICHTEIN, Legal N-Grams? A Simple Approach to Track the ‘Evolution’ of Legal Language , in Proceedings of JURIX 2011: The 24th International Conference on Legal Knowledge and Information Systems , 2011, disponibile all’indirizzo: http://ssrn.com/abstract=1971953.
fonda sulla convinzione che il calcolo e l’analisi degli n-grammi possa rappresentare uno strumento di ricerca efficace anche per i giuristi perché un numero significativo delle frasi contenute nel più ampio universo degli n-grammi è associato con particolari teorie e dottrine giuridiche. Ciò è particolarmente vero nei sistemi di common law , dove la forza e l’importanza di una regola giuridica sono spesso correlate con la pervasività e la persistenza nel tempo all’interno dei testi giuridici delle espressioni che la descrivono. 3.2 Analisi delle reti Un’importante area di studio sempre più strettamente collegata ai Big Data è rappresentata dallo studio di aspetti strutturali e funzionali degli ordinamenti giuridici attraverso tecniche di network analysis – analisi delle reti 25 , metodologia nata nel contesto delle scienze sociali e successivamente diffusasi in altri numerosi contesti che spaziano dalla computer science alla biologia. In ambito giuridico, uno dei principali obiettivi associati all’uso di queste metodologie è lo studio dell’evoluzione storica degli ordinamenti o anche la comparazione diacronica e sincronica di esperienze giuridiche diverse. Le relazioni fra documenti giuridici mostrano la topologia tipica delle strutture a rete ed appare quindi possibile applicare al diritto le tecniche di analisi computazionale delle reti e delle loro caratteristiche. In sostanza, il diritto (o meglio, il sistema delle fonti del diritto) può essere pensato come una enorme rete che include sia informazioni testuali (incorporate nei documenti giuridici, ciascuno dei quali è un nodo della rete) sia informazioni sulle relazioni fra i nodi della rete stessa (le citazioni e i rinvii contenuti nei documenti – rappresentate da archi che uniscono i nodi della rete). Di particolare interesse appare lo studio delle reti costituite dalle sentenze e dai loro reciproci rapporti, che può contribuire a far luce sul modo in cui l’ordinamento giuridico si evolve. Simili tipi di analisi permettono di studiare e misurare empiricamente il grado di integrazione tra ordinamenti diversi (ad esempio, ordinamenti statali e 25 Per un’introduzione alla network analysis si v., in italiano, con particolare riferimento allo studio delle dinamiche sociali, F. PISELLI, Reti: l'analisi di network nelle scienze sociali, Milano, Donzelli, 2001; A. TROBIA - V. MILIA, Social Network Analysis. Approcci, tecniche e nuove applicazioni , Roma, Carocci,
3.3. Predictive analytics La combinazione di Big Data, potenza di calcolo e tecniche di intelligenza artificiale è alla base di applicazioni che ricavano inferenze predittive dall’analisi di dati noti (quali possono essere, ad esempio, in ambito giuridico, i precedenti giurisprudenziali relativi ad una certa materia) 28 . statunitense sono presentati attraverso una interfaccia grafica interattiva che consente di esplorare la relazione fra le diverse sentenze sia attraverso una rappresentazione grafica sia scorrendo la lista dei risultati presentata in versione testuale. Riguardo ad altri progetti, è possibile osservare online la rappresentazione grafica della rete delle citazioni della Corte suprema degli Stati Uniti (http://computationallegalstudies.com/2010/02/11/the-development-of- structure-in-the-citation-network-of-the-united-states-supreme-court-now-in-hd/), la rappresentazione grafica dei rapporti fra gli articoli del Codice civile francese e delle leggi collegate (progetto Lexmex , http://lexmex.fr) e la rappresentazione grafica della evoluzione nel tempo della legislazione dell’Unione europea (http://epdb.eu/eulegislation). Fra i progetti italiani riconducibili a quest’area di ricerca sia consentito, infine, citare i progetti Lawiz e EUCaseNet. Il primo combina analisi di dati in formato open, metacrawling (ricerca contemporanea su più motori di ricerca) e tecniche di visualizzazione delle reti per produrre mappe interattive di documenti giuridici eterogenei (lavori preparatori, normativa, dottrina, giurisprudenza costituzionale e di legittimità) connessi a uno specifico atto normativo. EuCaseNet esplora l’applicazione di tecniche di network analysis e data mining all’intero corpus della giurisprudenza dell’Unione europea e si propone di fornire nuovi strumenti per lo studio dell’evoluzione dell’ordinamento europeo, anche sperimentando metodi visuali di information retrieval. Per Lawiz si v. N. LETTIERI - S. FARO - L. VICIDOMINI - A. ALTAMURA, Nets of Legal Information Connecting and Displaying Heterogeneous Legal Source, in Pre-proceedings of NAIL 2014, Second International Workshop on Network analysis in Law, 2014, disponibile all’indirizzo: http://www.leibnizcenter.org/~winkels/NAiL2014-pre- proceedings.pdf; per EUCaseNet si v. N. LETTIERI - D. MALANDRINO - A. FAGGIANO - C. SPAGNUOLO, A computational approach to the study of EU case law: analysis and implementation , in Proceedings of ARS ‘15, Fifth International Workshop on Social Network Analysis Large Networks and Big Data: New Methodological Challenges , Capri, April 29-30, 2015. 28 Cfr. T.W. RUGER - P.T. KIM - A.D. MARTIN - K.M. QUINN, The Supreme Court Forecasting Project: Legal and Political Science Approaches to Predicting Supreme Court Decisionmaking , in Columbia Law Review , 2002, pp. 1150-1210; D.M. KATZ, Quantitative Legal Prediction – or – How I Learned to Stop Worrying and Start Preparing for the Data Driven Future of the Legal Services
Su questa base sono state realizzate applicazioni per prevedere costi, risultati e potenziali rischi economici legati all’andamento di una causa, supportando – o sostituendo in certi casi – il lavoro degli avvocati. Un buon esempio in tal senso è rappresentato dai servizi offerti da Lex Machina 29 che raccoglie ed elabora tutta la documentazione e le informazioni digitali disponibili negli Stati Uniti in materia di brevetti e marchi. Gli utenti (imprese, studi legali, consulenti privati e funzionari pubblici), oltre ad accedere alla più completa raccolta di dati esistente in materia, possono ottenere anche analisi predittive relative all’esito di ricorsi o alla convenienza economica di transazioni o registrazioni di marchi e brevetti. In ambito accademico, si può citare la ricerca che, sfruttando tecniche di machine learning , ha definito un modello per la predizione delle decisioni della Corte Suprema degli Stati Uniti 30
. Usando solo dati disponibili prima della data della decisione, questo modello permette di prevedere correttamente il 70,9% dei voti dei singoli giudici nell’ambito di 7.700 decisioni (per circa 68.000 voti individuali). La prestazione del modello è in linea con il livello generale di previsione offerto da esperti umani e si distingue per essere il primo modello delle decisioni della Corte Suprema generalizzato e pienamente predittivo che, a detta dei suoi autori, incarna un progresso importante per l’area della « quantitative legal prediction » facendo presagire una serie di altre potenziali applicazioni. 4. Osservazioni conclusive La comparsa dei Big Data negli orizzonti del giurista è un fenomeno recente, ancora in fase di sviluppo e dagli esiti non del tutto prevedibili. Una disamina anche rapida dello scenario descritto nei paragrafi precedenti permette di cogliere la ricchezza di implicazioni per il mondo del diritto tanto sul piano scientifico quanto applicativo. Industry , in Emory Law Journal , 2013, pp. 909-966, disponibile all’indirizzo: http://ssrn.com/abstract=2187752. 29 https://lexmachina.com/ 30 D.M. KATZ - M.J. BOMMARITO - J. BLACKMAN, Predicting the Behavior of the Supreme Court of the United States: A General Approach , 2014, disponibile all’indirizzo: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2463244.
questa dimensione coinvolge inevitabilmente le facoltà giuridiche e, più in generale, tutto il mondo della formazione giuridica, chiamando particolarmente in causa oggetto e contenuti dell’Informatica giuridica. Si può immaginare che molti interessanti sviluppi nel modo in cui il diritto viene studiato e nel modo in cui la complessità della società moderna viene gestita giuridicamente dipendano anche dalla capacità di preparare le nuove generazioni di giuristi a cogliere, con la mediazione dell’Informatica giuridica, le opportunità che si profilano nel mondo delle scienze sociali computazionali.