CRITICAL QUESTION FOR BIG DATA, Appunti di Diritto di internet e dei social media. Università Cattolica del Sacro Cuore - Milano
sara.annacondia
sara.annacondia

CRITICAL QUESTION FOR BIG DATA, Appunti di Diritto di internet e dei social media. Università Cattolica del Sacro Cuore - Milano

8 pagine
6Numero di visite
Descrizione
Traduzione in italiano dell'articolo in inglese
20 punti
Punti download necessari per scaricare
questo documento
Scarica il documento
Anteprima3 pagine / 8
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento

Danah Boyd & Kate Crawford

DOMANDE CRITICHE RIGUARDANTI I BIG DATA:

Provocazioni su un fenomeno culturale, tecnologico e scientifico.

L’era dei Big Data è cominciata. Informatici, fisici, economisti, matematici, scienziati politici, bio-informatici, sociologi e altri studiosi stanno chiedendo l’accesso alla massiccia quantità di informazioni prodotte dalle persone e riguardanti le loro azioni e le loro interazioni. Diversi gruppi discutono riguardo il loro potenziale beneficio e i loro costi di analisi delle sequenze genetiche, delle interazioni sui social media, dei registri sanitari, telefonici e governativi e di tutte le altre tracce digitali lasciate dalle persone. Emergono a tal proposito questioni significative.

I dati di ricerca su larga scala ci aiuteranno a produrre strumenti, servizi e beni pubblici migliori? O inaugureremo una nuova ondata di incursioni private e di marketing invasivo? L’analisi dei dati ci aiuterà a comprendere le comunità online e i movimenti politici? Oppure verranno usati per sopprimere i protestanti e mettere a tacere i loro discorsi/le loro manifestazioni? Trasformeranno il modo in cui studiamo le comunità umane e le culture, o limiteranno la gamma di opzioni/metodi di ricerca modificando il concetto di “ricerca”? Data l’ascesa dei Big Data come fenomeno socio tecnologico, sosteniamo che sia necessario indagare in modo critico le loro ipotesi e i loro pregiudizi. In questo articolo offriamo sei provocazioni per suscitare in voi conversazioni riguardo i problemi dei Big Data: fenomeni culturali, tecnologici e scientifici che poggiano sulle interazioni tra tecnologia, analisi e metodologie che provocano una retorica utopica e dispotica estesa.

Kewwords: Big Data (BD); analitica; social media; studi di comunicazione; social network; filosofia della scienza; epistemologia; etica; Twitter.

(Ricevuto il 10/12/2011; versione finale ricevuta 20/03/2012)

La tecnologia non è mai positiva o negativa; è neutrale…l’interazione tecnologica con l’ecologia sociale è tale che gli sviluppi tecnologici abbiano spesso conseguenze ambientali, sociali e umane che vanno ben oltre gli immediati scopi dei dispositivi tecnologici e delle loro pratiche.

Vogliamo aprire il discorso sulle variazioni temporali, specifiche e materiali che possiamo rappresentare nei nostri database, al fine di progettare la massima flessibilità e consentendo, per quanto possibile, un’emergente polifonia (l’unione di più voci/punti di vista) e policromia. I dati grezzi sono un ossimoro e una cattiva idea; al contrario i dati dovrebbero essere “cotti”, cioè analizzati con attenzione.

L’era dei Big Data è in corso. Informatici, fisici, economisti, matematici, scienziati politici, bio-informatici, sociologi e altri studiosi stanno chiedendo l’accesso alla massiccia quantità di informazioni prodotte dalle persone e riguardanti le loro azioni e le loro interazioni. Diversi gruppi discutono riguardo il loro potenziale beneficio e i loro costi di analisi delle sequenze genetiche, delle interazioni sui social media, dei registri sanitari, telefonici e governativi e tutte le altre tracce digitali lasciati dalle persone. Emergono a tal proposito questioni significative.

I dati di ricerca su larga scala ci aiuteranno a produrre strumenti, servizi e beni pubblici migliori? O inaugureremo una nuova ondata di incursioni private e di marketing invasivo? L’analisi dei dati ci aiuterà a capire/comprendere le comunità online e i movimenti politici? Oppure verranno usati per sopprimere i protestanti e mettere a tacere i loro discorsi/le loro manifestazioni? Questa grande quantità di dati trasformerà il modo in cui studiamo le comunità umane e le culture, o limiteranno la gamma di opzioni/metodi di ricerca modificando il concetto/il significato di “ricerca”?

Big Data è comunque un termine povero/scarso/scadente. Come osserva Manovich (2011) il termine è usato in campo scientifico per fare riferimento a set/gruppi di dati abbastanza grandi richiesti ai supercomputer, ma quello che un tempo veniva chiesto a questo macchine può essere ora analizzato dai computer con software standard. C’è però il dubbio che le quantità di dati siano spesso abbastanza grandi, ma questa non è la caratteristica distintiva di questo nuovo ecosistema di dati. Infatti alcuni dei dati compresi nei BD (ad esempio tutti i messaggi Twitter riguardanti un particolare argomento) non sono grandi come i set di dati che prima consideravamo BD (es. i dati dei censimenti). I BD sono

meno relativi ai dati che riguardano la capacità di una ricerca, di aggregazione e di cross references di grandi set di dati.

Definiamo BG come fenomeni culturali, tecnologici e scientifici che si basano sull’interazione di:

1. Tecnologia: massimizzando il potere di calcolo e l'accuratezza algoritmica per raccogliere, analizzare, collegare e confrontare grandi set di dati;

2. Analisi: basandosi su grandi set di dati per identificare modelli per fare affermazioni economiche, sociali, tecniche e legali;

3. Metodologia: la diffusa convinzione che i grandi set di dati offrono un'alta forma di intelligenza e di conoscenze che possono tralasciare intuizioni precedentemente impossibili, con l'aura della verità, dell'obiettività e della precisione.

Come altri fenomeni socio-tecnologici, i BD innescano sia la retorica utopica che quella distopica (assoluta). Da un lato i BG sono visti come un potente strumento per affrontare diversi problemi sociali, offrendo potenziali nuove conoscenze in aree divergenti come ad esempio la ricerca sul cancro, al terrorismo, al cambiamento climatico. Dall’altro lato i BG sono visti come preoccupante manifestazione del Big Brother (=controllo), permettendo l'invasione della privacy, limitando la libertà civile e aumentando il controllo statale e aziendale. Come in tutti i fenomeni socio-tecnici, le attuali speranze e la paura oscurano i cambiamenti più sfumati e sottili che sono in corso.

Le banche dati informatizzate non sono nuove. L’ufficio del censimento americano mise in servizio le prime macchine per il trattamento automatizzato del mondo nel 1980 - la macchina di punch-card ( = macchina della carta punzonatrice) (Anderson 1988). I database relazionali sono emersi nel 1960 (Fry &Sibley 1974). L’informatica e internet hanno reso possibile a una più ampia gamma di persone - tra studiosi, esperti di marketing, agenzie governative, istituti di istruzione e persone motivate - di produrre, condividere, interagire e organizzare i dati. Tutto questo ha portato a ciò che Savage e Burrows (2007) descrivono come la crisi della sociologia empirica. I set di dati che una volta erano oscuri e difficili da gestire - e quindi che erano solo di interesse per gli scienziati sociali - sono ora aggregati e resi accessibili a chiunque sia curioso, indipendentemente dalla propria formazione.

Il modo in cui sarà gestito l'emergere dell’era dei Big Data è fondamentale. Mentre il fenomeno ha luogo in un contesto di incertezza e di rapido cambiamento, le decisioni attuali daranno forma al futuro. Con l'aumento automatico della raccolta e dell'analisi dei dati - così come degli algoritmi che possono estrarre e illustrare schemi di grande portata del comportamento umano - è necessario chiedersi quali sistemi stiano guidando queste pratiche e come questi sistemi siamo regolamentati. Lessing (1999) sostiene che i sistemi sociali siano regolati da quattro forze: il mercato, la legge, le norme sociali e l'architettura - o, nel caso della tecnologia, il codice. Quando si tratta di grandi dati, queste forze sono spesso in disaccordo. Il mercato vede i BD come pura opportunità: gli esperti di marketing li utilizzano per creare pubblicità ad hoc per i propri pubblici di riferimento (target advertising), i fornitori di assicurazioni li utilizzano per ottimizzare l'offerta e i banchieri di Wall Street li usano per leggere il mercato. La legislazione è già stata proposta per limitare la raccolta e la conservazione dei dati, solitamente per placare le preoccupazioni riguardanti la privacy. Caratteristiche come la personalizzazione consentono l'accesso rapido a informazioni più pertinenti, ma presentano difficili domande etiche che frammentano il pubblico in modo preoccupante (Pariser, 2011).

Ci sono studi significativi e approfonditi attualmente in corso che coinvolgono i BD, ma è ancora necessario porre domande critiche su ciò che tutti questi dati significano, chi ha accesso e a quali dati, come l'analisi dei dati viene distribuita e secondo quali scopi. In questo articolo, offriamo sei provocazioni per scatenare discorsi sulle questioni dei BG. Siamo studiosi di scienze sociali e dei media che sono regolarmente in contatto con scienziati ed esperti informatici. Le domande che poniamo sono difficili e senza risposte facili, anche se descriviamo diverse insidie che possono sembrare ovvie agli scienziati sociali, ma sono sorprendenti a coloro che provengono da diverse discipline. A causa del nostro interesse e dell'esperienza con i social media, la nostra attenzione è qui principalmente rivolta ai BD nel contesto dei social media. Con ciò, riteniamo che le domande che stiamo ponendo siano anche importanti per altri campi. Abbiamo anche riconosciuto che esse rappresentano solo l'inizio e speriamo che questo articolo ne faccia nascere altre che mettano in discussione le ipotesi incorporate nei BD. I ricercatori di tutti i settori hanno un interesse per la cultura computazionale dei Big Data, a causa della sua potenziale influenza e della sua capacità di toccare diverse discipline. Riteniamo che sia il momento di iniziare a analizzare criticamente questo fenomeno, le sue ipotesi e i suoi pregiudizi.

1. I Big Data modificano la definizione di conoscenza

Nei primi decenni del ventesimo secolo, Henry Ford elaborò un sistema produttivo di produzione di massa, utilizzando macchinari specializzati e prodotti standardizzati: la sua divenne rapidamente la visione dominante del progresso tecnologico. Il "fordismo" indicava linee di automazione e di assemblaggio; per decenni in poi, diventò l'ortodossia della manifattura: con artigiani esperti e lavoro lento, con una nuova era prodotta dalla macchina (Baca 2004). Non si trattava solo di un nuovo set di strumenti. Il ventesimo secolo è stato caratterizzato dal Fordismo a livello cellulare: produsse una nuova concezione del lavoro, del rapporto umano al lavoro e alla società in generale.

I BD non solo si riferiscono a set di dati molto grandi, agli strumenti e alle procedure utilizzati per manipolarli e analizzarli, ma anche alla loro direzione/ influenza nel pensiero e nella ricerca. Proprio come Ford cambiò il modo di produrre automobili, e trasformato il lavoro stesso, i BD sono emersi come un sistema di conoscenza che sta già cambiando gli oggetti della conoscenza stessa, pur avendo il potere di informare come comprendere le reti umane e la comunità. “Cambia gli strumenti e cambierai l'intera teoria sociale”, Latour (2009) ci ricorda.

I BD creano un cambiamento radicale nel modo in cui pensiamo alla ricerca. Commentando la scienza sociale computazionale, Lazer afferma che i BD offrono "la capacità di raccogliere e analizzare i dati con una larghezza e una profondità senza precedenti”. Non si tratta di una questione di scala né è sufficiente considerarla in termini di prossimità, o come la definisce Moretti un'analisi lontana o stretta del testo. Piuttosto, si tratta di un profondo cambiamento ai livelli dell'epistemologia e dell'etica. I BG rifondano domande fondamentali sulla costituzione della conoscenza, sul processo di ricerca, su come dobbiamo impegnarci con le informazioni, con la natura e con la categorizzazione della realtà. Du Gay e Pryke notano che "gli strumenti di contabilità non aiutano semplicemente la misura dell'attività economica, che formano la realtà che misurano”, ma fanno emergere nuovi terreni di oggetti, metodi di conoscenza e definizioni della vita sociale.

Parlando di quella che viene definita "the petabyte era", Anderson scrive: questo è un mondo in cui massicce quantità di dati e matematica applicata sostituiscono ogni altro strumento. Al di fuori cdi qualsiasi teoria del comportamento umano, dalla linguistica alla sociologia. Dimenticate la tassonomia, l'ontologia e la psicologia. Chi sà perché le persone fanno quello che fanno? Le ragioni del perché fanno quel che fanno le si possono misurare e rintracciare precisione senza precedenti. Con dati sufficienti, i numeri parlano per se stessi.

I numeri parlano da soli? Crediamo che la risposta sia No. Significativamente, il radicale abbandono di Anderson di tutte le altre teorie e le altre discipline è un “racconto”. Rivela una sottocorrente di dibattiti su Big Data dove altre forme di analisi vengono messe da parte. Come Berry (2011) scrive: I BD forniscono quantità destablizzanti di conoscenze e informazioni che non dispongono della forza regolatrice del filosofo. Invece della filosofia - che Kant affermava come base razionale di tutte le istituzioni - la computazionalità poteva ora essere intesa come una ontotheologia ( = teologia razionale che si propone di dimostrare l'esistenza di Dio con il solo ausilio dei concetti, senza cioè far ricorso all'esperienza), creando una nuova" ondata "ontologica, intesa come nuova costellazione storica dell'intellegibilità.

Dobbiamo porci domande sui modelli di intelligibilità dei Big Data, prima che si cristallizzino in nuove ortodossie. Se torniamo a Ford, la sua innovazione era basata sulla catena di montaggio che trasformava i compiti olistici interconnessi in compiti semplici, atomizzati e meccanici. Lo ha fatto progettando strumenti specializzati che hanno fortemente predeterminato e limitato l'azione del lavoratore. Allo stesso modo, anche gli strumenti specializzati dei Big Data hanno le loro limitazioni e le loro restrizioni. Ad esempio, Twitter e Facebook sono esempi di grandi fonti di dati che offrono funzioni di archiviazione e ricerca molto scarse. Di conseguenza, i ricercatori sono più propensi nel concentrarsi su qualcosa di attuale e su qualcosa accaduto nell’immediato passato - monitoraggio delle reazioni in un'elezione, al finale televisivo o a un disastro naturale - a causa della difficoltà/impossibilità di accedere ai dati più vecchi.

Se osserviamo l'automazione ( = il ricorso a mezzi e procedimenti tecnici elettronici) di particolari tipi di funzioni di ricerca, allora dobbiamo considerare i difetti integrati delle macchine. Non basta semplicemente chiedersi, come suggerì Anderson, "che cosa può imparare la scienza da Google?", ma bisogna chiedersi come i raccoglitori dei Big Data potrebbero cambiare il significato dell'apprendimento e quali nuove possibilità e nuove limitazioni possono derivare da questi sistemi di conoscenza.

2. Le pretese di obiettività e precisione sono fuorvianti

“Numeri, numeri numeri”, scrisse Latour (2009). “La sociologia è stata ossessionata dall'obiettivo di diventare una scienza quantitativa”. La sociologia non ha mai raggiunto questo obiettivo, secondo Latour, a causa del punto in cui traccia la linea tra ciò che è e non è quantificabile nel dominio sociale.

Big Data offrono alle discipline umanistiche un nuovo modo per rivendicare lo stato della scienza quantitativa e del metodo obiettivo. Rendono quantificabili

molti altri spazi sociali. In realtà, lavorare con Big Data è ancora soggettivo e ciò che quantifica non necessariamente ha un riscontro reale sulla verità oggettiva - in particolare quando si considerano i messaggi derivanti dai siti di social media. Ma resta una credenza sbagliata secondo cui i ricercatori qualitativi rimangono nel campo dell'interpretazione delle storie e, invece, i ricercatori quantitativi sono impegnati nell'attività di produrre fatti. In questo modo, i Big Data rischiano di ri-scrivere le divisioni consolidate nei lunghi dibattiti in discussione sul metodo scientifico e sulla legittimità della scienza sociale e dell'indagine umanistica.

La nozione di obiettività è stata una questione centrale per la filosofia della scienza e per i primi dibattiti sul metodo scientifico. Le pretese di obiettività suggeriscono un'adesione alla sfera degli oggetti, ovvero alle cose come esse esistono dentro e per se stesse. La soggettività, dall’altra parte, è vista con sospetto, colorata dalle varie forme di condizione individuale e sociale. Il metodo scientifico tenta di rimuovere se stesso dal dominio soggettivo attraverso l'applicazione di un processo per il quale vengono proposte e testate ipotesi, con conseguente miglioramento della conoscenza. Tuttavia, le pretese di obiettività sono necessariamente fatte da soggetti e si basano su osservazioni e scelte soggettive. Tutti i ricercatori interpretano dati. Come ha osservato Gitelman (2011), i dati devono essere immaginati come dati in prima istanza e questo processo di immaginazione dei dati comporta una base interpretativa: "ogni disciplina e istituzione disciplinare possiede norme e standard propri per i dati di immaginazione". Poiché gli scienziati computazionali hanno iniziato ad impegnarsi in atti di scienza sociale, c'è una tendenza a rivendicare il loro lavoro come attività dei fatti e non di interpretazione. Un modello può essere matematicamente sano, un esperimento può sembrare valido, ma non appena il ricercatore cerca di capire cosa significhi, il processo di interpretazione prende vita. Ciò non significa che tutte le interpretazioni siano uguali, ma piuttosto che non tutti i numeri siano neutrali.

Le decisioni di progettazione che determinano ciò che verrà misurato derivano anche dall'interpretazione. Ad esempio, nel caso dei dati relativi ai social media, vi è un processo di compensazione dei dati: si prendono decisioni su quali attributi e quali variabili verranno conteggiate e quali invece verranno ignorate. Questo processo è intrinsecamente soggettivo. Come spiega Bollier,

Come una grande massa di informazioni grezze, i Big Data non sono esplicativi. Eppure le metodologie specifiche per l'interpretazione dei dati sono aperte a tutti i tipi di dibattito filosofico. Possono i dati rappresentare una "verità oggettiva", o sono un'interpretazione

necessariamente determinata da un filtro soggettivo o dal modo in cui i dati vengono ripuliti? (2010).

Oltre a questa domanda, c’è la questione degli errori nei dati. I grandi set di dati provenienti da fonti Internet sono spesso inaffidabili, soggette a interruzioni e perdite, e gli errori e lacune derivanti vengono ingranditi quando vengono utilizzati più set di dati insieme. Gli scienziati sociali hanno una lunga storia nel campo delle domande critiche sulla raccolta di dati e cercano inoltre di tenere conto di eventuali pregiudizi nei loro dati (Cain &Finch 1981; Clifford & Marcus 1986). Ciò richiede la comprensione delle proprietà e dei limiti di un set di dati, indipendentemente dalla sua dimensione. Un set di dati può avere milioni di dati, ma ciò non significa che sia casuale o rappresentativo. Per fare dichiarazioni statistiche su un set di dati, dobbiamo sapere da dove essi provengono; è altrettanto importante conoscere e tenere conto delle debolezze di tali dati. Inoltre, i ricercatori devono essere in grado di tenere conto dei pregiudizi nella loro interpretazione dei dati. A tal fine occorre riconoscere che l'identità e la prospettiva informano l'analisi (Behar &Gordon 1996).

Troppo spesso, i grandi dati consentono la pratica dell'apofenia: vedere modelli in cui nessuno esiste in realtà, semplicemente perché enormi quantità di dati possono offrire connessioni che irradiano in tutte le direzioni. (ragazze non riesco proprio a trovare il senso di questa frase!!) In un esempio notevole, Leinweber (2007) ha dimostrato che le tecniche di estrazione dei dati potrebbero mostrare una correlazione forte, ma falsa, tra le variazioni dell'indice di borsa S&P 500 e la produzione del burro in Bangladesh.

L'interpretazione è al centro dell'analisi dei dati. Indipendentemente dalla dimensione, una dato è soggetto a limitazioni e pregiudizi. Senza la comprensione di tali pregiudizi e limitazioni, il risultato sfocia in un’interpretazione errata. L'analisi dei dati è più efficace quando i ricercatori tengono conto dei complessi processi metodologici che sottostanno all’analisi dei dati.

3. I grandi dati non sempre sono i dati migliori

Gli scienziati sociali hanno da tempo sostenuto che ciò che rende rigoroso il loro lavoro è radicato nell’approccio sistematico alla raccolta e all'analisi dei dati (McCloskey 1985). Gli etnografi si concentrano sulla contabilizzazione delle inclinazioni/bias nelle loro interpretazioni. Gli esperimentalisti controllano e standardizzano la progettazione del loro esperimento. I ricercatori hanno

esplorato il meccanismo di campionamento e la distorsione della domanda. I ricercatori quantitativi misurano il significato della statistica. Questi sono solo alcuni dei modi in cui gli scienziati sociali cercano di accedere alla validità degli altri lavori. Solo perché i Big Data si presentano con grandi quantità di dati non significa che i problemi metodologici non siano più rilevanti. Ad esempio, comprendere il campione è più importante che mai.

Twitter fornisce un esempio nel contesto di un'analisi statistica. Poiché è facile ottenere e raccogliere i dati di Twitter, gli studiosi lo hanno utilizzato per esaminare un'ampia varietà di modelli, di interazioni tra media e di interazioni conversazionali. Mentre molti studiosi sono decisi nel discutere le limitazioni dei dati di Twitter nelle loro pubblicazioni, il discorso pubblico intorno a tale ricerca tende a concentrarsi sul numero di tweets disponibili.

Twitter non rappresenta "tutte le persone", ed è un errore sostenere che "persone" e "utenti di Twitter" siano sinonimi: sono sottoinsiemi molto particolari. Né la popolazione che utilizza Twitter rappresenta la popolazione globale, nè possiamo supporre che gli account siano utilizzati da più persone. Alcune persone non creano un account, ma semplicemente accedono a Twitter tramite il web. Alcuni account sono "bot" che producono contenuti automatici senza coinvolgere direttamente una persona. Inoltre, la nozione di un account "attivo" è problematica. Mentre alcuni utenti pubblicano frequentemente contenuti tramite Twitter, altri partecipanti sono semplicemente "ascoltatori". Twitter ha rivelato che il 40% degli utenti attivi accede solo per ascoltare. I significati di "utente", "partecipazione" e "attivo" devono essere esaminati criticamente.

I Big Data e i dati interi/totali non sono uguali. Senza prendere in considerazione il campione di un set di dati, la dimensione del set di dati è priva di significato. Ad esempio, un ricercatore può cercare di comprendere la frequenza topica dei tweet, ma se Twitter rimuove tutti i tweet che contengono parole o contenuti problematici dal flusso (come ad esempio i riferimenti a pornografia o spam), la frequenza attuale risulta inesatta. Indipendentemente dal numero di tweet, non è un campione rappresentativo se i dati sono distorti fin dall’inizio.

È anche difficile capire il campione quando la fonte è incerta. Twitter rende parte del suo materiale disponibile al pubblico attraverso le sue API (= API indica l'interfaccia di programmazione delle applicazioni; si riferisce ad un insieme di strumenti che gli sviluppatori possono utilizzare per accedere a dati strutturati). La “firehose” (la traduzione in italiano sarebbe “manichetta antincendio”) contiene teoricamente tutti i tweet pubblici mai postati ed esclude esplicitamente tutti i tweet che l’utente ha scelto di mantenere privati o protetti. Eppure, alcuni

dei tweet pubblicamente accessibili non risultano neanche nella firehose. Sebbene una manciata di aziende abbia accesso ai firehose, pochissimi ricercatori hanno questo livello di accesso. La maggior parte di loro ha accesso a un "giardino/ gardenhose” (circa il 10% delle tweets pubblici), uno “spritzer” (intorno all’1% dei tweet pubblici) o attraverso l’utilizzo dei conti della "white-listed" dove possono utilizzare le API per accedere a diversi sottoinsieme di contenuto del flusso pubblico. Non è chiaro quali tweets siano inclusi in questi diversi flussi di dati o cosa rappresenti il loro campionamento. Potrebbe essere che l'API raccolga un campione casuale di tweets, o che raccolga le prime migliaia di tweets all'ora o che invece raccolga solo tweets da un particolare segmento del grafico di rete. Senza sapere, è difficile per i ricercatori fare affermazioni sulla qualità dei dati che stanno analizzando. Sono dati rappresentativi di tutti i tweet? No, perché escludono i tweet dagli account protetti (nota: la percentuale di account protetti è sconosciuta, anche se i tentativi di identificarli suggeriscono che meno del 10% siano quelli protetti). Ma almeno sono i dati rappresentativi di tutti i tweet pubblici? Forse, ma non necessariamente.

Twitter è diventato una fonte popolare di estrazione dei BD, ma lavorando con i dati di Twitter si presentano gravi sfide metodologiche che raramente vengono affrontate da coloro che li utilizzano. Quando i ricercatori si avvicinano ad un set di dati, devono capire e tenere pubblicamente conto dei limiti del set di dati e delle loro interpretazione.

Ciò è particolarmente vero quando i ricercatori combinano insieme diversi set di dati. Ciò non significa che i dati derivanti dalle combinazione non offrano preziosi studi: ad esempio, studi come quelli di Acquisti e Gross (2009) sono potenti, in quanto rivelano come le banche dati pubbliche possano essere combinate per produrre gravi violazioni della privacy, come ad esempio rivelare il numero di previdenza sociale di un individuo. Eppure, come spiega Jesper Anderson, la combinazione di dati provenienti da fonti multiple crea sfide uniche. "Ognuna di queste fonti è erronea ... Penso che stiamo solo ingrandendo tale problema (si riferisce al problema derivante dalla combinazione di più set di dati) (Bollier, 2010).

Infine, durante questo trasformazione computazionale, è sempre più importante riconoscere il valore dei piccoli dati. Le conoscenze di ricerca possono essere trovate a qualsiasi livello. In alcuni casi, concentrarsi su singoli individui può essere straordinariamente prezioso. Prendiamo, per esempio, l'opera di Veinot (2007), che ha seguito un lavoratore - un ispettore di una società di servizi idroelettrici - al fine di comprendere le pratiche informative di un normale

lavoratore (blue-collar worker). Nel fare questo studio insolito, Veinot ha rifondato la definizione di "pratiche di informazione" allontanandosi dall’attenzione per i primi impiegati (i colletti bianchi, white-collar worker), analizzando gli spazi al di fuori degli uffici e al contesto urbano. Il suo lavoro racconta una storia che non è stata scoperta creando milioni di account di Facebook o Twitter e che contribuisce in modo significativo al campo della ricerca, nonostante il minor numero di partecipanti. La dimensione dei dati dovrebbe adattarsi alla domanda di ricerca richiesta; perciò in alcuni casi, smalli is best.

4. Fuori dal loro contesto, i Big Data perdono di significato

Siccome i grandi set di dati possono essere modellati, i dati vengono spesso ridotti a ciò che può essere inserito all’interno di modello matematico. Tuttavia, estratti dal contesto, i dati perdono significato e valore. L'aumento dei siti di social network ha indotto un'ossessione guidata dal settore, tramite il "grafico sociale". Migliaia di ricercatori si sono avvicinati a Twitter e Facebook e ad altri social media per analizzare i collegamenti tra messaggi e account, facendo affermazioni sulla rete sociale. Tuttavia, le relazioni visualizzate attraverso i social media non sono necessariamente equivalenti ai sociogrammi e gli antropologi le stanno studiando fin dagli anni Trenta. La capacità di rappresentare le relazioni tra le persone in un grafico non significa che tali grafici trasmettano informazioni reali.

Storicamente, sociologi e antropologi raccoglievano dati sulle relazioni delle persone attraverso indagini, interviste, osservazioni ed esperimenti. Utilizzando i dati, essi si sono concentrati nel descrivere le "reti personali" delle persone, ovvero l'insieme delle relazioni che gli individui sviluppano e mantengono (Fisher 1982). Queste connessioni sono state analizzate sulla base di una serie di misure sviluppate per identificare le connessioni personali. I BD introducono due nuovi tipi popolari di reti sociali derivanti dalle tracce dei dati: "reti articolate" e "reti comportamentali".

Le reti articolate sono quelle che risultano dalle persone che specificano i loro contatti attraverso meccanismi tecnici come rubriche di posta elettronica o cellulari, elenchi di amici o di messaggistica istantanea, elenchi di "amici" nei siti di social network ed elenchi di "Follower" su altri social media. Le motivazioni che le persone hanno per aggiungere qualcuno a ciascuna di queste liste variano ampiamente, ma il risultato è che questi elenchi possono includere amici, colleghi, conoscenti, celebrità, amici-di-amici, figure pubbliche e interessanti sconosciuti.

Le reti di comportamento derivano da: modelli di comunicazione, celle coordinate e da interazioni sui social media (Onnela 2007, Meiss 2008). Queste reti potrebbero includere persone che si mettono in contatto con un messaggio di testo, persone che sono postatie/taggate insieme in una foto su Facebook, persone che si inviano e-mail e persone che si trovano fisicamente nello stesso luogo.

Sia le reti comportamentali che quelle articolate hanno un grande valore per i ricercatori, ma non sono equivalenti alle reti personali. Per esempio, sebbene venga contestato, il concetto di "forza di legame" si usa per indicare l'importanza delle relazioni individuali (Granovetter 1973). Quando i dati del telefono cellulare suggeriscono che i lavoratori trascorrono più tempo con i colleghi rispetto al tempo passato col coniuge, ciò non vuol dire necessariamente che i colleghi siano più importanti dei coniugi. Misurare la forza dei legami attraverso la frequenza o l'articolazione pubblica è un errore comune: la forza di legame è un delicato modo col quale le persone comprendono e valorizzano i loro rapporti con le altre persone. Non tutte le connessioni sono uguaili, né la frequenza di un contatto indica la forza della relazione. Inoltre, l'assenza di una connessione non necessariamente indica che una relazione non esista.

I dati sono generici. C'è un valore per analizzare le astrazioni dei dati, ma il contesto di conservazione rimane critico, in particolare per alcune linee di indagine. Il contesto è difficile da interpretare e ancora più difficile da tenere in considerazione quando i dati vengono ridotti per adattarsi a un modello. Gestire il contesto alla luce dei Big Data sarà una sfida continua.

5. Solo perché è accessibile, non vuol dire che sia etico

Nel 2006, un gruppo di ricerca di Harvard ha iniziato a raccogliere i profili di 1.700 utenti di Facebook a livello universitario per studiare come i loro interessi e le loro amicizie siano cambiate nel tempo (Lewis 2008). Questi dati, presumibilmente anonimi, sono stati rilasciati al mondo, consentendo ad altri ricercatori di analizzarli. Ciò che altri ricercatori hanno scoperto velocemente è che è stato possibile rendere non più anonimi alcune parti del set di dati, compromettendo la privacy degli studenti, nessuno dei quali sapeva che i loro dati erano stati raccolti (Zimmer 2008).

Il caso ha sollevato problemi difficili per gli studiosi: qual è lo status dei cosiddetti "dati pubblici" nei siti di social media? Possono essere semplicemente utilizzati senza richiedere il permesso? Qual è la migliore pratica etica per i ricercatori? Proteggere la propria privacy è necessario. La difficoltà sta nel fatto che le violazioni della privacy sono difficili da rendere specifiche. "Tutti i dati

sui soggetti umani inevitabilmente aumentano le questioni relative alla privacy e ed è difficili quantificare i veri rischi degli abusi di tali dati" (Berry 2011).

I centri di revisione istituzionale (IRB) - e altri comitati d’etica della ricerca - sono emersi negli anni '70 per vigilare sulla ricerca sui soggetti umani. Pur essendo problematico da attuare (Schrag, 2010), l'obiettivo degli IRB è quello di fornire un quadro per valutare l'etica di una determinata linea di indagine di ricerca e assicurare che i controlli e gli equilibri siano messi in atto per proteggere i soggetti. Le pratiche come il "consenso informato" e la tutela della segretezza degli informatori sono volte a mettere in luce i precedenti abusi nelle scienze mediche e sociali (Blass, 2204, Reverby 2009). Anche se gli IRB non possono sempre prevedere il danno di un determinato studio - e, troppo spesso, impedire ai ricercatori di fare ricerche con motivi diversi dall'etica - il loro valore è quello di indurre i ricercatori a pensare criticamente all’eticità dei loro progetti.

Molto poco si è capito sulle implicazioni etiche che sostengono il fenomeno dei BD. Cosa dovrebbe essere incluso come parte di un grande aggregato di dati? Che cosa succede se qualcuno "pubblica" post di blog fuori dal contesto e cosa succede se questo viene analizzato in un modo che l'autore neanche immagina? Cosa vuol dire essere analizzati/studiati/indagati senza saperlo? Chi è responsabile del fatto che gli individui e le comunità non vengano lesionati dal processo di ricerca? Che cosa significa il consenso informato?

Può essere irragionevole chiedere ai ricercatori di ottenere il consenso da ogni persona che pubblica un tweet, ma è problematico per i ricercatori giustificare le loro azioni come etiche, semplicemente perché i dati sono accessibili. Solo perché il contenuto sia accessibile a livello pubblico non significa che sia destinato ad essere utilizzato da chiunque. Ci sono gravi problemi nell'etica della raccolta e nell'analisi dei dati online (Ess 2002). Il processo di valutazione dell'etica della ricerca non può essere ignorato semplicemente perché i dati sono apparentemente pubblici. I ricercatori devono continuare a chiedere a se stessi – e ai loro colleghi – se nelle loro raccolte, analisi e pubblicazioni ci sia un fondamento etico.

Per agire in modo etico, è importante che i ricercatori riflettano sull'importanza della responsabilità: sia nel campo della ricerca che nei soggetti di ricerca. La responsabilità qui viene usata come concetto più ampio della privacy, (come ha illustrato Troshynski), dove il concetto di responsabilità può applicarsi anche quando le aspettative convenzionali della privacy non vengono messe in discussione. Al contrario, la responsabilità è una relazione multi-direzionale: ci sono responsabilità nei confronti dei superiori, dei colleghi, dei partecipanti e del

pubblico (Dourich & Bell 2011). Gli studiosi accademici sono tenuti a specifici standard professionali quando lavorano con i soggetti umani, al fine di proteggere il loro diritto e il loro benessere. Tuttavia, molte tavole etiche non comprendono i processi di estrazione e anonimizzazione dei BD.

Ci sono questioni significative di verità, controllo e potere negli studi dei BD: i ricercatori hanno gli strumenti e l'accesso, mentre gli utenti dei social media nel loro complesso non li hanno. I loro dati sono stati creati in spazi molto sensibili al contesto. E’ possibile che alcuni utenti non autorizzino l’utilizzo dei loro dati, ma molti non sono consapevoli delle molteplicità di agenti e algoritmi attualmente in grado di raccogliere e memorizzare i propri dati per un futuro utilizzo. I ricercatori raramente risiedono nel pubblico immaginato da un utente. Gli utenti non sono necessariamente consapevoli di tutti i molteplici usi, dei profitti e degli altri guadagni che provengono dalle informazioni che loro stessi hanno postato. I dati possono essere pubblici (o semi-pubblici), ma questo non coincide con l’autorizzazione completa del loro utilizzo per qualsiasi attività. I ricercatori di BD raramente riconoscono che c'è una considerevole differenza tra “essere in pubblico/alla portata del pubblico” ed “essere pubblico”.

6. L'accesso limitato a Big Data crea nuove divisioni digitali

In un saggio su Big Data, Golder (2010) cita il sociologo Homans (1974): "I metodi della scienza sociale sono cari sia per il tempo che per il denaro utilizzato e diventano ogni giorno sempre più costosi". Storicamente, la raccolta dei dati è stata dura, in quanto richiede tempo e risorse intensive. Molto dell'entusiasmo che circonda i Big Data deriva dalla percezione che essi offrono un facile accesso a un enorme numero di dati.

Ma chi ha accesso? Per quale scopo? In quale contesto? E con quali vincoli? Mentre l'esplosione della ricerca che utilizza set di dati provenienti da fonti di mezzi di comunicazione sociale suggerisce che l'accesso è semplice, in realtà non lo è. Come afferma Manovich (2011), "solo le società di social media hanno accesso a dati sociali veramente grandi - in particolare ai dati transazionali. Un antropologo che lavora per Facebook o un sociologo che lavora per Google avrà accesso a dati che il resto della comunità scolastica non ha". Alcune aziende limitano l'accesso ai propri dati interni; altri vendono il privilegio dell'accesso a pagamento e altri offrono piccoli set di dati a ricercatori universitari. Ciò produce notevoli disparità nel sistema: coloro che hanno denaro - o coloro che sono all'interno dell'azienda - possono produrre un diverso tipo di ricerca all'esterno. Coloro che non hanno accesso non possono né riprodurre né valutare le affermazioni metodologiche di coloro che hanno un accesso privilegiato.

È altresì importante riconoscere che la classe “ricca” dei BD è rafforzata attraverso il sistema universitario: le università di alto livello, dotate di risorse adeguate, potranno accedere ad alcuni dati e gli studenti di tali università sono quelli che più probabilmente verranno chiamati a lavorare all'interno di grandi società di social media. Coloro che vengono dalla periferia invece avranno meno probabilità di ottenere tali inviti e di sviluppare le loro competenze. Il risultato è che le divisioni tra gli studiosi si allargheranno notevolmente.

Oltre alle domande di accesso, ci sono delle questioni di competenza. L'API di Wrangling, che raschia e analizza i grandi frammenti di dati, è un set di abilità generalmente limitato rispetto a quelli con un background computazionale. Quando le competenze computazionali sono considerate come le più preziose, emergono domande su chi sia avvantaggiato e su chi, invece, sia svantaggiato in un tale contesto. Questo crea nuove gerarchie intorno a "chi può leggere i numeri", piuttosto che riconoscere che gli scienziati del computer e gli scienziati sociali hanno entrambi prospettive preziose da offrire. Significativamente, si tratta di una divisione di genere. La maggior parte dei ricercatori che ha competenze computazionali al momento sono uomini, come hanno dimostrato gli storici femministi e filosofi della scienza, chi pone le domande determina quali domande verranno in seguito fatte (Harding 2010, Forsyte 2001). Ci sono domande complesse su quali tipi di competenze di ricerca verranno valutati in futuro e come queste abilità verranno insegnate. Gli studenti con quali metodi possono essere istruiti per far sì che siano adeguati con gli algoritmi e con l'analisi dei dati, nonché con l'analisi sociale e la teoria?

Infine, la difficoltà e il costo per accedere ai Big Data producono una cultura limitata dei risultati della ricerca. Le grandi aziende di dati non hanno alcuna responsabilità nel rendere disponibili i loro dati e hanno il controllo totale su chi viene a vederli. I ricercatori di Big Data che hanno accesso a set di dati proprietari sono meno propensi nello scegliere questioni controverse alla società di social media, se pensano che esse possano provocare il loro licenziamento. Gli effetti sulle categorie delle domande che possono essere fatte - in pubblico o privato - sono quelle che dobbiamo considerare quando valutiamo e analizziamo il futuro dei Big Data.

L'attuale ecosistema attorno a Big Data crea un nuovo tipo di divisione digitale: i BD ricchi e i BD poveri. Alcuni ricercatori aziendali hanno suggerito che gli accademici non dovrebbero preoccuparsi di studiare i set di dati derivanti dai social media. Tali sforzi espliciti per demarcare gli "insiders" e gli "outsiders" della ricerca minano la comunità di ricerca. Deridda afferma che "l’efficace democratizzazione può sempre essere misurata da questo criterio essenziale,

ovvero dalla partecipazione e dall'accesso all'archivio, dalla sua costituzione alla sua interpretazione”.

Ogni volta che le disuguaglianze all’interno del sistema vengono dichiarate in modo esplicito, producono strutture basate sulla classe. Manovich (2011) descrive tre classi di persone nel regno dei Big Data: "coloro che creano dati (consapevolmente e lasciando impronte digitali), coloro che hanno i mezzi per raccoglierli e coloro che hanno l’esperienza per analizzarli". Sappiamo che l'ultimo gruppo è il più piccolo e quello più privilegiato: sono coloro che definiscono le regole di utilizzo dei BD e chi vi potrà partecipare.

Quando si afferma che il fenomeno Big Data è implicato in alcuni grandi cambiamenti storici e filosofici, non significa che sia l’unico responsabile; l'accademia, infatti, non è il solo driver che sta dietro la trasformazione computazionale. C'è un profondo impulso governativo ed industriale verso la raccolta e l'estrazione del valore massimo dai dati, siano essi informazioni che porteranno ad una pubblicità mirata, alla progettazione di prodotti, alla pianificazione del traffico o alla polizia criminale. Ma pensiamo che ci siano implicazioni più gravi e più ampie per l'oparazionalizzazione dei Big Data e cosa tutto questo significherà per le future agende di ricerca. Come Suchman (2011) ha osservato, "noi siamo i nostri strumenti". Dobbiamo considerare come gli strumenti partecipano a formare il mondo così come lo conosciamo. L'era dei Big Data è appena iniziata, ma è già importante in quanto abbiamo cominciato a mettere in discussione le ipotesi, i valori e l’inclinazione di tale nuova ondata di ricerca. Come studiosi che sono impegnati nella produzione della conoscenza, tali interrogazioni sono una componente essenziale di ciò che facciamo.

non sono stati rilasciati commenti
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento