Integrare survey e big data nella pratica della ricerca

L’inedita disponibilità di dati digitali su comportamenti e relazioni sociali, registrati

automaticamente e in tempo reale in quanto sottoprodotto («by-product») delle attività degli utenti

di piattaforme e aziende private, avrebbe reso in un colpo obsoleto l’apparato metodologico della

sociologia accademica, qualitativa così come quantitativa. Secondo gli autori, la ricerca

campionaria tramite survey – l’approccio storicamente dominante nella ricerca politica e sociale–

non poteva che impallidire di fronte alle potenzialità dell’analisi computazionale dei «social data»,

utilizzata per scopi commerciali dai nuovi player del capitalismo informazionale, come per esempio

Amazon. La crisi, insomma, era nell’aria. Sette anni dopo: i metodi campionari «variable centred»

della ricerca sociale non sono stati spazzati dalla big data analysis, in quanto le due prospettive

metodologiche consentono di osservare fenomeni sociali e culturali da angolature distinte, e con

limitazioni differenti; per questo motivo, esse sono da ritenersi per molti aspetti complementari. La

crisi, sette anni dopo, era diventata «far reaching». Nell’arco di tempo che separa i due articoli,

Facebook raggiungeva e superava quota un miliardo di utenti attivi nel mondo (oggi due). Intanto,

le scienze sociali facevano i conti con l’esplosione dei dati digitali, in particolar modo degli user

generated data prodotti sui social media. Lo studio non intrusivo, in tempo reale e a basso costo

delle opinioni e dei comportamenti digitalmente mediati degli individui non ha minato le

fondamenta metodologiche della ricerca sociale, ma ha spianato la strada a nuove direzioni

empiriche, molte delle quali ancora poco battute. Dando uno sguardo alla letteratura più recente si

può avere l’impressione di assistere a un «testa a testa» controproducente tra gli approcci big data e

la ricerca survey più tradizionale. Tale testa a testa chiama in causa elementi quali l’incontrollabilità

del data generation process per i big data, le diverse modalità di controllo e gestione del total

error e il diverso tipo di informazioni (e la loro qualità) che si possono ottenere tramite i due

approcci. Questo articolo si discosta da questa contrapposizione affrontando invece un esempio

di mixed method research in espansione nell’ambito della ricerca di mercato ma ancora

sottoutilizzato nella ricerca politica e sociale: l’integrazione tra analisi di dati digitali e survey

research. In quali casi l’analisi dei big data può essere integrata in disegni della ricerca imperniati

sulla survey research? E, considerando la pratica della ricerca, in che modo? Dopo una riflessione

intorno ad alcune peculiarità epistemologiche degli approcci survey e big data, verranno illustrate

tre possibili combinazioni dei due:

a) integrazione esplorativa – big data research mirata al survey design o alla scelta del dataset;

b) integrazione complementare – i due approcci si integrano in fase di produzione e analisi dei dati;

c) integrazione interpretativa – uso dei big data per approfondire e validare risultati survey.

Survey: evoluzione tecnologica e incontro coi big data

L’utilizzo delle surveys nelle scienze sociali ha già di fatto attraversato molteplici fasi di crescita,

crisi e adattamento. Nel 1934 Neyman mostrava con chiarezza i vantaggi dei campioni

probabilistici nell’offrire stime bias free ed errori di campionamento misurabili (Groves, 2011). Gli

anni a seguire videro uno sviluppo notevole della survey: i campioni principalmente erano area-

based, le interviste quasi unicamente face-to-face, i tassi di risposta altissimi e anche il lato della

misurazione vide una grandissima evoluzione (Converse, 2009) grazie ai primi lavori di Likert,

Gallup e Lazarsfeld. A partire dagli anni ’50 e soprattutto dai ’60, gli avanzamenti tecnologici

incominciarono a offrire inedite opportunità ai tecnici delle surveys. La diffusione del telefono fornì

sempre più occasioni di campionamento, mentre lo sviluppo dei computer iniziava a colonizzare sia

l’analisi delle informazioni che la fase di raccolta. Dal punto di vista della misurazione, le teorie

proprie della psicologia cognitiva vennero applicate al wording e alla costruzione dei questionari

(Groves, 2011). Al contempo, l’utilizzo sempre più diffuso del telefono introdusse le problematiche

legate alle interviste incomplete e ai tassi di risposta, suggerendo l’adattamento dei questionari

stessi alle nuove modalità. La diminuzione dei tassi di risposta continuò negli anni (Berinsky, 2017)

e le interviste face-to-face diminuirono sempre più di volume. Negli anni ’90 lo sviluppo della

telefonia mobile invase la scena accompagnato da nuove opportunità e nuove problematiche. I tassi

di risposta continuarono a scendere e il formato dei questionari venne sempre più adattato ai nuovi

mezzi di rilevazione. Lo sviluppo di Internet rinvigorì lo studio dei questionari autosomministrati e

Anteprima parziale del testo

Scarica Integrazione di Survey e Big Data nella Ricerca Sociale: Un Approccio Pragmatico - Prof. M e più Sintesi del corso in PDF di Scienza Politica solo su Docsity!

Integrare survey e big data nella pratica della ricerca

L’inedita disponibilità di dati digitali su comportamenti e relazioni sociali, registrati automaticamente e in tempo reale in quanto sottoprodotto («by-product») delle attività degli utenti di piattaforme e aziende private, avrebbe reso in un colpo obsoleto l’apparato metodologico della sociologia accademica, qualitativa così come quantitativa. Secondo gli autori, la ricerca campionaria tramite survey – l’approccio storicamente dominante nella ricerca politica e sociale– non poteva che impallidire di fronte alle potenzialità dell’analisi computazionale dei «social data», utilizzata per scopi commerciali dai nuovi player del capitalismo informazionale, come per esempio Amazon. La crisi, insomma, era nell’aria. Sette anni dopo: i metodi campionari «variable centred» della ricerca sociale non sono stati spazzati dalla big data analysis, in quanto le due prospettive metodologiche consentono di osservare fenomeni sociali e culturali da angolature distinte, e con limitazioni differenti; per questo motivo, esse sono da ritenersi per molti aspetti complementari. La crisi, sette anni dopo, era diventata «far reaching». Nell’arco di tempo che separa i due articoli, Facebook raggiungeva e superava quota un miliardo di utenti attivi nel mondo (oggi due). Intanto, le scienze sociali facevano i conti con l’esplosione dei dati digitali, in particolar modo degli user generated data prodotti sui social media. Lo studio non intrusivo, in tempo reale e a basso costo delle opinioni e dei comportamenti digitalmente mediati degli individui non ha minato le fondamenta metodologiche della ricerca sociale, ma ha spianato la strada a nuove direzioni empiriche, molte delle quali ancora poco battute. Dando uno sguardo alla letteratura più recente si può avere l’impressione di assistere a un «testa a testa» controproducente tra gli approcci big data e la ricerca survey più tradizionale. Tale testa a testa chiama in causa elementi quali l’incontrollabilità del data generation process per i big data, le diverse modalità di controllo e gestione del total error e il diverso tipo di informazioni (e la loro qualità) che si possono ottenere tramite i due approcci. Questo articolo si discosta da questa contrapposizione affrontando invece un esempio di mixed method research in espansione nell’ambito della ricerca di mercato ma ancora sottoutilizzato nella ricerca politica e sociale: l’integrazione tra analisi di dati digitali e survey research. In quali casi l’analisi dei big data può essere integrata in disegni della ricerca imperniati sulla survey research? E, considerando la pratica della ricerca, in che modo? Dopo una riflessione intorno ad alcune peculiarità epistemologiche degli approcci survey e big data, verranno illustrate tre possibili combinazioni dei due: a) integrazione esplorativa – big data research mirata al survey design o alla scelta del dataset; b) integrazione complementare – i due approcci si integrano in fase di produzione e analisi dei dati; c) integrazione interpretativa – uso dei big data per approfondire e validare risultati survey. Survey: evoluzione tecnologica e incontro coi big data L’utilizzo delle surveys nelle scienze sociali ha già di fatto attraversato molteplici fasi di crescita, crisi e adattamento. Nel 1934 Neyman mostrava con chiarezza i vantaggi dei campioni probabilistici nell’offrire stime bias free ed errori di campionamento misurabili (Groves, 2011). Gli anni a seguire videro uno sviluppo notevole della survey: i campioni principalmente erano area- based, le interviste quasi unicamente face-to-face, i tassi di risposta altissimi e anche il lato della misurazione vide una grandissima evoluzione (Converse, 2009) grazie ai primi lavori di Likert, Gallup e Lazarsfeld. A partire dagli anni ’50 e soprattutto dai ’60, gli avanzamenti tecnologici incominciarono a offrire inedite opportunità ai tecnici delle surveys. La diffusione del telefono fornì sempre più occasioni di campionamento, mentre lo sviluppo dei computer iniziava a colonizzare sia l’analisi delle informazioni che la fase di raccolta. Dal punto di vista della misurazione, le teorie proprie della psicologia cognitiva vennero applicate al wording e alla costruzione dei questionari (Groves, 2011). Al contempo, l’utilizzo sempre più diffuso del telefono introdusse le problematiche legate alle interviste incomplete e ai tassi di risposta, suggerendo l’adattamento dei questionari stessi alle nuove modalità. La diminuzione dei tassi di risposta continuò negli anni (Berinsky, 2017) e le interviste face-to-face diminuirono sempre più di volume. Negli anni ’90 lo sviluppo della telefonia mobile invase la scena accompagnato da nuove opportunità e nuove problematiche. I tassi di risposta continuarono a scendere e il formato dei questionari venne sempre più adattato ai nuovi mezzi di rilevazione. Lo sviluppo di Internet rinvigorì lo studio dei questionari autosomministrati e

introdusse la possibilità di utilizzare materiale visivo ponendo l’accento sul basso costo per rispondente rispetto alle altre metodologie. L’esponenziale sviluppo di Internet e dei media digitali ha avuto e sta avendo un impatto senza precedenti sulla ricerca sociale. Secondo Groves (2011), viviamo in un periodo in cui la società stessa ha creato un sistema che misura, rileva, registra ogni tipo di attività in modo «organico». Il prodotto di questa sorta di «auto-misurazione» è noto come «big data». Epistemologia critica dei big data Messaggi testuali, visuali o vocali scambiati attraverso i social media, transazioni effettuate con carte di credito, accessi a pagine Web, spostamenti geolocalizzati tramite Gps, informazioni sul traffico registrate da sensori posizionati nelle città: questi sono solo alcuni esempi di big data. Le principali caratteristiche che li distinguono dalle basi dati comunemente analizzate nelle scienze sociali sono note in letteratura come le «tre V»: volume (enormi quantità di dati), velocità (dati prodotti in tempo reale) e varietà (dati di vario tipo, strutturati, semistrutturati e non-strutturati). Tuttavia, non è tanto il dato in sé a fare la differenza, quanto la sua origine. La principale peculiarità dei big data è infatti il loro essere dati «trovati» (found) dal ricercatore. Questo carattere «naturalistico» li rende paradossalmente più vicini a materiali etnografici che a dati provoked come, per esempio, risposte a surveys e interviste. Al contempo, diversamente dalle note di campo di un’osservazione partecipante, i dati digitali sono registrati istantaneamente e in modo non intrusivo dagli algoritmi di piattaforme online o sistemi informatici di altro tipo, nonché organizzati in modo persistente sotto forma di database ricercabili e analizzabili in tempo reale. Le caratteristiche di cui sopra, unite alla possibilità di studiare velocemente e con costi contenuti popolazioni su larghissima scala – per esempio, milioni di utenti Facebook – , hanno spesso indotto i ricercatori a considerare social media e piattaforme digitali come veri e propri laboratori a cielo aperto, capaci di abbracciare esaustivamente interi universi sociali. Questa concezione dei big data manca però di problematizzare alcune questioni metodologiche cruciali nello studio delle «digital footprint»:

accessibilità. I big data sono perlopiù generati nell’ambito di servizi o piattaforme private. Essi sono perciò risorse raramente accessibili nella loro interezza da parte di ricercatori accademici «terzi» rispetto all’azienda o istituzione che ne detiene il possesso, per ragioni legali e/o commerciali. Quando ciò è possibile, come nel caso del Firehose di Twitter, il prezzo è significativo. Il più delle volte i ricercatori accademici possono raccogliere a basso costo solo dati digitali pubblici, in forma limitata, attraverso le Api («application programming interface») messe a disposizione degli sviluppatori software da parte delle piattaforme stesse. Le regole delle Api, che determinano quanti e quali materiali empirici saranno accessibili da parte del ricercatore, cambiano continuamente e sono determinate unilateralmente dalle piattaforme;
mediazione sociotecnica. L’idea che i big data consentano di osservare le attività umane è la conseguenza di un positivismo ingenuo che dimentica la mediazione sociotecnica del dato digitale. I dati digitali sono generati nel corso di attività (per es., l’acquisto di un prodotto su Amazon) o interazioni comunicative (per es. chattare su WhatsApp), in situazioni sociali pubbliche, semi- pubbliche o apparentemente private, mediate dalle specifiche affordances tecniche e funzionalità algoritmiche delle piattaforme che le ospitano. Il fatto che la generazione sociotecnica del dato digitale non sia controllabile da parte del ricercatore può essere causa di errori statistici e del loro mancato controllo. Inoltre, quelli che a prima vista possono sembrare materiali empirici omogenei nascondono in realtà una molteplicità di contesti differenti non solo dal punto di vista sociale e tematico, ma anche da quello puramente tecnologico. La «black box» algoritmica, oltre a influenzare l’esperienza digitale dell’utente dei social media e, pertanto, la produzione (o mancata produzione) del dato, si ripresenta poi in una fase successiva: quella dell’analisi dei dati, la quale necessita di tecniche computazionali spesso aldilà delle competenze del ricercatore sociale;
etica. Il fatto che un dato digitale sia liberamente accessibile non implica che sia etico utilizzarlo per scopi di ricerca. Dato il carattere non-intrusivo, l’analisi di big data solleva svariate questioni etiche, soprattutto quando le unità analitiche sono singoli individui ignari di essere oggetto di studio. In Europa, dove regole più stringenti rispetto agli Usa tutelano la privacy degli utenti/consumatori, i big data vengono solitamente analizzati accademicamente in forma anonima e

mentre in quella interpretativa i big data sono a supporto dell’interpretazione e validazione di risultati survey. Data l’assoluta novità del tema, quelle illustrate di seguito non sono da intendersi come prassi assodate di ricerca ma, piuttosto, come direzioni metodologiche. Integrazione esplorativa L’integrazione esplorativa si riferisce all’utilizzo dei big data allo scopo di mappare un fenomeno che sarà poi analizzato tramite metodologie survey. Questo tipo di disegno misto può avere diversi fini, a seconda della popolazione studiata e delle risorse disponibili. Come nel caso ben più comune dell’uso preliminare di focus group e ricerche etnografiche, anche l’integrazione esplorativa di big data e survey research può servire in primis a informare la costruzione del questionario, allo scopo di ridurre i bias legati all’imposizione involontaria delle categorie del ricercatore sulle risposte. L’esplorazione su larga scala dei discorsi degli utenti sui social media – per esempio, attraverso tecniche non supervisionate come il topic modeling – può essere utile per tarare il wording delle domande e adottare il linguaggio specifico della popolazione studiata. Il mapping in tempo reale di trend dell’opinione pubblica può inoltre consentire di selezionare in modo induttivo casi specifici da menzionare nel questionario allo scopo di raccogliere le reazioni dei rispondenti. Per esempio, allo scopo di studiare forme di distinzione salienti nell’ambito del consumo musicale, Airoldi (2017b) ha incluso in un questionario disegnato ad hoc batterie di item riguardanti artisti posizionati agli estremi opposti di un campo culturale esplorato digitalmente attraverso tecniche di big data analysis applicate a YouTube, formulando le opzioni di risposta sulla base dello stile di commento caratteristico dei diversi profili di ascoltatori. Le potenzialità dell’integrazione esplorativa non finiscono qui. I big data – in particolar modo, i social media data – possono essere utilizzati per identificare e raggiungere popolazioni difficili da trovare offline. Più in generale, nel caso di surveys non rappresentative da condurre online, l’approccio big data può essere usato in fase preliminare per identificare i contesti digitali in cui distribuire la survey stessa. Infine, i big data possono idealmente fornire dati di contesto che agevolano la scelta della fonte dati più adatta in caso di analisi secondaria andando a ricostruire informazioni circa la popolazione oggetto di studio. Per esempio, il caso ipotetico di una forte correlazione tra supporto a Donald Trump e fruizione della tv via cavo emersa grazie a un’indagine esplorativa dei like degli utenti Facebook, potrebbe indurre il ricercatore elettorale a selezionare una fonte secondaria che includa anche quesiti specifici sul consumo televisivo. In tutti i casi citati sopra, la rapidità e il costo (relativamente) basso di analisi esplorative condotte online su larga scala rappresentano un fattore non indifferente nel favorire nuove forme digitali di eclettismo metodologico. Integrazione complementare Per «integrazione complementare» intendiamo un disegno di ricerca nel quale survey e big data si pongono sostanzialmente allo stesso livello sia analitico sia epistemologico, contribuendo da angolazioni differenti alla spiegazione di un fenomeno sociale nella sua «multidimensionalità». È proprio attraverso l’integrazione complementare che i due approcci hanno più possibilità di rafforzarsi e completarsi a vicenda. Possiamo rintracciare due grossi filoni di integrazione complementare tra survey e big data: triangolazione da un lato, data integration dall’altro. Il primo ricalca di fatto molte delle considerazioni fatte negli anni in merito al rapporto tra approcci qualitativi e quantitativi. Si tratta infatti di adottare le stesse procedure del cosiddetto «disegno triangolare», per cui si guarda al medesimo oggetto di studio secondo due prospettive differenti e complementari, le quali coesistono simultaneamente e con ugual «peso». Ciò consente di valorizzarne i rispettivi punti di forza metodologici: in questo caso, generalizzabilità statistica dei risultati e carattere strutturato dei materiali empirici per la parte survey, approccio non intrusivo, «data-driven» e in tempo reale per la parte big data. Detta in altro modo; ci si può concentrare sulle relazioni causali tra variabili utilizzando un approccio survey classico mentre si mappano su larga scala specifiche sfaccettature del fenomeno con un approccio computazionale. Questo è il caso del già citato studio di Airoldi (2017b) su distinzione e consumi musicali: mentre l’analisi dei dati YouTube ha consentito di indagare le relazioni tra artisti emergenti e pubblici digitali, un questionario distribuito via e-mail e completato da un campione non probabilistico di circa mille ascoltatori ha permesso di raccogliere informazioni (altrimenti irreperibili) sul rapporto tra gusto musicale e condizioni socioeconomiche. Il secondo filone di integrazione complementare tra dati

survey e big data ha invece a che fare con l’accorpamento dei due tipi di dati all’interno della stessa struttura analitica, pratica questa resa molto complessa dalla difficoltà nel mantenere la stessa unità di. A seconda del focus adottato si può distinguere tra tre configurazioni possibili:

survey data individuali integrati con big data anch’essi a livello individuale. Le diverse modalità di raccolta di big data permettono l’accesso a informazioni difficilmente ottenibili tramite una survey (social network data, Gps data ecc.), e sta proprio in questo punto la forza di questa soluzione integrativa. Una soluzione di questo tipo, deve far fronte a molte difficoltà di natura pratica, quando non a veri e propri problemi etici o legali. Nonostante la fase embrionale, in letteratura si possono trovare già alcuni contributi che guardano in questa direzione metodologica;
la seconda configurazione possibile di data integration tra survey e big data si ha qualora si utilizzino i due metodi per generare e integrare informazioni aggregate o comunque non individuali. In letteratura è possibile scorgere due possibili applicazioni che sono però di fatto strettamente collegate. La prima ha a che fare con i cosiddetti metodi per il debiasing tramite cui i bias demografici dei dati online vengono corretti (attraverso un sistema di pesi) a partire dalle informazioni raccolte tramite survey. Vien da sé che tali tecniche sono applicabili unicamente per correzioni basate su variabili ottenibili dai profili degli utenti (genere, età, residenza). Strettamente connesse a queste tecniche, se non altro in virtù del medesimo campo di applicazione, vi sono poi una serie di approcci che mirano a integrare previsioni survey e previsioni basate su big data al fine di ottenere la più accurata previsione elettorale possibile. Ciò è stato fatto integrando alcuni dati online (menzioni, sentiments) all’interno di regressioni basate su dati survey, oppure utilizzando i dati survey per calibrare le previsioni basate su dati online;
dati individuali da survey e dati di contesto con approccio big data. La terza possibile configurazione di data integration rappresenta, al momento, solo un infuenza. Per quella che è la nostra conoscenza, non vi sono infatti ancora applicazioni pratiche, se non tramite l’utilizzo di dati amministrativi. Si tratterebbe di fatto di sfruttare le potenzialità dell’analisi multilivello per andare a integrare in un unico dataset dati individuali raccolti tramite survey e dati di contesto di tipo big data. Un esempio banale: per includere in un’analisi di dati survey una variabile contestuale in grado di stimare il livello generale di «felicità» della nazione si potrebbe idealmente applicare una sentiment analysis a dati digitali raccolti sui social media in una determinata area linguistica o geografica. In questo modo è possibile ottenere una misura aggregata della positività delle conversazioni online – certamente distorta dal divario digitale, ma verosimilmente più affidabile dell’indice di «felicità» derivabile dalle risposte a un questionario. Integrazione interpretativa L’ultima modalità di integrazione che presentiamo può essere considerata in un certo senso speculare all’integrazione esplorativa. Nel caso dell’integrazione interpretativa infatti, l’analisi di big data segue l’approccio survey classico, allo scopo di validarne e/o approfondirne i risultati. In quest’accezione, l’integrazione interpretativa si avvicina a quello che Creswell e Plano Clark (2007) definiscono «disegno esplicativo». Nel nostro adattamento digitale, l’idea di base è quella di una corposa fase di natura survey seguita da una serie di approfondimenti basati sui big data, che mirano a far luce su alcuni risultati particolarmente interessanti o inaspettati. In prima istanza, questa sorta di modello di follow-up può essere implementato a livello di trend macroscopici, con i big data utilizzati per esplorare ex post e a livello aggregato relazioni tra variabili emerse dall’indagine campionaria. Un simile approfondimento ora è possibile anche attraverso l’analisi su larga scala dei discorsi intorno al genere in questione prodotti dagli utenti dei social media (Airoldi, 2017b) – una soluzione decisamente meno costosa, ma almeno altrettanto capace di catturare la dinamicità e la complessità semantica del fenomeno studiato. Infine, una versione particolarmente ortodossa di integrazione interpretativa basata sul follow-up, stavolta di tipo individuale, è rappresentata dal caso ipotetico in cui l’approccio big data vada a sostituire le interviste in profondità in caso di risposte anomale o particolarmente interessanti. È quasi inutile sottolineare come i problemi etici e legali legati al matching, siano qui ancora più lampanti, in quanto ci si andrebbe a focalizzare su un insieme ristretto di individui al fine di approfondirne i comportamenti. Conclusioni

Integrazione di Survey e Big Data nella Ricerca Sociale: Un Approccio Pragmatico - Prof. M, Sintesi del corso di Scienza Politica

Documenti correlati

Anteprima parziale del testo

Scarica Integrazione di Survey e Big Data nella Ricerca Sociale: Un Approccio Pragmatico - Prof. M e più Sintesi del corso in PDF di Scienza Politica solo su Docsity!

Integrare survey e big data nella pratica della ricerca