Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Data Journalism - Unipi, Appunti di Giornalismo

Appunti completi del corso di Data Journalism (professore Andrea Marchetti, Unipi, Infouma 2023).

Tipologia: Appunti

2022/2023

In vendita dal 10/09/2023

arianna-di-serio
arianna-di-serio 🇮🇹

5

(3)

24 documenti

1 / 31

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DATA JOURNALISM
LEZIONE 1 20 Febbraio Introduzione al Data Journalism
Data journalism: giornalismo basato dui dati, facendo largo uso di oggetti multimediali: testi, immagini, video, audio
(long form journalism) -> questo attira l’attenzione.
Da ciò che si è raccolto si ricava un’applicazione web.
Cos’è il Data journalism: raccontare storie usando i numeri, utilizzando tecnologie visuali. Il focus non è sulle
tecnologie ma sulla storia.
Il giornalismo è il riportare fatti in un modo che le persone riescano a comprendere. Scopo: dare vita ai dati.
Il DJ c’è sempre stato: i dati hanno sempre fatto parte delle notizie. ES: statistiche parte di calcio sui giornali.
Cosa è cambiato oggi? Ci sono sempre più tecnologie visuali che consentono di leggere meglio questi dati.
L’ideale è che la storia di cui si parla permetta di cambiare la mente delle persone.
Il Data Journalism è un fenomeno anglosassone, nato con il Wall Street Journal, giornale sulla Borsa Valori + dalla
mappa di John Snow sulle morti dovute al colera nel 19esimo secolo a Londra (mostrò che la maggior parti delle
persone vivevano vicino ad un pozzo, da cui si dedusse che il colera fosse causato dall’acqua).
Il Data Journalism è diventato però così popolare oggi (dal 2010 in poi) perché abbiamo tantissimi dati che sono stati
resi pubblici + sviluppo tecnologico che ha permesso la nascita di molti tool per la collezione di dati, pulizia,
esplorazione, analisi e loro visualizzazione.
Esempi di articoli di Data Journalism: https://sigmaawards.org/
Esempi in Italia: La Capanelli, canale YouTube BreakingItaly.
Esempio di un caso di Data Journalism
https://lab.gedidigital.it/gedi-visual/2018/italia-delle-slot-2/
LEZIONE 2 23 Febbraio I tre elementi della storia, esempi di Data Journalism
I tre elementi di una storia basata sui dati: Data, Visuals, Narrative.
Quando gli elementi visivi vengono applicati ai dati, possono illuminare il pubblico con approfondimenti che non
vedrebbero senza diagrammi o grafici. Molti modelli e valori anomali interessanti nei dati rimarrebbero nascosti
nelle righe e nelle colonne delle tabelle di dati senza l'aiuto delle visualizzazioni dei dati.
Incrociando dati e visualizzazione = Enlighten -> i dati da soli non parlano, hanno bisogno di metodi di
visualizzazione.
Quando la narrazione è abbinata ai dati, aiuta a spiegare al tuo pubblico cosa sta succedendo nei dati e perché una
particolare intuizione è importante. Incrociando dati e narrativa (storia): explain -> la storia spiega i dati.
Incrociando narrativa e visualizzazione otteniamo il coinvolgimento dell’audience: quando la narrativa e le immagini
si fondono insieme, possono coinvolgere o addirittura intrattenere un pubblico.
Il frutto di tutti questi 3 elementi messi assieme è il cambiamento: quando combini i dati giusti con la narrativa e le
immagini giuste, hai una storia di dati che può guidare il cambiamento.
Varie tecniche all’interno del data journalism per enfatizzare uno o l’altro aspetto.
Classificazione in base al tipo di dati (Simon Rogers)
1. Interpretare i numeri come fatti: uso di dati pubblici e produzione di una visualizzazione singola che supporta
il tema trattato dal progetto.
2. Storie basate sui dati: rivela i numeri relativi a problemi di dominio pubblico. Storie tipiche riguardano
progetti sulle elezioni o sui risultati politici
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Anteprima parziale del testo

Scarica Data Journalism - Unipi e più Appunti in PDF di Giornalismo solo su Docsity!

DATA JOURNALISM

LEZIONE 1 – 20 Febbraio – Introduzione al Data Journalism

Data journalism: giornalismo basato dui dati, facendo largo uso di oggetti multimediali: testi, immagini, video, audio (long form journalism) - > questo attira l’attenzione. Da ciò che si è raccolto si ricava un’applicazione web. Cos’è il Data journalism: raccontare storie usando i numeri, utilizzando tecnologie visuali. Il focus non è sulle tecnologie ma sulla storia. Il giornalismo è il riportare fatti in un modo che le persone riescano a comprendere. Scopo: dare vita ai dati. Il DJ c’è sempre stato: i dati hanno sempre fatto parte delle notizie. ES: statistiche parte di calcio sui giornali. Cosa è cambiato oggi? Ci sono sempre più tecnologie visuali che consentono di leggere meglio questi dati. L’ideale è che la storia di cui si parla permetta di cambiare la mente delle persone. Il Data Journalism è un fenomeno anglosassone, nato con il Wall Street Journal, giornale sulla Borsa Valori + dalla mappa di John Snow sulle morti dovute al colera nel 19esimo secolo a Londra (mostrò che la maggior parti delle persone vivevano vicino ad un pozzo, da cui si dedusse che il colera fosse causato dall’acqua). Il Data Journalism è diventato però così popolare oggi (dal 2010 in poi) perché abbiamo tantissimi dati che sono stati resi pubblici + sviluppo tecnologico che ha permesso la nascita di molti tool per la collezione di dati, pulizia, esplorazione, analisi e loro visualizzazione. Esempi di articoli di Data Journalism: https://sigmaawards.org/ Esempi in Italia: La Capanelli, canale YouTube BreakingItaly. Esempio di un caso di Data Journalism https://lab.gedidigital.it/gedi-visual/2018/italia-delle-slot-2/

LEZIONE 2 – 23 Febbraio – I tre elementi della storia, esempi di Data Journalism

I tre elementi di una storia basata sui dati: Data, Visuals, Narrative. Quando gli elementi visivi vengono applicati ai dati, possono illuminare il pubblico con approfondimenti che non vedrebbero senza diagrammi o grafici. Molti modelli e valori anomali interessanti nei dati rimarrebbero nascosti nelle righe e nelle colonne delle tabelle di dati senza l'aiuto delle visualizzazioni dei dati. Incrociando dati e visualizzazione = Enlighten - > i dati da soli non parlano, hanno bisogno di metodi di visualizzazione. Quando la narrazione è abbinata ai dati, aiuta a spiegare al tuo pubblico cosa sta succedendo nei dati e perché una particolare intuizione è importante. Incrociando dati e narrativa (storia): explain - > la storia spiega i dati. Incrociando narrativa e visualizzazione otteniamo il coinvolgimento dell’audience: quando la narrativa e le immagini si fondono insieme, possono coinvolgere o addirittura intrattenere un pubblico. Il frutto di tutti questi 3 elementi messi assieme è il cambiamento: quando combini i dati giusti con la narrativa e le immagini giuste, hai una storia di dati che può guidare il cambiamento. Varie tecniche all’interno del data journalism per enfatizzare uno o l’altro aspetto. Classificazione in base al tipo di dati (Simon Rogers)

  1. Interpretare i numeri come fatti: uso di dati pubblici e produzione di una visualizzazione singola che supporta il tema trattato dal progetto.
  2. Storie basate sui dati: rivela i numeri relativi a problemi di dominio pubblico. Storie tipiche riguardano progetti sulle elezioni o sui risultati politici
  1. Storytelling basato su dati locali: creazione di storie su argomenti di interesse per una comunità locale. Di solito i dati sono forniti dai governi
  2. Analisi e background: spiegare i fatti dietro le notizie attraverso l’analisi dei dati. Questi progetti richiedono mesi di lavoro e combinano dati pubblici con l’analisi dei dati. Ad esempio: fare delle previsioni future.
  3. Indagine approfondita: uso di grandi quantità di dati e costruzione di database che di solito forniscono più di una storia. Classificazione in base al tipo di storia (Martha Kang)
  4. Narrare i cambiamenti nel tempo: i dati sono utilizzati per visualizzare i cambiamenti nel tempo e spiegare le forze in gioco.
  5. Dal grande al piccolo: i dati guidano il lettore da una situazione generale verso un caso particolare. Il lettore può muoversi dal generale al particolare e viceversa (ad esempio attraverso una mappa) e accedere ai dati per ogni area specifica. Si possono avere anche dei filtri interattivi per l’accesso ad alcuni dati.
  6. Dal piccolo al grande: il lettore inizialmente si concentra su un particolare dell’intera informazione disponibile (ad esempio su di un paese specifico oppure su di una particolare città) e dopo può espandere la sua vista ad una prospettiva più generale
  7. Evidenziare i contrasti: l’obiettivo consiste nel sottolineare le differenze tra i dati
  8. Esplorare le intersezioni: l’obiettivo consiste nel tentativo di spiegare il caso di due linee divergenti di dati che si intersecano e una sorpassa l’altra.
  9. Sezionare i fattori: il data journalist cerca di scoprire la relazione tra i diversi fattori di una storia
  10. Profilare i valori anormali: la storia si concentra sui valori anomali e cerca di spiegarne le cause. Di solito la ricerca di tali valori anomali comporta l’esplorazione dei dati. La storia va modellata in base all’audience che si ha. Classificazione in base al tipo di visualizzazione
  11. Possono essere rappresentati i numeri, quando abbiamo semplicemente uno o due numeri che rappresentano un fatto, mettono a fuoco un problema (non sempre è necessario fare un grafico dunque)
  12. Tabelle: sconsigliate quando ci sono troppi dati.
  13. Visualizzazioni: la parte forte di una storia di DJ ma che da sole non bastano. Possono essere parte della storia (testo scritto + visualizzazioni come ad esempio grafici) o possono essere strutturate come storia (la storia è una visualizzazione, come nel caso della mappa con cui si può interagire). Possono essere statiche (l’utente non può intervenire per fare delle modifiche) o interattive. Nelle visualizzazioni statiche siamo noi a guidare la storia, a guidare l’utente; in una visualizzazione interattiva non sappiamo cosa farà l’utente. Anche qui bisogna valutare il tipo più adatto. Esempi di visualizzazioni interattive: Trasmissione: semplice visualizzazione in cui le informazioni aggiuntive sono date come popup. Consultazione: viste multiple e possibilità di zoomare in alcune aree Conversazione: accetta input dagli utenti in modo da alterare la visualizzazione. ESEMPIO 1 https://interaktiv.br.de/hanna-und-ismail/english/index.html → Affitti in Germania Analisi che si vuol fare = è possibile provare l'esistenza di discriminazioni nel mercato degli alloggi in affitto e, in caso affermativo, quanto è forte? Ci sono differenze dovute al genere e alle origini del richiedente? È importante la città dove si sta cercando un appartamento da affittare? Nel sito: due personaggi, una di origine tedesca e una no ma con restanti caratteristiche uguali. Inviano email finte a proprietari di case, seguono analisi e risultati: in molti casi l’applicante immigrato è discriminato. Qui abbiamo un esempio di grafico statico, molto chiaro + di una tabella. In questo caso il livello di chiarezza è molto simile quindi non c’è particolare differenza tra un grafico e la tabella. Altro grafico: mappa, anche se la forma del territorio non dà nessuna informazione in più. È presente anche un esempio di email + la procedura utilizzata per raccogliere i dati e FAQ + come è stato svolto l’esperimento. A livello di dati abbiamo: numeri interpretati come fatti, storytelling basato su dati locali e A livello di storia: dal piccolo al grande (da una città a tutta la Germania), contrasti (tra le città tedesche). A livello di visualizzazione: numeri, tabelle, parte della storia, statiche.

Workflow: come prima cosa si parte dall’idea, poi si trova il dataset e si cercano le informazioni necessarie per comprendere il tema. Raccolta questa informazione, si passa alla lista delle domande. Vanno definite quali domande deve rispondere la storia:

  • Domande generali
  • Domande specifiche Ogni domanda dovrebbe essere breve e chiara. Il numero di domande dovrebbe essere limitato. Durante le indagini potrebbero sorgere nuove domande. L'elenco finale sarà il capitolo della nostra storia. Continuando, si parte con la raccolta dei dati, successivamente esaminati e analizzati. Con l’analisi si comprende se ci sono aspetti non considerati, se bisogna tornare indietro, ecc… Data visualization: un grafico per domanda. INTERVISTE Scopi:
  • Comprendere il dominio della conoscenza
  • Scopri storie interessanti da raccontare
  • Verificare il lavoro finale
  • Includere le interviste all'interno della storia Le interviste servono ad ampliare la conoscenza. DATA STORYTELLING ❖ Narrare i cambiamenti nel tempo: I dati sono utilizzati per narrare i cambiamenti nel tempo ed evidenziare le forze in gioco. ES: attacchi terroristici nel tempo. ❖ Dalla panoramica al dettaglio e viceversa: Dal grande al piccolo i dati guidano il lettore da una situazione generale verso un caso particolare. Il lettore può muoversi dal generale al particolare e viceversa (ad esempio attraverso una mappa) e accedere ai dati per ogni area specifica. Si possono avere anche dei filtri interattivi per l’accesso ad alcuni dati. Dal piccolo al grande: il lettore inizialmente si concentra su un particolare dell’intera informazione disponibile (ad esempio su di un paese specifico oppure su di una particolare città) e dopo può espandere la sua vista ad una prospettiva più generale. ❖ Esaltare i contrasti: l’obiettivo consiste nel sottolineare le differenze tra i dati ❖ Esplorare le intersezioni: l’obiettivo consiste nel tentativo di spiegare il caso di due linee divergenti di dati che si intersecano e una sorpassa l’altra ❖ Sezionare i fattori: il data journalist cerca di scoprire la relazione tra i diversi fattori di una storia ❖ Profilare i valori anomali (outlier): la storia si concentra sui valori anomali e cerca di spiegarne le cause. Di solito la ricerca di tali valori anomali comporta l’esplorazione dei dati. ES: comunità linguistiche di Twitter, linguaggi con cui sono scritti i tweet per nazione. Vedere anomalie.

LEZIONE 4 – 3 Marzo – Installazione software, strumenti

Jupyter: strumento per scrivere codice al volo. Tableau: licenza 1 anno, per costruire dashboard senza conoscere programmazione.

  • Chat GPT Strumenti di assistenza alla scrittura: Grammarly, Quillbot (anche plugin per Chrome).

LEZIONE 5 – 6 Marzo – Idee per Progetti

LEZIONE 6 – 9 Marzo – Notebook Jupyter, pulizia dei dati (5 aspetti)

NOTEBOOK JUPYTER

I notebook Jupyter sono documenti che contengono sia codice chhe elementi di testo come paragrafi, figure, link… Un kernel è un "motore computazionale" che esegue il codice contenuto in un documento del taccuino. Una cella è un contenitore per il testo da visualizzare nel notebook o per il codice da visualizzare una volta eseguito dal kernel. Una cella di codice contiene il codice da eseguire nel kernel. Quando il codice viene eseguito, il notebook visualizza l'output sotto la cella di codice che lo ha generato. Una cella Markdown contiene testo formattato e visualizza l'output sul posto quando viene eseguita la cella Markdown. SI Passa dalla modalità di modifica a quella di comando rispettivamente con Esc e Invio. Istruzioni utili:

  • Premere A o B per inserire una nuova cella sopra o sotto la cella attiva.
  • Run anche con Shift + Enter
  • M trasformerà la cella attiva in una cella Markdown.
  • Y imposterà la cella attiva su una cella di codice.
  • D + D (D due volte) eliminerà la cella attiva.
  • Z annullerà l'eliminazione della cella.
  • Tieni premuto Maiusc e premi Su o Giù per selezionare più celle contemporaneamente. Con più celle selezionate, Shift + M unirà la tua selezione. DATA CLEANING Un DataFrame è una struttura dati etichettata bidimensionale con colonne di potenzialmente tipi diversi. Puoi pensarlo come un foglio di calcolo o una tabella SQL o un dict di Oggetti di serie. La pulizia dei dati è il processo di rilevamento e correggere (o rimuovere) record corrotti o imprecisi da a set di record, tabelle o database e si riferisce all'identificazione di dati incompleti, parti errate, inesatte o non pertinenti dei dati e quindi sostituire, modificare o eliminare i dati sporchi o grossolani.
  1. Min Max: converte ogni valore di una colonna in un numero compreso tra 0 e 1. Il nuovo valore viene calcolato come differenza tra il valore corrente e il valore minimo, diviso per l'intervallo dei valori della colonna.
  2. Z-score: converte ogni valore di una colonna in un numero intorno a 0. I valori tipici ottenuti da una trasformazione z-score vanno da - 3 e 3. Il nuovo valore viene calcolato come differenza tra il valore corrente e il valore medio, diviso per la deviazione standard.
  3. Log scaling: conversione di una colonna nella scala logaritmica. Se vogliamo usare il logaritmo naturale, possiamo usare la funzione log() della libreria numpy. Dobbiamo occuparci di log(0) perché non esiste.
  4. Clipping: comporta il limite di tutti i valori al di sotto o al di sopra di un certo valore. È utile quando una colonna contiene alcuni valori anomali. Possiamo impostare un valore massimo vmax e un valore minimo vmin e impostare tutti i valori anomali maggiore del valore massimo di vmax e tutti i valori anomali inferiori a valore minimo per vmin. ➢ Standardizzazione dei dati: trasforma i dati in modo che abbiano una media pari a zero e una deviazione standard di 1. Tecniche: z-score, x-map. ➢ Raggruppamento dei dati: Il data binning raggruppa i dati in bin (o bucket), nel senso che sostituisce i valori contenuti in un piccolo intervallo con un unico valore rappresentativo per quello intervallo. La discretizzazione può essere applicata per convertire i valori numerici in categorici o in campionare (quantizzare) valori numerici. Il binning è una tecnica per il livellamento dei dati (smoothing). Il livellamento dei dati è impiegato per rimuovere il rumore dai dati. Tecniche: binning per distanza, binning per frequenza. Secondo esempio: spazio uguale tra i vari elementi, stessa distanza tra gli elementi in ogni bin.

Binning per frequenza: dividere in modo che ogni bin abbiamo lo stesso numero di elementi. ➢ Rimuovere i duplicati: rimuovere entrambi i duplicati, oppure mantenerne uno solo.

LEZIONE 7 – 13 Marzo – Fonti per il data collection, Open Data Set

Dopo l’idea si passa alla raccolta di informazioni. Fonti per il data collection:

  1. Open dataset, gratuiti, senza dati sensibili: dati che non raggiungono grandissime quantità ma hanno il vantaggio di essere qualitativamente più interessanti, perché in parte già selezionati.
  2. Web scraping: tecniche di ricerca sul web
  3. Web crawling attraverso API, per scaricare tantissimi dati. Limite: non tutti i siti le hanno a disposizione, per molti siti sono a pagamento.
  4. Scraping from PDF: porta a meno dati. Quale tecnica dà più dati? Web crawling, poi web scraping. Normalmente il dataset dovrebbe essere nell’ordine di 10 mila records, per fare delle analisi buone. Ricerca Via Google, la più immediata. Di tre tipi:
  5. Ricerca esatta
  6. Ricerca con una specifica estensione (pdf, csv, xlsx): Data journalism filetype:pdf
  7. Ricerca all’interno di un sito: covid-19 site:ru.wikipedia.org
  • Google Trends e Chat GPT + Define fast fashion , altro tipo di ricerca. ES risultati di ricerca ➢ Articoli accademici potrebbero essere uno strumento per entrare nel dominio. ➢ Kaggle: piattaforme online dove vengono raccolti dataset selezionati, di una certa qualità, che propongono anche dei lavori sui dataset. Ci sono anche collaboratori, una comunità che lavora sui dati, e ricerche già fatte. ➢ Data World: altra piattaforma.

WEB SCRAPING

Il web scraping (detto anche web harvesting o web data extraction) è una tecnica di estrazione di dati da un sito web per mezzo di programmi software che appartengono alla famiglia dei bot. Un esempio di web scraping è strettamente correlato all'indicizzazione dei siti Internet effettuato dai motori di ricerca – crawler. Il web scraping si concentra nell’estrarre dati non strutturati presenti nella pagine HTML e immagazzinarli in database. Principali siti attaccati: agenzie immobiliari, agenzie di viaggio, commercio elettronico, motori di ricerca, siti di scommesse. SELENIUM WEB-DRIVER Selenium è un framework per automatizzare il comportamento di un browser. Posso scrivere un programma per: aprire una finestra del browser, navigare in una pagina web, compilare campi di input, fare click sui pulsanti, gestire le finestre di dialogo. Il sito più attaccato è Google, perché contiene al suo interno un grandissimo indice di risorse; ma Google si difende molto. ➢ Prima cosa: lanciare il chrome driver di chrome che fa partire una pagina vuota di Chrome. ➢ Dopodiché istruisco il driver a carica una url. ➢ Ricerca dell’elemento input nel DOM + si può ricercare anche attraverso name. ➢ Con un metodo compilo il campo di ricerca + con Return avvia la ricerca. ➢ Si può ricercare il primo risultato di ricerca Può essere utile un programma che interagisce con più browser contemporaneamente. Quando si invoca un driver di un browser questo fa partire una pagina vuota del browser che poi verrà pilotata. Con Chome e Firefox si può evitare questo comportamento con l’opzione Headless Utile per velocizzare lo scraping. Per individuare elementi nell’HTML ci sono varie soluzioni:

  1. Con attributo ID
  2. Con attributo NAME, non sempre facile da trovare e non univoco
  3. XPATH: sintassi con cui individuare tutti gli elementi di una pagina HTML. È un percorso dalla radice all’elemento. Può creare problemi perché spesso questi percorsi vengono cambiati come ostacolo allo scraping.
  4. Con attributo LINK_TEXT per gli HREF. Anche parziale.
  5. Per TAG NAME (h3, span).
  1. Per classe
  2. Con CSS_SELECTOR per individuare un elemento, ad esempio input. Tutti i metodi restituiscono un oggetto di tipo WebElement. Ne caso non esista un elemento corrispondente ai criteri della ricerca viene generata un’eccezione. L’eccezione si può gestire. Il WebElement è un interfaccia che rappresenta un elemento nella pagina. Ci permette di interagire con l’elemento e di estrarne informazioni attraverso vari metodi. Ha anche attributi. Con find_elements si individua una lista di elementi. Potrebbe essere utile ad esempio per accedere a gli elementi di una tabella. Tutti i metodi restituiscono una lista di oggetti di tipo WebElement. Nel caso non esista nemmeno un elemento corrispondente ai criteri della ricerca viene restituita una lista di lunghezza 0. La classe WebElement eredita tutti i metodi di localizzazione presenti nella classe WebDriver. Quindi è possibile (consigliato) ricercare un elemento a partire da un elemento trovato. Altre cose che si possono fare: drug and drop, muoversi tra finestre e frame, gestire i popup, gestire la navigazione, cookies.

LEZIONE 10 – 23 Marzo – Licenza dati, Estrazione dati da PDF

LICENZA DEI DATI

NB: controllare la licenza dei dati.

  1. Public Domain: afferma che i dati sono liberi di essere utilizzati, distribuiti e modificati senza restrizioni. Questo è il tipo di licenza più permissivo ed è spesso utilizzato per i dati creati dalle agenzie governative o altre entità pubbliche.
  2. Licenze Open Data: richiedono tipicamente che i dati siano disponibili al pubblico gratuitamente e in un formato leggibile dalle macchine (csv, excel).
  3. Free for non-commercial use: ci consente di utilizzare i dati solo per scopi non commerciali.
  4. Free academic license: consente l'utilizzo dei dati solo per scopi di ricerca accademica ed educativa.
  5. Paid license: richiede il pagamento per l'utilizzo dei dati. I termini e le condizioni della licenza, come l'importo da pagare, la durata della licenza e gli utilizzi consentiti dei dati, sono specificati nell'accordo di licenza.
  6. Licenze Creative Commons: sono disponibili in diversi tipi, tra cui l'Attribuzione (CC BY), l'Attribuzione- Condividi allo stesso modo (CC BY-SA) e l'Attribuzione-Non opere derivate (CC BY-ND). Ogni tipo di licenza ha requisiti diversi, come ad esempio dare credito al creatore originale e permettere ad altri di utilizzare, modificare e distribuire i dati. La più comune è la licenza Creative Commons Zero (CC0). Questa licenza consente di utilizzare i dati per qualsiasi scopo senza attribuzione.
  7. Public Domain Dedication and License (PDDL): simile alla CC0 ma richiede di rinunciare ai nostri diritti morali sui dati. Ciò significa che non possiamo rivendicare la proprietà dei dati o dire di averli creati. Img gratis: lab.openai = Dall-e ESTRAZIONE DA PDF Con un approccio manuale (copia) oppure automatico (software di conversione in word + programma per estrazione tabella).

❖ Per ottenere i nomi delle regioni: prendere anche quelle misure.

LEZIONE 11 – 27 Marzo – Strategie di Web Scraping

STRATEGIE DI WEB SCRAPING - CASO 1 : SCUOLA IN CHIARO https://cercalatuascuola.istruzione.it/ Passi:

  1. Comprendere come è organizzato il sito (ricerca per parola chiave, per posizione o per livello amministrativo)
  2. Comprendere il dominio (scuole statali, paritarie). Problemi:
  3. Gestione di molti dati, ad esempio tutte le scuole della Lombardia. URL generata dalla ricerca avanzata - > si potrebbe generare le URL con Python invece che compilare la form, e lanciarle (con Selenium). Il codice della ragione è l’attributo Value delle Option in HTML. C’è una parte fissa concatenata ad una variabile. I risultati sono: la tabella dei risultati + il titolo H1 che dice il numero di risultati + gli elementi HTML per la paginazione (per sapere quante volte cliccare) + i pulsanti per andare avanti nelle pagine (da cliccare).

LEZIONE 12 – 30 Marzo – Data Storytelling + esempi

DATA STORYTELLING

Il data storytelling, o data narrative, è l’arte di narrare storie con i dati. Non vogliamo solo avere dei dati ma anche comunicarli. Un buon data storytelling richiede un misto fra arte e scienza: l’arte deriva dal cercare la storia giusta, mentre la scienza capisce come usare i dati per supportare la storia. Perché usare il Data Storytelling? Per focalizzarsi su ciò che vogliamo comunicare + rendere i dati il più comprensibili e condivisibili possibili. Ci permette di condividere i dati in maniera convincente e chiare. Permette di connettersi con l’audience su un piano diverso, non solo logico ma anche emozionale. Cosa differenzia il DS dal Data Visualization? Il DV principalmente cerca di presentare i dati attraverso grafici per renderli facilmente comprensibili; il DS permette di andare ad un livello successivo perché deve relazionarsi con un lettore e comunicare in maniera coinvolgente e informativo + aiuta l’audience a vedere il problema in un modo nuovo. Attori coinvolti in una data story:

  1. Dati: numeri, tabelle, testi
  2. Data Storyteller: la persona che racconta e crea la storia. Egli analizza i dati dopo averli raccolti, e comunica quello che ha scoperto all’audience. Due abilità: analisi di dati e comunicazione del messaggio.
  3. Audience: può essere chiunque, ma dipende da dove pubblichiamo l’articolo. Ci sono due modi per comunicare un messaggio:
  4. Messaggio unidirezionale dallo storyteller all’audience (è il caso del Data Journalism).
  5. Comunicazione tra i due, se l’audience può comunicare un feedback. Per identificare l’audience:
  6. Risalire alla localizzazione
  7. Informazioni demografiche (anni, genere, occupazione, livello di educazione, family size)
  8. Fattori psicologici (interessi, valori, stile di vita)
  9. Fattori comportamentali (storia di acquisti, navigazione, abitudini di web browsing, …)
  10. Livello di conoscenza dell’argomento (esperti o non esperti). Da ricordare: la storia non è per noi ma per l’audience. Obiettivi possibili:
  • Intrattenere l’audience
  • Informare l’audience
  • Insegnare qualcosa all’audience Effetto: chiamare l’audience all’azione, cambiare “la vita” dell’audience. Bisogna coinvolgere il pubblico dal punto di vista emozionale (anche a livello grafico). La piramide DIKW: metodo per trasformare i dati in una storia Si parte dai dati - > processo di analisi ed esplorazione dei dati - > estraiamo l’Insight (qualcosa di interessante, nuovi modelli tra i dati) - > comunicazione - > idea per creare qualcosa di nuovo - > muove l’audience all’azione per generare nuovi valori. Dai dati si arriva all’informazione comprendendoli. Informazione = dati puliti arricchiti di significato. Aggiungiamo il contesto per generare conoscenza. Infine spingo all’azione intervenendo sul piano dei valori dell’audience (per questo devo studiarlo), generando saggezza. 1° passo: dai dati all’informazione. Chi è l’audience e a quale informazione è interessata? Sono tutti i dati rilevanti per rispondere alle domande precedentemente poste? Due possibili strategie:
  1. Focalizzarsi su un singolo messaggio: ogni grafico ha un solo messaggio.
  2. Semplificare: evitare tutti i dettagli relativi ai dati e astrarre i dati il più possibile. 2° passo: aggiungere contesto Il contesto è tutto ciò che aiuta l’audience a capire il problema. Include circostanze attorno ai dati come eventi e situazioni + vincoli esterni o interni + ordine cronologico dei dati. 3 strategie per aggiungere contesto:
  3. Si definisce il goal di comunicazione
  4. Scegli solo le informazioni che ti permettono di raggiungere i tuoi obiettivi di comunicazione e rimuovere tutte le altre informazioni.
  5. Aggiungi annotazioni 3° passo: saggezza L'invito all'azione dipende dal quadro di valutazione etica

TABLEAU

Tableau Software è una compagnia software con centro a Seattle. Fondata nel 2003, ha circa 3500 impiegati. Produce software di data visualization interattivo focalizzata su business intelligence. Tableau Desktop per creare - > Tableau Online per pubblicare - > Tableau Mobile per leggere. Ci sono vari tipi di file a cui ci si può connettere: Excel, PDF, JSON file, Access, … Può connettersi anche a dei server oltre che a dei file. ➢ Simboli associati al tipo di dato (stringa, numero, date, time, booleani e coordinate geografiche. ➢ Impostazione “live” se i dati possono modificarsi nel tempo. ➢ Creare nuove colonne di dati con Campi Calcolati. Ad esempio per calcolare una data: click su uno dei campi

  • crea campo calcolato - > titolo - > cosa calcolare. ➢ Si possono nascondere dei campi Dimensions Vs Measures Le Misure sono dei campi numerici che posso aggregare secondo le Dimensioni. Dimensioni: date, categorie, luoghi geografici. Misure: numero di attacchi, numero di persone uccise, numero di danni. Tableau automaticamente mette tutti i campi numerici tra le misure e i restanti tra le dimensioni Il campo anno è una misura o una dimensione? I campi possono essere spostati da misura a dimensione e viceversa. Tableau calcola un nuovo campo che corrisponde al numero di records del dataset. Nel caso GTD corrisponde al numero di attacchi terroristici. Questo è un campo di tipo misura. Utile ad esempio se voglio conoscere il numero di attacchi. Esempi di domande sul DB: Il terrorismo è un fenomeno in espansione? Quali paesi sono maggiormente interessati? Qual è il gruppo terroristico più attivo? Qual è stato l’attentato terroristico più nefasto? Individuo la dimensione anno - > calcolo per ogni anno il numero di persone uccise per attacchi - > creo un grafico per vedere se il fenomeno è in espansione. Numero di persone uccise per ogni paese: prima si uniscono campi (ad esempio nord Vietnam e Sud Vietnam) + frammentazioni + cambio di nome/confini.

LEZIONE 15 – 20 Aprile – Data Storytelling: dai dati all’informazione

PROCESSO DI SVILUPPO DI UNA DATA STORY

Si parte dai dati - > processo di esplorazione - > insight. Il risultato dell’esplorazione non va presentato direttamente all’audience, che non conosce i dati. Per cui il secondo step consiste nel trasformare i dati in informazione = processo di explain, spiegazione.

Differenza tra le due fasi Come estrarre informazioni dai dati

  • Seleziona solo i dati rilevanti: identifica e concentrati sui dati più importanti per rispondere alla nostra ricerca, domanda o risolvere il nostro problema. Ciò può comportare il filtraggio o l'esclusione di determinati punti dati o variabili inutili per la nostra analisi.
  • Aggregare i dati meno importanti: semplificare l'analisi e identificare modelli o tendenze nei dati. Ad esempio, raggruppa i dati per periodo, area geografica o caratteristiche demografiche.
  • Concentrati solo su ciò che è importante: metti in evidenza le informazioni chiave ed evita il disordine o il superfluo. Utilizza annotazioni o richiami per attirare l'attenzione su punti dati o tendenze specifiche.
  • Scegli il grafico giusto: scegli un grafico appropriato per il tipo di dati che stiamo presentando e il messaggio che vogliamo comunicare.
  • Calibrare il grafico in base al pubblico e al messaggio da comunicare: considerare il pubblico quando progettare il grafico. Ad esempio, evita grafici complessi o gergo tecnico se il tuo pubblico non ha familiarità con i concetti statistici. Inoltre, considera il messaggio da comunicare e scegli un grafico che supporta al meglio quel messaggio.
  • Rimuovi il rumore non necessario dal grafico: questo include griglie, bordi o altri elementi visivi che non aggiungono valore alla nostra analisi. Un grafico pulito e semplice sottolinea le intuizioni e rende i nostri dati più facili da capire. Per scegliere il grafico giusto bisogna capire cosa si vuole rappresentare. La lettura del grafico deve essere semplice. ESEMPI – SCEGLIERE IL GRAFICO GIUSTO
  1. Rappresentare un solo dato, un solo numero: big ass number (possibilmente scritto più grande rispetto al resto del testo) o altri metodi.
  2. Rappresentare un paragone tra due o più entità.

Esempio qui potrebbero essere eliminati i quadratini e rombi, le linee orizzontali, il .00, il bordo del grafico, scrivere i mesi in modo più corto ma orizzontale, etichettare i dati direttamente invece che con la legenda in basso. ❖ ESEMPIO DEI SENZA TETTO

LEZIONE 1 6 – 27 Aprile - Data Storytelling: dall’informazione alla conoscenza

Si passa aggiungendo un contesto, una storia, per coinvolgere l’audience. Esempio delle regioni con maggior numero di senza tetto: dal grafico asettico si passa ad altro, dando un nome + immagini ai senza tetto. Come costruire una storia Esistono vari tipi di storie, la più semplice è quella identificata da Aristotele, con 3 momenti fondamentali (inizio - > complicazione che porta alla metà - > finale). Modello opposto, molto complesso è quello di Campbell sul viaggio dell’eroe: si parte da una vita normale, l’eroe è chiamato ad un’avventura, incontra ostacoli e aiuti, raggiungere l’obiettivo. Un modello per il data storytelling è questo: L’amo deve essere qualcosa di avvincente che cattura l’attenzione dell’audience. Alla fine la conoscenza dell’audience è arricchita e la probabilità che agisca è aumentata. Steps:

  1. Identificare il momento centrale, l’Aha Moment
  2. Identificare il contesto, l’inizio (l’amo e setting)
  3. Selezioniamo i momenti crescenti della storia (rising insights)
  4. Diamo all’audience la possibilità di agire (wisdom) Il grafico non è tutta la storia, ma ne è un pezzo, un punto. ESEMPIO: e-commerce che sta subendo una decrescita.

La perdita è l’Aha Moment, andiamo indietro a capire il perché, il contesto. Spieghiamo che prima la situazione era stabile e ora una decrescita = l’amo. Gli insight sono le spiegazioni, le opzioni da seguire sono la soluzione. Per ogni punto abbiamo un grafico, ognuno è una piccola storia. Tipi di story points: raccontare un cambiamento nel tempo, vedere delle relazioni, mostrare intersezioni tra variabili, proiezioni del futuro, comparare o contrasto tra variabili, un focus su un certo elemento, zoom out sui dati, cluster (se dati si raggruppano in una certa zona), vedere se ci sono outliers. Aggiungere alla storia un eroe, un protagonista.

  1. Identificare dove gli insights si intersecano con le persone. Cioè capire dove ciò che abbiamo scoperto dai dati si interseca con le persone.
  2. Costruire un profilo dell’eroe guidato dai dati
  3. Dare all’eroe un identità, con foto
  4. Dare all’eroe una voce
  5. Mostrare il viaggio fatto dall’eroe Primo punto: aggiungere contesto
  • aggiungere crediti immagini e fonti dei dati per la credibilità