Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Visualizzazione dei Dati: Grafici, Mappe e Analisi Statistica, Schemi e mappe concettuali di Database Relazionali

Le tecniche di visualizzazione dei dati, concentrandosi su grafici, mappe e iconografiche come strumenti per l'analisi e l'interpretazione dei dati. Vengono discussi concetti statistici fondamentali come misure di tendenza centrale (moda, mediana, media), varianza, deviazione standard e percentili, fornendo una guida completa per la rappresentazione efficace dei dati. Il documento include anche esempi pratici come l'uso di istogrammi, mappe coropletiche e diagrammi a dispersione per identificare tendenze e anomalie nei dati, rendendolo una risorsa preziosa per chiunque voglia approfondire la comprensione e la comunicazione dei dati attraverso visualizzazioni.

Tipologia: Schemi e mappe concettuali

2024/2025

Caricato il 14/09/2025

laura-cecchelin
laura-cecchelin 🇮🇹

9 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
L’ARTE DEL VERO - Alberto Cairo
CAP.1 COSA INTENDIAMO QUANDO PARLIAMO DI VISUALIZZAZIONE
- Visualizzazione è un termine ombrello = è qualsiasi tipo di
rappresentazione visiva dell’informazione destinata a
consentire comunicazione, analisi, scoperta ed esplorazione.
E’ un modo per esporre i dati e consentire di analizzarli → le
visualizzazioni sono concepite come strumenti che consentono al pubblico di
trarre conclusioni proprie in merito ai dati forniti.
-Un grafico è una visualizzazione in cui i dati sono codificati con simboli
che hanno forme, colori o proporzioni diversi, questi simboli sono spesso
in un sistema di coordinate cartesiane (non tutti, i grafici a torta per esempio
non si basano su un sistema di assi cartesiani)
- Una mappa è una raffigurazione di un’area geografica, o la
rappresentazione di dati relativi all’area in questione.
-Un’ ICONOGRAFICA è una rappresentazione visiva in più
parti di informazioni concepite per comunicare uno o più
messaggi → le iconografiche sono composte da un insieme di grafici,
mappe, illustrazioni e testi che forniscono spiegazione e contesto, il
progettista non mostra tutte le informazioni ma solo quelle necessarie per il
concetto.
A volte sono organizzate in senso lineare, possono essere ricche di dettagli e
possono includere disegni e icone che le rendono più gradevoli MA l’obiettivo
fondamentale è informare meglio il pubblico, chiarezza e profondità sono
essenziali mentre gli abbellimenti sono facoltativi
-Un’applicazione giornalistica è un particolare tipo di visualizzazione che
consente alle persone di correlare alle loro vite i dati presentati → il suo
obiettivo principale è essere personalizzabile in funzione dei bisogni
di ciascun osservatore → può essere un simulatore, un calcolatore o
un database visivo interattivo come “Treatment Tracker” = un
progetto che consente al consumatore di vedere i pagamenti ai
singoli medici che servono i pensionati e i disabili nel programma
Part B di Medicare; così è possibile trovare e confrontare qualsiasi
curante.
I confini che separano tutti questi tipi di visualizzazioni sono labili, alcune
visualizzazioni sono concepite per diffondere un messaggio o narrare una
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica Visualizzazione dei Dati: Grafici, Mappe e Analisi Statistica e più Schemi e mappe concettuali in PDF di Database Relazionali solo su Docsity!

L’ARTE DEL VERO - Alberto Cairo

CAP.1 COSA INTENDIAMO QUANDO PARLIAMO DI VISUALIZZAZIONE

  • Visualizzazione è un termine ombrello = è qualsiasi tipo di

rappresentazione visiva dell’informazione destinata a

consentire comunicazione, analisi, scoperta ed esplorazione.

E’ un modo per esporre i dati e consentire di analizzarli → le

visualizzazioni sono concepite come strumenti che consentono al pubblico di

trarre conclusioni proprie in merito ai dati forniti.

  • Un grafico è una visualizzazione in cui i dati sono codificati con simboli

che hanno forme, colori o proporzioni diversi, questi simboli sono spesso

in un sistema di coordinate cartesiane (non tutti, i grafici a torta per esempio

non si basano su un sistema di assi cartesiani)

- Una mappa è una raffigurazione di un’area geografica, o la

rappresentazione di dati relativi all’area in questione.

- Un’ ICONOGRAFICA è una rappresentazione visiva in più

parti di informazioni concepite per comunicare uno o più

messaggi → le iconografiche sono composte da un insieme di grafici,

mappe, illustrazioni e testi che forniscono spiegazione e contesto, il

progettista non mostra tutte le informazioni ma solo quelle necessarie per il

concetto.

A volte sono organizzate in senso lineare, possono essere ricche di dettagli e

possono includere disegni e icone che le rendono più gradevoli MA l’obiettivo

fondamentale è informare meglio il pubblico, chiarezza e profondità sono

essenziali mentre gli abbellimenti sono facoltativi

  • Un’applicazione giornalistica è un particolare tipo di visualizzazione che

consente alle persone di correlare alle loro vite i dati presentati → il suo

obiettivo principale è essere personalizzabile in funzione dei bisogni

di ciascun osservatore → può essere un simulatore, un calcolatore o

un database visivo interattivo come “Treatment Tracker” = un

progetto che consente al consumatore di vedere i pagamenti ai

singoli medici che servono i pensionati e i disabili nel programma

Part B di Medicare; così è possibile trovare e confrontare qualsiasi

curante.

I confini che separano tutti questi tipi di visualizzazioni sono labili, alcune

visualizzazioni sono concepite per diffondere un messaggio o narrare una

storia sulla base di un sottoinsieme delle informazioni disponibili al

progettista → INFOGRAFICA. Altre sono concepite principalmente per

consentire l’esplorazione → VISUALIZZAZIONI DEI DATI

CAP. 2 LE 5 QUALITA’ DELLE GRANDI VISUALIZZAZIONI

Alcuni grafici hanno cambiato la comprensione di essi da parte del

pubblico →

IL GRAFICO A MAZZA DA HOCKEY

progettato dai professori Mann, Bradley, Hughes, ed è una delle visuliazzazioni più

emblematiche e convincenti poiché ha determinate qualità:

  1. E’ VERITIERO → basato su ricerche approfondite
  2. E’ FUNZIONALE → costituisce una raffigurazione accurata dei dati ed

è costruito in modo di permettere al lettore di vedere chiaramente il

cambiamento nel corso del tempo

  1. E’ BELLO → attraente, intrigante ed esteticamente piacevole
  2. E ‘ PROFONDO → rivela prove che sarebbe difficile vedere altrimenti
  3. E’ ILLUMINANTE → afferriamo e accettiamo le prove che raffigura

→ sono le 5 qualità su cui è strutturato questo libro

1. VERITIERO

Chiarezza di un grafico ≠ grafico veritiero. → esempio: grafico NCTA sui

regolamenti e gli investimenti industriali, è un grafico chiaro ma non

veritiero. problemi: mancano degli anni (1993-96 / 1999-2003), cosa è

successo tra il ‘96 e il ‘99? gli anni presi in considerazione non sono uguali

(prima barra 4 anni, seconda 5 anni) → chi nasconde dei dati

probabilmente ha qualcosa da nascondere. Ma non è detto che questo

grafico abbia mentito, i calcoli matematici sono corretti, il titolo però è

fuorviante.

Per essere veritieri bisogna usare due strategie collegate:

  1. EVITARE L’AUTOINGANNO → la grafica veritiera è creata da persone

che fanno del loro meglio per superare i loro limiti intellettuali e i

pregiudizi cognitivi e ideologici applicando tecniche di pensiero

critico

  1. ONESTA’ → essere onesti con il proprio pubblico e mostrare la

propria migliore versione e comprensione della realtà

su questioni di rilievo è molto importante, alcuni argomenti sono più importanti di

altri.

Il motto di uno degli studi di visualizzazione, Periscopic, è “ do good with data ” →

dobbiamo fare bene con i dati ma solo dopo esserci accertati che i nostri

dati siano buoni

CAP. 3 IL CONTINUO DELLA VERITA’

Qualunque visualizzazione è un modello , una visualizzazione è un modello

mentale che serve da tramite tra il progettista e il pubblico. La qualità di un

modello aumenta con la corrispondenza del modello alla realtà che rappresenta.

L’idea di modello può essere intesa a qualsiasi atto di pensiero e comunicazione,

usiamo i modelli per percezione, cognizione e ragionamento.

Un modello è un insieme di segni e delle loro relazioni, che descrivono, spiegano o

predicono qualcosa, con un grado di accuratezza variabile. E’ illusorio pensare di

poter creare dei modelli perfetti, il massimo a cui possiamo ambire sono modelli

informativi anche se incompleti.

Un modello sarà tanto migliore quanto si approssimerà a ciò che rappresenta

senza essere inutilmente complesso E quanto sarà facile per il pubblico

interpretarlo correttamente.

Alcune persone hanno fornito dei modelli visivi cattivi di proposito ma nella

maggiorparte dei casi un modello carente nasce dalla buona intenzione di un

progettista che non ha fatto troppa attenzione ai dati.

Le buone visualizzazione non dovrebbero semplificare troppo le informazioni ma

dovrebbero chiarirle. In molti casi per chiarire un argomento bisogna aumentare la

quantità di informazioni.

Perché sbagliamo così spesso?

  1. La mente umana rileva pattern interessanti a prescindere che siano reali o

meno. TARLO DELL’APOFENIA (patterncity) → molti pattern sono

solo il risultato di coincidenze, l’autore Shermer ha definito

patterncity la nostra tendenza a percepire pattern anche quando

non abbiamo davanti niente di significativo (es: un dado lanciato più

volte ma esce sempre lo stesso numero, iniziamo a sospettare che

ci sia qualcosa che non va nel dado → la causalità rende possibile

questo, ma è raro che la causalità ci appaia veramente casuale)

  1. la mente trova subito una spiegazione coerente per questi pattern: TARLO

DELLA NARRAZIONE → quando rileviamo dei pattern è naturale

cercare di trovare una spiegazione causa-effetto. Noi umani

percepiamo i pattern, ci costruiamo sopra una narrazione e

cerchiamo dei modi per giustificare la razionalità della narrazione;

vediamo un unico evento e lo trasformiamo in una regola generale

= generalizziamo e stereotipizziamo. Procedere in questo modo è

garanzia di disastro, la narrazione può essere uno strumento

potente per comunicare in modo efficace ma è pericolosa se ci

rende ciechi alle prove che dovrebbero spingerci a rivedere o

scartare i nostri modelli. Questo “effetto paraocchi” nasce da una

dissonanza cognitiva e il modo migliore che il cervello ha per venirci

a patti è il tarlo della conferma anche detto bias di conferma

  1. Si iniziano a vedere conferme in tutte le informazioni che ricevo e ci si rifiuta

di mollare la propria spiegazione: TARLO DELLA CONFERMA → se ci

vengono presentate informazioni che confutano ciò che crediamo faremo di

tutto per non vederle o le deformeremo in modo che divengano conferme,

cercando in tutti i modi di ridurre la dissonanza. Il modo in cui presentiamo le

informazioni è importante quanto la solidità delle informazioni stesse. La

mente va disciplinata, lasciata a sé stessa quando viene contraddetta non

accetta nessun’altra idea.

Feynman e Huxley, due scienziati, stipulano due principi che possono

applicarsi anche al mondo delle visualizzazioni (e della vita più in generale): il

primo principio è che non bisogna ingannare sé stessi; il secondo è che una

bella ipotesi a fronte di fatti brutti ma reali deve essere uccisa

LA VERITA’ NON E’ ASSOLUTA NE’ RELATIVA

Quando si crea un modello bisogna avvicinarsi il più possibile alla verità ,

applicando strumenti di pensiero rigorosi come logica, statistica e sperimentazione.

Informazioni più abbondanti portano a modelli migliori. Può capitare che esistano più

buoni modelli, se sono basati tutti su un solido ragionamento, tutti saranno

contemporaneamente veri (altrettanto rigorosi, efficaci ed accurati nel descrivere una

realtà) fino alla raccolta e all’analisi di ulteriori prove. Il modo in cui pensiamo che

teorie ed opinioni possano essere più o meno vere è identico al modo in cui

pensiamo alla veridicità o falsità delle visualizzazioni.

Come si può creare un modello più veritiero? Esplorare più a fondo il set di dati e

cercare altre fonti (per eliminare il bias di conferma), aumentare le profondità

(aggiungere un errore di campionamento, i livelli di approfondimento devono essere

svelati e spiegati ai lettori), pensare in termini di ampiezza (aggiungere più variabili e

prendere in considerazione altri modelli), non semplificare troppo (semplicità

congettura, poiché il pensiero razionale progredisce solo se le idee correnti possono

essere sostituite da altre più fondate in seguito, quando arrivano nuove prove

IPOTIZZARE

Una congettura formalizzata per essere verificata empiricamente è detta ipotesi.

es: sospetto del calo della produttività degli scrittori che usano troppo

twitter. → La prima variabile della nostra ipotesi è “aumento dell’uso di

twitter” e possiamo chiamarla variabile predittiva o esplicativa (in alcuni casi

è detta variabile indipendente); La seconda è “riduzione del numero medio di parole

che gli scrittori producono in un giorno”, questa è detta variabile risultato o

risposta (variabile dipendente)

[variabile = elemento in cui i valori possono cambiare]

Ci sono variabili di molti tipi, per classificarle bisogna prestare attenzioni alle scale

con le quali sono misurate

NOMINALE → in una scala nominale non è obbligatorio che i valori abbiano

un peso quantitativo, si distinguono per la loro identità (maschio -

femmina / posizione geografica / partito politico ecc…), esistono solo per

identificare

ORDINALE → i valori sono organizzati o classificati secondo una

magnitudine, ma senza rivelare la dimensione esatta. Questa scala

comunica la graduatoria ma non dice nulla sulle differenza

es: potremmo analizzare tutti i Paesi del mondo secondo il loro PIL procapite ma

invece di mostrare i valori specifici ordiniamo i paesi in una graduatoria (primo posto,

secondo ecc..)

INTERVALLI → una scala di intervalli si basa su incrementi della stessa

dimensione, ma anche sulla mancanza di un vero punto zero che

rappresenti il valore in assoluto minimo. Il punto zero è solo un numero

arbitrario, non un punto di riferimento assoluto

es: il QI, se una persona ha un QI di 140 e una di 70 possiamo dire che la prima è di

70 unità superiore alla seconda ma non che è il doppio

RAPPORTI → le scale di rapporti hanno tutte le proprietà delle scale

precedenti e in più hanno un punto zero significativo.

Le variabili possono essere classificate come discrete e continue. Una variabile

discreta può adottare solo certi valori (es: una persona può avere solo un numero

intero di cugini, o 4 o 5, mai 4.5). Una variabile continua può assumere qualunque

valore della scala che si sta utilizzando, non c’è un limite al numero di cifre decimali

(es: il peso in chili può essere di 70 o di 70.4 o 70.129)

A volte una variabile discreta può essere trattata come una variabile continua (es:

numero di bambini per coppia in un certo paese: 1,8) e una variabile continua può

essere trattata come una variabile discreta (es: distanza in anni luce tra due pianeti

può essere di 4,98292… con infiniti decimali viene arrotondata in 5 anni luce)

GLI STUDI

Una volta formulata un’ipotesi deve essere verificata rispetto alla realtà.

es: sospetto del calo della produttività degli scrittori che usano troppo

twitter → invio un sondaggio online a 30 amici scrittori chiedendogli quanti

minuti hanno passato su twitter oggi e quante parole hanno scritto oggi →

è uno studio trasversale ovvero prende in considerazione solo valori raccolti in

uno specifico momento (più facile da costruire con risultati meno decisivi)

Se documento attentamente per lungo tempo (un anno, un decennio o da quando è

stato fondato twitter) otterò uno studio longitudinale (più difficile e costoso ma più

preciso).

I CAMPIONI → riguardo l’indagine di twitter incontriamo un problema, si

sta cercando di studiare una popolazione (tutti gli scrittori) ma basandosi

su un campione di scrittori che sono miei amici; i miei amici sono

rappresentativi di tutti gli scrittori?

Sospettate sempre degli studi i cui campioni non sono stati scelti

in modo casuale → la causalità è utile per gestire le variabili

estranee (profondità ed ampiezza)

A volte possiamo identificare una variabile estranea e incorporarla nel nostro

modello, in tal caso parliamo di variabile di confondimento. Un secondo tipo di

variabile estranea è la variabile occulta (lurking) cioè una variabile estranea che

non includiamo nell’analisi perché ne ignoriamo l’esistenza o perché non possiamo

spiegare la sua connessione con il fenomeno che stiamo studiando.

FARE ESPERIMENTI

Ovunque sia realistico e fattibile i ricercatori progettano esperimenti controllati. In

questi esperimenti i ricercatori osservano un gran numero di soggetti rappresentativi

su cui vogliono indagare (non per forza persone); i soggetti sono suddivisi in due

gruppi , uno sperimentale (esposti ad una condizione di qualche genere) e uno di

controllo (esposti ad una condizione diversa o nessuna) nella maggiorparte dei casi

la suddivisione dei due gruppi sarà “in cieco” (i soggetti non sanno in che gruppo

sono) o “in doppio ciecio” (nemmeno i ricercatori sanno come sono composti i

gruppi); i ricercatori misurano ciò che accade ai soggetti e confrontano i risultati

posizioni su scale identiche non allineate, lunghezza, direzione ed angolo, area,

volume, intensità e saturazione e, infine, tonalità di colore).

Per creare un grafico riuscito bisogna costruirlo basandosi su attività

elementari più in alto possibili nelle gerarchia

Cleveland e McGill si riferivano però solo a grafici statistici per i dati la metà inferiore

della scala può essere appropriata quando l’obiettivo non è quello di giudizi accurati

ma rivelare pattern generali.

Non possiamo applicare acriticamente i criteri di scelta di qualcun altro →

regola generale tracciare sempre i dati in modo diretto

Per i grafici a barre, lollipop o istogrammi conviene sempre avere una linea base 0

per evitare di incorrere in equivoci, ma in alcuni casi la linea base dell’asse delle x

può essere un numero significativo (se si parla dei tassi storici di disoccupazione di

un paese e la variabile non è mai scesa al 5%, allora la linea di base del grafico può

iniziare dal 5% invece che 0)

ORGANIZZARE L’ESPOSIZIONE

Scegliere il formato giusto per un grafico non basta per un’ottima visualizzazione,

bisogna anche capire che attività deve consentire il grafico e cosa dobbiamo

rivelare.

CAP. 6 ESPLORARE I DATI CON SEMPLICI GRAFICI

Il famoso statistico John Tukey creò un’intera branda dell’analisi dei dati,

praticamente da solo, e la chiamò analisi esplorativa dei dati, spiega che prima

ancora di iniziare a verificare le idee rispetto alle prove, è essenziale avere un’idea

chiara dell’aspetto dei dati, e il modo migliore per farlo è una rappresentazione

grafica.

Il processo di esplorazione visiva dei dati può essere riassunto in: trovare pattern e

tendenze nascoste nei dati e poi osservare le deviazioni di tali pattern. Per riferirsi a

tutti i dati complessivamente si utilizza il termine distribuzione.

Possono nascere delle intuizioni già solo calcolando le misure di tendenza centrale

(moda, mediana e media), nell’analisi esplorativa dei dati sono dette livello della

distribuzione perché danno l’idea della dimensione media dei numeri e di quale sia

il loro punto centrale.

MODA = misura di tendenza più semplice, è il valore che appare più spesso nella

distribuzione. le distribuzioni con una sola moda sono dette unimodali , se ne hanno

due o più è una distribuzione bimodale, trimodale o multimodale

MEDIANA = il valore che divide in due metà l’insieme dei valori. E’ una statistica

resistente perché pur aggiungendo un valore oltraggioso alle estremità il calcolo

rimane intatto, mentre la media verrebbe sbilanciata

MEDIA = è la somma di tutti i valori divisa per il numero totale dei valori. E’ una

statistica non resistente. La media delle medie è detta media generale; una media in

cui i valori considerati hanno pesi diversi è detta media ponderata

es: analizziamo lo storico dei sali base dei laureati all’università Chapel Hill del Nord

Carolina. Calcolando la media scopriamo che i laureati in geografia guadagnano

circa 740mila dollari/anno; ma anche Michael Jordan si è laureato alla Chapel Hill e il

suo primo salario è stato di qualche milione di dollari in più rispetto ai suoi compagni

di corso, ciò distorce la media. Lo stipendio di Michael Jordan è detto valore

anomalo (outlier) così lontano dal livello della distribuzione da distorcere la

comprensione dei dati. In questo caso è meglio calcolare la mediana

Una forte differenza risultante dal confronto tra mediana e media è uno dei primi

segnali di una distribuzione sbilanciata

INTERVALLO = è la differenza tra i valori massimo e minimo di una distribuzione

(aka l’estensione della distribuzione)

Per la rappresentazione grafica dei dati il modello migliore è l’ istogramma che

prevede l’aggregazione dei valori in dei contenitori. In un istogramma l’altezza di

ciascuna barra corrisponde al numero dei record o dei punteggi, deve mostrare la

frequenza di ciascun valore. Più è alta la barra più è alta la frequenza dei valori

aggregati.

In fase di esplorazione, un progettista di visualizzazioni non dovrebbe mai

basarsi su un'unica statistica o su un unico grafico o una sola mappa. →

più grafici, più chiarezza per il progettista, più chiarezza per il grafico

finale.

CAP. 7 VISUALIZZARE DISTRIBUZIONI

Una singola statistica (moda, media, mediana ecc…) può non essere un modello

che rappresenta correttamente l’intero set di dati. Per completare le visualizzazioni

(media, mediana e moda sono uguali; la distribuzione è simmetrica = il

50% dei punti è sopra la media, l’altro è sotto); sappiamo quali

percentuali di punti si trovano in determinati intervalli)

PERCENTILI

Abbiamo già parlato di mediana, che divide a metà una distribuzione →

possiamo misurare la dispersione dei dati a partire dalla mediana

utilizzando i percentili

PERCENTILE = un valore che suddivide la distribuzione in modo che una

percentuale degli altri valori si trovi al di sotto di esso, divide la

distribuzione in centesimi. → la mediana è sempre il 50° percentile

Dal 10° al 90° i percentili sono detti decili , dividono la distribuzione in terzi. Il 20°,

40°, 60° e 80° percentili sono detti quintili perché dividono la distribuzione in quinti.

Tukey nell’esplorazione dei dati consiglia i quartili ovvero il 25°, 50° e 75° che

suddividono la distribuzione in quarti

Possiamo rappresentare i quartili con dei diagrammi a scatola , la scatola evidenzia

i limiti dei segmenti di dimensione uguale nella distribuzione e dà risalto agli outler

(valori anomali), le scatole sono top quando non si analizza un’unica distribuzione

ma se ne confrontano diverse.

!!Ricorda: l’analisi esplorativa dei dati consiste nell’osservare tendenze e pattern (la

norma ) e poi identificare deviazioni o eccezioni!!

La natura essenziale dei set di dati è composta da:

  1. Il livello = misure di tendenza centrale come la media
  2. la dispersione
  3. la forma dei dati

Esplorare sia la norma che le eccezioni è fondamentale per trovare nuove

informazioni e progettare visualizzazioni che le spieghino ai lettori, l’esplorazione

delle eccezioni spesso implica la trasformazione dei dati in modo da isolare un altro

elemento della norma:

il livello: ciascun punto originale - qualsiasi misura di tendenza centrale (sottrazione)

CAP. 8 RIVELARE IL CAMBIAMENTO

Il cambiamento in una o più variabili continue è di solito visualizzato con grafici

lineari a serie storiche → l’asse delle x rappresenta intervalli temporali con

spaziatura equivalente, l’asse delle y corrisponde alla magnitudine delle

variabili che vogliamo esplorare o presentare. Leggendo un grafico del

genere bisogna tener conto di tre aspetti:

  • il trend , le variabili salgono, scendono o restano uguali?
  • la stagionalità , la variabili mostrano fluttuazioni periodiche e coerenti?
  • il rumore , alcune delle variazioni che osserviamo sono semplicemente

cambiamenti casuali?

[calcoli che non ho capito che cazzo c’entrano con tutto ciò

differenza = ciascun valore - media]

Un altro modo di esplorare e presentare i dati in serie storiche al lettore è il calcolo

degli indici = processo di determinazione di specifici indicatori (indici) che forniscono

informazioni sintetiche sull'andamento, la situazione o la performance di un'entità.

Nei grafici lo 0% è detto origine dell’indice e il calcolo degli indici con base 0 si fa

con la stessa formula che si utilizza per la variazione percentuale :

Variazione percentuale =

ciascun punto − origine dell ' indice

origine dell ' indice

x 100

[ esempio: il numero medio di case vendute a meno di 125mila $ tra il

2002 e il 2003 era 63.750 all’anno, questa sarà la nostra origine. So che il

numero di case economiche vendute nel 2002 è di 157.000 →

x 100 = 146,3 ]

Abbiamo appena imparato come confrontare tutti i valori delle nostre serie storiche

ad un singolo valore indice, ma se fossimo interessati al tasso di cambiamento di

ciascun periodo in confronto al precedente dovremmo dividere il nuovo periodo per il

periodo precedente:

tasso di variazione =

nuovo periodo

periodo precedente

[esempio: la popolazione negli USA nel 1800 è stimata a 5.308.483 abitanti, nel

1801 era 5.475.787 abitanti => 5.475.787 : 5.308.483 = 1,

Questo 1,03 può essere letto come 103% quindi si può dire che la popolazione nel

1801 era circa il 103% della popolazione nel 1800. In altre parole, per ogni 100

persone nel 18000, nel 1801 ce n’erano 103]

Un altro modo per visualizzare il tasso di variazione è la scala logaritmica →

tutti i calcoli logaritmici iniziano scegliendo una base, nelle visualizzazioni di solito è

Un solo diagramma a dispersione mostra le relazioni tra due variabili, ma se

volessimo confrontarne di più? Il limite di questo tipo di grafico è che è possibile

confrontare la partecipazione a qualsiasi altro punteggio ma non vedere la

correlazione tra i singoli test (con l’esempio a pg. 240 dei punteggi SAT scholastic

aptitude test dei vari stati americani). Le matrici di diagrammi a dispersione sono

concepite per esplorare dati multivariati, e possono fornire una vista complessiva

molto ricca delle relazioni tra numerose variabili; le matrici possono avere un codice

colore abbinato alla forza delle correlazioni e sono semplificabili come grafici termici.

Le mappe termiche da sole non sono indicate quando la relazione tra variabili non è

sempre lineare però può riassumere in modo conciso set di dati molto ampi (nel

dubbio creare sempre prima un diagramma a dispersione).

Nei diagrammi a dispersione, l’asse delle X è una variabile indipendente e

l’asse delle Y è una variabile dipendente, il che non le rende intercambiabili

e questo rendo il grafico un modello di regressione → nella regressione x

ha un qualche limitato valore predittivo. Se ci si aspetta un futuro

valore di x si può predirre a grandi linee il corrispondente valore di y

tramite la formula della regressione più semplice, ovvero la

regressione lineare univariata con minimi quadrati

Y = intercetta + X x coefficiente angolare

Intercetta = è il valore di Y in corrispondenza del quale la linea di regressione

interseca il punto 0 dell’asse X

Coefficiente angolare = è il tasso di variazione dei valori Y al variare dei valori X

Oltre ad r, nei modelli di regressione, compare anche un

r

2

ovvero il coefficiente di

determinazione = indica la misura in cui la variazione di una variabile dipendente

(Y) dipende da quella indipendente (X).

E’ assolutamente fondamentale ricordare che è bene inferire dei dati solo allo stesso

livello di aggregazione dei dati, i dati a livello di gruppo non possono essere usati per

analizzare fenomeni a livello individuale

CAP. 10 MAPPATURA DEI DATI

In questo capitolo si usa un senso più stretto del termine mappa, ci si riferisce solo

alle visualizzazioni che mostrano attributi o variabili associate ad immagini

geografiche. Gli attributi principali di una mappa sono scala, proporzione e

simbologia usata per rappresentare le informazioni. La scala è la misura della

proporzione tra distanza e dimensioni nella mappa e nell parte del mondo che

rappresenta.

Una mappa a grande scala (1:10.000) mostrerà una piccola area geografica con

dettagli maggiori di una mappa a piccola scala (1:100.000.000)

PROIEZIONE = è il processo di trasformazione di un globo, o parte di esso, in

un’immagine piana o bidimensionale.

Gli oggetti geometrici sui quali il globo può essere proiettato per creare una mappa

sono detti superfici di sviluppo , le più usate sono il cilindro, il cono e il piano.

Le parti delle superfici di sviluppo tangenti al globo durante il processo di proiezione

sono dette linee standard ; la scala di una mappa è accurata solo lungo tali linee,

man mano che ci si allontana aumenta la distorsione.

Esistono cinque proprietà che possono, e saranno, distorte proiettando un globo su

una superficie piana: forma, superficie, angoli, distanza e direzione. Una

proiezione può rispettarne una o due, almeno 3 attributi saranno sacrificabili.

Considerando queste proprietà possiamo identificare due grandi gruppi di mappe:

1. Proiezioni conformi = conservano la forma dei continenti (l’aspetto

complessivo delle terre emerse) e gli angoli locali (qualsiasi angolo creato

dall’intersezione di due linee sarà lo stesso sulla mappa e sul globo). La

proiezione conforme più famosa è quella di Mercatore, fu creata per la

navigazione marittima ma non è una buona scelta per i planisferi poiché la

linea standard è posta sull’equatore quindi più ci si allontana verso nord o sud

più le aree della mappa saranno grandi rispetto alla realtà.

2. Proiezioni equivalenti =conservano i rapporti tra le superfici, sono

proporzionali a quelle reali ma tendono a distorcere notevolmente le forme e

la distorsione aumenta man mano che si allontana dalle linee standard

→ una mappa non può essere conforme ed equivalente allo stesso tempo,

sono caratteristiche mutuamente esclusive

MAPPE DATI A PUNTI E A LINEE

Le mappe dati solitamente sono dette mappe tematiche → non devono

semplicemente mostrare delle posizioni geografiche ma anche attributi e

statistiche sui luoghi. I dati sulle mappe sono codificabili per mezzo di

x - y = z → z : n classi = dimensione

limite inferiore della prima classe = y + dimensione

limite max 2 classe = y + (2 x dimensione)

Quantili = possiamo utilizzarli per classificare i dati, consiste nel posizionare in ogni

classe un numero grosso modo uguale di casi

(es: 50 stati degli USA, 6 classi → 50 : 6 = 8,3 stati in ogni classe)

Schemi colore divergenti = si basa sulla media e sulla deviazione standard

(es: sappiamo che il 17% della popolazione USA è ispanica, questa è la nostra

media. La deviazione standard del set di dati è di 10,0 che useremo anche come

dimensione di classe.

Per calcolare gli intervalli delle classi iniziamo dalla media e aggiungiamo e

sottraiamo la deviazione standard tutte le volte che è necessario per includere

l’intero set di dati.

sotto la media → classe 1: 17,0 - 10, 0 0 7,

classe 2: 17,0 - (2 x 10,0) = -3,0 → nei set non esistono

valori negativi quindi usiamo la cifra più piccola = 1

sopra la media → classe 1: 17,0 + 10,0 = 27,

classe 2: 17,0 + (2 x 10,0) = 37,

classe 3: 17, 0 + (3 x 10,0) = 47,0)

E’ opportuno che le mappe coropletiche siano accompagnate il più spesso possibile

da grafici o tabelle che ne consentano una comprensione più ricca.Una carenza

delle mappe coropletiche è che le zone del mondo sono di dimensione

estremamente variabili , i Paesi estesi risultano di più mentre quelli meno estesi ma

con una densità di popolazione molto alta saranno quasi invisibili. Una soluzione è

quella di creare diagrammi molto astratti o creare un cartogramma ovvero una

mappa in cui le aree sono ingrandite o ridotte sulla base di una magnitudine.