Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


STATISTICA SOCIALE PER SCIENZE UMANISTICHE, Appunti di Statistica Sociale

programma per esame Petrucci statistica sociale integrato con slides

Tipologia: Appunti

2018/2019

In vendita dal 06/09/2019

barbara_bertoletti
barbara_bertoletti 🇮🇹

4.2

(15)

17 documenti

1 / 31

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
La STATISTICA fornisce METODI E STRUMENTI (MODELLI) che permettono
di prendere decisioni consapevoli basandosi su informazioni incomplete. Si
basa sul METODO INDUTTIVO (dal particolare al generale) e non può
prescindere dal contesto. È una scienza che ragiona partendo dai dati. Studia
i FENOMENI COLLETTIVI. I fenomeni collettivi riguardano i CARATTERI, che
si articolano in modalità e si misurano attraverso le scale. I dati devono
diventare INFORMAZIONI.
Quando un problema è risolto, i risultati non si possono dire certi, ma
CONFIDENTI.
La STATISTICA DESCRITTIVA in particolare è la scienza che permette di:
RACCOGLIERE
ORGANIZZARE le informazioni, al ne di pervenire a una o più
conclusioni
SINTETIZZARE
ANALIZZARE
IL PROCESSO STATISTICO
Si articola in 4 fasi:
1. IDENTIFICARE L’OBIETTIVO DELLA RICERCA quindi fornire domande
dettagliate
2. RACCOGLIERE I DATI NECESSARI PER FORNIRE UNA RISPOSTA
quindi identicare la popolazione; uno dei metodi principali utilizzato è
il QUESTIONARIO che solitamente si costruisce con una scala ordinale.
3. DESCRIVERE I DATI
4. FARE INFERENZA
Si parte dal CONTESTO, si fa ASTRAZIONE e si riportano i dati al CONTESTO
Elementi fondamentali: i DATI e l’uso di STRUMENTI DI ANALISI DI TIPO
QUANTITATIVO.
In ultimo si passa alla generalizzazione dei risultati, quindi si ESTENDONO I
RISULTATI DAL CAMPIONE ALLA POPOLAZIONE ( si fa INFERENZA)
POPOLAZIONE è sinonimo di raggruppamento, anche di cose e oggetti. La
sintesi numerica della popolazione è un PARAMETRO. Ogni elemento
appartenente alla popolazione è detto INDIVIDUO o UNITA’ STATISTICA.
Le caratteristiche di ogni individuo sono dette VARIABILI e si indicano con X.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Anteprima parziale del testo

Scarica STATISTICA SOCIALE PER SCIENZE UMANISTICHE e più Appunti in PDF di Statistica Sociale solo su Docsity!

STATISTICA

La STATISTICA fornisce METODI E STRUMENTI (MODELLI) che permettono di prendere decisioni consapevoli basandosi su informazioni incomplete. Si basa sul METODO INDUTTIVO (dal particolare al generale) e non può prescindere dal contesto. È una scienza che ragiona partendo dai dati. Studia i FENOMENI COLLETTIVI. I fenomeni collettivi riguardano i CARATTERI, che si articolano in modalità e si misurano attraverso le scale. I dati devono diventare INFORMAZIONI.

Quando un problema è risolto, i risultati non si possono dire certi, ma CONFIDENTI.

La STATISTICA DESCRITTIVA in particolare è la scienza che permette di:

R ACCOGLIERE

O RGANIZZARE le informazioni, al fine di pervenire a una o più conclusioni

S INTETIZZARE

A NALIZZARE

IL PROCESSO STATISTICO

Si articola in 4 fasi:

  1. IDENTIFICARE L’OBIETTIVO DELLA RICERCA quindi fornire domande dettagliate
  2. RACCOGLIERE I DATI NECESSARI PER FORNIRE UNA RISPOSTA quindi identificare la popolazione; uno dei metodi principali utilizzato è il QUESTIONARIO che solitamente si costruisce con una scala ordinale.
  3. DESCRIVERE I DATI
  4. FARE INFERENZA

Si parte dal CONTESTO, si fa ASTRAZIONE e si riportano i dati al CONTESTO

Elementi fondamentali: i DATI e l’uso di STRUMENTI DI ANALISI DI TIPO QUANTITATIVO.

In ultimo si passa alla generalizzazione dei risultati, quindi si ESTENDONO I RISULTATI DAL CAMPIONE ALLA POPOLAZIONE (← si fa INFERENZA)

POPOLAZIONE è sinonimo di raggruppamento, anche di cose e oggetti. La sintesi numerica della popolazione è un PARAMETRO. Ogni elemento appartenente alla popolazione è detto INDIVIDUO o UNITA’ STATISTICA. Le caratteristiche di ogni individuo sono dette VARIABILI e si indicano con X.

I diversi valori che può assumere ogni variabile sono detti MODALITA’ e si indicano con x.

CAMPIONE è un sottoinsieme della popolazione. La sintesi numerica del campione è una STATISTICA.

Le variabili possono essere QUALITATIVE o QUANTITATIVE

VARIABILI QUALITATIVE (dette anche NOMINALI o SCONNESSE perché tra le parti non c’è connessione, o CATEGORICHE perché identificano delle categorie) sono quelle che consentono di classificare le unità statistiche sulla base di alcuni attributi (es. colore dei capelli, degli occhi, sesso). Se sono ordinabili si dicono anche CICLICHE.

Non consentono operazioni matematiche tra le modalità.

VARIABILI QUANTITATIVE forniscono invece una caratteristica numerica delle unità statistiche e consentono di eseguire operazioni matematiche.

Sono DISCRETE quando contiamo. Le modalità in questo caso assumono un numero finito o un’infinità numerabile di valori identificabili con l’insieme dei numeri naturali.

Sono CONTINUE quando misuriamo. Le modalità assumono un numero INFINITO di valori, compresi i numeri decimali, quindi non sono numerabili. È possibile trovare un valore anche nell’intervallo tra due valori. Generalmente sono misure fisiche come peso, altezza, tempo, lunghezza.

È il sistema di misura che definisce la tipologia della variabile.

SCALA DI MISURAZIONE DI UNA VARIABILE

Le VARIABILI QUALITATIVE si misurano su SCALA NOMINALE e su SCALA ORDINALE.

La SCALA NOMINALE è il livello più basso della misurazione. Misuro su scala nominale quando i valori che può assumere la variabile (le modalità) sono nomi, etichette, categorie. Non sono possibili operazioni matematiche ma solo CONFRONTI o EQUIVALENZE. L’attribuzione di numeri per identificare le categorie è solo un artificio. I quesiti statistici riguardano le frequenze. Possiamo stabilire se due modalità sono uguali o diverse.

La SCALA ORDINALE (o PER RANGHI) contiene più informazioni di quella nominale, perché tra le modalità è possibile stabilire un ordine, una sorta di gerarchia. Ad esempio il titolo di studio: l’ordinamento è dato dal fatto che è legato a quantità ordinabili come gli anni di studio. Posso ordinare le unità statistiche ma non posso misurare la loro distanza. Posso stabilire relazioni di MAGGIORANZA o di MINORANZA. Possiamo stabilire se due modalità sono uguali o diverse e se una è maggiore o minore dell’altra.

Le VARIABILI QUANTITATIVE si misurano sulla SCALA A INTERVALLI (EQUIVALENTI) e la SCALA DI RAPPORTI.

Ci dicono quante sono le unità del collettivo che presentano la modalità considerata e/o quella precedente. Es.: quanti sono gli individui che hanno un titolo di studio minore o uguale a “media superiore”. Il valore dell’ultima frequenza cumulata coincide sempre con il totale. Ci servirà per calcolare gli INDICI DI SINTESI. Si legge ad esempio “il 20% della popolazione ha AL PIU’ il diploma superiore”. Somma della frequenza assoluta di una specifica modalità con le frequenze assolute delle modalità precedenti.

FREQUENZE CUMULATE RELATIVE: somma consecutiva

FREQUENZE CUMULATE PERCENTUALI:

Quando i dati sono quantitativi, la distribuzione di frequenze si può fare raggruppando le modalità in CLASSI cioè INTERVALLI NUMERICI. Es. età 0- anni, 5-

In questi casi il grafico più usato è LA PIRAMIDE.

Le CLASSI sono caratterizzate da:

  • Limite inferiore: il valore più piccolo della classe
  • Limite superiore: il valore più elevato della classe
  • Ampiezza: differenza tra limite inferiore di una classe e il limite inferiore della classe successiva (ovviamente valore maggiore – valore minore)

Altezza (classi) 1,500 I 1,

1,600 I 1,

Nelle variabili quantitative continue si possono rappresentare come segue:

La barra verticale indica la classe in cui l’estremo è incluso

La barra orizzontale indica che il valore non è incluso.

COME SI COSTRUISCONO LE CLASSI:

  • Innanzitutto dobbiamo cercare di non avere classi vuote, perché la frequenza zero non dà una rappresentazione corretta del fenomeno.
  • Dobbiamo assicurarci che i valori siano ben distribuiti all’interno delle classi, altrimenti avremo una distribuzione distorta.
  • Determinare classi di uguale ampiezza

PER DETERMINARE L’AMPIEZZA DI UNA CLASSE:

Poi arrotondare il risultato per eccesso.

Le tabelle sono il primo strumento di analisi, poi vengono i GRAFICI.

Si cerca sempre più di dare informazioni in info-grafica, per aiutare anche i non addetti ai lavori a recepire i dati in modo più semplice. (sito ISTAT).

Le rappresentazioni grafiche hanno lo scopo di descrivere una distribuzione, di frequenze o di intensità, in funzione delle modalità, qualitative o quantitative, di una o più variabili. Devono sempre essere intestati e devono sempre contenere un titolo e una fonte.

Gli elementi necessari sono: figure, linee e segmenti, superfici o aree, solidi, simboli convenzionali.

La prima cosa da fare è capire di che natura è la variabile che vogliamo rappresentare:

VARIABILI GRAFICO Qualitative sconnesse o nominali Torta, barre orizzontali (o nastri) Qualitative ordinali Barre verticali Quantitative discrete Bastoncini, barre verticali Quantitative continue e discrete in classi

Istogramma

Serie storiche Linee

Istogrammi: distribuzioni in classi: NON ESISTONO ISTOGRAMMI SENZA DISTRIBUZIONI IN CLASSI. L’istogramma si usa SOLO per:

  • variabili continue
  • variabili discrete con tante modalità (quindi misurate in classi)

Si differenziano dai diagrammi a barre perché:

  1. Le modalità sono raggruppate in classi (sulle ascisse)
  2. (^) I rettangoli sono uniti
  3. L’ampiezza delle barre è significativa, quindi può variare
  • Se ho classi della stessa ampiezza , l’altezza della barra è proporzionale alla frequenza assoluta della classe.
  • Se ho classi di ampiezza diversa , l’altezza della barra è proporzionale alla densità di frequenza della classe.

Se ho classi di ampiezza diversa, la frequenza è pari all’area della barra (base * altezza). Quindi sfrutto il concetto di densità della frequenza perché la spalmo sull’intero segmento che rappresenta la classe di appartenenza.

= densità di frequenza

= frequenza associata alla modalità i

= ampiezza della classe (lunghezza del segmento)

È importante usare SEMPRE la DENSITA’ sulle ordinate (al posto della frequenza) per ricordarci di considerare come informazione l’area del rettangolo. La frequenza assoluta si indica solo nel caso in cui le ampiezze sono uguali.

Le forme di distribuzione sono importanti perché rappresentano l’andamento della nostra variabile e sono essenzialmente 4:

  • UNIFORME (SIMMETRICA): tutte le barre sono alte uguali
  • CAMPANULARE (SIMMETRICA): come una montagna, la frequenza relativa più elevata si trova al centro della distribuzione e diminuisce in modo simmetrico nelle due code di dx e sx.
  • ASIMMETRICA POSITIVA (ASIMMETRICA A DESTRA): la forma presenta una distribuzione allungata verso destra: la coda alla destra del picco è più lunga di quella a sinistra (es. reddito)
  • ASIMMETRICA NEGATIVA (ASIMMETRICA A SINISTRA): il contrario

Cartogrammi: un cartogramma è una carta geografica sulla quale sono rappresentati i dati statistici riferiti ad un fenomeno osservato rispetto ad un territorio. (es. tasso di disoccupazione).

SINTETIZZARE NUMERICAMENTE I DATI

Dopo aver sintetizzato i dati con tabelle e grafici dobbiamo individuare un valore numerico in grado di rappresentarli e lo facciamo attraverso le

IMPORTANTE: se ho invece dati discreti, faccio la somma degli estremi delle classi (estremo inferiore e estremo maggiore) e divido per due. Una variabile discreta, per sua natura ha delle discontinuità (es. nr di figli: non posso avere un dato continuo; avremo classi da 0-2, da 2-4, ecc. ma da 2 a 3 figli non c’è niente, quindi ho un punto di discontinuità).

CARATTERISTICHE della MEDIA:

  • è sempre un valore compreso nell’intervallo degli estremi;
  • può assumere valori che possono non essere osservati;
  • è influenzata dai valori estremi o anomali → valori diversi dalla maggioranza dei dati. In questo caso la media non è un buon indicatore dell’andamento dei dati.

PROPRIETA’ della MEDIA ARITMETICA:

  1. La somma degli SCARTI (differenza tra il valore singolo e la media aritmetica μ) è pari a zero. Sommo i valori e calcolo la media aritmetica, poi faccio la sottrazione tra ogni valore e la media aritmetica (che è sempre uguale) e ottengo i singoli scarti. Se li sommo ottengo zero.

In statistica tutte le volte che si fanno delle differenze si utilizza il termine “scarto”.

  1. In un collettivo suddiviso in L gruppi, la media aritmetica generale si può ottenere come la media ponderata delle medie dei gruppi, con pesi uguali alle loro numerosità.

L= numero complessivo dei gruppi

g= un generico gruppo

= media del gruppo g

Significa che la media aritmetica totale della popolazione può essere calcolata come media delle medie parziali dei singoli gruppi, ponderate per la numerosità dei gruppi, se questi gruppi hanno la stessa numerosità.

Esempio: calcolare l’altezza media di un’aula, supponendo di conoscere l’altezza media delle donne e l’altezza media degli uomini. Abbiamo quindi 2 gruppi: L=

MEDIA TOTALE:

Questa proprietà prevede che si conoscano le medie dei gruppi che costituiscono il collettivo.

La PONDERAZIONE sta nel fatto che la numerosità di un gruppo/il totale mi dice quanto pesa un gruppo rispetto ad un altro. Il contributo dei gruppi ha un peso diverso rispetto al totale.

La media aritmetica si può calcolare solo quando la variabile è quantitativa. In caso di variabile QUALITATIVA si usa la MODA: è la modalità che si presenta con la frequenza più alta. In generale le distribuzioni possono:

  • Non avere la moda (quando tutte le modalità hanno la stessa frequenza)
  • Avere una sola moda
  • Avere più di una moda.

Non rende conto dell’andamento di una variabile, quindi è meno informativa della media.

MEDIANA (M)

E’ l’indice di posizione che si utilizza per dati quantitativi o qualitativi su scala ordinale. È il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente e divide il collettivo in due sottoinsiemi di uguale numerosità. Se il nr di osservazioni è pari, la M è la media delle due osservazioni centrali. È definita ROBUSTA perché non è influenzata dai valori estremi. Interpreta il significato dividendo la popolazione in due parti uguali 50% e 50%.

La mediana si trova con la posizione , ma la posizione non è la mediana, bensì il posto che occupa la mediana. Una volta trovato il posto dobbiamo vedere che valore occupa quel posto.

  1. Ordinare i dati in ordine crescente
  2. Determinare il numero di osservazioni (n)
  3. Determinare l’osservazione che occupa il posto centrale

SE NR OSSERVAZIONI DISPARI : la mediana è il valore che occupa esattamente la posizione centrale della distribuzione:

M= (N+1)/

Con la formula trovo la posizione che occupa la mediana.

Es. ho 9 osservazioni, quindi n=9. La Mediana sarà nella posizione (9+1)/2, cioè sarà il valore corrispondente alla posizione numero 5.

In questo caso ho una numerosità del collettivo PARI, quindi devo identificare i due valori centrali, quindi 16/2 e 16+1/2, dunque 8 e 9. L’ottavo e il nono valore li trovo in corrispondenza della frequenza cumulata 10, e di conseguenza in corrispondenza di x=6.

Quando ho poche osservazioni posso disaggregare la distribuzione anziché fare la tabella di frequenza

La tabella mi dice che le prime 10 unità hanno un valore della x non superiore a 6 e dalla 7 alla 10 hanno un valore pari a 6. Questo mi permette di dire che i valori in ottava e nona posizione hanno un valore della x pari a 6.

QUANDO USARE LA MEDIA E QUANDO LA MEDIANA

FORME DELLA DISTRIBUZIONE:

  • Asimmetria a sinistra
  • Simmetria: se mi viene chiesto di calcolare una misura di sintesi, in questo caso potrei usare indifferentemente media e mediana;
  • Asimmetria a destra

Negli altri due casi userei la mediana, perché è robusta e quindi non influenzata dai valori estremi come la media.

QUARTILI: sono quei valori che dividono una distribuzione ordinata in senso crescente in 4 parti di uguale numerosità. La mediana è uno dei quartili, precisamente quello che divide in due la distribuzione: il quartile nr 2.

= divide la distribuzione in due parti: il 25% del valore sarà inferiore o uguale al primo quartile, il 75% sarà maggiore o uguale al primo quartile. Esprime il primo 25% del collettivo. N*0.

= divide la distribuzione in due parti uguali: 50% e 50%. Esprime il primo 50% del collettivo.

= divide la distribuzione in due parti: 25% e 75%. Esprime il primo 75% del collettivo. N*0.

PRIMO QUARTILE metodo di calcolo:

  1. Ordinare i dati in senso crescente
  2. Individuare la posizione mediana
  3. Calcolare il valore associato alla posizione mediana
  4. Ripetere il procedimento per la prima metà della distribuzione. Considero la numerosità del collettivo escludendo la mediana. Es. ho 13 osservazioni, ma quando considero la prima metà della distribuzione escludo la mediana (7), quindi nella prima metà conto solo 6

osservazioni. Di conseguenza il mio collettivo non sarà più 13 ma 6. A questo punto faccio la semisomma dei due valori centrali e trovo la soluzione.

TERZO QUARTILE : considero il collettivo dopo la mediana, sempre escludendola.

La modalità in corrispondenza della quale la frequenza cumulata percentuale supera la soglia del 50% coincide con la modalità mediana.

MEDIA DISTRIBUZIONE DI FREQUENZA IN CLASSI : (esercizio NB)

Es: il voto preso all’esame

voto preso all’esame

distribuzione di frequenza

valore centrale distribuzione

574/25= 22,96 in media questi 25 studenti hanno preso 22,96 all’esame.

INTERVALLO INTERQUARTILE (IQR)

O differenza interquartile è la differenza (o scarto) tra il terzo quartile e il primo. Non è altro che quel segmento in cui posso osservare il 50% delle mie informazioni relative ai valori centrali della distribuzione, perché la mediana è compresa. Al di fuori di questo intervallo osservo le code. Quindi ci dà un’idea di come sono distribuiti i valori nella fascia centrale delle nostre osservazioni. Es per avere dati più verosimili sul reddito. In realtà è una misura di dispersione.

Se i valori sono continui, le modalità sono suddivise in classi. In questo caso si va ad individuare la CLASSE MEDIANA. Per individuarla dobbiamo utilizzare le frequenze cumulate e andare a vedere il 25%, il 50% e il 75% a quale classe corrisponde.

I valori centrali intorno alla mediana stanno nell’intervallo interquartile.

L’intervallo interquartile può anche assumere un valore pari a zero, se il primo e il terzo quartile corrispondono allo stesso valore.

BOX PLOT

O diagramma a scatola e baffi è un grafico che consente di rappresentare una distribuzione mediante 5 numeri. Sintesi dei 5 numeri.

MISURE DI DISPERSIONE

La dispersione, o variabilità è l’attitudine di un collettivo ad assumere diverse modalità di un carattere.

Se le unità statistiche assumono modalità molto diverse avrò una alta variabilità, altrimenti sarà bassa.

Si misura la variabilità rispetto ad una misura di tendenza centrale.

La variabilità si può misurare con diversi tipi di indicatori, ognuno dei quali deve rispettare alcuni requisiti:

  • Se la variabilità è nulla, l’indicatore deve assumere valore zero
  • L’indicatore deve crescere al crescere della variabilità
  • L’indicatore può assumere solo valori positivi

LE MISURE DI DISPERSIONE O VARIABILITA’ SONO:

  1. CAMPO DI VARIAZIONE o RANGE : è la misura di dispersione più facile: la differenza tra l’osservazione più grande e quella più piccola. Considera solo due valori. Non è robusto perché influenzato dai valori estremi. È una misura di dispersione totale.
  2. INTERVALLO INTERQUARTILE IQR: è una misura di dispersione centrale.
  3. VARIANZA : è la misura principale della variabilità. Considera tutte le osservazioni. Si può calcolare solo se la variabile è quantitativa.
  4. SCARTO QUADRATICO MEDIO : non è molto diverso dalla varianza. È la misura più utilizzata perché si legge più facilmente. È la radice quadrata della varianza.
  5. Z-SCORES : si usa nella statistica inferenziale (no esame).

Il RANGE ignora la distribuzione dei dati ed è influenzato dai valori estremi. Si ritiene idoneo a rappresentare la variabilità dei dati rispetto alla media solo se rispetta la seguente regola:

Xmin ≤ (media campionaria) ±(range/2) ≤ Xmax

Cioè se la media ± il range/2 non va oltre i valori minimo e massimo

Es. Xmin è 100, Xmax è 1000, media 628,33, range 900

100 ≤ 628,33 ± 450 ≤ 1000 il risultato è maggiore del limite superiore, quindi non rispetta la regola.

La VARIANZA rappresenta la distanza media di ciascuna osservazione dalla

media aritmetica, quindi si basa sulla deviazione dalla media. - μ. Si indica

con sigma al quadrato.

Siccome la somma di tutte le deviazioni dalla media è zero, perché le deviazioni sopra la media si compensano con quelle sotto la media, per ottenere un valore positivo si utilizza la deviazione media al quadrato quindi la varianza è una misura al quadrato cioè il quadrato degli scarti, delle differenze dalla media. Divido il totale ottenuto per il nr delle osservazioni.

Var(x)= =

Il numeratore della Varianza, quindi la formula che sta sopra la linea della frazione è detta DEVIANZA ed è la somma dei quadrati delle deviazioni dalla media. È un indice di dispersione.

In questo modo ottengo la varianza, quindi un valore al quadrato che è difficile da interpretare (es. euro al quadrato se calcoliamo lo stipendio medio), quindi metto questo totale sotto radice quadrata e trovo lo SCARTO QUADRATICO MEDIO sqm o DEVIAZIONE STANDARD rappresentato con σ. Significa che gli individui considerati prendono uno stipendio medio x con una variabilità di y, dove y è il valore rappresentato dallo sqm.

FORMULA SEMPLICE VARIANZA: sommo il quadrato di tutte le x e lo divido per N, poi dal totale ottenuto sottraggo la media al quadrato.

distribuzione centrale simmetrica media Sqm o deviazione standard Asimmetrica Mediana Intervallo interquartile

Nella statistica descrittiva univariata studio una variabile per ogni singola unità statistica; nella statistica bivariata studio due variabili sulla stessa unità statistica. Es. peso e altezza, colore occhi e capelli, zona geografica e reddito, ecc.

Tra due variabili quantitative si possono fare due tipi di analisi:

  • Intensità e dipendenza
  • Correlazione & regressione

Quindi si può essere interessati a

  • Stabilire se esiste tra loro una relazione
  • (^) Valutare il tipo di relazione
  • Misurare l’intensità della relazione

PRIMO STEP : rappresentazione grafica con diagramma a dispersione (o scatterplot )

SECONDO STEP : calcolo ed interpretazione del coefficiente di relazione lineare ( p (rho) )

TERZO STEP : stima dell’ equazione della retta dei minimi quadrati che esprime la relazione lineare tra le due variabili → retta di regressione lineare

QUARTO STEP : calcolo e interpretazione del coefficiente di determinazione (

DIAGRAMMA DI DISPERSIONE O SCATTERPLOT

È un grafico che mostra la relazione tra due variabili quantitative misurate sulla medesima unità. In esso ogni unità rappresenta un punto avente per coordinate le due modalità (x e y). Le unità di misura possono essere diverse. Sull’asse delle x metto la variabile esplicativa e su quella delle y la variabile risposta. Es. vogliamo analizzare la relazione tra il capitale investito per una campagna pubblicitaria e la durata dello spot. Il cap. investito è la variabile esplicativa e la durata è la variabile risposta. Capire qualcosa sulla base di. “Sulla base di” è la variabile esplicativa.

Tipo di relazione osservabile:

  • Due variabili linearmente dipendenti si dicono concordanti se i valori superiori alla media dell’una corrispondono ai valori sopra la media dell’altra e viceversa. Aumenta una, aumenta l’altra; diminuisce l’una, diminuisce l’altra.
  • Due variabili linearmente dipendenti si dicono discordanti se i valori superiori alla media dell’una corrispondono a valori inferiori alla media dell’altra. Aumenta una diminuisce l’altra.

Per misurare la relazione tra le variabili uso un artificio: sposto il mio centro origine in corrispondenza della media delle due variabili, dunque traccio due assi, la cui origine è nella media di x e nella media di y; faccio una sorta di traslazione rigida, poi calcolo gli scarti cioè quanto sono distanti i punti da questa origine: vedo quanto sono dispersi rispetto a questo baricentro.

In questo modo realizzo 4 quadranti, attraverso i quali posso osservare come si muovono gli scarti.