












































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
il PDF contiene gli appunti di tutte le lezioni
Tipologia: Appunti
1 / 52
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!













































In offerta
CHE COS’È LA STATISTICA
Non è una branca della Matematica.
Utilizza strumenti matematici al fine di studiare e descrivere i fenomeni reali nei loro
aspetti quantitativi.
La Statistica è uno strumento della ricerca scientifica basata sull’osservazione di
fenomeni che possono manifestarsi nelle forme più varie.
La Statistica interviene in tutte le situazioni nelle quali occorre assumere decisioni in
condizioni di incertezza.
In tutti gli ambiti, scienze naturali, sociali, economiche, un fenomeno per essere compreso
deve essere affrontato partendo dall’analisi dei dati empirici.
La Statistica analizza in termini quantitativi i fenomeni collettivi.
STATISTICA: strumento conoscitivo atto ad analizzare in termini quantitativi un fenomeno
collettivo; insieme di tecniche finalizzate alla raccolta e all’analisi dei dati.
|
Per quanto riguarda la Statistica c’è anche bisogno di:
PROGETTARE: pianificare come devono essere raccolti i dati necessari per le ricerche
(indagini campionarie)
DESCRIVERE: sintetizzare i dati (statistica descrittiva )
INFERIRE: formulare previsioni basate sui dati raccolti (statistica
inferenziale)
Il termine PROGETTARE è riferito a come saranno selezionati gli individui da intervistare e
come dovrà essere strutturato il questionario;
La Statistica DESCRITTIVA comprende metodi grafici e numerici che sono usati per
sintetizzare ed elaborare i dati in modo da trasformarli in informazioni;
La Statistica INFERENZIALE fornisce basi per le previsioni e per le stime che consentono
di trasformare le informazioni in conoscenza: permette di trasferire le informazioni
ottenute su un campione all’intera popolazione
La raccolta di informazione è il cuore della scienza, attraverso essa vengono ottenute le
osservazioni utilizzate per l’Analisi Statistica
Le Rilevazioni Statistiche
|
CENSIMENTO: si osserva la totalità dei fenomeni / popolazione oggetto di interesse
(pregi: ricchezza, accuratezza) (difetti: costi elevati, tempi lunghi)
INDAGINI CAMPIONARIE che si dividono in:
Studi Sperimentali: caratterizzati dall’intervento attivo nel ricercatore
Studi Osservazionali: caratterizzati dall’esperienza di intervento attivo da parte dei
ricercatori, che si limitano ad osservare il fenomeno.
Descrizione sintetica di un fenomeno collettivo. La Statistica Descrittiva permette di
ottenere una sintesi relativa alle caratteristiche dell’intera popolazione. Dai dati grezzi si
passa a grafici, tabelle e sintesi numeriche. La descrizione e la sintesi avvengono in
termini quantitativi al fine di renderle oggettive.
Le tecniche inferenziali sono in grado di prevedere valori caratteristici di grandi
popolazioni attraverso analisi condotte su campioni di dimensioni relativamente ridotte.
L’obiettivo dell’inferenza statistica non è quello di conoscere la verità assoluta (obiettivo
impossibile!) ma fornire metodologie per ridurre le possibilità di errore.
|
ESEMPIO STATISTICA INFERENZIALE: fabbrica di proiettili
Abbiamo una partita di proiettili. Prima di distribuirli vogliamo controllarne la qualità. I:
CONTROLLO È DISTRUTTIVO
Ne controlliamo solo alcuni (un campione)
Problema: come traggo conclusioni sull’intera partita sulla base dei risultati osservati sul
campione?
Soluzione: inferenza statistica
Nel grafico prendiamo in analisi 20 individui infatti ci sono 20 righe (parte rossa che indica
le Unità Statistiche) in questi individui andiamo ad osservare diversi caratteri infatti ci
sono 8 colonne (parte blu che indica le Variabili); quindi ognuno di questi 20 individui,
viene analizzato secondo diversi caratteri (in questo caso sono 8) ogni individuo per
quanto riguarda i caratteri sotto cui Vine analizzata presenta delle modalità diverse dagli
altri (le modalità vengono indicate dalla parte verde Modalità della Variabile)
La classificazione dei caratteri, ossia la classificazione del tipo di informazione raccolta
sulle unità è fondamentale, perché fa da guida alle elaborazioni possibili sui dati. In
particolare la rappresentazione grafica dei dati e le sintesi da utilizzare dipendono dal tipo
di carattere.
QUALITATIVE, se le modalità esprimono un attributo, una qualità dell'unità (nomi,
categorie, aggettivi);
QUANTITATIVE, se le modalità sono numeri che esprimono una misura o una quantità.
I caratteri QUANTITATIVI, si dividono in:
numero di componenti di una famiglia, numero di addetti);
peso).
bilancia esprime valori in ettogrammi, il carattere in natura continuo assumerà un numero
finito di modalità.
Quantitativi: 1) scala intervalli; 2) scala rapporti:
disoccupazione, tasso di mortalità, nati, investimenti, numero addetti, ore lavorative.
I caratteri QUALITATIVI, si dividono in:
Qualitativi SCONNESSI: Scala NOMINALE
bus, metro, treno, bicicletta, a piedi, altro)
Qualitativi ORDINABILI: Scala ORDINALE
SCALA NOMINALE: le categorie non rispettano alcun ordinamento
SCALA ORDINALE: le categorie hanno un ordinamento naturale
SCALA DI INTERVALLI: viene formata da possibili valori numerici che presentano
un’origine convenzionale (es: altezza)
SCALA DI RAPPORTI: viene formata da possibili valori numerici che presentano
un’origine fissa (es: numero di figli)
Dobbiamo presentarci dati in maniera intellegibile (cioè in maniera Chiara) quindi dai Dati
Grezzi dobbiamo passare alle Distribuzioni di Frequenza che ci permetterà di organizzare i
dati in maniera più chiara.
I dati raccolti possono essere sistemati mediante:
—Tabelle (distribuzioni di frequenza)
—Grafici.
—Le rappresentazioni mediante Grafici e Tabelle hanno lo scopo di esporre in forma
chiara e sintetica il fenomeno oggetto di studio
La frequenza è il numero di volte che si presenta nell’insieme di dati la detta
(corrispondente) modalità
29
Unità Sesso 1 F 2 F 3 M 4 F 5 M 6 M 7 M 8 F 9 F 10 M 11 F 12 F 13 F 14 F 15 M 16 M 17 F 18 M 19 F 20 F
DISTRIBUZIONE UNITARIA
Sesso Frequenza assoluta Maschio 8 Femmina 12 Totale 20
Sesso Frequenza relativa
Frequenza percentuale Maschio 0,4 40 Femmina 0,6 60 Totale 1,0 100
Distribuzione di frequenze assolute
Distribuzione di frequenze relative e percentuali
Distribuzioni di frequenza
Modalità distinte
7 di 52
Indichiamo con :Nj=n 1 +n 2 +…+nj la j-esima frequenza assoluta cumulata, ossia la somma
delle frequenze assolute fino alla modalità j-esima.
e con: (^) F j
= f 1
+…+ f j
la j-esima frequenza relativa cumulata, ossia la somma delle
frequenze relative fino alla modalità j-esima.
FREQUENZE CUMULATE: esempio
33
Indichiamo con: la j-esima frequenza
assoluta cumulata , ossia la somma delle frequenze assolute
fino alla modalità j-esima.
e con: la j-esima frequenza relativa
cumulata , ossia la somma delle frequenze relative fino alla
modalità j-esima.
Carattere X Frequenza assoluta
Frequenza relativa
Freq. assoluta cumulata
Freq. relativa cumulata
X 1 n 1 f 1 N1=n 1 F1=f 1
… … … … …
Xj nj fj Nj=n1+…+nj Fj=f1+…+fj
… … … … …
Xk nk fk Nk=n1+…+nk Fk=f1+…+fk
Totale n 1
j j
1 2
j j
1 2
N.B. Solo se il carattere è ordinabile
34
10.000 30 30
15.000 20 30+20=
20.000 40 30+20+40=
30.000 10 30+20+40+10=
Totale 100
Ovviamente potremmo calcolarci le frequenze
cumulate relative Fj o le frequenze cumulate
percentuali Pj
|
|
Nel caso di un carattere continuo (ad esempio la Superficie forestale) non è possibile far corrispondere ai valori che questo assume le FREQUENZE ASSOLUTE e RELATIVE, perché tra due modalità qualsiasi ve ne possono essere infinite altre, con la conseguenza che, quasi certamente, si avrebbe una sequenza di valori distinti (ossia con frequenza assoluta pari a 1) poco diversa dalla distribuzione unitaria. Conviene quindi suddividere il carattere in intervalli, dettE CLASSI, riferendo la distribuzione di frequenza alle classi così costruite. Il numero di classi e l’ampiezza delle classi deve essere effettuata in base a criteri adeguati allo scopo della ricerca. Le classi devono essere mutualmente esclusive. (dati in una sola classe, NO modalità comuni)
Un carattere può essere suddiviso in classi di stessa ampiezza o di ampiezza diversa: Ampiezza della classe =(estremo superiore – estremo inferiore) (differenza) Le classi possono essere: chiuse solo a destra (ossia includono l’estremo sup. ma non l’estremo inf.) e indicate da “-|” chiuse solo a sinistra (ossia includono l’estremo inf. ma non l’estremo sup.) e indicate da “|-” chiuse da entrambe le parti (ossia includono l’estremo sup. e l’estremo inf.) e indicate da “|-|” hanno una modalità in comune e NON è CORRETTO 2 ibuzioni di frequenza per caratteri continui ne quindi suddividere il carattere in intervalli, detti classi , do la distribuzione di frequenza alle classi così costruite. ero di classi e l’ampiezza delle classi deve essere effettuata e a criteri adeguati allo scopo della ricerca. ssi devono essere mutualmente esclusive. Classi Superf. Forest. Frequenza (Km^2 ) assoluta relativa 0 - 2500 3 0, 2500 - 4500 9 0, 4500 - 7500 4 0, 7500 - 12500 4 0, Totale 20 1 3 Un carattere può essere suddiviso in classi di stessa ampiezza o di ampiezza diversa: Ampiezza della classe =(estremo superiore – estremo inferiore) Le classi possono essere:
inf.) e indicate da “-|”
sup.) e indicate da “|-”
inf.) e indicate da “|-|” Esempio, Età: ≤25 25 - |45 45 - |65 > L’ampiezza è: 25 - 0=25 45 - 25=20 65 - 45=20 100 - 65= N.B.: Per determinare l’ampiezza dell’ultima classe si è deciso di chiudere la classe all’età 100. Suddivisione in classi
15
classi di età amp. classe aj freq. % pj densità hj
0 - 5 5 1 7,0 3,
5 - 15 10 40,0 4,
15 - 30 15 37,0 2,
30 - 35 5 6,0 1,
Istogramma con classi di ampiezza differente
Per descrivere l’insieme delle modalità osservate di un carattere possiamo utilizzare la
distribuzione di frequenze o una sua rappresentazione grafica. (Tuttavia, in molti casi, può
essere sufficiente riportare il valore di uno o più indici che evidenziano le caratteristiche
essenziali della distribuzione del carattere).
Le medie si possono suddividere in MEDIE ANALITICHE e MEDIE DI POSIZIONE. Le
medie sintetizzano con un solo valore la distribuzione.
|
MEDIE ANALITICHE — (media aritmetica, media aritmetica ponderata, trimmed mean) —
si calcolano con Operazioni Algebriche sulle modalità, richiedono Solo caratteri
quantitativi; esse sono caratterizzate dal fatto di richiedere operazione per ottenere il loro
valore, c’è / avviene un’analisi di tutte le osservazioni a disposizione
MEDIE DI POSIZIONE — (moda, mediana, percentili) — Non richiedono Operazioni
Algebriche sulle modalità; esse si caratterizzano per essere individuate non da un calcolo
di tutte le osservazioni della distribuzione ma da una particolare posizione che certe
modalità assumono all’interno di una distribuzione
Per introdurre il concetto di media dobbiamo sapere cos’è la SOMMATORIA la
sommatoria è un’operazione di SOMME
La media aritmetica di un insieme di n valori X1, X2, ... Xn di un carattere quantitativo X è
data dalla sommatoria delle x con “ i ” per “ i “ che va da 1 a n fratto n (n è sia il numero
di modalità e sia il numero di individui)
4
n
i
n i
“Somma delle x con i per i che va da 1 a n”
7
La media aritmetica di un insieme di n valori X 1 , X 2 , … Xn di un carattere quantitativo X è data da:
=
n
i
a n xi n
x x ... x n (^) 1
1 2
x
Individuo Reddito
Mario 6
Anna 8
Giovanni 1
Totale 15
Esempio. Supponiamo che tre individui abbiano il seguente reddito mensile
Domanda: quale sarebbe il reddito di ognuno se il reddito totale fosse equidistribuito?
= (6 + 8 + 1)/3 = 15/3 = 5
La media aritmetica ponderata di un insieme di n valori osservati di un carattere quantitativo X con pesi non negativi (^) pi, è data da: La media aritmetica dei 9 voti ponderata con i crediti è pari a [(23 x 9) + (26 x 12) + (30 x 6) + (28 x 6) + (23 x 9) + (24 x 9) + (30 x 3) + (30 x 3) + (30 x 3)] / (9+12+6+6+9+9+3+3+3)= 26. La media aritmetica dei 9 voti è pari a (23+26+30+28+23+24+30+30+30)/9= 244/9=27,11.
|
La Media aritmetica dipende da tutti i valori osservati e quindi risente dei valori estremi (o valori anomali), cioè valori che differiscono dalla maggior parte dei dati osservati perché molto piccoli o molto grandi; Ad esempio, si sono osservati i seguenti valori:
l’ultimo valore (cioè 175) è un dato anomalo perché è troppo distante dagli altri. (La media in questo caso è pari a 200/10=20, un valore che sintetizza male i dati osservati in quanto è distante sia dai primi 9 valori sia dall’ultimo valore). Per superare il Problema dei valori anomali, si può calcolare la TRIMMED MEAN (cioè MEDIA TAGLIATA) che è la media aritmetica calcolata su una certa percentuale dei valori, cioè “quelli centrali”, di un insieme di dati. 14
La media aritmetica ponderata di un insieme di n valori osservati di un carattere quantitativo X con pesi non negativi , è data da: ¦ ¦ = = =
= (^) n i i n i i i n n n p p x p p p p x p x p x p 1 1 1 2 1 1 2 2 ... x p i [(23 x 9) + (26 x 12) + (30 x 6) + (28 x 6) + (23 x 9) + (24 x 9) + (30 x 3) + (30 x 3) + (30 x 3)] / (9+12+6+6+9+9+3+3+3)= 26. La media aritmetica dei 9 voti è pari a (23+26+30+28+23+24+30+30+30)/9= 244/9= 27,. La media aritmetica dei 9 voti ponderata con i crediti è pari a 13 Esame Punteggio in trentesimi Crediti Laboratorio di Matematica 23 9 Analisi Matematica 26 12 Geometria 30 6 Algebra 28 6 Calcolo delle probabilità 23 9 Fisica generale 24 9 Lingua inglese 30 3 Fondamenti di Informatica 30 3 Abilità relazionali 30 3
no studente universitario iscritto al corso di laurea in Matematica ha superato rante il primo anno i seguenti esami(1)^ riportando le seguenti votazioni: Lo studente accede ad una borsa di studio se ha conseguito una media superiore a 27/30. Otterrà il nostro studente la borsa di studio?
Es. valori del carattere ( 3 , 5 , 5, 6, 8, 8, 9 , 150 ) la Trimmed Mean al 50% sarà ottenuta escludendo in questo caso i DUE VALORI PIÙ PICCOLI E I DUE PIÙ GRANDI:
Il valore così ottenuto dalla Trimmed Mean sintetizza meglio i valori dei dati osservati rispetto a quello della media aritmetica pari a 24. (La Trimmed Mean al 75% esclude invece il 25% dei dati, ossia i due dati più estremi, e in questo caso il valore verrebbe pari a 6,83) | Es. 5+5+6+8+9 / 6 = 6,
|
La somma degli scarti dalla media è pari a zero: La media è quel valore che se sostituito alle modalità lascia inalterata la somma La somma degli scarti dalla media al quadrato è un minimo; La Media con questa formula è la quantità più vicina alle osservazione cioè le rappresenta molto bene perché è vicina come valore.
|
La Media Aritmetica è INTERNA ossia assume un valore compreso tra il valore minimo e massimo del carattere; La Media Aritmetica è ASSOCIATIVA cioè: ci consente di moltiplicare le modalità del carattere per le relative frequenze e poi dividere il tutto per la somma delle frequenze.
inalterata la somma
17
n i i^
1 2
( ) 0 1
= n i i^
= =
n i n i (^) i
1 1 egli scarti dalla media è pari a zero: quel valore che se sostituito alle modalità lascia somma gli scarti dalla media al quadrato è un minimo; 17 itmetica: alcune proprietà
= − = = n i i^ x c c x 1 2 minimo se
1 ¦ −^ = = n i i x x ¦ ¦ = = = = n i n i (^) i x x nx 1 1
inalterata la somma
n i i^ x c c x 1 2 minimo se ( ) 0 1
= n i i^ x x ¦ ¦ = =
n i n i (^) i x x nx 1 1 19
minimo e massimo del carattere;
Problema : disponendo di più gruppi e conoscendo le numerosità dei gruppi e le medie di un carattere per ciascun gruppo come determinare la media generale del carattere? Es. Prezzo medio dei farmaci per ripartizione geografica - anno 2015 Area geografica Prezzo medio dei farmaci ( €) Numero di farmaci acquistati Ammontare Costo dei farmaci ( € ) Nord 50 200 10000 Centro 30 150 4500 Sud-Isole 40 50 2000 Italia? 400 16500 Prezzo medio dei farmaci in Italia = media ponderata dei prezzi medi per area geografica con pesi pari al numero di farmaci acquistati Prezzo medio Italia= (50200+30150+4050)1/400 = 41,25 € Media aritmetica**
16 di 52
Quanto il carattere è quantitativo continuo suddiviso in classi, possiamo
determinare la CLASSE MODALE; essa è la classe a cui è associata la densità di
frequenza più elevata considerando che le Classi possono avere ampiezze differenti
Quando il carattere è quantitativo o qualitativo ordinabile, possiamo calcolare la
MEDIANA.
La Mediana di un collettivo di unità ordinate è la modalità presentata dall’unità centrale,
per unità centrale si intende quell’unità che divide il collettivo in due parti di uguale
numerosità: una parte formata dalle unità che presentano una modalità precedente o
uguale a quella dell’unità centrale e una parte formata dalle unità che presentano una
modalità successiva o uguale a quella dell’unità centrale.
( Esempio: si osserva il giudizio espresso da un docente rispetto al compito presentato da
9 studenti: buono, insufficiente, ottimo, sufficiente, sufficiente, discreto, buono, ottimo,
insufficiente.
Si considera il collettivo con le modalità ordinate in senso crescente: insufficiente,
insufficiente, sufficiente, sufficiente, discreto, buono, buono, ottimo, ottimo.
L’unità centrale si trova al quinto posto e presenta la modalità “discreto” che risulta
essere la modalità mediana.)
se n è DISPARI, la posizione è (n+1)/
se n è PARI si hanno DUE UNITÀ CENTRALI con posizione n /2 e n /2 +1;
delle due unità centrali. (se il carattere è quantitativo, possiamo considerare come
mediana la media dei valori delle due unità centrali)
26
Consumi ml.(€)
N. reparti
10 20
12 80 31 90
40 140
52 70
Totale 400
Consumi ml.(€)
N. reparti Ampiezza classe
Densità di classe
5 – 25 100 20 100/20 = 5 25 – 35 90 10 90/10 = 9
35 – 60 210 25 210/25 = 8.
Totale 400
Moda =
Classe Modale = “25-35”
In questo caso il carattere è quantitativo discreto
Quando il carattere è quantitativo continuo suddiviso in classi, possiamo determinare la classe modale. Nel caso di classi con ampiezza diversa la classe modale è quella cone la densità di classe più elevata.
superiore a 50%.
superiore a 0,5. n è DISPARI quindi la mediana si calcola ( n + 1 / 2 = 3 ) oppure 58.9 è la PRIMA FREQUENZA PERCENTUALE CUMULATA SUPERIORE a 50%
SUPERIORE A 50%
32 La Mediana Distribuzione popolazione italiana per titolo di studio (Censimento 2011) Titolo di studio frequenze percentuali freq. cum. percentuali Nessuno 8.7 8. Lic. Elementare 19.9 28. Licenza Media 30.3 58. Diploma 31 89. Laurea 10.1 100 La mediana è Licenza Media. 31 La Mediana sempio. Consideriamo la seguente distribuzione degli impiegati dello tato per qualifica funzionale. .B. Nella tabella sono riportate direttamente le frequenze cumulate. Qualifica funzionale frequenze cumulate freq. cum. percentuali II 58.038 7 III 366.287 45 IV 653.994 80 V 725.968 89 VI 778.200 95 VII 806.281 99 VIII 818.540 100
La media si calcola: 60x2 + 30x4 + 6x7 +
12x3 / 100 = 3,
La Mediana è 2
PERCENTILI— Essi sono delle misure che vengono utilizzate per indicare il valore Minimo
al di sotto del quale ricade una data percentuale degli altri elementi sotto osservazione.
l’80% dei valori nella distribuzione è pari o inferiore a 15: 15 è l’80° percentile
pari o inferiore a 25: 25 è il 30° percentile
La scelta della misura della tendenza centrale è specifica del
contesto
37
Media – Mediana - Moda
Esempio
REDDITO (migliaia)
freq
2 60 120 4 30 120 6 7 42 12 3 36 Totale 100 318
= 3,
Me = 2,
–almeno il p% dei valori è pari o inferiore ad A
–almeno il (100-p)% dei valori sono pari o superiori ad A
–Il 50-esimo percentile, detto SECONDO QUARTILE (Q2): la mediana
–il 75-esimo percentile, detto TERZO QUARTILE (Q3)
e Q 3
dividono la distribuzione in 4 parti, ossia 4 sottocollettivi di uguale
numerosità
)=0.75 (75%) dove con F
indichiamo la frequenza relativa cumulata
Il 25% si trova tra 7 e 45 il 50% si
trova tra 45 e 80 il 75% si trova tra
45 e 80
Il 25 % si trova tra 8.7 e 28.6 quindi Q1 =
Lic. Elementare; il 50% si trova tra 28.6 e
58.9 quindi Q2 = Lic. Media; il 75% si trova
tra 58.9 e 89.9 quindi Q3 = Diploma
Esempio. Consideriamo di nuovo la distribuzione degli impiegati dello stato per qualifica funzionale
N.B. Nella tabella sono riportate direttamente le frequenze cumulate.
41
Qualifica
funzionale
frequenze
cumulate
freq. cum.
percentuali
II 58.038 7
III 366.287 45
IV (^) 653.994 80
V 725.968 89
VI 778.200 95
VII 806.281 99
VIII 818.540 100
Il primo quartile è la III qualifica funzionale, mentre il II ed il III
sono la IV qualifica funzionale.
42
Distribuzione popolazione italiana per titolo di studio (Censimento 2011)
Titolo di
studio
frequenze
percentuali
freq. cum.
percentuali
Nessuno 8.7 8.
Lic. Elementare 19.9 28.
Licenza Media 30.3 58.
Diploma 31 89.
Laurea 10.1 100
1
2
3