




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
dispensa statistica delle imprese rocca
Tipologia: Schemi e mappe concettuali
1 / 120
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































La statistica analizza in termini quantitativi fenomeni riferiti ad un collettivo (o popolazione), ossia un insieme di unità statistiche omogenee rispetto ad una o più caratteristiche, dette caratteri, rilevati su ogni unità; ciascuna manifestazione individuale del carattere è detta modalità, ossia l’attributo o l’intensità con il quale il carattere si manifesta. Le modalità di un carattere devono essere esaustive (rappresentano tutti i modi possibili che il carattere ha di manifestarsi) e non sovrapposte (ad ogni unità è associabile una sola modalità). POPOLAZIONE il collettivo osservato comprende tutte le unità statistiche omogenee rispetto ad una caratteristica comune CAMPIONE il collettivo osservato comprende un sottoinsieme delle unità statistiche della popolazione La matrice dei dati è il modo in cui sono organizzati i dati, ovvero l’informazione grezza disponibile L’ unità statistica rappresenta l’unità elementare di osservazione statistica l’insieme di tutte le unità statistiche collettivo statistico il carattere è ciò che rileviamo su ogni unità statistica La modalità del carattere è il modo in cui il carattere si manifesta CLASSIFICAZIONE DEI CARATTERI STATISTICI Un carattere può assumere modalità differenti in corrispondenza delle diverse unità statistiche del collettivo. Le modalità del carattere devono essere esaustive e non sovrapposte. Con il termine esaustive si intende che le modalità elencate devono rappresentare tutti i possibili modi di manifestarsi del carattere. Le modalità si definiscono non sovrapposte se a ogni unità si può associare una sola modalità Quando le modalità sono espresse NUMERICAMENTE , il carattere è QUANTITATIVO ( o VARIABILE), altrimenti QUALITATIVO ( o MUTABILE)
Un carattere qualitativo viene distinto in: CARATTERE SCONNESSO (o con SCALA NOMINALE), se date due sue modalità è possibile affermare soltanto se queste sono uguali o diverse CARATTERE ORDINATO (o con SCALA ORDINALE), se date due sue modalità è possibile solo dare un ordine, specificando che una precede l’altra. Esistono anche i caratteri ordinati ciclici che non hanno vere e proprie modalità iniziali e finali, le quali possono essere fissate solo in modo convenzionale (es. la DIREZIONE DEL VENTO o il MESE DI NASCITA) I caratteri quantitativi (o variabili) vengono distinti in caratteri quantitativi con scala a intervalli o con scala di rapporti In un carattere quantitativo con scala a intervalli non esiste uno zero assoluto, naturale e non arbitrario, il quale deve esistere per un carattere quantitativo con scala di rapporti
Per attribuire una diversa importanza nel calcolo della media ad alcune modalità del collettivo sarà possibile utilizzare la media ponderata , nella quale ad ogni modalità corrisponde un peso non negativo che ne esalta o ne diminuisce il valore PROPRIETÀ DELLA MEDIA ARITMETICA La media aritmetica gode di alcune proprietà: La somma dei valori x1, x2, …, xn assunti da un insieme di n unità statistiche è uguale al valore medio moltiplicato per il numero di unità La sommatoria degli scarti dalla media è pari a zero; La somma degli scarti al quadrato rispetto ad una costante è un minimo quando la costante è pari alla media aritmetica; Se un collettivo di n unità viene suddiviso in sottoinsiemi disgiunti, la media aritmetica generale è ottenibile come media ponderata delle medie dei sottoinsiemi con pesi uguali alle loro numerosità ( proprietà associativa ); Se tutti i valori della media sono moltiplicati o divisi per una costante diversa da zero, anche la media risulterà moltiplicata o divisa per la stessa costante ( omogeneità ); parimenti, se ai venisse addizionata o sottratta una costante, la media risulterà influenzata dalla stessa ( proprietà traslativa )
La media geometrica di un insieme di n valori positivi xn relativi ad un carattere quantitativo X è pari a: Se si dispone della distribuzione di frequenze del carattere X, essa è calcolabile elevando ciascun valore xn alla frequenza assoluta n della modalità corrispondente. La media geometrica è utile ad analizzare valori positivi generati da rapporti. Essa presenta alcune proprietà : Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei termini; Il prodotto dei valori assunti da un insieme di unità statistiche è uguale alla potenza n-sima della media geometrica E’ omogenea ed associativa ma non traslativa, poiché addizionare o sottrarre un valore significherebbe modificare la struttura stessa della media. Le medie analitiche risentono fortemente dei valori estremi, detti outliers ; per ovviare a questa problematica è possibile calcolare la trimmed mean TRIMMED MEAN che prevede il calcolo della media sui soli valori centrali, escludendo una percentuale dei valori più grandi e di quelli più piccoli ed osservando quindi solamente i valori più centrali. Maggiore è la percentuale, minore è il numero di outliers da escludere MEDIE DI POSIZIONE: MEDIANA, MODA E PERCENTILI Le medie di posizione possono essere utilizzate per la valutazione sia di caratteri quantitativi sia qualitativi, purché ordinabili. Esse non coinvolgono nel calcolo tutte le unità ma si basano sulla particolare posizione che esse presentano nell’analisi e sono pertanto meno sensibili agli outliers. La mediana è un parametro di posizione e corrisponde al valore che bipartisce la distribuzione già ordinata; può essere utilizzata sia per caratteri di natura quantitativa sia per caratteri di natura qualitativa ordinali. La mediana di un insieme di unità ordinate è la modalità corrispondente all’ unità centrale di una distribuzione rispetto alla quale il collettivo è diviso in due parti di eguale numerosità, per cui i dati che la precedono sono tanti quanti quelli che la seguono. Per calcolare la mediana in una successione di valori occorre ordinare le unità, individuare la posizione in graduatoria dell’unità centrale, che se n è dispari sarà un unico elemento corrispondente a ( n+1)/2 , mentre se è pari corrisponderà a due elementi n/2 ed ( n/ 2)+1 OPPURE n/2 e (n+2/2) e per ottenere un unico valore sarà necessario osservare la media di queste due posizioni. Nel caso di un carattere quantitativo suddiviso in classi e rappresentato con distribuzione di frequenze non è possibile individuare esattamente la mediana, tuttavia dopo averne calcolato il rango (e cioè la classe in cui essa si trova) attraverso le modalità prima esposte ed aver stabilito attraverso l’osservazione delle frequenze assolute cumulate in quale classe sia inserita, sarà possibile ottenere una sua approssimazione attraverso la formula:
La media, pur fornendo una sintesi della distribuzione del carattere, è completamente affidabile solo quando la maggior parte delle unità presenta una modalità vicina alla media e non esistano outliers (un valore anomalo il cui ordine di grandezza è assolutamente diverso da quello del resto della distribuzione); per ovviare a questa problematica è possibile far riferimento in maniera complementare alla variabilità di una distribuzione, intesa come l’attitudine di un’unità ad assumere modalità diverse del carattere. Variabilità : tendenza delle unità di un collettivo ad assumere diverse modalità del carattere Per misurare la variabilità è possibile utilizzare degli indici basati sulle misure di dispersione (quanto mediamente il valore assunto da ogni unità differisce rispetto ad un determinato valore) e disuguaglianza (quanto mediamente il valore assunto da ogni unità differisce dalle altre), i quali devono assumere valore minimo quando tutte le unità della distribuzione presentano uguale modalità del carattere ed aumentare all’aumentare della diversità tra le modalità assunte: questi indici sono varianza, deviazione standard e coefficiente di variazione. Un indice di variabilità deve dunque assumere il suo valore minimo se e solo se tutte le unità della distribuzione presentano uguale modalità del carattere e deve aumentare all’aumentare della diversità tra le modalità assunte dalle varie unità Lo scostamento dalla media è un indice di dispersione poiché indica la distanza rispetto alla media di ciascun valore della distribuzione. La varianza di un insieme di n valori osservati x1,x2,..,xn di una variabile X con media aritmetica è data da: Quindi la varianza è la media dei quadrati degli scarti dalla media aritmetica. Il numeratore della varianza è detto devianza
Se abbiamo la distribuzione di frequenze di una variabile X con K modalità, la varianza si calcola: dove nj e fj sono rispettivamente le frequenze assolute e relative corrispondenti alla j-esima modalità La diversità tra una modalità xj e la media aritmetica viene misurata elevando al quadrato lo scostamento; tale operazione consente di trasformare le differenze negative in positive e di mettere in risalto le differenze maggiori. La varianza gode di alcune proprietà.
Si definisce scostamento semplice medio dalla mediana la quantità e nel caso di una distribuzione di frequenze Dove Me è la mediana del carattere avente K modalità OUTLIERS insieme di osservazioni , un valore anomalo il cui ordine di grandezza è diverso da quello della distribuzione STANDARDIZZAZIONE : data la variabile di partenza, attraverso la standardizzazione si ottiene variabile Z così calcolata 𝑍𝑖 = xi − 𝑚𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚𝑒𝑡𝑖𝑐𝑎 deviazione standard Gli outliers corrispondono alle osservazioni in cui Z assume valori > di 3 e 5 in valore assoluto
La concentrazione è una misura riferita ai caratteri quantitativi trasferibili indicante la loro ripartizione tra le unità statistiche di un collettivo ordinato. Le misure di concentrazione vengono calcolate sulle variabili che godono della proprietà di essere trasferibili un carattere quantitativo si definisce trasferibile se ha senso ipotizzare che un’unità statistica possa cedere tutto o parte del carattere posseduto ad un’altra unità statistica CASI LIMITE Un carattere quantitativo trasferibile X, con n valori osservati x1,x2,…,xn, si dice equidistribuito se ognuna delle n unità possiede 1/n dell’ammontare complessivo del carattere La situazione di massima concentrazione si ha quando l’intero ammontare del carattere, A, è posseduto da una sola unità del collettivo e cioè X1= x2=…=Xn-1=0 e Xn=A Consideriamo un carattere quantitativo trasferibile X, osservato su un collettivo di n unità ordinate in senso non decrescente secondo l’ammontare di carattere posseduto, ossia x1≤x2≤…≤xn. Indichiamo con È utile mettere a confronto le distribuzioni delle Qi e Fi. Se si è nel caso in cui l’ammontare del carattere X è equidistribuito fra le unità del collettivo si ha che Qi=Fi poiché come ogni unità è un n-esimo dell’intero collettivo, anche il suo ammontare è un n-esimo dell’ammontare totale; se invece si è nel caso di massima concentrazione, tutte le Qi, esclusa Qn che è necessariamente = a 1, valgono 0. In tutte le situazioni intermedie vale la relazione: Qi ≤ Fi Così, considerando le differenze (Fi-Qi), queste saranno tutte uguali a 0 nel caso di equidistribuzione, tutte uguali a Fi (escluso il caso i=n per il quale la differenza è 0) nel caso di massima concentrazione e tutte non negative nei casi intermedi di concentrazione. Possiamo sintetizzare tali differenze attraverso il seguente indice:
Una formula del rapporto di concentrazione ancora + semplice da calcolare si ottiene utilizzando direttamente le quantità cumulate Ai: Nel caso di un carattere discreto con K modalità, in cui abbiamo a disposizione la distribuzione di frequenze, è possibile utilizzare: Nel caso in cui le modalità del carattere siano divise in classi è necessario nel calcolo dell’indice R introdurre delle ipotesi. Se si ha a disposizione l’ammontare all’interno delle classi, l’ipotesi + usuale è quella di equidistribuzione all’interno di ogni classe dell’ammontare del carattere. Quando invece NON è noto l’ammontare all’interno della classe, si porcede a stimare l’ammontare moltiplicando il valore centrale della classe per la corrispondente frequenza. In tale situazione, possiamo ottenere un’approssimazione del rapporto di concentrazione tramite la formula In cui F0 e Q0 sono state poste per convenzione uguali a zero.
Mediante le coppie di valori Qi, Fi è possibile realizzare un interessante grafico. Consideriamo un piano cartesiano in cui l’asse delle ascisse rappresenti i valori Fi e l’asse delle ordinate i valori Qi. In questa maniera ogni coppia di valori è rappresentata da un punto sul piano. I punti limitrofi possono essere congiunti da segmenti tali da formare una curva detta spezzata di concentrazione o curva di Lorenz. Nel grafico, viene rappresentata la linea di equidistribuzione che è il segmento che congiunge il punto 0,0 al punto 1,1. Ogni punto situato su tale segmento ha la proprietà di avere le coordinate uguali, cioè Qi=Fi per ogni i; così, se l’ammontare del carattere fosse equidistribuito fra tutte le unità del collettivo, i punti corrispondenti giacerebbero sulla linea di equidistribuzione. Notiamo che non a caso la curva di Lorenz giace sotto la linea di equidistribuzione, Fi è sempre maggiore o uguale a Qi. L’area della superficie compresa tra la curva di Lorenz e la linea di equidistribuzione viene detta area di concentrazione. Nel caso di massima concentrazione tutto il carattere è posseduto da una sola unità e le restanti n-1 non detengono nulla, quindi si ha che Qi=0 per i=1,…,n-1 e Qn=
L’analisi bivariata ha lo scopo di studiare la relazione fra coppie di variabili. Le sue FUNZIONI sono
Esistono indici generali di associazione basati sulle differenze tra le frequenze empiriche nij e quelle di indipendenza teorica (ossia le frequenze che si sarebbero ottenute se i due caratteri fossero stati indipendenti): le differenze tra queste due grandezze sono dette contingenze, aventi somma sempre nulla. Considerando i quadrati delle contingenze, si avrà che ogni differenza contribuisce positivamente a far crescere la somma complessiva, ed è su questo assunto che si basa il chi-quadrato di Pearson Il chi-quadrato assume valore nullo se tutte le contingenze sono nulle, e si ha in tal caso situazione di indipendenza; se i due caratteri sono associati l’indice avrà invece un valore positivo tanto più alto quanto maggiore è l’associazione, tuttavia non essendo l’indice relativo non sarà possibile quantificare in maniera precisa il grado di associazione tra i due caratteri, e per di più il suo valore aumenterà all’aumentare della numerosità. Per non far dipendere il chi- quadrato dalla numerosità totale, Pearson ha introdotto l’indice phi-quadrato; rimane tuttavia irrisolto il problema relativo alla quantificazione dell’intensità del fenomeno, avendo l’indice come minimo zero e come massimo il minimo tra il numero delle righe meno uno ed il numero delle colonne meno uno. INDICE DI CONTINGENZA QUADRATICA MEDIA Cramer ha quindi proposto un indice relativo che rapporta il phi-quadrato al suo valore massimo e lo pone sotto radice: la V di Cramer varia tra 0, caso di indipendenza, ed 1, caso di dipendenza o interdipendenza perfetta. Allo stesso scopo Pearson ha introdotto l’indice relativo di contingenza.
Spezzata di regressione è una funzione lineare a tratti che congiunge le medie delle distribuzioni condizionate di un carattere quantitativo Y rispetto alle modalità di un altro carattere X Quando almeno uno dei due caratteri è quantitativo è possibile utilizzare l’indipendenza in media, basata sul confronto tra le distribuzioni condizionate, per valutare l’associazione tra essi; y è indipendente in media da x se tutte le medie condizionate di y sono fra loro uguali e corrispondenti quindi alla media marginale. La media aritmetica delle medie condizionate di y rispetto ad x è uguale alla media della distribuzione marginale di y. Utilizzando tale proprietà è possibile calcolare la varianza delle medie condizionate e la media delle varianze condizionate varianza medie condizionate media delle varianze condizionate