











Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti di statistica presi a lezione e tratti da sbobinature
Tipologia: Appunti
1 / 19
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!












È una scienza che comprende metodologie e tecniche per la raccolta, presentazione e sintesi di informazioni, allo scopo di agevolare l’analisi e l’interpretazione dei fenomeni. È fatta di metodologie e tecniche. Si parte dal DATO che può essere reperibile o già disponibile attraverso sondaggi, censimenti. Per interpretare i dati, si classificano o presentano attraverso grafici e/o tabelle. OBIETTIVO> analisi e interpretazione dei fenomeni. La statistica si divide in: descrittiva e inferenziale. DESCRITTIVA: evidenzia le regolarità presenti nei dati attraverso l’analisi delle diverse caratteristiche della popolazione; INFERENZIALE: è un metodo induttivo che consente di ottenere informazioni sulla popolazione a partire dai dati di un campione.
**PAROLE CHIAVE DELLA STATISTICA
- semplici: l’unità di base è un singolo individuo o una singola unità elementare;
2) carattere: è un particolare aspetto rilevato o misurato sulle unità statistiche che sintetizza il fenomeno oggetto di studio (età, statura, sesso, titolo di studio)
3) modalità è il singolo valore (nel caso di caratteri quantitativi) o il singolo attributo (nel caso di caratteri qualitativi) che un carattere può assumere.
4) frequenza: numero di volte in cui una data modalità si presenta nel collettivo oggetto di studio
È la fase attraverso la quale si perviene alla individuazione e definizione dei dati e alla successiva raccolta di essi. La rilevazione può essere di due tipi:
Cos’è un campione? È una parte di tutte le unità statistiche costituenti una popolazione, che consente di ottenere un immagine ridotta ma abbastanza fedele del collettivo. n = campione N = popolazione (collettivo)
FRAZIONE DI CAMPIONAMENTO n/N > indica il rapporto tra le unità incluse nel campione e le unità dell’intero collettivo.
INTERVALLO DI CAMPIONAMENTO N/n > ci dice l’intervallo tra ogni unità prescelta e quella successiva.
Il campionamento può avere due scelte: 1) CASUALE : si ottiene mediante la scelta delle unità in maniera casuale e avremo un componimento:
2) RAGIONATA : sono frutto dell’intervento dell’operatore. La fase di rilevazione Ragionata si ottiene mediante l’individuazione di unità nel campione sulla base della conoscenza, da parte dell’operatore, della struttura della popolazione
TABELLE STATISTICHE
Costituiscono uno dei mezzi più efficaci per descrivere in forma visiva i risultati derivanti dalla classificazione dei dati riguardante i diversi caratteri del collettivo. Assumono forme diverse a seconda del tipo di dato che viene rappresentato (caratteri qualitativi o quantitativi). Obiettivi Le rappresentazione grafiche consentono di evidenziare relazioni tra due o più caratteri o di osservare l’evoluzione di un fenomeno nel tempo e nello spazio.
DIAGRAMMA CARTESIANO > si utilizza per la rappresentazione grafica delle variabili statistiche discrete. Si ottiene facendo corrispondere ad ogni modalità xi una corrispondente frequenza ni
ISTOGRAMMA si utilizza nel caso di variabili statistiche continue o di variabili statistiche discrete con un elevato numero di modalità. Le modalità sono raggruppate in classi o intervalli.
PIRAMIDE DELLA POPOLAZIONE rappresenta una fotografia della popolazione residente in un dato luogo. È costituita da due istogrammi contenenti informazioni relative a classi di età, sesso, stato civile.
DIAGRAMMA INTEGRALE O DELLE FREQUENZE ACCUMULATE si ottiene ponendo sull’asse delle ascisse le modalità e sull’asse delle ordinate le frequenze accumulate o la funzione di ripartizione.
DIAGRAMMA CARTESIANO viene utilizzato per rappresentare le serie storiche. Sull’asse delle x si rappresentano i tempi, su quella delle ordinate i corrispondenti valori del fenomeno
DIAGRAMMA A SETTORI CIRCOLARI (A TORTA) per rappresentare le mutabili rettilinee o sconnesse Per rappresentare le m.s cicliche si utilizza il diagramma polare. È necessario fissare un punto 0 detto polo, tracciare una semiretta detta asse polare. Ogni punto del piano è individuato da 2 coordinate raggio e argomento (teta).
ISTOGRAMMA PERCENTUALE
nel caso di serie statistiche territoriali si utilizza il cartogramma - si ottiene rappresentando una mappa avente una colorazione differente delle diverse aree a seconda dell’entità del fenomeno osservato – o il cartodiagramma > si ottiene ponendo figure geometriche di dimensioni proporzionali al fenomeno osservato in corrispondenza delle diverse aree territoriali.
A volte dobbiamo rappresentare due fenomeni (variabili statistiche doppie) è possibile utilizzare la NUVOLA DI PUNTI o SCATTER ottenuta rappresentando in maniera puntuale le coppie di valori xi e yi. Inoltre è possibile utilizzare lo STEREOGRAMMA per variabili statistiche discrete e il LISTOGRAMMA nel caso di variabili statistiche divise in classi.
Si ottiene ponendo a confronto due intensità o frequenze A e B. per mettere a confronto A e B bisogna che:
1- DIFFERENZA ASSOLUTA E RELATIVA – nel 1° caso rapporto due termini, nel 2° rapporto i due termini rispetto alla differenza assoluta fra loro.
2 – SAGGI DI INCREMENTO O DECREMENTO – variazioni relative riferita ad unità di tempo. Le variazioni assolute sono espresse nella stessa unità di misura del fenomeno osservato; le variazioni relative sono NUMERI PURI ovvero numeri primi di unità di misura. Le misure relative consentono di effettuare confronti tra fenomeni aventi ordine di grandezza o unità di misura differenti tra loro.
3 – RAPPORTI DI COMPOSIZIONE, DERIVAZIONE E DURATA Rapporti di composizione (o di parte al tutto) si ottiene rapportando l’intensità o la frequenza di un fenomeno rispetto all’intensità o frequenza assoluta.
Rapporti di derivazione si ottengono rapportando l’intensità o la frequenza di un fenomeno rispetto all’intensità o frequenza di un altro fenomeno che ne rappresenta il presupposto necessario.
Rapporto di durata esprime la durata media di permanenza delle unità elementari di un collettivo
Permettono di misurare le variazioni del prezzo di una data merce, nel tempo. Pongono a confronto le intensità o frequenze di uno stesso fenomeno in tempi o luoghi diversi rispetto ad un termine di confronto detto BASE. La BASE può essere FISSA o VARIABILE. La base fissa si ottiene quando poniamo al denominatore uno stesso termine di confronto rispetto all’anno o, all’anno medio, al valore caratteristico. La base variabile si ottiene, invece, facendo un rapporto con una base che cambia di volta in volta, e si rapporta l’intensità e la frequenza rispetto al valore che occupa la posizione precedente. Un numero indice è un NUMERO PURO. Generalmente viene moltiplicato per 100 pertanto il valore ottenuto indicherà l’incremento o il decremento rispetto a 100. Nel caso delle serie territoriali ha senso calcolare i numeri indici a base fissa con riferimento al numero di anni medi o un termine particolare. Non ha senso calcolare i numeri indici a base variabile.
NUMERI INDICI COMPLESSI
Esistono tante medie ma le dividiamo in due categorie:
Possiamo definire VALORE MEDIO quel valore interno all’intervallo x1 < x < xN (proprietà di cauchy)
(solo per medie analitiche) proprietà di chisini – il valore medio è quel valore che sostituito a tutti i termini della distribuzione ne lascia invariata una certa funzione di f
È quel valore che sostituito a tutti i termini della distribuzione ne lascia invariata la funzione prodotto. Si calcola solo quando le modalità sono negative. La media geometrica si utilizza nel caso in cui sia necessario calcolare tassi medi di rendimento di un capitale nel tempo La media geom. ha tre proprietà:
la m. geom di più rapporti è uguale al rapporto tra la m geom dei termini al numeratore e la media geom dei termini al denominatore;
la m geom è omogenea ovvero moltiplicando tutti i valori xi con una costante k anche la media geom risulterà essere moltiplicata per k.
se le xi sono tra loro in progressione geom, con n dispari la m geom sarà il termine che occupa la posizione centrale.
MEDIA ARMONICA
La m armonica è quel valore che sostituito a tutti i termini della distribuzione ne lascia invariate la funzione somma degli inversi. La m armonica si utilizza nel caso di problemi che richiedano la proporzionalità inversa dei termini (consumo, durata)
Le medie analitiche utilizzano per il calcolo della sintesi tutti i termini della distribuzione o della serie > tutti i valori xi Invece le medie lasche si basano solamente su alcuni dei valori della distribuzione, considerando la loro posizione nella graduatoria ordinata dei termini > alcuni xi Si individua il valore centrale nella distribuzione dei valori. Il valore centrale esprime il centro del campo di variazione della variabile statistica. È dato dalla semisomma tra i valori estremi.
1) MEDIANA è quel valore che bipartisce (divide in 2 parti esattamente uguali) la graduatoria ordinata dei termini lasciando un ugual numero di valori a sinistra e a destra del termine prescelto. Nel caso in cui vi sia una distribuzione di frequenza per calcolare la mediana è necessario calcolare le frequenze accumulate Ni in quanto esse ci indicano la posizione occupata dai termini nella graduatoria ordinata. Nel caso di distribuzioni divise in classi per calcolare il valore preciso della mediana è necessario calcolare prima la classe mediana e poi andare ad individuare il valore preciso interno alla classe attraverso la seguente formula.
Le proprietà della mediana: 1) la somma degli scarti in valore assoluto della mediana è un minimo;
QUANTILI Valori che dividono la distribuzioni ordinata dei termini in n parti
2) QUARTILI Valori che dividono la distribuzione ordinata dei termini in 4 parti uguali
3) MODA O valore modale, il valore di xi che si presenta con la massima frequenza. Le distribuzioni possono essere UNIMODALI o PLURIMODALI. La moda è usata in biometria o antropometria in quanto consente di analizzare i fenomeni più frequenti.
CAMPO DI VARIAZIONE : si indica con w e si ottiene facendo la differenza tra modalità più grande e più piccola (vedo quanto è ampio il mio campo di valori); è molto sensibile alla presenza di valori o molto alti o molto bassi agli estremi (valori anomali nelle code) DIFFERENZA INTERQUARTILICA elimina la differenza di tali valori e quindi è meno sensibile alla presenza di valori anomali.
Misura di quanto in media ogni grandezza differisce dalle altre. La differenza media è la media delle differenze in valore assoluto tra tutte le coppie di valori. L’indice è la differenza media di Gini che può essere con ripetizione o senza ripetizione (vedi formula quaderno). Nel caso in cui il numero delle modalità sia elevato è possibile utilizzare delle formule alternative per il calcolo della differenza semplice media con o senza ripetizione (DE FINETTI PACELLO) vedi quaderno. Se N è molto grande è possibile utilizzare delle formule alternative per il calcolo della diff. Sem media nel caso di distribuzione di frequenza.
Le misure di variabilità si distinguono in ASSOLUTE e RELATIVE. Gli INDICI DI VARIABILITA’ ASSOLUTA sono espressi nella stessa unità di misura delle osservazioni. Se le osservazioni sono espresse, invece, in unità di misura diverse, non vi è relazione tra loro, le distribuzioni sono formate da rapporti occorrono gli INDICI DI VARIABILITA’ RELATIVA che si ottengono rapportando la misura di variabilità assoluta Va rispetto alla media o al valore massimo che la variabilità può assumere. Il caso di minimo della variabilità si ha quanto tutti i termini sono uguali tra loro, uguali a zero. Più difficile è individuare le distribuzioni massimanti della variabilità. Vengono rilevati i valori x(1) e x(n) oltre alla misura della media aritmetica. Attraverso una serie di passaggi è possibile ottenere le distribuzioni massimanti della variabilità dei singoli indici. In particolare la distribuzione massimante dello scarto semplice medio sarà data da: (vedi quad)
CONCENTRAZIONE Si utilizza nel caso di fenomeni di tipo trasferibile per verificare se l’ammontare complessivo è concentrato in pochi elementi oppure è equo distribuito. In primo luogo è necessario ordinare i termini in ordine crescente in maniera tale che x(1) < x(2) < x(n)
pi= i/N è la frazione degli i redditieri più poveri qi= Ai/An è la frazione di reddito globale posseduta dagli i redditieri più poveri
se l’ammontare globale dei redditi fosse distribuito egualmente tra tutti gli N individui si dovrebbe avere pi=qi. La rappresentazione grafica di questi valori darebbe luogo alla retta di equidistribuzione. Quando pi > qi congiungeremmo con una spezzata o una linea continua i punti risultanti si otterrebbe la curva di concentrazione o curva di Lorenz. La concentrazione di misura con il rapporto di concentrazione di Gini (vedi quaderno).
Nel caso di distribuzione di frequenza o variabilità stat divise in classi il rapporto di concentrazione si calcola:
Il rapporto di c è anche calcolabile come misura di variabilità relativa alla media.
Una distribuzione stat si dice SIMMETRICA quando dividendo in 2 parti la distribuzione e ribaltando il ramo di sinistra con quello di sinistra, coincidono. Alcune variabili statistiche sono caratterizzate da una simmetria quasi perfetta delle singole determinazioni xi intorno al valore mediano; nel caso di una distribuzione il diagramma o istogramma si presentano in forma simmetrica, nel senso che il ramo a destra della mediana si identifica al ramo a sinistra.
esprimono i totali delle frequenze delle colonne, cioè il numero di volte in cui si presentano le modalità yh.
INDIPENDENZA IN GENERALE Studia la relazione di causa-effetto di una variabile da un’altra variabile. La variabile y si dice indipendente da x quando essa rimane costante al variare dei valori assunti da x. In particolare il carattere y si dice indipendente da x se la distribuzione parziale condizionata di y da x non varia. Quindi le frequenze relative della distribuzione condizionata di y da x devono essere uguali tra loro.
Considerando il termine generico cioè nih (freq.generica congiunta) possiamo affermare che vi è indipendenza in generale quando nih è uguale al totale di riga e colonna fratto la numerosità del collettivo. Questa condizione si verifica nel caso in cui tutte le freq congiunte rispettino tale condizione. Indipendenza in generale è RECIPROCA ovvero se c’è indipendenza in generale di x da y ci sarà anche ind in generale di y da x.
INDIPENDENZA IN MEDIA Non è RECIPROCA a differenza dell’indipendenza in generale > avranno dunque indipendenza in media di x da y e non viceversa. Quindi nel caso in cui vi sia indipendenza in media di y da x non è detto che si sia indipendenza in media di x da y. Ponendo il carattere x come CARATTERE INDIPENDENTE e il carattere y come CARATTERE DIPENDENTE è possibile verificare se esiste indipendenza in media di y da x attraverso il CALCOLO DELLE MEDIE PARZIALI.
In particolare si ha indipendenza in media di y da x quando: y media1 = y media2 = y media ovvero quando tutte le medie parziali di y coincidono tra loro e coincidono con la media generica di y. Si ha invece indipendenza in media di x da y quando le medie parziali di x sono uguali tra loro e sono uguali alla media generale di x. X media1 = x media2 = x media
Per ottenere le medie parziali si somma ogni valore di x moltiplicato per le freq congiunte fratto le distribuzioni marginali.
Può capitare che ci sia indipendenza in media di x da y e non di y da x. La media generale non è altro che una media aritmetica ponderata delle medie parziali, quindi se le medie parziali saranno uguali tra loro, la media generale sarà uguale. Se y media1 e y media2 sono diverse è inutile continuare a calcolare per vedere se c’è indipendenza in media.
Dopo aver verificato l’assenza di indipendenza in generale o in media tra 2 caratteri quantitativi x e y è possibile affermare che tra esse esiste una relazione. Possiamo avere 2 tipi di relazione :
Si ha indipendenza di y da x o di x da y nel caso in cui sia possibile definire a priori quale sia il carattere antecedente (o indipendente) e quale sia il carattere conseguente (o dipendente). In genere indichiamo il carattere x come carattere indipendente o antecedente e il carattere y come carattere conseguente o dipendente. Quindi quella che noi studiamo è la dipendenza di y da x. La dipendenza da y da x ci dice come varia il carattere y rispetto a x. Parliamo di interdipendenza nel caso in cui non sia possibile definire a priori quale sia il carattere antecedente e quale sia il conseguente. L’INDIPENDENZA è uno studio di sue caratteri in relazione simmetrica tra loro (come varia y al variare di x e come varia x al variare di y).
La dipendenza si studia in base al modello di regressione. L’indipendenza viene studiata attraverso la correlazione.
Attraverso l’analisi della dipendenza di y da x si cerca di individuare un modello idoneo a spiegare una relazione causa-effetto tra 2 variabili.
Nel caso di tabelle a doppia entrata la dev totale (dev y) si scompone in 3 componenti: Dev (y) = Dev (R) + Dev (L) + Dev (e)
Inoltre è possibile affermare che la Dev (L) + Dev (e) sono uguali alla Dev (E). Si ha ora che: Dev (R) + Dev (L) = Dev (c)
Dove Dev (c) è la somma
Da questa deriva l’INDICE QUADRATICO DI CONNESSIONE
Una derivazione della Dev (L) è l’INDICE DI NON LINEARITA’
Parliamo di interdipendenza nel caso in cui non sia possibile definire il carattere antecedente e conseguente tra x e y. La misura assoluta dell’interdipendenza è la CODEVIANZA di xy. Attraverso la CODEV possiamo conoscere il segno dell’interdipendenza, in particolare se
CODEV xy > 0 diremo che c’è concordanza. Se gli scarti sono concordante (tutti e due negativi o positivi) all’aumentare di x aumenta anche y. Quando la codev xy < 0 gli scarti sono discordanti, all’aumentare di x, y diminuisce e viceversa. Gli scarti hanno segni opposti. Una misura relativa di interdipendenza è il COEFFICIENTE DI CORRELAZIONE (r) dato dal rapporto tra CODEV xy e radice quadrata del prodotto delle devianze.
Posso ottenere il coefficiente di correlazione? Si ottiene mediante incrocio geometrico (media) tra il coefficiente di regressione di y da x e di x da y. Che relazione c’è tra r e R^2 (indice di determinazione)? L’indice di determinazione si può ottenere dal quadrato del coefficiente di correlazione ma non viceversa perché l’indice di determinazione può avere solo valori positivi.
Nel caso in cui i caratteri osservati siano rappresentabili sotto forma di graduatoria (con posti o ranghi) è possibile studiare la relazione esistente attraverso misure di cograduazione. In tal caso al posto dei caratteri xi e yi avremo delle graduatorie ri e si che esprimono il posto in senso crescente occupato nella graduatoria.
INDICE QUADRATICO DI COGRADUAZIONE (SPEARMAN)
La mutabile statistica è una distribuzione i cui caratteri sono di tipo qualitativo. Possono essere:
In maniera alternativa all’indice di associazione possiamo avere l’INDICE QUADRATICO DI CONTINGENZA