




Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una introduzione alla media, ai valori di disuguaglianza e all'associazione tra variabili qualitative e quantitative in statistica. Viene descritta la modalità di calcolo della media, della disuguaglianza e dell'indice di associazione Chi-quadrato. Inoltre, vengono presentate le proprietà della media e dei valori di disuguaglianza, nonché l'indice di eterogeneità di Gini e la correlazione tra due caratteri.
Tipologia: Appunti
1 / 8
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





‣ Si può calcolare per tutti i tipi di variabile
dall’unita’ che occupa il posto centrale in una distribuzione ordinata, per cui metà delle unità hanno valori uguali o inferiori al valore posseduto dall’unita’ centrale ‣ Si può calcolare per entrambi i tipi di variabile quantitative e per le qualitative ordinate ‣ Si calcola in due modi differenti a seconda che il N numero delle unità sia pari o dispari
‣ Si calcola solo per le variabili quantitative e con operazioni algebriche ‣ Se la distribuzione è divisa in classi, la media si ottiene utilizzando i valori centrali ‣ Proprietà della media:
disuguaglianza delle singole modalità rispetto ad un valore centrale, si calcola determinando gli scostamenti o scarti tra le modalità del carattere e la sua media
due a due (ovvero la disuguaglianza reciproca), si calcola determinando le differenze medie N.B.
stessa dimensione o unita’ della variabile, ciò rende difficile confrontarli
massimo di 1, essendo espressi da un numero “privo di dimensione” permettono il confronto tra distribuzioni diverse
◦ e’ dato dalla differenza tra il valore massimo e il valore minimo della successione di dati ◦ costituisce l’ampiezza dell’intervallo dei dati ◦ e’ espresso nella stessa unità di misura dei dati
valore ricavato indica di quanto i dati si discostano dalla propria media aritmetica o dalla mediana
frequenza che si ottiene come media dei quadrati degli scarti dalla media aritmetica ◦ la varianza è espressa al quadrato, quindi si preferisce usare il suo quadrato, ovvero lo
rappresentativo del maggiore o minore addensamento dei dati intorno al valore medio
Cv*100) ◦ si usa per confrontare la variabilità di due fenomeni espressi in due misure diverse (es. variabilità del peso rispetto all’altezza) ◦ È il rapporto tra lo scostamento quadratico medio e la media aritmetica
◦ Omogeneità = equilibrio ‣ Abbiamo massima omogeneità in una distribuzione quando tutti i casi sono assegnati alla stessa modalità della variabile ◦ Eterogeneità = squilibrio ‣ Viceversa abbiamo massima eterogeneità quando le frequenze sono equidistribuite tra tutte le modalità della variabile
concentrazione ‣ È costruita per variabili trasferibili come il reddito, piuttosto che l’eta’, ad es. se il reddito delle famiglie italiane fosse distribuito in parti uguali tra tutte le famiglie avremmo un equidistribuzione
totale ◦ Le proprietà dell’Eta-quadro sono: ‣ Assume valore 0 quando le medie condizionate sono uguali tra loro, quindi la devianza tra i gruppi è nulla ed X/Y sono indipendenti ‣ Assume valore 1 quando ogni modalità di X corrisponde ad un solo valore di Y, ovvero è nulla la varianza interna ai gruppi
vengono rappresentate ognuna su un asse del diagramma per visualizzare graficamente la relazione fra le due ed accorgersi di eventuali valori anomali
al diminuire di una diminuisce anche l’altra: ovvero una correlazione lineare positiva
una correlazione lineare negativa ◦ Potremmo inoltre avere nessuna relazione quando non esiste un legame tra le due variabili ◦ Oppure infine, una relazione non lineare
misurando il grado di concordanza o discordanza, è la somma dei prodotti degli scarti di X ed Y dalle rispettive medie
prodotti degli scarti di X ed Y dalle rispettive medie ◦ Se X ed Y sono indipendenti allora la codevianza sarà 0 ◦ Viceversa però non è vero perché se la covarianza è 0 vuol dire che siamo in assenza di una dipendenza lineare fra le due variabili, ma ciò non esclude che possano esserci altri tipi di relazioni
massimo, ovvero al prodotto degli scarti quadratici medi delle due variabili oppure alla radice del prodotto delle devianze ◦ Misura l’interdipendenza lineare tra due variabili ◦ Assume valore +1 in caso di concordanza perfetta, un perfetto legame lineare ◦ È maggiore di 0 quando c’è concordanza ◦ È uguale a 0 se c’è un indipendenza lineare ◦ È minore di 0 se invece c’è discordanza ◦ Infine è -1 se abbiamo una discordanza perfetta, un perfetto legame lineare, ma decrescente
un modello statistico adatto ai nostri scopi nel determinare quale sia la retta che meglio passa attraverso la nube dei punti dei nostri dati detto modello di regressione ◦ Gli elementi a e b sono i due parametri che determinano la retta, la a sull’asse delle Y e la b è il coefficiente angolare, ovvero la pendenza della retta sull’asse delle X ◦ Il parametro b, ovvero il coefficiente angolare, è chiamato in statistica coefficiente di regressione N.B. ◦ La retta non passa per tutti i punti della nube, quindi bisogna considerare anche la E, ovvero
l’errore ◦ È possibile tracciare infinite diverse rette, ma quale sarà la migliore? Ovviamente quella che si avvicina di più a tutti i punti osservati, come determinarla? ‣ Bisogna trovare la retta che produce gli errori più piccoli con il metodo dei minimi quadrati
quadrati degli scarti (o residui) fra i valori teorici e quelli osservati di Y ◦ In parole povere è il modello che assicura che la retta trovata sia la migliore fra tutte quelle possibili
accertato grazie al metodo dei minimi quadrati che la nostra retta ottenuta con il modello di regressione lineare sia la migliore fra tutte, è necessario valutarne la bontà, ovvero la bontà di questa nostra retta alla nuvola dei punti ◦ Per capire quanto la nostra retta di regressione sia adatta a rappresentare i dati possiamo analizzare graficamente i residui oppure utilizzare un opportuno indice, ovvero l’indice di determinazione o coefficente R2 che si può ottenere ‣ 1) Con la scomposizione della Devianza Totale in Devianza di Regressione e Devianza Residua
◦ Un indagine esaustiva su tutta la popolazione è chiamata censuaria o censimento, mentre un indagine solo su una parte della popolazione è detta indagine campionaria
probabilità, ovvero calcolare la probabilità che questi dati siano validi per l’intera popolazione, i concetti di base della teoria della probabilità infatti sono:
non elementare è un evento che può essere scomposto in più eventi elementari ◦ Possiamo avere:
contemporaneamente entrambi gli eventi
avviene
assumono infiniti valori, per questo nel continuo è necessario far riferimento ad insiemi di valori, cioè intervalli. La variabile casuale Normale è la più nota ed utilizzata nell’inferenza statistica ed è definita anche variabile casuale degli errori accidentali. Le sue caratteristiche sono: ‣ La sua funzione di densità ha una forma campanulare e l’area sottesa alla curva è pari ad 1 ‣ È simmetrica rispetto al valore centrale (ovvero x=media) ‣ Il valore di x=media coincide appunto con la media aritmetica, ma anche con moda e mediana ‣ È asintotica all’asse delle x da entrambi i lati, ovvero non li tocca mai ‣ Possiede due punti di flesso ai due lati in corrispondenza dei due x=media+scarto quadratico medio
modo da rendere confrontabile con altri dati standardizzati. Questa variabile è molto utilizzata nell’inferenza statistica
radice quadrata di una variabile casuale Chi-quadrato, divisa per i suoi gradi di libertà
suddividono in due grandi famiglie: campionamento probabilistico e campionamento non probabilistico. Un campione è detto probabilistico se è estratto in modo che tutti i campioni possibili della stessa dimensione abbiano la stessa probabilità di essere estratti ◦ In un campione probabilistico: ‣ Ciascuna delle unità della popolazione ha una probabilità nota di essere inclusa nel campione ‣ Sono ridotti al minimo i fattori di distorsione ◦ I metodi di selezione dei campioni probabilistici possono essere diversi: campionamento casuale semplice, campionamento stratificato, a grappoli, sistematico, campionamento a più stadi, ecc.
formulata apriori, prima ancora di estrarre il campione, proviene dall’esterno e dipende dal contesto applicativo e dagli obiettivi di ricerca, non dai dati campionari
statistico, rappresenta ciò che si crede vero
‣ Ad es. H0 = la persona è innocente, H1 = la persona è colpevole ◦ Le ipotesi vengono solitamente formulate in base a informazioni che si possiedono del fenomeno in esame, possono essere semplici o composte, ad es.: ‣ H0 = 6,3 (ipotesi semplice) ‣ H1 = media<6,3 (ipotesi composta)
a decidere se rifiutare o meno l’ipotesi nulla H
l’ipotesi H0 sulla base delle risultanze campionarie