




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti lezioni di introduzione alla statistica
Tipologia: Appunti
1 / 135
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































La statistica è l’arte di apprendere dai dati. La statistica può essere suddivisa in due macro categorie
I caratteri statistici vengono distinti in : ○ Caratteri statistici qualitativi , sono tutti quelli per i quali le modalità sono espresse con sostantivi, avverbi, aggettivi ( cioè parole che esprimono le qualità); A loro volta possono essere suddivisi in 2 grandi categorie, cioè :
I dati sono raccolti su tutte le unità della popolazione: ● maggior ricchezza delle info raccolte ● esaustività, visione completa del fenomeno ● - difficoltà di raggiungere alcune unità ● - temasdpi di realizzazione molto lunghi ● - costi elevati ’sottocopertura’’ : mancata rilevazione di alcune unità.
I dati vengono raccolti su una parte delle unità, stabilite secondo alcuni criteri, interessi. Quando non si può/vuole osservare l’intera popolazione. Quando la popolazione è infinita. Sempre??? Campione statistico: insieme di unità selezionato della popolazione secondo determinati criteri. Deve essere rappresentativo della popolazione, deve riflettere le caratteristiche della popolazione (per quanto grande può essere se non è rappresentativo non consente generalizzazioni. Dall’analisi esplorativa si fa inferenza. Inferenza: è l’estrazione; procedimento con cui i risultati parziali osservarti sul campione vengono generalizzati sulla popolazione. Generalizzando si produce incertezza, che viene gestita attraverso il calcolo delle probabilità. Statistica inferenziale: insieme dei metodi che permettono di fare questa generalizzazione.
Una volta raccolti i dati, dobbiamo iniziare a trarre conclusioni su quello che abbiamo osservato, questo lo facciamo tramite la rappresentazione dei dati. il primo strumento che possiamo utilizzare per rappresentare i dati è la matrice dei dati. Pregi
Si definisce distribuzione di frequenza assoluta la lista delle modalità osservate accompagnata dalle rispettive frequenze assolute. La distribuzione di frequenze avrà K righe ( tante quante sono le modalità ) e 2 colonne, una che indica le modalità e l’altra il conteggio che è stato fatto delle modalità ( quindi le frequenze assolute). Indicheremo un generico elemento/modalità con Xj Indicheremo un generica frequenza assoluta di una modalità con nj Pregi :
La scelta delle classi è arbitraria , ma va fatta tenendo presente che: ● nessuna classe deve essere vuota; ● le classi devono essere contigue (cioè devono essere una dopo l’altra, senza spazi vuoti tra una classe e l’altra), disgiunte (cioè non deve esserci fraintendimento su dove collocare le unità, cioè ogni modalità del carattere statistico deve ricadere in una sola classe) ed esaustive (cioè devono coprire tutto il range di possibile osservazione); ● devono avere possibilmente la stessa ampiezza; ● il numero di classi deve essere tale da consentire un'adeguata sintesi dei dati senza comportare una eccessiva perdita di informazioni ( deve esserci il giusto trade-off tra numero di classi e informazioni che si perdono)
● Caratteri quantitativo continuo - in questo caso l’ampiezza della classe rappresenta il numero di intervalli unitari che ricadono in quella classe; Anche in questo caso, introducendo una suddivisione per classi abbiamo una perdita di informazioni ( come per tutte le rappresentazioni di sintesi) ma acquistiamo maggiore leggibilità dei dati. L’ammontare della perdita di informazioni ed il livello di sintesi dipendono dal numero delle classi:
Può capitare che le classi siano state costruite utilizzando intervalli di lunghezza differente, in questo caso è conveniente definire anche la densità di frequenza. La densità di una classe è data da un rapporto : Quando parliamo della densità di una classe, assumiamo che vi sia una uniforme distribuzione delle unità all’interno della classe (dell’intervallo). Es. di distribuzione in classi con ampiezza diversa La densità ci dice il numero attesi di unità statistiche per ogni unità di misura delle variabili. NOTA D’ESAME Un classico errore d’esame, parlando di rappresentazione grafiche, se si deve costruire una rappresentazione grafica di caratteri quantitativi continui, l’unica rappresentazione possibile è l’istogramma. Se si deve costruire un istogramma e le classi hanno ampiezza diversa, l’unico modo di rappresentare quella distribuzione è di riferirsi alle densità.
Le frequenza assolute hanno un limite , e cioè che dipendono fortemente dalla numerosità del collettivo ( cioè dal numero di unità statistiche che stiamo considerando, vuol dire che data una popolazione con un basso numero di unità, probabilmente le frequenze assolute sono piccole, poiché si osservano poche unità, viceversa con un maggior numero di unità, le frequenze assolute avranno numeri più grandi, poiché si osservano tante più unità). Quindi se osserviamo lo stesso carattere su due collettivi diversi, con numerosità diverse, con le frequenze assolute non possiamo fare confronti , perché le frequenze saranno diverse a causa delle diverse numerosità.
Sono il mezzo principale utilizzato per divulgare le informazioni sul fenomeno da un punto di vista puramente descrittivo, soprattutto ai non addetti ai lavori.
E’ una circonferenza suddivisa in spicchi, dove ciascuno spicchio rappresenta una modalità tramite la sua frequenza ( assoluta o relativa).
Se il numero le modalità diventano numerose allora la lettura del grafico a torta diventa difficoltosa, quindi è sconsigliabile usare il grafico a torta se le modalità sono molto numerose.
Il grafico è costruito rappresentando ogni modalità con una barra verticale (o nastro orizzontale) di altezza (o lunghezza) proporzionale alla sua frequenza (assoluta o relativa). Se il carattere rappresentato è qualitativo ordinale o quantitativo (discreto!!!) le modalità verranno rappresentate rispettando l’ordine.
I grafici a barre possono essere usati per confrontare le distribuzione dello stesso carattere su collettivi differenti. Per confrontare i caratteri, qualora l’ampiezza delle frequenze assolute siano diverse, opteremo per delle frequenze relative. Di seguito un esempio di confronto di titoli di studio tra diversi paesi ( utilizzando le frequenze relative per avere la percentuale di un carattere sul totale, permettendo quindi un confronto tra modalità)
Il simbolo ∑ indica la somma di un certo numero di valori ( anche diversi fra loro ) si leggerà “sommatoria di xi , per i che va da 1 a n” Esempio:
1) Prima proprietà Sia c una costante. Esempio : 2) Seconda proprietà Sia c una costante. Esempio : 3) Terza proprietà Siano X e Y due variabili. Esempio :
Esprimono il centro ideale della distribuzione, cioè il valore intorno al quale “gravitano” i dati. Non ne esiste solo uno, ma ne possono esistere diversi valori, ognuno dei quali mette in evidenza un aspetto diverso della centralità. La scelta dell’indice dipende essenzialmente da due fattori :
Moda Se dobbiamo sintetizzare una distribuzione in un unico numero che indichi dove la distribuzione stessa è “posizionata”, potremmo farlo indicando il valore della distribuzione che compare più frequentemente, questo valore si chiama moda della distribuzione. La moda di una distribuzione è la modalità cui è associata la massima frequenza (assoluta, relativa, percentuale). La moda esprime la modalità più comune e può essere calcolata su tutti i tipi di variabile ( sia qualitative che quantitative) Attenzione: la Moda si riferisce alla modalità, non alla frequenza. Moda per distribuzioni in classi Con le dovute attenzioni, possiamo calcolare la moda per una distribuzione suddivisa in classi.
Si definisce classe modale la classe alla quale corrisponde la massima frequenza (assoluta, relativa, percentuale). Se all’interno della classe si vuole individuare un unico valore (come valore di moda) si può scegliere quello centrale (come convenzione).