












Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica dei concetti base della statistica, partendo dalla definizione dei dati fino all'analisi e alla visualizzazione. Vengono illustrate le fasi di un'analisi statistica efficace, la classificazione dei caratteri statistici (qualitativi e quantitativi), e le diverse tipologie di dati (discreti e continui). Anche la differenza tra popolazione e campione, le frequenze assolute e relative, e come creare tabelle pivot con excel per l'analisi dei dati. Infine, vengono introdotti gli indicatori sintetici descrittivi come media, mediana e moda, e concetti avanzati come l'indice di asimmetria di fisher e il coefficiente di spearman. Il documento include esempi pratici e formule per facilitare la comprensione dei concetti chiave, rendendolo utile per chi si avvicina per la prima volta alla statistica o per chi desidera ripassare i fondamenti. Approfondisce anche i test per la verifica di ipotesi sulla media.
Tipologia: Appunti
1 / 20
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!













Per condurre un'analisi statistica efficace, è fondamentale seguire alcune fasi chiave: ● Definizione dei Dati : Identificare quali dati sono necessari per affrontare un problema specifico o raggiungere un obiettivo. ● Raccolta dei Dati : Ottenere informazioni da fonti appropriate e affidabili. ● Organizzazione dei Dati : Strutturare i dati raccolti in tabelle per facilitarne l'analisi. ● Visualizzazione dei Dati : Creare grafici per rappresentare visivamente i dati e le loro relazioni. ● Analisi dei Dati : Esaminare i dati per trarre conclusioni e presentare i risultati in modo chiaro. Nel contesto lavorativo attuale, le competenze analitiche sono sempre più richieste, poiché le aziende che adottano l'analisi dei dati tendono a essere più competitive. Come affermato, “il lavoro sexy nei prossimi 10 anni sarà quello degli statistici. E non sto scherzando”.
La statistica è un campo ampio con applicazioni in molte discipline. Essa comprende: ● Raccolta e Analisi dei Dati : Un insieme di metodi quantitativi per osservare, analizzare e interpretare fenomeni collettivi derivanti da manifestazioni individuali. ● Operazioni Statistiche : Include attività come il conteggio, la classificazione, la misurazione e la sintesi tramite modelli esplicativi. La statistica fornisce strumenti per rappresentare i dati in modo efficace, utilizzando tabelle e grafici, e per sintetizzarli con indicatori caratteristici.
Termini Descrizione
Popolazione Insieme di tutti i potenziali rispondenti che si vogliono studiare. Variabile Caratteristica di ogni membro della popolazione. Campione Sottoinsieme della popolazione. Censimento Studio che include l'intera popolazione. Errore di Campionamento Differenza tra una caratteristica misurata sull'intera popolazione e quella riscontrata in un campione. Grado di Variabilità Misura di come gli elementi della popolazione differiscono in riferimento alla variabile studiata.
I caratteri possono essere classificati in: ● Qualitativi : Non numerici, descrivono attributi (es. religione, genere). ● Quantitativi : Numerici, esprimono valori misurabili (es. età, reddito). I dati qualitativi possono essere ulteriormente suddivisi in: ● Nominali : Non esiste un ordine naturale (es. genere). ● Ordinali : Esiste un ordine naturale (es. grado di soddisfazione).
I dati quantitativi sono intrinsecamente numerici e si dividono in: ● Dati Discreti : Possono assumere solo determinati valori (es. numero di figli). ● Dati Continui : Possono assumere un numero infinito di valori in un intervallo (es. peso, altezza).
● Popolazione : Insieme completo di unità di interesse.
● Frequenze Relative : Rapporto tra la frequenza assoluta e il totale delle unità. Questi concetti formano la base per comprendere e applicare l'analisi statistica in vari contesti.
● Frequenze Assolute : Indicano quante unità presentano ciascuna modalità di un carattere X. Le frequenze sono denotate come n1, n2,…,nK. ○ Ad esempio, n1 rappresenta il numero di unità con la modalità x1 del carattere X. ● Totale delle Frequenze : La somma delle frequenze assolute deve corrispondere a n, il numero totale di unità nel campione.
● Frequenza Relativa : Si calcola come il rapporto tra la frequenza assoluta di una modalità e il numero totale di unità. ● Frequenza Relativa Percentuale : È la frequenza relativa moltiplicata per 100. La somma delle frequenze relative percentuali deve sempre essere pari a 100. Importanza delle Frequenze Relative ● Le frequenze assolute variano con la dimensione del campione (n) e non sono utili per confronti tra collettivi di dimensioni diverse. Al contrario, le frequenze relative e percentuali sono numeri puri e consentono confronti significativi.
● Un manager confronta i punti vendita in Toscana e Catalogna per numero di addetti. ○ Frequenze assolute: 2 punti vendita con 3 addetti in Toscana contro 4 in Catalogna. ○ Frequenze relative percentuali: 22,2% in Toscana contro 8,3% in Catalogna, suggerendo che la Toscana ha una maggiore incidenza di punti vendita con pochi addetti.
● Frequenza Relativa Cumulata : È la somma delle frequenze relative di una classe e di tutte le classi precedenti. Non può mai decrescere. ● Frequenza Assoluta Cumulata : Analogamente, è la somma delle frequenze assolute fino a una certa classe.
● Se il 66,6% dei punti vendita ha un numero di addetti inferiore o uguale a 6, questo dato è utile per comprendere la distribuzione della forza lavoro.
● Le variabili quantitative continue sono rappresentate tramite tabelle di frequenze associate a classi di valori. ○ Le classi devono essere contigue, non sovrapporsi e coprire tutti i valori dell'insieme di dati. ○ Possono avere ampiezze uguali o diverse.
● Esempio di classi di ricavi: ○ Fino a 250 (incluso) ○ Da 250 (escluso) a 350 (incluso) ○ Oltre 350
● Per creare una tabella pivot in Excel: ○ Selezionare i dati e scegliere "Tabella Pivot" dal menu "Inserisci". ○ Specificare l'area dei dati e dove posizionare la tabella. ○ Trascinare le variabili nelle aree appropriate per ottenere distribuzioni di frequenza o quantità.
● Tipi di Grafici : ○ Grafici a barre: per caratteri qualitativi ordinati. ○ Istogrammi: per caratteri quantitativi continui suddivisi in classi. ○ Grafici a torta: per rappresentare proporzioni di categorie. ○ Grafici radar: per dati ciclici.
● Un diagramma a barre rappresenta le frequenze o le frequenze relative di una tabella di frequenza tramite barre verticali o orizzontali.
● Sovraccarico di Informazioni : Può oscurare i dati reali.
● Definizione : La mediana è il valore centrale di un insieme di dati ordinati. Si trova nella posizione centrale e divide i dati in due parti uguali. ● Calcolo : Per trovare la mediana in una distribuzione di frequenza, si utilizza la colonna delle frequenze relative cumulate per identificare la prima frequenza (F_j) che è uguale o maggiore a 0,5. Il valore corrispondente (x_j) è la mediana della distribuzione. Ad esempio, in una distribuzione con (Me=6), la classe mediana è 3-5.
● Definizione : La moda è il valore che appare più frequentemente in un insieme di dati. ○ In un insieme di valori, è il termine che si ripete di più. ○ In una distribuzione di frequenza, è la modalità con la frequenza più alta. ○ In una distribuzione con classi di valori, è la classe con la densità di frequenza più alta. ● Caratteristiche : ○ Fornisce informazioni solo su una modalità del carattere. ○ Dipende dalle frequenze e acquista validità solo se c'è una netta prevalenza di una modalità. ○ Può non esistere, non essere unica o rappresentativa. Esempi: ● Moda di un insieme di valori : Nel carattere "Genere del responsabile", la modalità che si ripete di più è "maschio" (5 volte). ● Moda di una distribuzione di frequenza : La frequenza maggiore è 3, quindi la modalità per "Numero di addetti" è 6.
● Media : Generalmente utilizzata, ma sensibile agli outliers. Ad esempio, i prezzi mediani delle case sono meno influenzati da valori estremi. ● Mediana : Spesso preferita in presenza di outliers.
● Definizione : I quartili dividono i dati ordinati in quattro segmenti uguali. ○ Primo Quartile (Q1) : È preceduto dal 25% dei termini e seguito dal 75%. Si calcola come il valore nella posizione ((n+1)/4). ○ Terzo Quartile (Q3) : È preceduto dal 75% dei termini e seguito dal 25%. Si calcola come il valore nella posizione (3(n+1)/4).
● Definizione : I percentili dividono la distribuzione in cento parti uguali. Il rank percentile (P) di un valore è la percentuale di dati pari o inferiori a quel valore. ● Formula : (P = \frac{b + 2e}{n}), dove (b) è il numero di valori sotto il valore di interesse, (e) è il numero di valori uguali al valore di interesse e (n) è la dimensione del campione. ● Esempi : ○ Mediana = 50-esimo percentile. ○ (Q3 = 75)-esimo percentile. ○ (P10) = decimo percentile, lascia il 10% dei valori a sinistra.
● La variabilità descrive quanto i dati si discostano l'uno dall'altro. Maggiore è la diversità tra i valori, maggiore sarà la variabilità. ● Un indice di variabilità deve: ○ Assumere valore minimo se tutte le unità presentano uguale modalità. ○ Aumentare con la diversità tra le modalità.
● Questi numeri sono rappresentati nel Box Plot e aiutano a descrivere la dispersione e la forma dei dati.
● Funzione degli scostamenti dalla media elevati al cubo. ● Valori: ○ (β = 0): Distribuzione simmetrica. ○ (β > 0): Asimmetria positiva. ○ (β < 0): Asimmetria negativa.
● Rappresenta le frequenze congiunte di due caratteri (X) e (Y). ● Le frequenze relative possono essere ottenute dividendo per il totale corrispondente. Queste informazioni forniscono una base solida per comprendere le misure di centralità, variabilità e asimmetria nei dati, utili per analisi statistiche e decisioni informate.
● Distribuzione Doppia di Frequenze : Si riferisce a due caratteri, X e Y, e viene rappresentata attraverso una tabella di contingenza. Questa tabella mostra le frequenze congiunte, ovvero le frequenze assolute delle unità che presentano congiuntamente la modalità i-esima di X e la modalità j-esima di Y. ● Distribuzione di Frequenze Relative : Dividendo le frequenze congiunte per il totale, otteniamo le distribuzioni di frequenze relative, le distribuzioni marginali relative e le distribuzioni relative condizionate.
● Carattere Quantitativo : Nella distribuzione marginale e nelle distribuzioni parziali condizionate a una modalità di Y, possiamo calcolare indici di: ○ Tendenza centrale (media, varianza) ○ Dispersione ○ Asimmetria ● Carattere Qualitativo : Qui possiamo calcolare indici di tendenza centrale, come la moda marginale.
● Definizione : Due caratteri X e Y sono indipendenti se la conoscenza della modalità di uno non migliora la previsione dell'altro. Se X è indipendente da Y, allora anche Y è indipendente da X. ● Condizione di Indipendenza : Le distribuzioni relative condizionate di un carattere rispetto all'altro devono essere uguali.
● Definizione : Se esiste un legame tra X e Y, è necessario distinguere tra: ○ Dipendenza : Un legame unidirezionale, dove le modalità di un carattere dipendono da quelle di un altro. ○ Interdipendenza : Entrambi i caratteri hanno lo stesso ruolo e il legame è bidirezionale.
● Frequenze Osservate vs Teoriche : Se le frequenze osservate differiscono dalle frequenze teoriche, non c'è indipendenza statistica.
Indice Descrizione Chi-quadrato Studia l’interdipendenza tra due caratteri qualitativi. Se χ² = 0, c'è indipendenza; se χ² > 0, c'è interdipendenza. Indice di Contingenza Quadratica Media Normalizza l'indice Chi-quadrato per tener conto delle dimensioni della tabella di contingenza. Indice V di Cramer Misura l'associazione tra due caratteri qualitativi. V = 0 indica indipendenza, V = 1 indica associazione perfetta.
● Spazio Campionario (Ω) : È l'insieme di tutti i possibili eventi elementari. Ad esempio, nel lancio di un dado, lo spazio campionario è Ω = {1, 2, 3, 4, 5, 6}. ● Eventi Elementari : Rappresentano i risultati possibili. Nel caso del dado, ogni faccia è un evento elementare. ● Esempio di Estrazione : Se estraiamo un campione di delfini, lo spazio campionario è Ω = {maschio, femmina}.
● Negazione (Complemento) : Insieme di tutti gli esiti che non corrispondono a un evento A. ● Intersezione : Indica che entrambi gli eventi A e B si verificano. ● Unione : Indica che almeno uno tra A o B si verifica. Esempi di Operazioni ● E1 : "Esce un numero pari" = {2, 4, 6} (unione degli eventi elementari). ● E2 : "Esce un numero inferiore a 6" = {1, 2, 3, 4, 5} (negazione dell'evento 6). ● E3 : "Esce un numero pari inferiore a 6" = intersezione di E1 e E2.
● Eventi Esclusivi : Non possono verificarsi contemporaneamente (intersezione nulla). ● Eventi Esaustivi : Uno e solo uno deve verificarsi (unione uguale a Ω).
● Probabilità dell'Unione di Eventi Incompatibili : Utilizza la regola additiva, applicabile anche a più di due eventi. ● Probabilità Condizionata : La probabilità di un evento A dato che B si è verificato, indicata come P(A | B).
● Due eventi A e B sono indipendenti se il verificarsi di uno non influisce sull'altro. In termini matematici, P(A | B) = P(A).
● Inferenza Statistica : Utilizza informazioni da un campione per stimare parametri incogniti della popolazione. ● Parametri Incogniti : Caratteristiche della popolazione, come la media o la proporzione.
● Campione Rappresentativo : Deve riflettere la popolazione per evitare distorsioni. ● Campionamento Bernoulliano : Simula l'estrazione casuale di unità con reinserimento.
● Definizione : L'insieme delle statistiche campionarie calcolate su tutti i campioni di dimensione n. ● Teorema del Limite Centrale (TLC) : La distribuzione delle medie campionarie tende a essere normale anche se la popolazione non è normale, a condizione che n sia sufficientemente grande.
● Stimatore Puntuale : Un singolo valore utilizzato per stimare un parametro della popolazione. ● Stimatore Intervallare : Un intervallo di valori che ha una certa probabilità di contenere il vero valore del parametro.
● Errore Standard (ES) : La deviazione standard della media campionaria, che misura la precisione della stima. Formula: ES = σ/√n. ● Importanza : Maggiore è la dimensione del campione, minore è l'errore standard, aumentando la precisione della stima. Nota Importante : La statistica inferenziale richiede la conoscenza della distribuzione di probabilità della statistica utilizzata per stimare il parametro.
● Il livello di confidenza è rappresentato da (1-a)%, dove a è la probabilità di trovarsi nelle code della distribuzione, al di fuori dell'intervallo di confidenza. ● La probabilità delle code sinistra e destra è pari a a/2.
● La statistica calcolata su un campione (statistica campionaria) è una stima del parametro della popolazione, ma è soggetta a "errore campionario" dovuto alla variabilità casuale del campionamento. ● La stima per intervallo è un intervallo di valori plausibili associati a un livello di confidenza (90%, 95% o 99%). Ci aspettiamo che l'intervallo contenga, con quel livello di fiducia, il valore incognito del parametro della popolazione.
● Gli estremi dell'intervallo dipendono dalla media campionaria 𝑋, dalla deviazione standard σ della popolazione, dal valore 𝑍α/2 e dalla dimensione campionaria n.
● La lunghezza dell'intervallo è data da 2 𝑧 σ/√n, mentre il margine di errore è 𝑧σ/√n. ● Un margine di errore minore indica maggiore precisione e accuratezza della stima per intervallo.
● Conoscendo σ, l'errore varia direttamente al variare di 𝑧, che dipende dal livello di confidenza 1-α. ● La riduzione dell'errore può comportare un livello di confidenza minore.
● L'errore varia inversamente al variare di n. Aumentare la dimensione del campione riduce l'errore.
● Il carattere studiato assume due modalità: presenza/assenza di un attributo A. ● La proporzione campionaria p è utilizzata come stima puntuale di π.
● Si estrae un campione casuale di n elettori per stimare la proporzione incognita π. ● Se la proporzione campionaria a favore di un candidato è 53,2%, si utilizza una stima per intervallo per valutare la sicurezza della vittoria.
● Al livello di confidenza del 95%, il margine di errore è stimato utilizzando 0,5 come valore prudenziale. ● Con un campione di 500 elettori, l'intervallo è [48,8; 57,6]. Con n=2000, l'errore è ridotto a 2,2%, portando a un intervallo più accurato [51,0; 55,4].
● Le caratteristiche della popolazione devono essere stimate a partire dai campioni estratti. ● La verifica di un'ipotesi relativa alle caratteristiche della popolazione quantifica l'incertezza della stima.
● Un'ipotesi statistica è un'affermazione riguardante un parametro θ della popolazione, come "la lunghezza media delle scatole prodotte è di 10 cm".
● Si considera un sistema di due ipotesi: ○ Ipotesi nulla (H0): rappresenta lo stato attuale. ○ Ipotesi alternativa (H1): opposta a H0.
● Si estrae un campione di n scatole per valutare se l'ipotesi nulla possa essere ritenuta plausibile. ● Se il campione non fornisce evidenza contro H0, si conclude che non possiamo rifiutare H0.
● Accettare H0 non significa dimostrare che sia vera; si conclude solo che non c'è evidenza sufficiente contro di essa. ● Rifiutare H0 e accettare H1 implica che la lunghezza media delle scatole è significativamente diversa da 10 cm, richiedendo azioni correttive.
● Un manager vuole stabilire se il tempo medio di attesa è cambiato rispetto a 30 minuti. ● Un'industria automobilistica verifica se la durata media delle batterie è almeno 4000 ore.
● I valori campionari portano ad accettare H0 se sono "abbastanza vicini" a θ0, mentre valori "molto distanti" portano a rifiutare H0 e accettare H1.
● Scenario : Verificare se il fatturato medio dopo una campagna pubblicitaria sia aumentato rispetto a μ = 2500. ● Varianza Nota : La varianza è 1296. ● Inferenza Statistica : La verifica di ipotesi è uno strumento cruciale nel processo scientifico, dove H0 rappresenta la situazione conservatrice e H1 quella innovativa.
● Cautela Verso L’Innovazione : Si rifiuta H0 solo se i dati sono incompatibili con essa. Un errore di primo tipo è più grave di un errore di secondo tipo. ● Ipotesi Nulla Non Accettata : Un risultato non significativo non implica l'accettazione di H0, ma solo che non ci sono prove sufficienti per rifiutarla.
● Interpretazione : Un risultato significativo non implica necessariamente un effetto importante. La dimensione dell'effetto deve essere valutata in base al contesto e alla quantità di dati disponibili.
● Regione Di Rifiuto : R = {X < c1 ∪ X > c2}, dove P(X ∈ R sotto H0) = α. ● Approccio Del P-Value : Se il valore osservato della statistica test è tale che p-value
α, non ci sono evidenze sufficienti per rifiutare H0.
● Varianza Nota : Se la varianza è nota, si utilizza una normale standardizzata. ● Varianza Non Nota : Se la varianza non è nota, si utilizza la varianza campionaria corretta.
● Distribuzione Bernoulli : La variabile casuale X è dicotomica e segue una distribuzione Bernoulli di parametro π. ● Esempi : ○ Test Bilaterale : Lanci di una moneta per verificare se è truccata. ○ Test Unilaterale : Verifica dell'efficacia di un farmaco rispetto a un'affermazione dell'industria farmaceutica.