




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
cosa è la statistica, 1 anno mercatorum riassunto completo
Tipologia: Dispense
1 / 151
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































“Un insieme di metodi scientifici finalizzati alla conoscenza quantitativa e qualitativa dei fenomeni collettivi mediante la raccolta, l'ordinamento, la sintesi e l'analisi dei dati”
La definizione evidenzia che la statistica è un insieme di metodi per trasformare dati in informazioni utili allo studio di fenomeni collettivi, sia in termini quantitativi sia qualitativi. Non è solo calcolo: è un linguaggio per descrivere la realtà e supportare decisioni sotto incertezza.
● Supporto decisionale : fornisce evidenze per decisioni aziendali, politiche e personali (es. apertura di un nuovo punto vendita). ● Ricerca scientifica : consente test di ipotesi, valutazione dell’efficacia di trattamenti e quantificazione dell’incertezza (es. studi clinici). ● Pubblica amministrazione e servizi : monitoraggio di salute pubblica, istruzione, sicurezza; le istituzioni raccolgono dati per formulare politiche. ● Industria e commercio : analisi di mercato, prezzi e comportamenti di consumo; le grandi aziende spesso hanno uffici statistici interni.
Tipo Descrizione
Statistica teorica (matematica)
Sviluppa modelli, teoremi e basi matematiche (concetti astratti e dimostrazioni).
Statistica applicata Applica i principi teorici a problemi reali in economia, medicina, scienze sociali ecc.
● Statistica descrittiva : raccoglie, organizza e sintetizza i dati con tabelle, grafici e misure riassuntive per mostrare le caratteristiche principali del fenomeno. ● Statistica inferenziale : usa campioni limitati per trarre conclusioni sulla popolazione, testare ipotesi e fare previsioni quando non è possibile osservare tutta la popolazione.
● Origini antiche: registrazioni numeriche per fini amministrativi nelle civiltà egizia e babilonese. ● XVII–XVIII secolo: prime analisi demografiche (John Graunt, William Petty) e sviluppo della “statistica politica” in Europa. ● XIX secolo: nascita della teoria delle probabilità e della statistica inferenziale (Laplace, Gauss). ● XX secolo: consolidamento con test di ipotesi, ANOVA, regressione (Fisher, Pearson). ● Epoca contemporanea: esplosione dell’elaborazione dati grazie ai computer e ai big data; integrazione con machine learning.
● È qualsiasi evento o situazione osservabile e misurabile (es. crescita economica di una regione, abitudini di acquisto, risultati scolastici). ● Si analizza scomponendolo in caratteristiche misurabili che ne descrivono aspetti diversi (es. nel fenomeno disoccupazione: tasso, livello di istruzione, durata).
È l’insieme di unità statistiche che condividono caratteristiche rilevanti per lo studio (individui, oggetti, eventi).
Può essere:
● Finita : numero definito di unità (indicato con N), es. tutti gli alunni di una scuola in un anno. ● Infinita : numero teoricamente illimitato di unità, es. lancio teorico di una moneta o tutti i potenziali acquirenti di un prodotto non ancora lanciato. ● Elusiva/difficile da quantificare : popolazioni nascoste o in rapido cambiamento, es. immigrati clandestini, persone senza fissa dimora; richiedono tecniche di stima indiretta.
Tipo di popolazione
Caratteristiche
Finita Numero noto, osservabile e conteggiabile (N).
Infinita (teorica) Numero potenzialmente illimitato; utile per modelli probabilistici.
Unità semplici
Elementi indivisibili, singoli casi osservati
Persona, prodotto, animale, incidente stradale
Unità composte
Aggregati di più unità semplici
Famiglia, classe scolastica, azienda, città
Unità multiple
Insiemi di unità semplici legate da un vincolo
Coppia di coniugi, gruppo di soci, catena di montaggio, squadra sportiva
Nota: l'unità di rilevazione può differire dall'unità statistica d'analisi (es. dati raccolti per famiglia ma analizzati per individuo).
Categoria Definizione Esempi
Quantitativ i
Misurabili numericamente
Età, peso, reddito, numero di figli
Qualitativi Espressi tramite categorie
Genere, tipo di scuola (pubblica/privata), professione
Le fasi principali sono quattro: progettazione , rilevazione , controllo ed elaborazione , presentazione e interpretazione. Ogni fase è funzionale alle successive e richiede decisioni precise per garantire validità, affidabilità e utilità dei risultati.
Fase iniziale e critica; definisce obiettivi, variabili e disegno dello studio.
● Obiettivi: chiarire cosa misurare per evitare dati irrilevanti. ● Informazioni: scegliere variabili principali e eventuali secondarie. ● Disegno dello studio: osservazionale, sperimentale, longitudinale o trasversale. ● Team interdisciplinare: coinvolgere statistici ed esperti del settore. ● Protocollo & comitato etico: definire metodologia, campione, criteri, analisi; valutare diritti e consenso dei partecipanti.
● Definizioni e confini: chiarire termini, unità statistica, periodo e territorio di riferimento.
Raccolta sistematica dei dati, pianificata per ridurre distorsioni.
● Modalità: sondaggi, interviste, osservazioni, fonti preesistenti. ● Unità statistica vs unità di rilevazione: ciò che si vuole studiare vs ciò che si misura. ● Proporzionalità: raccogliere solo dati necessari. ● Personale e strumenti: formazione operatori, test questionari e software. ● Limiti temporali e spaziali: istante/intervallo e area geografica. ● Ampiezza: rilevazione totale o campionaria.
Trasformare dati grezzi in informazioni affidabili.
● Controllo errori : identificare e correggere errori non campionari. ● Errori sistematici (bias) : ○ Prevedibili, spostano i risultati in una direzione. ○ Esempi: selezione non casuale, strumenti mal calibrati, domande distorte. ○ Strategie di mitigazione: migliorare progettazione e conduzione dell’indagine, calibrare strumenti, formazione operatori. ● Errori casuali : ○ Imprevedibili, aumentano la variabilità senza spostare sistematicamente la media. ○ Esempi: digitazione errata, risposte influenzate da umore o stanchezza. ○ Strategie di mitigazione: aumentare dimensione del campione, migliorare precisione strumenti, monitoraggio qualità. ● Strategie generali : migliorare progettazione, strumenti, formazione e dimensione del campione. ● Elaborazione : ○ Classificare e ordinare i dati. ○ Costruire distribuzioni di frequenza. ○ Calcolare statistiche descrittive: media, mediana, deviazione standard. ○ Obiettivo: ottenere informazioni sintetiche e interpretabili.
La presentazione rende i risultati accessibili; l'interpretazione collega i risultati al contesto teorico.
● Mezzi di presentazione: tabelle , grafici , diagrammi ; la scelta dipende dal tipo di dato e dal pubblico. ● Interpretazione: analisi dei pattern e delle relazioni alla luce delle conoscenze pregresse; può portare a confermare teorie o formulare nuove ipotesi.
● Limite pratico : poco efficiente se la popolazione è ampia o dispersa.
Si suddivide la popolazione in strati basati su caratteristiche rilevanti (età, genere, diagnosi, area geografica) e si campiona all'interno di ciascuno strato.
Tipi:
● Stratificato proporzionale : il numero di unità estratte per ciascuno strato è proporzionale alla sua dimensione nella popolazione. ○ Esempio: ospedale con pazienti suddivisi in diabete 40%, ipertensione 35%, asma 25%. In un campione di 100: 40 diabete, 35 ipertensione, 25 asma. ● Stratificato non proporzionale : si sceglie una rappresentazione diversa dalla proporzione reale per dare maggiore peso a strati piccoli o di interesse. ○ Esempio: nello stesso contesto si può scegliere 30 diabete, 30 ipertensione, 40 asma per approfondire l'asma.
Vantaggi principali: riduce l'errore campionario quando la variabilità è maggiore tra gli strati che all'interno degli strati.
● Procedura : calcolare il passo k = N/n (N = popolazione, n = campione), selezionare casualmente un primo elemento tra 1 e k e poi ogni k-esima unità. ● Esempio numerico : da N = 1.000 per n = 100 → passo k = 10; si sceglie l'unità iniziale fra 1 e 10 e poi ogni 10° elemento. ● Nota : semplice ma attenzione a strutture periodiche nella lista che possono introdurre bias.
● Definizione : la popolazione è divisa in gruppi naturali (cluster); si estraggono casualmente alcuni cluster e si studiano tutte (o alcune) unità interne. ● Quando usarlo : utile per indagini su popolazioni geograficamente disperse (es. scuole, villaggi). ● Pro e contro : economico e pratico; però aumenta la varianza delle stime se i cluster sono eterogenei tra loro. Preferibile usare molti cluster piccoli anziché pochi cluster grandi.
Determinare la dimensione del campione significa stabilire quante osservazioni sono necessarie per ottenere stime affidabili. I fattori principali da considerare:
● Livello di confidenza : quanto vogliamo essere sicuri che l'intervallo contenga il parametro (es. 95%).
● Precisione richiesta (margine di errore) : ampiezza massima accettabile dell'errore di stima. ● Variabilità nella popolazione : maggiore variabilità richiede campioni più grandi. ● Dimensione della popolazione : per popolazioni finite molto piccole la correzione finita può ridurre la n necessaria.
Implicazioni pratiche:
● Campioni troppo piccoli → errori e bias elevati. ● Campioni troppo grandi → costi eccessivi e inefficienza.
L'attività statistica nasce da una domanda cui si cerca risposta tramite dati. Le principali fonti di dati sono quattro e vanno considerate nell'ordine opportuno a seconda della domanda di ricerca.
Fonte Descrizione
Registri mantenuti regolarmente
Database amministrativi o clinici prodotti continuamente dall'organizzazione (es. cartelle cliniche, registri contabili, registri tumori).
Sondaggi e questionari
Raccolta mirata di informazioni tramite interviste o questionari su un campione di individui.
Esperimenti Raccolta di dati mediante la manipolazione controllata di variabili per studiare relazioni causali.
Fonti esterne Rapporti pubblicati, banche dati commerciali, letteratura scientifica già disponibile.
Vantaggi : spesso ricchi di dati storici e già disponibili; utili per studi epidemiologici, analisi operative, monitoraggio.
● Esempi : cartelle ospedaliere, registri contabili, registri tumori (forniscono incidenza e prevalenza).
Fonti già pubblicate possono rispondere direttamente a domande di ricerca o fornire dati utili come base.
● Tipi : ○ rapporti pubblicati (governativi, ONG, istituzionali); ○ banche dati commerciali (es. Nielsen per tendenze dei consumatori); ○ letteratura scientifica (articoli peer-reviewed, studi). ● Vantaggi : ○ risparmio di tempo e risorse rispetto alla raccolta ex novo; ○ spesso alta affidabilità se provengono da enti o studi validati; ○ possibilità di applicare risultati già esistenti alla propria situazione senza duplicare ricerche. ● Attenzione : verificare l'adeguatezza del contesto, la metodologia usata e la qualità delle fonti prima di applicare i dati.
I disegni di studio differiscono per il livello di controllo del ricercatore e per la possibilità di osservare o stimare un controfattuale.
Tipo di disegno Caratteristiche Uso tipico
Non sperimentale Nessuna manipolazione; solo osservazioni naturali
Studi descrittivi, analisi di associazione in ambito epidemiologico o sociale.
Quasi ‑ sperimental e
Intervento presente, ma senza randomizzazione completa
Valutazioni di politiche pubbliche, interventi in contesti reali dove la randomizzazione non è possibile.
Sperimentale Manipolazione attiva con gruppo di controllo e randomizzazione
Trial clinici, esperimenti in laboratorio o campo per inferenze causali robuste.
Il gruppo di controllo e il controfattuale sono concetti distinti ma complementari nel valutare l’effetto di un intervento.
Aspetto Gruppo di controllo Controfattuale
Definizione Gruppo reale di soggetti osservabili che non riceve l’intervento (placebo, trattamento standard o nulla).
Costrutto teorico che rappresenta cosa sarebbe accaduto senza l’intervento per le stesse unità analizzate.
Osservabilità Osservabile direttamente. Non osservabile direttamente; va stimato.
Quando si usa
Studi sperimentali e quasi‑sperimentali con possibilità di confronto diretto.
Quando non è possibile avere un gruppo di controllo (es. valutazioni di politiche), si stima tramite modelli o confronti storici.
Metodo di ottenimento
Randomizzazione, assegnazione controllata.
Modelli statistici, dati storici, confronto con gruppi non trattati similari.
Esempio pratico:
● Clinica: pazienti trattati vs pazienti non trattati (gruppo di controllo). ● Politiche pubbliche: si stima come sarebbe andata senza la legge usando dati storici o matching (controfattuale).
ll controfattuale è la logica alla base di tutte le inferenze causali , ma essendo teorico, i disegni cercano di stimarlo il più accuratamente possibile.
Gli studi non sperimentali non prevedono intervento attivo: si osservano i fenomeni così come si verificano. Gli studi osservazionali servono per esplorare associazioni e descrivere caratteristiche di popolazioni o fenomeni.
Categoria Tipi principali
Uso: studi efficaci per malattie rare o eventi che richiedono molto tempo per svilupparsi.
Limiti: possono avere errori di selezione o di memoria e non misurano direttamente la frequenza dell’evento nella popolazione.
● Studi Trasversali Analitici: accolgono dati in un unico momento per vedere se due o più variabili sono correlate.
Uso: identificare possibili relazioni tra variabili.
Limiti: non si può dire cosa causa cosa e non si conosce l’ordine temporale tra esposizione ed esito.
Non c’è randomizzazione → soggetti trattati e non trattati possono differire per caratteristiche (età, sesso, salute, ecc.).
Si usano tecniche statistiche come matching o propensity score per creare gruppi comparabili e stimare meglio l’effetto del trattamento.
Il matching statistico serve a creare gruppi confrontabili in studi non sperimentali, riducendo il bias di selezione e migliorando la stima dell’effetto del trattamento o dell’esposizione.
Tipo di Matching Descrizione
Matching 1:1 Ogni soggetto trattato è abbinato a un singolo soggetto di controllo con caratteristiche simili.
Many ‑ to ‑ One Ogni soggetto trattato è abbinato a più soggetti di controllo (es. 1:3) per aumentare precisione.
Propensity Score Matching
Abbinamento basato su un punteggio che stima la probabilità di ricevere il trattamento date le covariate.
Caliper Matching Abbinamento consentito solo se la distanza (es. nel propensity score) è entro un intervallo prefissato (caliper).
Esempi ed effetto pratico:
● 1:1 : ospedale confronta pazienti con nuovo protocollo vs uno standard trovando per ogni paziente trattato un singolo controllo simile. ● Many ‑ to ‑ One : studente trattato abbinato a tre controlli per maggiore robustezza. ● Propensity Score : azienda calcola probabilità di partecipare a un programma di formazione e abbina partecipanti a non‑partecipanti con punteggi simili. ● Caliper : si imposta un limite (es. 0,05) per garantire forte similitudine tra match.
● Negli studi osservazionali la qualità della stima del controfattuale dipende fortemente dal controllo del confondimento (match, stratificazione, regressione). ● La scelta del disegno dipende da domanda di ricerca, rarità dell’esito, risorse e tempo disponibili. ● Quando possibile, l’uso combinato di tecniche (es. propensity score + caliper, analisi di sensibilità) aumenta la credibilità delle inferenze.
Gli studi quasi-sperimentali includono un intervento attivo ma mancano elementi chiave della sperimentazione rigorosa (soprattutto la randomizzazione). Tipologie principali:
Disegno Descrizione
Gruppo di controllo non randomizzato
Presenza di un gruppo di controllo ma assegnazione non casuale (criteri di convenienza, preferenza, disponibilità). Utile per confronti, ma susceptible a bias di selezione.
Prima e Dopo (pretest-posttest senza controllo)
Misurazioni prima e dopo l’intervento nello stesso gruppo; permette valutare cambiamenti nel tempo ma non controlla eventi esterni che possono influenzare l’esito.
Serie temporali interrotte
Raccolta ripetuta di dati prima e dopo l’introduzione dell’intervento per valutare se l’intervento ha modificato una tendenza preesistente; può prevedere o meno gruppo di controllo; efficace quando l’intervento è applicato su larga scala.
Uso pratico : valutazione di politiche aziendali o interventi real-world quando la randomizzazione non è praticabile; scelta dipende dagli obiettivi di ricerca e risorse disponibili.
Tipo Sottotipi Descrizione ed esempi
Quantitativ o
Discreto Assume un numero finito o numerabile di valori (conteggi): es. numero di figli, numero di libri.
Continuo Può assumere qualsiasi valore in un intervallo reale (misure): es. peso, durata, temperatura corporea.
Qualitativo Nominale (non ordinabile)
Modalità senza ordine intrinseco: es. colore dei capelli, tipo di sport.
Ordinale (ordinabile)
Modalità con un ordine logico ma senza intervalli numerici definiti, possono essere rettilinei e ciclici: es. livello di istruzione, grado di soddisfazione.
● La scelta del metodo statistico dipende dal tipo di carattere (quantitativo vs qualitativo) e dalla scala di misura (discreto/continuo, nominale/ordinale). ● Bias di selezione : particolarmente rilevante in studi non randomizzati o quasi-sperimentali; può compromettere la comparabilità dei gruppi. ● Validità interna : aumenta con controlli rigorosi (randomizzazione, gruppi di controllo). ● Validità esterna : dipende dalla rappresentatività e dal contesto reale dello studio.
La tabella statistica organizza i dati raccolti: le righe rappresentano le unità statistiche (osservazioni) e le colonne i caratteri (variabili).
Notazione comune:
● X = carattere (variabile) (lettera maiuscola). ● xi = modalità o valore osservato della variabile (lettera minuscola). ● xij o simili indicano il valore del carattere j per l’unità i.
Tipologie di tabelle:
● Tabella oggetti ‑ caratteri (individui ‑ caratteri) : mostra tutte le unità e le loro variabili, numeriche o qualitative, si usa quando ci sono dati misti, numerici e non, per organizzare tutte le informazioni di ogni unità. ● Tabella oggetti ‑ intensità : contiene solo dati numerici per analizzare quantità e grandezze, si usa quando tutti i dati sono numerici, per analizzare quantità e fare calcoli statistici.
La distribuzione semplice di un carattere X è l’elenco di tutti i valori osservati della variabile, uno per uno, senza raggruppamenti o conteggi x1, x2, …, xk; ogni osservazione compare singolarmente.
La distribuzione di frequenza sintetizza quante volte ogni modalità xi si presenta nella popolazione.
Modalità (xi) Frequenza assoluta (ni)
Spiegazione: per i valori di colesterolo {180, 200, 200, 210, 230, 240, 250} abbiamo N = 7 osservazioni; la modalità 200 ha ni = 2.
Concetti chiave:
Fi: quota di persone che guadagna AL MASSIMO quel salario
pi: è la fi espressa in percentuale
Pi: percentuale di persone con salario ≤ quel valore
Quante osservazioni sono maggiore o uguali a un certo valore, somma progressiva dall’alto verso il basso, partendo dal valore più grande fino al valore considerato
● N = numero totale delle osservazioni ● N_{precedente} = frequenza cumulata fino al valore subito prima della soglia scelta ● N_{retro} = quante osservazioni sono ≥ della soglia
Ricav o
Ni_retro (≥) fi_retro pi_retro
Qui NON guardiamo una sola variabile, ma più variabili insieme, possiamo studiare: relazioni, associazioni, causalità e interazioni.
● Relazione : descrive come due variabili si muovono insieme.
Diretta: entrambe aumentano insieme (es. ore lavorate → salario).
Inversa: un aumento di una corrisponde a diminuzione dell’altra (es. ore lavorate ↑ → tempo libero ↓).
● Associazione : due variabili cambiano insieme, misura forza e direzione della relazione (positiva o negativa).
Importante: associazione ≠ causalità , una potrebbe non causare l’altra
● Causalità : stabilire che una variabile causa un’altra richiede analisi approfondite e controllo di possibili variabili confondenti. ● Interazione : l’effetto di una variabile su un esito dipende dal livello di un’altra variabile (es. effetto delle ore di lavoro sul salario varia con il livello di istruzione).
Classificazione delle analisi:
● Statistica bivariata : analizza la relazione fra due variabili. ● Statistica trivariata : analizza tre variabili e le loro interazioni. ● Statistica multivariata : coinvolge più di tre variabili, utile per esplorare relazioni complesse e controllare effetti incrociati in studi di mercato, ricerca clinica, ecc.
Uso pratico: la statistica multivariata permette di identificare associazioni multiple, valutare interazioni e costruire modelli predittivi più realistici per supportare decisioni informate.
Distribuzione ipotetica coerente con i riferimenti numerici: classi 55, 60, 65, 70 (kg) con frequenze assolute 3, 4, 3, 2 (N = 12). Calcoli mostrati per tutte le tipologie di frequenza.
Peso (kg)
f (abs )
r (rel)
p (%) F (cum abs)
Rl (cum rel)
Pcum (%)
valore)
rr (> valore)
Pr (> valore)