Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


statistica di base, fulvia mecatti, Appunti di Statica

ho utilizzato solo gli appunti presenti in questo file per studiare

Tipologia: Appunti

2025/2026

Caricato il 26/03/2026

giulia-torazzi-1
giulia-torazzi-1 🇮🇹

2 documenti

1 / 11

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
ESAME STATISTICA
DESCRITTIVA MONOVARIATA
1. 4 elementi base
popolazione statistica (U): il collettivo di unità statistiche
fenomeno statistico (X): fenomeni di interesse per la statistica
modalità (x): singola manifestazione del fenomeno
numerosità di numero di U (N): numero di unità statistiche che compongono la popolazione statistica
2. classificazione fenomeni statistici
QUALITATIVI: si manifestano attraverso attributi o categorie
ordinali: ordinare secondo un criterio oggettivo, tutti ordiniamo allo stesso modo (es. titolo di studio)
categoriali: utilizzo un criterio personale per ordinare le categorie (es. città di residenza)
QUANTITATIVI: si manifestano attraverso i numeri e possono essere ordinati
discreti: x è un numero intero (es. n di esami a libretto)
continui: le manifestazioni sono intervalli, x dipende dall'unità di misura e dallo strumento (es. peso)
3. scale di modalità
le sdm sonio criteri usati per classificare e misurare i dati, devono rispettare 2 principi:
esaustività: devono prevedere tutte le possibili manifestazioni di x
mutua esclusività: la scala deve prevedere modalità che si escludono a vicenda
esistono di diversi tipi:
QUALITATIVE: attributi o categorie
ordinali: i suoi attributi sono ordinati secondo una logica (es. livello di istruzione), = ≠ > <
sconnesse: i suoi attributi non hanno ordine logico (es. le scale dicotomiche, M/F)
QUANTITATIVE: numeri, si distinguono rispetto all’origine
rapporto: l'origine è 0 con significato assoluto, assenza del fenomeno (es. reddito), + - * ÷
non rapporto: l'origine non è assoluta (es. temperatura), + - *
cos’è: la vs è il modo in cui organizziamo i dati raccolti, si presenta come un insieme di coppie (k) formate da:
modalità (xi): la caratteristica specifica osservata (es. voto all’esame)
frequenza (fi): n volte che quella modalità si presenta
tipi di frequenze:
assoluta (fi): n di unità che presentano quella modalità, sono numeri interi con somma pari a N, non sono
confrontabili
relativa (pi): 𝑝𝑖 = 𝑓𝑖 𝑑𝑖 𝑥𝑖
𝑁 , sono confrontabili, è un n compreso tra 0 e 1 e la loro somma è 1
percentuale: la relativa * 100, la + comprensibile per comunicare i risultati, la somma è 100
cumulate: somma progressiva delle precedenti
5. definire le frequenze cumulate e discutere la relazione con le frequenze assolute relative
la frequenza cumulata è la somma progressiva di frequenze, è calcolabile sono con variabili ordinali, esiste di due tipi:
assoluta: è la somma della frequenza assoluta corrente e di tutte quelle che la precedono
relativa: è la somma della frequenza relativa corrente e di tutte quelle che la precedono
relazione biunivoca: se conosco una conosco l’altra
somma: sommo le frequenze normali = cumulate
sottrazione: frequenze cumulate -> sottraggo = frequenze normali
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica statistica di base, fulvia mecatti e più Appunti in PDF di Statica solo su Docsity!

ESAME STATISTICA

DESCRITTIVA MONOVARIATA

  1. 4 elementi base
    • popolazione statistica (U): il collettivo di unità statistiche
    • fenomeno statistico (X): fenomeni di interesse per la statistica
    • modalità (x): singola manifestazione del fenomeno
    • numerosità di numero di U (N): numero di unità statistiche che compongono la popolazione statistica
  2. classificazione fenomeni statistici QUALITATIVI: si manifestano attraverso attributi o categorie
    • ordinali: ordinare secondo un criterio oggettivo, tutti ordiniamo allo stesso modo (es. titolo di studio)
    • categoriali: utilizzo un criterio personale per ordinare le categorie (es. città di residenza) QUANTITATIVI: si manifestano attraverso i numeri e possono essere ordinati
    • discreti: x è un numero intero (es. n di esami a libretto)
    • continui: le manifestazioni sono intervalli, x dipende dall'unità di misura e dallo strumento (es. peso)
  3. scale di modalità le sdm sonio criteri usati per classificare e misurare i dati, devono rispettare 2 principi:
    • esaustività: devono prevedere tutte le possibili manifestazioni di x
    • mutua esclusività: la scala deve prevedere modalità che si escludono a vicenda esistono di diversi tipi: QUALITATIVE: attributi o categorie
    • ordinali: i suoi attributi sono ordinati secondo una logica (es. livello di istruzione), = ≠ > <
    • sconnesse: i suoi attributi non hanno ordine logico (es. le scale dicotomiche, M/F) QUANTITATIVE: numeri, si distinguono rispetto all’origine
    • rapporto: l'origine è 0 con significato assoluto, assenza del fenomeno (es. reddito), + - * ÷
    • non rapporto: l'origine non è assoluta (es. temperatura), + - * cos’è: la vs è il modo in cui organizziamo i dati raccolti, si presenta come un insieme di coppie (k) formate da:
    • modalità ( xi ): la caratteristica specifica osservata (es. voto all’esame)
    • frequenza ( fi ): n volte che quella modalità si presenta tipi di frequenze:
    • assoluta ( fi ): n di unità che presentano quella modalità, sono numeri interi con somma pari a N, non sono confrontabili
    • relativa ( pi ): 𝑝𝑖 = 𝑓𝑖^ 𝑑𝑖 𝑁 𝑥𝑖, sono confrontabili, è un n compreso tra 0 e 1 e la loro somma è 1
    • percentuale: la relativa * 100, la + comprensibile per comunicare i risultati, la somma è 100
    • cumulate: somma progressiva delle precedenti
  4. definire le frequenze cumulate e discutere la relazione con le frequenze assolute relative la frequenza cumulata è la somma progressiva di frequenze, è calcolabile sono con variabili ordinali, esiste di due tipi:
    • assoluta: è la somma della frequenza assoluta corrente e di tutte quelle che la precedono
    • relativa: è la somma della frequenza relativa corrente e di tutte quelle che la precedono relazione biunivoca: se conosco una conosco l’altra
    • somma: sommo le frequenze normali = cumulate
    • sottrazione: frequenze cumulate - > sottraggo = frequenze normali
  1. assunto di “valore centrale” e “distribuzione uniforme” non sappiamo in quale degli infiniti punti si posiziona ciascuna delle unità statistiche, la distribuzione interna degli intervalli è ignota per superare questo ostacolo si ricorre a 2 ipotesi:
    • ipotesi del valore centrale: si ipotizza che le unità all'interno dell'intervallo abbiano il valore che sta a metà (semisomma degli estremi), si perde il carattere di continuità
    • ipotesi di uniforme distribuzione: distribuisce in modo uniforme i soggetti all’interno dell’intervallo (intervalli regolari), mantiene la continuità
  2. definire la densità di frequenza e l’istogramma quando i dati sono raggruppati in intervalli le frequenze assolute possono “mentire”, a parità di frequenze un intervallo + ampio è – denso. densità di frequenza ( di ): frequenza dell’intervallo depurata dell’ampiezza dell’intervallo (quanto sono densi i dati in quel pezzo di grafico) la miglior rappresentazione grafica è l’istogramma, la distribuzione di frequenza all’interno degli intervalli è ignota usiamo quindi l’ipotesi di uniforme distribuzione, nell’istogramma:
    • A= frequenza
    • b= ampiezza dell’intervallo
    • h= densità di frequenza
  3. interpretare la distribuzione di frequenze cumulate per un fenomeno quanti continuo anche in relazione all’istogramma in un istogramma le frequenze (relative e assolute) sono rappresentate dalle aree, le frequenze cumulate sono la somma delle aree. per calcolare la frequenza cumulata per un valore X interno ad un intervallo dobbiamo usare l’ipotesi di uniforme distribuzione
  4. la moda, calcolo e informazione per fenomeni quali e quanti e gli adattamenti per il caso di modalità intervallari la moda ( x0 ) è la modalità a cui è associata la frequenza più elevata fra le k, da più informazioni tanto è più elevata la frequenza corrispondente, quando è rappresentata graficamente si individua ad occhio (spicchio più grande della torta). X continuo: gli intervalli hanno ampiezze diverse, bisogna usare la densità di frequenze e chiamiamo intervallo modale quello a cui è associata la densità più alta
  5. la mediana, calcolo e informazione (anche con modalità intervallari) X ordinale (quali): è la modalità che occupa la posizione centrale nell’ordinamento, divide la popolazione 50 e 50 (in uno le modalità inferiori nell’altro superiori) X continua (quanti): le modalità sono intervalli e quindi si parla di intervallo mediano (raggiunge o supera 0,5), per trovare il valore preciso si usa l’ipotesi di uniforme distribuzione
  6. media aritmetica, pregi e difetti la media aritmetica (x̅ ) è un valore medio di sintesi, si esprime nella stessa unità di misura di X, per calcolarla: ogni modalità ( xi ) * la sua frequenza ( fi ) si somma tutto e si divide per N [ (x1 * f1) + (xn * fn) / N ] se usiamo le frequenze relative NON dividiamo per N in quanto sono già divise X continua: si calcola usando l’ipotesi del valore centrale pregi e difetti:
    • annullamento degli scarti: è il baricentro della distribuzione
    • mantenimento del totale: sostituendo tutti i valori con x̅ il totale non cambia
    • sensibilità agli outliers: i valori anomali creano sbilanciamento
    • non coglie la variabilità
    • i polli di Trilussa
  • vantaggi: utile a livello teorico, calcoli complessi
  • svantaggi: non misura direttamente la variabilità tutte e tre valgono 0 se non c’è variabilità
  1. definire la relazione tra deviazione standard, varianza e devianza in un fenomeno quantitativo (riassunto) le tre misure derivano l’una dall’altra, in una scala gerarchica:
  2. devianza: calcolo scarto per ogni dato e lo elevo al quadrato
  3. varianza: media scarti al quadrato
  4. deviazione standard: radice quadrata tutte e tre condividono alcune caratteristiche:
  • valore 0: se non c’è variabilità
  • valori positivi: in presenza di variabilità e più alti man mano che i dati si disperdono dalla media
  • misure assolute: sono influenzate dall’ordine di grandezza e unità di misura dei dati - > non permettono confronto che informazione danno:
  • devianza: quantità totale di variazione, utile nella teoria
  • varianza: quanta variabilità c’è in media per ogni unità (espressa al quadrato)
  • deviazione standard: è la migliore, annulla il quadrato, stessa unità di misura dei dati
  1. discutere il problema del confronto del medesimo fenomeno osservato in due popolazioni essendo misure assolute (deviazione e varianza) cioè influenzate dall’ordine di grandezza (quanto è grande il numero con cui si sta lavorando) e unità di misura dei dati, non sono confrontabili. ci dicono solo se c’è variabilità non se c’è tanta o poca variabilità, per confrontarle è necessario creare una misura di variabilità relativa (misura assoluta / media aritmetica): coefficiente di variabilità la media è utile perché:
  • sintetizza l’ordine di grandezza
  • è espressa nell’unità di misura dei dati
  1. definizione coefficiente di variabilità e il suo potere informativo il cv è una misura relativa, è un indice puro (non ha unità di misura) e quindi confrontabile tra:
  • fenomeni con diverso ordine di grandezza
  • fenomeni con diversa unità di misura
  • fenomeni rilevati su diverse popolazioni il cv è sempre positivo, occasionalmente <
  1. metodologia indice normalizzato la normalizzazione è il processo che permette di trasformare un indice assoluto in percentuale (intervallo tra 0 e 1). è utile perché è più leggibile:
  • indice vicino a 0: poca variabilità
  • indice vicino a 1: tanta variabilità l’indice può essere trasformato in percentuale DESCRITTIVA BIVARIATA
  1. come si organizza il risultato della rilevazione congiunta e le distribuzioni sulla tabella a doppia entrata la tabella a doppia entrata è lo strumento base per organizzare i dati di due fenomeni contemporaneamente:
  • X primo fenomeno: sulle righe
  • Y secondo fenomeno: sulle colonne all’incrocio si trovano i dati che riguardano entrambe, come si legge?

es. relazione tra genere (X) e abitudine al fumo (Y) su un campione di 100 persone Genere (x) / fumo (y) fumatore Non fumatore Totale (marginale x) uomini 20 30 50 donne 10 40 50 Totale (marginale y) 30 70 100 (N) le frequenze congiunte: sono i numeri all’interno della tabella, ci dicono quante unità statistiche (in questo caso quante persone) possiedono contemporaneamente le caratteristiche di x e y le frequenze marginali ( fi e fj ): numeri che trovi ai bordi, ci dicono come si comportano i fenomeni separatamente l’uno dall’altro, si ottengono sommando le frequenze congiunte delle righe o delle colonne numerosità totale (N): se sommi tutte le frequenze congiunte o tutte le frequenze marginali ottieni sempre N (numero totale di unità osservate) frequenze marginali relative: totale marginale di x o y / N, il risultato sarà sempre 1 e serve come controllo matematico, servono a descrivere la composizione del gruppo indipendentemente dal numero totale

  1. enunciare le frequenze marginali e condizionate, ruolo e definizione di indipendenza statistica le frequenze marginali ci danno informazione di un fenomeno ignorando l’altro, le frequenze condizionate servono a studiare come si comporta un fenomeno “all’interno” di una categoria dell’altro (es. quanti sono i fumatori a condizione che siano uomini o donne) sono frequenze relative calcolate su righe o colonne e poi divise per il tot di quella riga o colonna (danno sempre 1)
  2. indipendenza statistica è la situazione in cui due fenomeni non si influenzano definizione: due fenomeni x e y sono indipendenti se le frequenze condizionate sono uguali tra loro e uguali alla frequenza marginale (x non ci da informazioni su y e viceversa) per esserci indipendenza ogni frequenza congiunta deve essere uguale al prodotto dei suoi margini / totale la tabella teorica di indipendenza: è la tabella che esisterebbe se i due fenomeni osservati non fossero dipendenti
    • costruzione: si guardano solo i marginali, la risposta matematica in ogni cella è frequenza teorica= tot della riga * tot della colonna / N es. es. relazione tra genere (X) e abitudine al fumo (Y) su un campione di 100 persone Genere (x) / fumo (y) fumatore Non fumatore Totale (marginale x) uomini 10 40 50 donne 10 40 50 Totale (marginale y) 20 80 100 (N) perché c’è indipendenza? le frequenze condizionate sono uguali (il 20% degli uomini fuma e il 20% delle donne fuma)
  3. la connessione e la costruzione dell’indice chi-quadrato ( ) dopo aver visto se c’è indipendenza bisogna misurare la connessione (se x e y sono legati, quanto lo sono?) connessione: generica relazione statistica rilevabile in una coppia di fenomeni passaggi:
    1. costruzione tabella teorica di indipendenza: + le due tabelle sono lontane + è forte la connessione

il voto alla laurea è indipendente in media dal consumo di caffè. significato statistico: dire che c’è indipendenza in media significa che non esiste una relazione di connessione tra le variabili che influenzi le medie (ma ci può essere un’altra dipendenza)

  1. indice di dipendenza l’indice di dipendenza ( ) serve a misurare quanto un fenomeno Y dipende da un fenomeno X, se Y dipende da X le medie condizionate dei gruppi saranno diverse = varianza FRA / varianza marginale (variabilità totale di Y) interpretazione dei risultati: = 0 - > indipendenza in media = 1 - > massima dipendenza valori intermedi - > moltiplico * 100 e ottengo la percentuale di dipendenza
  2. rappresentazioni grafiche: scatter plot e tabella a doppia entrata quando entrambi i fenomeni sono quantitativi possiamo studiare la natura della loro relazione attraverso dei grafici:
    • scatter plot (diagramma a dispersione): si utilizza un piano cartesiano (X ascissa, Y ordinate), ogni coppia di dati (xi. yi) è un punto - formazione di una struttura: c’è relazione - sparpagliati: non c’è relazione
    • tabella a doppia entrata: si usano delle bolle, + è grande la bolla + il dato si ripete
  3. utilità diagramma a dispersione permette di capire se c’è relazione, se forte o debole e anche di che tipo:
    • lineare: i punti seguono una linea
    • quadratica/ esponenziale/ logaritmica: i punti seguono una curva
    • cubica: i punti seguono una S 3 1. concetto di correlazione ruolo della covarianza e coefficiente di correlazione lineare con il termine correlazione si intende la relazione tra due (o più) fenomeni e rappresenta la capacità di un fenomeno di variare al variare dell’altro, la misura della correlazione è basata sulla covarianza. covarianza (σxy): misura quanto le variabili variano in coppia, si basa sul prodotto degli scarti della media, l’aspetto più importante è il segno
    • positivo: se gli scarti ponderati sono + allora la covarianza è +, al crescere di X cresce Y
    • negativo: se gli scarti ponderati sono - allora la covarianza è - , al decrescere di X cresce Y (e viceversa)
    • nulla: può essere uguale a 0, X e Y non sono correlati (succede anche quando i punti non sono a linea) nb. covarianza nulla poiché i dati si distribuiscono in modo non lineare non è detto che siano indipendenti (es. quadrato) dopo aver constatato che X e Y sono correlati dobbiamo misurare il grado di correlazione, usiamo il coefficiente di correlazione lineare (ρ) coefficiente di correlazione lineare: misura il grado di correlazione, covarianza / il suo valore massimo
    • ρ= +1: correlazione positiva perfetta
    • ρ= - 1: correlazione negativa perfetta
    • ρ = 0: variabili incorrelate
    • valori intermedi:
      • compresi tra - 1 e 0: correlazione negativa
      • compresi tra 0 e +1: correlazione positiva
  4. concetti di incorrelazione, indipendenza e massima connessione
    • incorrelazione: assenza di relazione lineare (ρ=0)
  • indipendenza statistica: assenza di qualsiasi relazione ( =0)
  • perfetta correlazione: perfetta relazione lineare (ρ= +1 se crescono o - 1 se decrescono)
  • massima connessione: c’è un legame perfetto di qualunque natura ( =1)
    • tabella quadrata: connessione biunivoca (X decide Y e viceversa)
    • tabella rettangolare: connessione univoca (uno solo dei due fenomeni dipende dall’altro)
  1. differenza tra indipendenza statistica, indipendenza in media e massima connessione (confronto valori chi/eta-quadro) chi-quadro ( ): indipendenza STATISTICA, serve per vedere se c’è un legame tra fenomeni (anche quali) eta-quadro (η²): indipendenza IN MEDIA, confrontare le medie di diversi gruppi
  • indipendenza statistica: assenza di qualsiasi relazione ( =0)
  • // in media: medie condizionate uguali tra loro e uguali alla marginale (η²=0)
  • massima connessione: c’è un legame perfetto di qualunque natura ( =1)
  • tabella quadrata: connessione biunivoca (X decide Y e viceversa)
  • tabella rettangolare: connessione univoca (uno solo dei due fenomeni dipende dall’altro) nb. l’indipendenza stat implica l’indipendenza in media ma non è vero il contrario (es. legami che non c’entrano con la media)
  1. concetto di modello statistico (modello di regressione lineare semplice) il modello statistico è una formula che interpreta il comportamento congiunto di X e Y, cerca di:
  • semplificare e organizzare i dati
  • prevedere: se conosco la regola posso immaginare cosa accadrà in situazioni analoghe il modello più semplice è il modello di regressione lineare, si usa una retta per spiegare la relazione tra X e Y la formula è: Y= a + bX
  • X: la variabile indipendente
  • Yˆ: variabile dipendente, si scrive con il cappuccio perché è una stima
  • a: intercetta, il valore di Y^ quando X è a 0
  • b: coefficiente angolare, ci dice quanto cambia Y es. gradi e costo delle bollette X: gradi del termostato a casa Y: costo delle bollette a: anche se tieni il riscaldamento spento (X=0) paghi comunque una quota fissa di tasse in bolletta (a) b: più alzi i gradi (X) più sale il costo delle bollette
  1. scatter plot, spezzata di regressione e modello di regressione
  2. scatter plot: prendo i dati grezzi e li metto nel grafico, i punti sono le coordinate, mi fa vedere a occhio se c’è una relazione (retta) oppure no (dispersione)
  3. spezzata di regressione: unisco i punti medi della nuvola, il risultato è una curva empirica spigolosa
  4. modello di regressione: curva teorica liscia, interpreta la dipendenza di Y da X, può essere usato x previsioni 36.criterio dei minimi quadrati per la retta di regressione l’obiettivo della regressione è trovare una curva teorica che approssimi i dati reali, poiché tra i punti dispersi ne grafico passano in finite rette abbiamo bisogno di un criterio per scegliere la migliore. il criterio dei minimi quadrati stabilisce che la migliore è quella che rende minima la distanza tra i dati e i valori teorici del modello, come si costruisce:
  5. calcolo la differenza per ogni punto ( yi-y^i )
  6. elevo al quadrato: poiché alcuni punti sono sopra e altri sotto alla retta si annullerebbero, (( yi-y^i) ² )
  7. la retta dei minimi quadrati è l’unica che rende la somma di tutti questi scarti al quadrato la più piccola da questo otteniamo i coefficienti della retta (a e bx)
  • b: rapporto tra covarianza e varianza di X b= cove(x,y)/var(x)
  • a: a= media di y- bx̅
  1. definizione classica e frequentista di probabilità classica:
    • formula: P(E)= n di casi favorevoli a E / n di tutti i casi possibili
    • condizioni: si applica a spazi campionari finiti e dove tutti i casi sono equiprobabili
    • limiti: spesso è impossibile contare tutti i casi di cui necessita (specialmente con eventi complessi) frequentista: la probabilità P(E) è pensata come il risultato di un esperimento casuale ripetibile un gran numero (N) di volte sempre nelle stesse condizioni
    • formula: (^) 𝑁𝑙𝑖𝑚→∞ 𝑁^ 𝑓 dove f è il numero di volte in cui l’evento si è verificato
    • concetto: la frequenza relativa tende a stabilizzarsi intorno ad un valore man mano che aumentano le prove
    • vantaggi: permette di considerare spazi campionari infiniti e calcolare le probabilità anche quando i casi non sono ugualmente possibili
    • limiti: richiede che le prove siano ripetute nelle stesse condizioni e casistiche “sufficientemente grandi” la probabilità di un qualunque evento E è sempre compresa tra 0 e 1