Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Domande statistica esame scritto, Schemi e mappe concettuali di Statistica Sociale

Domande utili come riferimento per esame scritto di statistica

Tipologia: Schemi e mappe concettuali

2021/2022
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 05/05/2023

desy-messina
desy-messina 🇮🇹

5

(4)

4 documenti

1 / 27

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA DESCRITTIVA
Statistica: scienza che utilizza il metodo scientifico attraverso il quale indaghiamo
fenomeni quantitativi e qualitativi, che riguardino una collettività di elementi e che
presentano variabilità, utilizzando una strumentazione specifica con finalità:
- Previsiva Capire sulla base delle informazioni che raccolgo oggi cosa
accadrà domani
- Descrittiva Finalità di tipo esclusivamente descrittiva
- Inferenziale Che riguarda una dimensione in cui utilizziamo le informazioni
campionarie per riferirle alla popolazione attraverso inferenze probabilistiche
I dati rilevati (attraverso questionari, ecc), che esprimono le modalità di una
variabile, devono essere elaborati: dal concetto, attraverso la misura dei dati, si
genera la variabile di riferimento.
Variabili (trasfigurazione del concetto, diventa dato statistico nel momento in cui
associamo il collettivo con le sue varie modalità) vengono distinte in:
- Qualitative Fanno riferimento a qualità, aggettivi; si esprimono attraverso
scale nominali (NOMINALI/SCONNESSE modalità sono diverse ma sullo stesso
livello; no intensità) o scale ordinali (ORDINALI variabile le cui modalità
sottendono un ordinamento della proprietà di riferimento).
- Quantitative o Metriche Fanno riferimento a quantità, numeri; si
esprimono attraverso scale per intervallo (riferibile ad uno zero arbitrario o
convenzionale, in corrispondenza del quale si è fissato il livello di base,
confronto solo per differenza) o a rapporti (riferibile ad uno zero assoluto, in
corrispondenza del quale il fenomeno che sto misurando non esiste,
confronto sia per differenza che per rapporto). Distinzione in CONTINUE (può
assumere tutti i valori all’interno di un intervallo) DISCRETE (soltanto un
numero finito di valori, spesso sottendono un conteggio)
MATRICE: insieme di righe (unità statistiche) e colonne (variabili).
- Distribuzioni di frequenza (tabella pivot) prospetto che esprime le modalità
della variabile e il numero di volte in cui ciascuna modalità si presenta.
- Frequenze assolute (ni) somma delle singole frequenze
- Frequenze relative (fi) peso di ciascuna modalità sul collettivo; (ni)/n cioè
frequenza assoluta/collettivo; la loro somma è sempre 1
- Frequenza percentuali (pi) per fare confronti tra collettivi diversi; la
somma di tutte le pi è 100; fi*100 cioè frequenza relativa*100
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
Discount

In offerta

Anteprima parziale del testo

Scarica Domande statistica esame scritto e più Schemi e mappe concettuali in PDF di Statistica Sociale solo su Docsity!

STATISTICA DESCRITTIVA

Statistica: scienza che utilizza il metodo scientifico attraverso il quale indaghiamo fenomeni quantitativi e qualitativi, che riguardino una collettività di elementi e che presentano variabilità, utilizzando una strumentazione specifica con finalità:

  • Previsiva  Capire sulla base delle informazioni che raccolgo oggi cosa accadrà domani
  • Descrittiva  Finalità di tipo esclusivamente descrittiva
  • Inferenziale  Che riguarda una dimensione in cui utilizziamo le informazioni campionarie per riferirle alla popolazione attraverso inferenze probabilistiche I dati rilevati (attraverso questionari, ecc), che esprimono le modalità di una variabile, devono essere elaborati: dal concetto, attraverso la misura dei dati, si genera la variabile di riferimento. Variabili (trasfigurazione del concetto, diventa dato statistico nel momento in cui associamo il collettivo con le sue varie modalità) vengono distinte in:
  • Qualitative  Fanno riferimento a qualità, aggettivi; si esprimono attraverso scale nominali (NOMINALI/SCONNESSE modalità sono diverse ma sullo stesso livello; no intensità) o scale ordinali (ORDINALI variabile le cui modalità sottendono un ordinamento della proprietà di riferimento).
  • Quantitative o Metriche  Fanno riferimento a quantità, numeri; si esprimono attraverso scale per intervallo (riferibile ad uno zero arbitrario o convenzionale, in corrispondenza del quale si è fissato il livello di base, confronto solo per differenza) o a rapporti (riferibile ad uno zero assoluto, in corrispondenza del quale il fenomeno che sto misurando non esiste, confronto sia per differenza che per rapporto). Distinzione in CONTINUE (può assumere tutti i valori all’interno di un intervallo) DISCRETE (soltanto un numero finito di valori, spesso sottendono un conteggio) MATRICE: insieme di righe (unità statistiche) e colonne (variabili).
  • Distribuzioni di frequenza (tabella pivot) prospetto che esprime le modalità della variabile e il numero di volte in cui ciascuna modalità si presenta.
  • Frequenze assolute (ni) somma delle singole frequenze
  • Frequenze relative (fi) peso di ciascuna modalità sul collettivo; (ni)/n cioè frequenza assoluta/collettivo; la loro somma è sempre 1
  • Frequenza percentuali (pi) per fare confronti tra collettivi diversi; la somma di tutte le pi è 100; fi100 cioè frequenza relativa
  • Frequenza percentuale cumulata  si somma pi fra loro (la prima è uguale) DISTRIBUZIONE PER CLASSI DI VALORI: per variabili continue o discrete con molte modalità: si divide l’intervallo di variazione (Xmin-Xmax) in parti disgiunte non sovrapponibili (classi di valori) e si contano i casi in ciascuna classe o intervallo di valori. Le classi possono avere tutte la stessa ampiezza o avere ampiezze diverse; l’ampiezza delle classi si calcola con la differenza tra i due estremi che compongono la classe (‘’xi+1’’-xi). Meno classi facciamo più informazioni perdiamo. Quando si costruisce la classe bisogna fare attenzione all’inclusione dei valori estremi (estremi inclusi in una sola classe), soprattutto quando i valori sono continui; quando sono discreti invece le classi possono anche non essere contigue. EXCEL: per calcolare ni delle classi di valori utilizzare =FREQUENZA (A2:A100;matrice_bin) dove la matrice binaria si forma utilizzando gli estremi degli intervalli delle classi. GRAFICO: è una immagine che riproduce la tabella, serve a rendere più semplice e leggibile il dato statistico; deve rappresentare l’info senza che essa venga alterata nelle sue proprietà, difatti al variare dell’info cambierà anche il tipo di grafico.
  • Grafico a torta: si divide in settori circolari sulla base del numero di modalità e alla frequenza. È intuitivo. L’ampiezza dipende dall’angolo. Angolo di ogni fetta = fi*360. Si utilizza quando la variabile è qualitativa nominale/sconnessa, quando si hanno poche modalità. (non viene messo in ordine il dato).
  • Grafico a colonne: può esser disposto sia in modo verticale che orizzontale. L’altezza delle colonne è proporzionale alla frequenza corrispondente a ciascuna modalità. Si utilizza quando si hanno tante modalità. Viene detto ad aste quando la variabile è discreta poiché i valori sono finiti e non possono essere sostituiti; l’asta è un segmento che parte da 1 e ha altezza pari alla frequenza, al numero 1 corrisponde un solo punto 0 5 10 15
  • Istiogramma: rappresentazione che si realizza attraverso rettangoli adiacenti; un rettangolo corrisponde a ciascuna classe di valori con alla base gli estremi delle classi, altezza: con classi hanno uguale ampiezza è uguale a ni ; con classi con diversa l’altezza è rappresentata dalla densità di frequenza ‘’di’’ ni/ai
  • Quantili: fa parte anche la mediana; valori soglia che staccano parti di uguale numerosità nella distribuzione ordinata, per individuale i vari quantili si segue una strategia analoga a quella usata per il calcolo della mediana: QUARTILI ( parti, Q1 preceduto da 25% e seguita dal 75%; Q2 mediana= preceduta e seguita dal 50%; Q3 preceduto da 75%; certe volte possono coincidere l’uno con l’altro soprattutto quando ci sono poche modalità); DECILI (10 parti, D1; D2; D3…D9); QUINTILI (5 parti); PERCENTILI (100 parti, P1; P2; P3…P99). In generale guardiamo le frequenze relative cumulate (Quartili (25%; 50%; 75%; DECILI 10%20% ...90%;). E medie analitica, calcolata con operazioni algebriche
  • Media Aritmetica  indice di tendenza centrale, quel valore che assegna a tutte le modalità del carattere lo stesso valore (se tutti avessero la stessa età avrebbero l’età media). Quando ho i valori singolarmente elencati calcolo l’ammontare complessivo del carattere fratto la numerosità del collettivo M= (Ʃxi)/N.; si può calcolare solo per variabili qualitative. Dati sottoforma di distribuzione di frequenza : sommatoria di ciascuna modalitàla sua frequenza/N. M= [Ʃ(xini)/N] Ammontare complessivo del carattere può essere trovato sommando n volte la media (n volte dipende dal numero di unità statistiche). Con classi di valori sommatoria del valore centrale di ogni classe (xc= estremo superiore+estremo inferiore/2) diviso N. M=(Ʃxc)/N Classi di valori in distribuzione sommatoria del valore centrale di ogni classe moltiplicato per la rispettiva frequenza assoluta diviso N. M=[Ʃ(xcni)]/N. PROPRIETA’ : internalità: è sempre compresa tra il minimo e massimo valore osservato; segue la stessa unità di misura delle modalità; è il baricentro della distribuzione, sommatoria scarti positivi e negativi fa 0, Ʃ(xi-M)=0; proprietà associativa per cui la media di k gruppi è la media ponderata (ponderazione dipende dalla numerosità dei gruppi) delle medie parziali (le medie dei singoli gruppi) M= (x1n1+x2n2+…xk+nk) / (n1+n2+…nk); la somma dei valori osservati è uguale al valore medio moltiplicato per il numero di unità (sommatoria xi= nM). La media è soggetta agli estremi di una distribuzione (out liers) in quanto, per calcolarla, vanno prese in considerazione tutte le unità del collettivo. Per questo motivo la media tende di solito ad essere tirata verso il valore massimo o minimo della distribuzione, qualora tale valore si discosti di molto da tutti gli altri. Ciò spiega perché, nelle distribuzioni asimmetriche, si

preferisce utilizzare la mediana in quanto non è condizionata dagli estremi della distribuzione. RELAZIONE INDICI DI TENDENZA: Moda (Mo), mediana (Me) e la media (M).  Se la distribuzione di frequenza è simmetrica unimodale allora Mo=Me=M;  se la distribuzione di frequenza è simmetrica bimodale allora Me=M, Me≠Mo, M≠Mo, Mo1≠Mo2;  se la distribuzione di frequenza è asimmetrica positiva e unimodale allora Mo≠Me≠M, M>Me, in quanto lo sbilanciamento dei valori alti si tira verso l’alto della media;  se la distribuzione di frequenza è asimmetrica negativa e unimodale allora Mo≠Me≠M, M Nel grafico di una distribuzione si dice simmetrica quando i valori equi-distanti dalla mediana hanno la stessa frequenza; l’ascissa del punto di massimo corrisponde alla moda; la media aritmetica è un valore compreso tra il minimo e il massimo; la somma algebrica degli scarti dalla media, cioè della differenza di ogni modalità meno la media, è sempre =0; VARIABILITA’  è l’attitudine che ha un fenomeno a presentarsi con diverse modalità. In statistica ci poniamo il problema di capire se abbiamo osservato variabilità e di calcolare l’intensità mediante indici. Successivamente cerchiamo di spiegarci perché abbiamo osservato questa variabilità. Abbiamo rilevato delle informazioni relative a caratteri di interesse e ci preoccupiamo di capire se il carattere di interesse nel collettivo manifesta o meno variabilità. Se presenta variabilità ci preoccupiamo di coglierne l’intensità. Il valore si può esprimere calcolando indici o misure di variabilità. INDICE DI VARIABILITA’ : è una funzione dei dati che deve soddisfare due requisiti:

  • Deve assumere il valore minimo se e solo se tutte le unità della distribuzione presentano uguale modalità del carattere.
  • Deve aumentare all’aumentare della “diversità” tra modalità assunte dalle varie unità (funzione crescente) MISURE DI VARIABILITA’ : si basano su due concetti fondamentali, disuguaglianza (confrontiamo tra loro due modalità) e dispersione (confrontiamo tutte le modalità con la media). Riguardo le variabili quantitative le misure di disuguaglianza sono:
    • Campo di variazione o range : dati n valori e ordinati in senso crescente (x1<x2<…xn) si considera la differenza tra il più grande e il più piccolo valore R=max(x)-min(x);

Per caratteri qualitativi utilizzeremo degli indici di omogeneità (assenza di variabilità) o eterogeneità ( si manifesta una diversità tra le modalità). Il massimo di eterogeneità si presenta quando abbiamo una equi-distribuzione delle unità tra tutte le modalità del carattere, si calcola dividendo 1 per k (numero di una modalità della variabile) e poi sottraendo il risultato ad 1 → Emax=1-(1/k).

  • Indice di eterogeneità di Gini assoluto va calcolato il quadrato di ciascuna frequenza relativa, poi si fa la sommatoria dei risultati e infine si sottrae il risultato ad 1 → E=1-Ʃ(fi)^2. I valori che questo indice può assumere vanno da 0 al massimo dell’eterogeneità.
  • Indice di eterogeneità relativa si calcola dividendo l’indice di eterogeneità del Gini (ε) per eterogeneità massima (Emax)→ Erel= E/Emax. Questo indice presenta valori compresi tra 0 e 1. BOXPLOT è composto da tre elementi:
  1. Una linea o punto che indica la posizione della media della distribuzione
  2. Un rettangolo o box la cui altezza indica la variabilità dei valori prossimi alla media o mediana
  3. Due segmenti o baffi che partono dal rettangolo e i cui estremi sono determinati in base ai valori estremi della distribuzione. Si può costruire a partire da: il valore minimo e quello massimo della variabile, il 1° e il 3° quartile e la mediana. Serve a stabilire se una distribuzione di frequenza è o non è simmetrica, ipotizzando che il BoxPlot sia verticale, se i baffi presentano altezza diversa tra loro appare chiaro che la distribuzione è asimmetrica, nello specifico se risulta essere più grande il baffo superiore allora la distribuzione sarà asimmetrica positiva, viceversa, se è il baffo inferiore a risultare più grande allora la distribuzione sarà asimmetrica negativa.
  • Distribuzione simmetrica  i valori equi-distanti dalla mediana si presentano con la stessa frequenza
  • Distribuzione asimmetrica  i valori non sono equidistanti dalla mediana si presentano in ordine in base alla simmetria se è positiva o negativa.

STATISTICA DESCRITTIVA BIVARIATA

La statistica bivariata si occupa dello studio di due fenomeni contemporaneamente, di ricercare quale sia la relazione tra questi fenomeni e di misurare l’intensità della loro relazione. Esistono 3 tipi di relazione entro le quali possono essere messe a confronto due variabili.  Legame di interdipendenza quando si assume che i caratteri hanno tutti la stessa importanza e che il legame tra di essi sia di interdipendenza perfetta bidirezionale,

ad ogni modalità di uno dei due caratteri corrisponde a una e una sola modalità dell’altro carattere. In questo caso si misurano le associazioni statistiche tra le due variabili attraverso gli indici di esistenza e intensità del legame, diverse per variabili: entrambe qualitative (vedere tabella doppia; esistenza Chi Quadro (X), intensità V di Cramer (V)); entrambe quantitative (vedere diagramma dispersione; esistenza covarianza (covxy), intensità coefficiente di regressione lineare o r di Pearson); graduatorie (esistenza e intensità Rho di Spearman (ρ));  Legame di indipendenza quando tra due variabili non esiste alcun legame, presi due caratteri, la conoscenza delle modalità di uno non migliora la previsione delle modalità dell’altro. Può essere osservato: se l’indice di esistenza del legame risulta pari a 0; variabili quantitative inesistenza legame attraverso il grafico di dispersione; altre variabili inesistenza del legame attraverso le tabelle di indipendenza, distribuzioni di frequenza condizionate tra X e Y, non vi è legame se le distribuzioni della X o della Y sono uguali per riga o per colonna.  Legame di dipendenza si ha quando le modalità di un carattere dipendono da quelle di un altro carattere secondo un legame unidirezionale. Legame di dipendenza perfetta unidirezionale quando ad ogni modalità di X corrisponde sempre una sola modalità di Y, ma non il contrario. Dipendenza logica tra due caratteri quando sono note a priori le loro relazioni di causa ed effetto. Non viene misurata, si rintraccia un modello matematico che attraverso un’equazione esprime il legame funzionale tra la variabile indipendente (X) e la variabile dipendente (Y). Esempio due variabili quantitative: la dipendenza si ipotizza attraverso l'osservazione dei dati all'interno di un grafico di dispersione, successivamente si trova la retta di regressione espressa da un'equazione della quale non si conoscono due parametri quali β0 e β1.

  • Distribuzioni di frequenza doppie/tabella a doppia entrata/distribuzione congiunta : Tabella in cui si riportano informazioni relative congiuntamente a due caratteri X e Y. È l’insieme delle modalità della variabile doppia e delle frequenze con le quali si presenta ogni coppia di modalità, una modalità della variabile x e una modalità della variabile y. Se x e y hanno lo stesso numero di modalità la tabella si dice quadrata , altrimenti rettangolare xy (53; 5 modalità x e 3 modalità y) Ci servono per capire se tra le due variabili c’è un legame/relazione (cosa succede al variare di x a y e viceversa). È lo strumento che ci aiuta a capire se c’è un legame tra due variabili nel caso di variabili qualitative o quantitative con poche modalità.  Modalità: di x nelle righe (x1; x2…xr) e di y nelle colonne (y1; y2…yc)

Non c’è legame quando al variare delle modalità di x le modalità di y non cambiano.  Relazione spuria : l’associazione che è mediata da un’altra variabile (ho tre variabili x;y;z le prime due mi sembrano legate, perché le sto guardando, ma in realtà è z che le lega)  Relazione/associazione statistica : può esserci una correlazione tra due variabili che però nella realtà non c’entrano nulla, difatti tutti gli indici vanno sempre applicati a variabili che ha senso associare. VARIABILI QUALITATIVE: Indice x quadro : Per verificare se esiste legame tra le due variabili entrambe qualitative. È dato dal quadrato della sommatoria delle frequenze osservate (congiunte) meno le frequenze teoriche / le frequenze teoriche. x^2= ∑ ( foft ) 2 ft una volta calcolate tutte le differenze^2/ft faccio la sommatoria e quello sarà il valore di x^2.  X^2=0 quando ft=fo; quindi, non c’è legame (indipendenza variabili)  X^ diverso da 0 c’è legame;  Valore massimo= prodotto della numerosità per il valore minimo tra le righe - 1 e le colonne -1 della tabella a doppia entrata; Xmax =Nm. Indice V di Kramer: Per definire l'intensità del legame tra le due variabili qualitative, che è dato dalla radice quadrata di x quadro/nm (valori minimi di riga e colonna - 1). VARIABILI QUANTITATIVE Diagramma di dispersione: rappresenta graficamente (su un piano cartesiano) la distribuzione doppia di due variabili quantitative (o qualitative ordinali) X e Y. I dati sono visualizzati tramite una collezione di punti, ciascuno con una posizione sull'asse orizzontale determinato da una variabile e sull'asse verticale determinato dall'altra, è possibile intuire: Esistenza o assenza di legame; Direzione o tendenza del legame; Intensità (maggiore è la dispersione, minore è l’intensità del legame; osservando il livello di pendenza della linea tracciata sul grafico)

  • Legame diretto o positivo → al crescere di una variabile cresce anche l’altra (se il legame è lineare, la linea tracciata attraverso il grafico ha una pendenza positiva).
  • Legame inverso o negativo → al crescere di una varabile l’altra decresce (se il legame è lineare, la linea tracciata attraverso il grafico ha una pendenza negativa).
  • Assenza di legame → non vi è legame tra le due variabili (la linea tracciata attraverso il grafico ha una pendenza nulla).

Covarianza : esistenza del legame; esprime la variabilità congiunta di due caratteri; se due caratteri si muovono insieme oppure no; si indica con σ 2 ed è una misura di dispersione, si basa sugli scarti delle modalità di x dalla propria media e sugli scarti delle modalità di y dalla propria media diviso n  (sommatoria degli scarti dalla media di x per gli scarti dalla media di y/n): 𝑐𝑜𝑣(𝑋, 𝑌) = ¿^ ¿^ excel: = 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎. 𝑝 (𝑚𝑎𝑡𝑟𝑖𝑐𝑒1; 𝑚𝑎𝑡𝑟𝑖𝑐𝑒 2 ). È espressa con (unità di misura x*unità di misura y). Può assumere valori positivi, negativi o uguali a 0. È graficamente visualizzabile in un diagramma di dispersione: segnare sul diagramma il punto con coordinate corrispondenti alla media aritmetica della variabile X e quella della; costruire un nuovo sistema di assi cartesiani con origine il punto individuato; se il legame è lineare, osservando la posizione dei punti del diagramma rispetto ai quadranti del nuovo sistema di assi è possibile intuire se:

  • covarianza>0; legame positivo/diretto  i punti si addensano maggiormente nel primo e terzo quadrante
  • covarianza<0; legame negativo/inverso  i punti si addensano maggiormente nel secondo e quarto quadrante
  • covarianza=0; no legame  i punti sono dispersi tra tutti i quadranti Massimo valore che la covarianza di due variabili può assumere è dato dal prodotto dello scarto quadratico medio (deviazione standard) di ciascuna variabile: maxcov(x,y)= 𝜎𝑥 ∗ 𝜎y Indice di correlazione lineare r di Pearson : intensità del legame; è dato dal rapporto tra la covarianza e il suo massimo: r^ =^ cov ( x , y ) max cov ( x , y ) excel: =correlazione (matrice1; matrice2) È un numero puro; è compreso (−1 ≤ 𝑟 ≤ 1), e fornisce informazioni su: direzione del legame (segno) → legame diretto (+) o inverso (-); intensità del legame ( valore assoluto ) → valore più alto=legame più intenso GRADUATORIE coefficiente di correlazione Rho di Spearman : per verificare esistenza e intensità del legame tra due graduatorie. Si calcola con la sommatoria della differenza tra i ranghi (posizione graduatoria) delle graduatorie ( di ) elevata al quadrato/ n(n^2-1): ρ =^1 − | 6 Σ ⅆ ⅈ 2 n (^ n 2 − 1 )^ |^ Su excel per calcolare graduatoria a partire dalla matrice = RANGO.MEDIA(numero; rif.matrice; ordine); E’ un numero puro ; è compreso n (−1 ≤ 𝑟ℎ𝑜 ≤ 1) fornisce informazioni su: esistenza del legame → assente se rho = 0; direzione del legame→ legame diretto (+), legame inverso (-); intensità del legame (valore assoluto) → valore più alto = legame più intenso.

= 1 → E = Ω → evento certo.

  • Probabilità di eventi composti: Negazione di un evento, ossia A̅ (non-A) → probabilità che si verifichi un evento che non sia A; Unione tra due eventi A e B, ossia A ∪ B (A oppure B) → probabilità che si verifichi A oppure B; Intersezione tra due eventi A e B, ossia A ∩ B (A e B) → probabilità che i due eventi A e B si verifichino congiuntamente.
    • Unione tra due eventi (regola della somma) : Probabilità dell’evento C = A ∪ B → probabilità che si verifichi l’evento A oppure l’evento B. I due eventi possono essere a) Incompatibili (intersezione 0) → non possono verificarsi congiuntamente: P(C) = P(A) + P(B), somma delle probabilità dei singoli eventi b) Compatibili → possono verificarsi congiuntamente: P(C) = P(A) + P(B) – P(A ∩ B), somma delle probabilità dei singoli eventi meno la probabilità della loro intersezione; gli elementi in comune si considerano una sola volta.
    • Intersezione tra due eventi (regola del prodotto): Probabilità dell’evento D = A ∩ B → probabilità che due eventi A e B si verifichino congiuntamente. I due eventi possono essere: a) Indipendenti → il verificarsi dell’uno non influenza la probabilità che l’altro si verifichi: P(D) = P(A) * P(B), prodotto delle probabilità dei singoli eventi; b) Dipendenti → il verificarsi dell’uno influenza la probabilità che l’altro si verifichi: P(D) = P(A) * P(B/A) Misuriamo la probabilità degli eventi attraverso l'uso di strumenti rispetto a dei modelli (ad es. distribuzione normale, quindi, curva normale o curva di gauss). Variabili casuali (X) : variabile generata da un esperimento casuale il cui esito è incerto e che può presentarsi in maniera diversa. È una funzione che associa a ciascun elemento di OMEGA un punto sull'asse reale; si descrive con tutte le sue possibili determinazioni (modalità), attraverso una distribuzione di probabilità (frequenza), che indica la probabilità che è associata a ciascuna determinazione di x. Le variabili casuali sono quantitative e possono essere:  Continue  hanno un numero infinito di casi possibili, assume tutti i valori all'interno di un certo intervallo. La sua distribuzione è espressa analiticamente dalla funzione di densità di probabilità f(X) ; graficamente si rappresenta attraverso una curva continua. L'area sottesa alla curva (che esprima la probabilità) nel complesso è sempre 1. È possibile calcolare la probabilità entro intervalli, non sul singolo valore di X. (integrale di f(x) entro x2-x1)

Discrete Numero finito di risultati possibili. La loro distribuzione di probabilità viene descritta analiticamente da una funzione di probabilità P(X=x) , che associa ad ogni valore x dell’insieme Ω (spazio degli eventi possibili) la probabilità che la variabile X assuma esattamente quel valore; la somma dei valori di una distribuzione di probabilità è sempre uguale a uno. Si rappresentano graficamente con il grafico a barre (p(x) asse y; X asse delle x). Si possono calcolare: Valore medio → E(X) = μ e/o Varianza → VAR(X) = σ^2 e tutte le altre misure di sintesi. Funzioni di ripartizione f(x)=P(X ≤ x) → esprime una misura di probabilità cumulata, cioè la probabilità che la variabile casuale X assuma un valore non superiore a x:

  • variabile discreta → la funzione di ripartizione si calcola attraverso una somma;
  • variabile continua → la funzione di ripartizione si ottiene calcolando un’area sino ad x. (integrale da − ^ a x di f(x)) Su Excel: -la funzione di ripartizione entro un certo valore soglia x tramite la funzione: =DISTRIB.NORM.N(valoresoglia;media;dev.st;1);
  • il valore soglia dei quartili della distribuzione di probabilità tramite la funzione: =INV.NORM.N(probabilità;media;dev.st). Variabili casuali notevoli quando la sua funzione di probabilità o di densità è caratterizzata da uno o più parametri p(x) (costante caratteristica di un modello). La distribuzione di probabilità varia solo al variare di P. (X indicatrice di un evento; x= successo; x=0 insuccesso. 1-p=q) Distribuzione normale o gaussiana → una variabile casuale X si dice distribuita normalmente (X~N) quando ha funzione di densità: f (x; μ,σ)= 1 √^2 π^ σ 2 exp^ −( ( xμ ) 2 2 σ (^2) ) (non serve ricordarla, non bestemmiare)
  • La funzione di una distribuzione normale è detta curva normale e ha forma campanulare, simmetrica e unimodale.
  • La distribuzione varia al variare dei suoi parametri: μ (media) → determina la posizione della curva sull’asse delle ascisse; σ (varianza-dispersione dei valori dalla media) → determina l’altezza della curva. Più la funzione è variabile più la curva tenderà ad abbassarsi.
  • Allontanandosi dalla media, la curva è asintotica rispetto all’asse delle ascisse (si avvicina ma non la tocca). Al variare della media la curva trasla parallela a sé stessa;
  • L'area complessiva sottostante alla curva normale è uguale a uno, perché comprende tutti valori della distribuzione di probabilità. La superficie sotto la curva si può calcolare con un integrale.

campionario (affidabilità); se il carattere è molto variabile per avere un campione rappresentativo avrò bisogno di un certo numero di casi se invece la variabilità da riprodurre è circoscritta avrò bisogno di un numero di casi limitato. Questo dipende anche dal tipo di problema, per problemi più complessi dovremmo aumentare l'ampiezza campionaria. Le indagini di tipo campionario sono un tipo di indagine che studiano i fenomeni a partire dalle risultanze rilevate su un sottoinsieme della popolazione. Quando questi risultati vogliono essere generalizzati alla popolazione da cui il campione è stato estratto, la generalizzazione del risultato avviene utilizzando la probabilità che hanno certi eventi di manifestarsi. Quindi per prima cosa dobbiamo presupporre di estrarre dalla popolazione un campione di tipo probabilistico formato da unità statistiche estratte in maniera casuale, in seguito dobbiamo conoscere le regole fondamentali e la probabilità ovvero rilevare il grado di fiducia che si attribuisce al verificarsi di un evento possibile esito di un esperimento. Distribuzione di t Student  ha come parametro il campione statistico n, cioè varia al variare del campione estratto dalla popolazione statistica. •La curva è detta platikurtica; l’area sottostante alla curva compresa entro l’intervallo (−σ , +σ) NON rimane costante al variare della media. •Gli estremi della curva non sono asintonici rispetto all’asse delle ascisse •Più il parametro n è alto (ampiezza collettivo) più la curva assume forma e le caratteristiche simili alla curva normale.

  • L'area sottesa alla curva risulta essere sempre 1; varia al variare dei parametri mi e sigma quadro LA STIMA: primo ambito dell'inferenza statistica. Stimare significa attribuire un valore a un dato incognito; statisticamente insieme di procedure che consentono di attribuire un valore a parametri incogniti relativi al collettivo di interesse Stima puntuale  stimiamo il parametro incognito individuando un valore preciso Stima intervallare  stimiamo il parametro incognito individuando gli estremi di un intervallo che contenga il valore del parametro Possiamo stimare: Mi=media; sigma quadro=varianza; p=proporzione Per effettuarla è necessario estrarre un campione n da una popolazione N e poi calcolare il valore delle statistiche campionarie , funzioni dei dati campionari che possono essere utilizzate come stimatori allo scopo di stimare il valore del parametro incognito; il valore varia al variare del campione estratto, il parametro incognito assume tanti valori stimati quanti sono i possibili collettivi estraibili dalla popolazione.

•Stimatore (t) funzione dei dati campionari utilizzata per stimare il valore del parametro, a partire dai dati raccolti su un campione della popolazione. Lo stimatore è assimilabile ad una variabile casuale, perché è descritto da una distribuzione di stima (o da una funzione di densità di stima) •Distribuzione di stima o distribuzione campionaria modello che associa a ciascuno dei valori assunti dallo stimatore al variare del campione estratto alla probabilità che lo stimatore assuma proprio quel valore Stima della media: devo estrarre alla popolazione un campione (n) e sui dati del campione estratto utilizzare una funzione di stima; Queste funzioni si chiamano statistiche campionarie. Per stimare la media utilizziamo la media campionaria che si indica con x sovrasegnato  = sommatoria di xi/n riferita alla n upla campionaria; le statistiche campionarie sono funzioni dei dati campionari ovvero il loro valore cambia al variare dei dati campionari; la media campionaria è una variabile perché al variare del campione può variare il suo valore quindi da una parte abbiamo la media mi che è una costante, dall'altra abbiamo una moltitudine di valori di stima della media che sono pari a tutti i possibili campioni estraibili dalla popolazione. Il parametro incognito si stima con una funzione che si chiama stimatore  il suo valore varia al variare della n upla campionaria estratta; lo stimatore è una variabile casuale! La media campionaria è una variabile casuale in quanto stimatore ed è variabile perché cambiando il campione nell'universo di tutti i possibili campioni di uguale numerosità il suo valore può cambiare. Stimatori che sono le statistiche campionarie, e al variare del campione nello spazio campionario assumono valori diversi che si chiamano stime. Lo stimatore, in quanto funzione dei dati campionari, è una variabile casuale quindi caratterizzata da una sua distribuzione di probabilità o da una funzione di densità a seconda che sia una variabile continua o discreta. La distribuzione delle stime è caratterizzata da alcuni elementi che la qualificano uno di questi è rappresentato dalla sua variabilità: la misura di variabilità nella distribuzione delle stime si chiama errore standard. L'errore standard esprime l'affidabilità di queste stime, più piccolo sarà il valore dell'errore standard più sarà affidabile il nostro risultato, perché attorno al valore vero c'è poca variabilità e il che significa che le stime sono molto vicine al valore vero.

funzione del campione che potrebbe essere estratto dalla popolazione. La distribuzione di uno stimatore viene rappresentata come una distribuzione di probabilità o funzione di densità secondo che lo spazio campionario sia costituito da un numero finito di elementi oppure no: quindi si rappresenta con una distribuzione di probabilità se la distribuzione di stime è discreta, oppure con una funzione di densità se la distribuzione di stime è continua. La funzione dei dati campionari è lo stimatore si indica con T e attraverso T stimiamo il parametro teta (media, proporzione, varianza). Una volta estratto il campione, lo stimatore dà origine al valore della stima. Dato che esistono diversi stimatori che si possono scegliere per la stessa grandezza caratteristica della popolazione, li scegliamo in funzione di correttezza, consistenza ed efficienza. Uno stimatore è corretto se il valore atteso è uguale al vero valore del parametro stimato. Uno stimatore è consistente se al crescere della numerosità campionaria la probabilità di scarti inferiori rispetto a teta aumenta, se lo stimatore è consistente per n che tende a infinito una distribuzione tende a diventare più appuntita e quindi ho un maggiore probabilità di trovare valori della stima in un intorno nella media molto piccoli mentre diminuisce la probabilità di scarti grandi, di stime distanti dal valore vero. Uno stimatore si dice efficiente se a parità di n, quindi distribuzione di stime relative a due stimatori, sceglierò quello più efficiente cioè quello in corrispondenza del quale l'errore standard della distribuzione delle stime è più piccolo. L’errore standard è una misura di variabilità intorno alla media secondo il quale se lo stimatore è corretto corrisponde al valore vero, quindi più piccola è meglio è, ed esprime l'affidabilità della distribuzione delle stime. (vedi formula sul quad.) Stimatori utilizzati: Mi  Media campionaria (x sovrasegnato)  E(x sovrasegnato) = mi Sigma quadro Varianza campionaria (S quadro)  E(S quadro) diverso da sigma quadro = allora S quadro è uno stimatore distorto di sigma quadro  per ottenere uno stimatore corretto  stimiamo S quadro se è incognito = sommatoria di (xi – x sovrasegnato) al quadr./n-1; oppure se abbiamo S quadro  sommatoria di (xi – x sovrasegnato) al quadr./n; quindi lo stimatore corretto della varianza è la varianza campionaria ottenuta per n-1 e non per n; =DEV.ST.C (calcolata su n-1); =DEV.ST.P (calcolata su n); P  f (proporzione campionaria)  E(f) = p; f è uno stimatore corretto per la proporzione: bisogna prima costruire la distribuzione di frequenza attraverso la tabella pivot e calcolare la frequenza relativa, che è la modalità di interesse, quindi la proporzione.

L’errore standard della distribuzione campionaria della media  esprime in media campionaria quanto i valori delle stime si discostano dal valore vero, è una misura di affidabilità; le condizioni sono che x sia distribuita come una normale e la varianza di x (sigma quadro) sia nota. Altrimenti la distribuzione è distribuita come una t di Student (campanulare simmetrica unimodale) però è più bassa della curva normale per cui all'interno di uno scarto sigma dalla media non c'è compresa quella stessa percentuale di casi della normale; Se devo stimare il sigma attraverso il dato campionario utilizzo la distribuzione t di Student perché la probabilità di avere valori più vicini al valore vero è meno rilevante rispetto a come avvenga sulla curva normale; al crescere della numerosità campionaria, la t di Student e la normale tendono a coincidere. Conoscere la forma della distribuzione delle stime che sia normale o t di Student non è rilevante quando si deve risolvere il problema di stima puntuale, è invece necessario quando si determina una stima intervallare. Intervalli di confidenza  intervallo che con una certa probabilità prefissata dal ricercatore, contiene il vero valore del parametro, è fissata solitamente al 95% (0,95), significa che l'intervallo di estremi da identificare con una probabilità pari a 0,95 contiene il vero valore del parametro, gli estremi dell'intervallo sono funzione del valore della stima calcolata. L'intervallo di confidenza è un intervallo i cui estremi variano al variare della stima che abbiamo calcolato e di alcune caratteristiche della distribuzione delle stime (la forma  se è normale o no) e della sua variabilità (errore standard); se il sigma è noto calcolo l'errore standard; se devo stimare il sigma devo stimare anche l'errore standard. Per cui quando devo determinare gli estremi dell'intervallo di confidenza, se la variabile casuale si distribuisce normalmente perché il sigma è noto e perché x è una normale allora utilizzerò  a = x sovrasegnato – z di alfa mezzisigma di x sovrasegnato b = x sovrasegnato + z di alfa mezzisigma di x sovrasegnato Gli estremi dipendono dalla media campionaria, dall'errore standard e dal valore della curva normale che contiene con una probabilità pari a 0,95 il vero valore del parametro. Per la t di Student utilizzerò  a’ = x sovrasegnato – t di alfa mezzi/n-1(numerosità campionaria)*(sigma di x)l’errore standard stimato