Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica sociale - Caso, Appunti di Statistica Sociale

Appunti di tutte le lezioni con integrazione delle slides date e sintesi del testo di riferimento.

Tipologia: Appunti

2017/2018

Caricato il 01/06/2018

giugia.fost
giugia.fost 🇮🇹

5

(3)

6 documenti

1 / 6

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA SOCIALE
RIPASSO CONCETTI BASE
La DISTRIBUZIONE NORMALE è rappresentata da una particolare curva continua a forma campanulare
(gaussiana)
Infinita: va da - a +
Simmetrica: rispetto alla Y massima (f(x)= punto più alto x= F 0 2 0F 0 6 D)
Unimodale: Media, mediana e moda coincidono (F 0 6 D=Mo=Me)
Asintotica: Si avvicina all’asse x senza mai toccarla
Qualsiasi siano i parametri F 0 6 D0 1 A 1 e , l’area della porzione di curva delimitata dalla media e un ordinata
espressa in termini di deviazioni standard è costante
Per qualsiasi valore x troviamo i punteggi sotto l’area -> punti z
Esistono famiglie di distibuzione normali con diversa media e con uguale deviazione.
Qualsiasi siano i parametri della media e deviazione standard, l’area della porzione di curva delimitata dalla media e
un ordinata espressa in termini di deviazione standard è costante = 1.
DISTRIBUZIONE CAMPIONARIA
Le distribuzioni campionarie (media, proporzioni, varianza, e qualsiasi altro indicatore) assumono forme simili alle
più importanti distribuzioni teoriche di probabilità (normale, t di Student, x2, F di Fisher, …) delle quali si possono
usare le proprietà e i valori tabulati.
Il problema centrale dell’inferenza statistica è quello di generalizzare alla popolazione i risultati ottenuti a livello di
campione.
Popolazione: insieme di unità statistiche che condividono una o più statistiche (caratteriste) ben definite.
Es. La popolazione dei pazienti con diagnosi di depressione bipolare
Campione: sottoinsieme di alementi appartenenti alla popolazione, composto da unità estratte preferibilmente
in modo casuale dalla popolazione.
Es. I pazienti partecipanti ad un trial clinico dull’efficacia di una terapia della depressione
Sul campione si calcolano le statistiche del campione per conoscere i parametri della popolazione -> effettuo una
stima. Questo passaggio dalle statistiche ai parametri si basa sulla conoscenza delle proprietà delle distribuzione
campionarie dei paramentri.
Proprietà della DC:
La forma dipende dalla numerosità n dei campioni se n piccolo la media è meno precisa
1
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Statistica sociale - Caso e più Appunti in PDF di Statistica Sociale solo su Docsity!

STATISTICA SOCIALE

RIPASSO CONCETTI BASE

La DISTRIBUZIONE NORMALE è rappresentata da una particolare curva continua a forma campanulare (gaussiana)

  • Infinita: va da -∞ a +∞
  • Simmetrica: rispetto alla Y massima (f(x)= punto più alto x= F 0 2 0F 0 6 D)
  • Unimodale: Media, mediana e moda coincidono ( F 0 6 D= Mo=Me )
  • Asintotica : Si avvicina all’asse x senza mai toccarla

Qualsiasi siano i parametri F 0 6 D0 1 A 1e , l’area della porzione di curva delimitata dalla media e un ordinata espressa in termini di deviazioni standard è costante Per qualsiasi valore x troviamo i punteggi sotto l’area -> punti z Esistono famiglie di distibuzione normali con diversa media e con uguale deviazione.

Qualsiasi siano i parametri della media e deviazione standard, l’area della porzione di curva delimitata dalla media e

un ordinata espressa in termini di deviazione standard è costante = 1.

DISTRIBUZIONE CAMPIONARIA

Le distribuzioni campionarie (media, proporzioni, varianza, e qualsiasi altro indicatore) assumono forme simili alle

più importanti distribuzioni teoriche di probabilità (normale, t di Student, x2, F di Fisher, …) delle quali si possono

usare le proprietà e i valori tabulati.

Il problema centrale dell’inferenza statistica è quello di generalizzare alla popolazione i risultati ottenuti a livello di campione.

  • Popolazione: insieme di unità statistiche che condividono una o più statistiche (caratteriste) ben definite. Es. La popolazione dei pazienti con diagnosi di depressione bipolare
  • Campione : sottoinsieme di alementi appartenenti alla popolazione, composto da unità estratte preferibilmente in modo casuale dalla popolazione. Es. I pazienti partecipanti ad un trial clinico dull’efficacia di una terapia della depressione

Sul campione si calcolano le statistiche del campione per conoscere i parametri della popolazione -> effettuo una stima. Questo passaggio dalle statistiche ai parametri si basa sulla conoscenza delle proprietà delle distribuzione campionarie dei paramentri.

Proprietà della DC : La forma dipende dalla numerosità n dei campioni se n piccolo la media è meno precisa

La distribuzione di probabilità ci permette di associare ad un singolo evento la sua probabilità di accadere.

Come calcolare la distribuzione campionaria:

  1. Individuare tutti i possibili campioni di ampiezza N estraibili dalla stessa popolazione con estrazione casuale e indipendente, vale a dire, ogni unità di analisi deve avere la stessa robabilità di essere estratta e le estrazioni non devono influenzarsi vicendevolmente.
  2. Calcolare in ognuno dei campioni la statistica di riferimento (es. Media) della quale interessa determinare la distribuzione di frequenza.
  3. Determinare la frequenza per ciascuno dei valori osservabili della statistica in questione, ossia quanti campioni presentano quella statistica fra tutti quelli estraibili dalla popolazione.

TEOREMA DEL LIMITE CENTRALE

Indipendentemente dalla forma della distribuzione della variabile nella popolazione, la distribuzione campionaria delle medie di tutti i possibili campioni di ampiezza N estraibili dalla popolazione tende alla ormale all’aumentare di N e lo diventa per N ≥ 30.

Legge dei grandi numeri All’aumentare dell’ampiezza campionaria N la variabilità della distribuzione campionaria diminuisce l’errore standard e se N tende all’ampiezza finita N della popolazione o all’infinito, l’errore standard della media campionaria tende a 0.

  • All’aumentare di N la varianza della distribuzione campionaria della media diminuisce e tende a 0.
  • Piu ampi sono i campioni, più alta è la probabilità che la media di ognuno di essi sia vicina a quella della popolazione. La varianza della Dcm=

DISTRIBUZIONE CAMPIONARIA DELLE MEDIE

Distribuzione normale e caratterizzata da una media e una deviazione standard, detta errore standard. La distribuzione di probabilità della media dei campioni di due elementi estraibili dalla popolazione. All’aumentare del campione la deviazione standard si avvicina di più a quella della popolazione.

  • Se la popolazione è infinita o se il campionamento è con reinserimento: la media della distribuzione campionaria è uguale alla media della popolazione e l’errore standard è uguale alla deviazione standard della popolazione fratto la radice di N
  • Se la popolazione è finita (N) o il campionamento è senza reinserimento, la media della distribuzione campionaria è uguale alla media della popolazione e l’errore standard diventa appena più complicato.

La dCM la si ottiene calcolando la media di ciascun campione estratto da una popolazione con una sua distribizione La media della Dcm è la media elle medie, la deviazione standard si calcola con gli scarti di ciascuna media campionaria delle medie campionarie.

La popolazione può avere distribuzione:

  • Normale
  • Diversa dalla normale
  • Non nota
  • Se N<30 la distribuzione normale si calcola tramite la t di student
  • Se N>30 con i punti Z

DISTRIBUZIONNE CAMPIONARIA DELLE MEDIE CON N>

VERIFICA DELLE IPOTESI

Teoria della verifica dell’ipotesi : Si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari. Si confronta la probabilità con un valore detto livello di significatività α e si prende una decisione.

Teoria della stima dei parametri : Si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari.

  1. Formulazione ipotesi statistiche
  2. Raccolta dati sul campione (idealmente con campionamento casuale)
  3. Decisione (in base alla teoria della probabilità) sempre soggetta ad errore

H0 = Ipotesi nulla (non c’è effetto) H1 = Ipotesi alternativa o sostantiva sperimentale (qualche effetto c’è)

  • Per verificare un’ipotesi (H1) che afferma la presenza di effetti, si assume che sia invece vera un’ipotesi contraria (H0), che nega la presenza di effetti.

Si calcola la probabilità di osservare il valore “sperimentale” assumendo come vera l’ipotesi nulla.

  • Se tale probabilità è bassa si decide che H0 è falsa, la respingo e H1 è verosimile, la accetto.
  • Se la probabilità è alta accetto H0.

Bisogna però ricordare che H0 può essere vera e che noi abbiamo semplicemente sbagliato campionamento.

Es. Due diverse terapie garantiscono diversa efficacia?

  • (^) H0: Non esiste differenza fra le due terapie
  • H1: Esiste una differenza Si cerca di falsificare probabilisticamente l’ipotesi che non vi siano differenze (H0) per dimostrare che la differenza c’è (H1).

L’ipotesi sperimentale H1 può essere:

  • (^) Semplice: si fissa un unico valore del parametro
  • Composta: si fissano diversi valori possibili del parametro
  • Monodirezionale (una coda): prevede la direzione della differenza
  • Bidirezionale (due code): non prevede direzione

Si calcola la probabilità associata agli eventi osservati posto che H0 sia vera:

  • Se la probabilità è alta accetto H
  • Se la probabilità è bassa respingo H0 e accetto H

Come si stabilisce che la probabilità associata a H0 è alta o bassa? Si definiscono dei limiti probabilistici:

  • Entro certi livelli di probabilità accetto H
  • (^) Oltre certi livelli di probabilità rifiuto H

Il livello di significatività α :

  • Definisce la ragione di rifiuto di H0 Regione della distribuzione campionaria composta dai risultati che hanno una probabilità molto bassa di essere osservati quando H0 è vera.
  • Definisce la regione di accettazione di H0 Regione della distribuzione campionaria composta dai risultati che hanno una probabilità molto alta di essere osservati quando H0 è vera (1 - α).

Il valore 1 fa riferimento all’area sottostante della curva, per cui la regione di rifiuto è pari a ± α/

  • L’area sotto la curva rappresenta una probabilità
  • L’asse delle ascisse rappresenta una statistica (z o t)

LIVELLO DI SIGNIFICATIVITA’ Sia p il valore di probabilità calcolato per l’evento osservato

  • Se p>α accetto H0 e rifiuto H
  • Se p<α rifiuto H0 e accetto H

REGOLE DI DECISIONE SU BASE PROBABILISTICA

La decisione non è mai certa ed è sempre soggetta ad errore. Il rischio di errore che ci sentiamo di correre è rappresentato da α. Stabilire il livello di α = Stabilire il rischio che siamo disposti a correre di commettere l’errore di respingere H quando vera (Errore di I tipo) ovvero di dire che c’è differenza fra due medie quando in realtà non c’è

Si tende a stabilire un valore di a basso perché:

  • è preferibile non affermare l’esistenza di un fenomeno se non si è probabilisticamente “sicuri” della sua presenza
  • “Andare appresso” a risultati apparentemente significativi (che dipendono da eccessivo errore di campionamento) è scientificamente una perdita di tempo

α = .05 _ rischio di sbagliare rifiutando H0 quando essa è vera = 5 volte su 100 α = .01 _ rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 100 α = .001 _ rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 1000

ERRORI

Se H0 è vera:

  • Si può decidere di accettare H0 = decisione corretta
  • Si può decidere di rifiutare H0 = decisione scorretta (Errore di I tipo) Respingo H0 quando vera e accetto H1 quando è falsa.

Commettendo l’errore di I tipo si considera presente ( vero) un effetto assente ( falso ) nella popolazione

La probabilità di questo errore è α α = probabilità di evidenziare un fenomeno che in realtà non esiste α = probabilità di rintracciare un effetto presente solo in un campione (per errore di campionamento), ma assente nella popolazione di riferimento

Se H0 è falsa:

  • Si può decidere di rifiutare H0 = decisione corretta