Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica e Metodologia della Ricerca: Appunti e Esercizi, Appunti di Statistica

appunti di statistica

Tipologia: Appunti

2014/2015

Caricato il 15/06/2015

chiarabrusadin1
chiarabrusadin1 🇮🇹

4.8

(13)

19 documenti

1 / 4

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica e metodologia della ricerca
Alcune definizioni di statistica: la statistica è la scienza che ha per oggetto la raccolta, l’analisi e
l’interpretazione dei dati empirici riguardanti un determinato fenomeno ed esprimibili con un
numero. Verso la fine del XVI secolo, l’italiano Ghislini ha introdotto il termine “statistica” per
indicare “la scienza descrittiva degli Stati: la scienza, cioè, che ha per oggetto la descrizione degli
elementi che compongono uno Stato e delle qualità che lo caratterizzano”. La statistica è in altre
parole il momento empirico delle scienze di osservazione, nonché delle scienze sperimentali, per le
quali i dati statistici costituiscono una particolare forma del contenuto empirico.
La popolazione, le unità, i caratteri e le distribuzioni statistiche:
Popolazione o collettivo statistico: insieme di tutte le possibili unità statistiche. Può essere:
finita: se il numero dei casi rimane comunque limitato
infinita: quando il numero dei casi è particolarmente elevato
Unità statistica o caso statistico o individuo: singolo oggetto di studio, quello su cui vengono
effettuate realmente le varie misurazioni
Campione: sottoinsieme della popolazione, ossia una popolazione in formato ridotto
Carattere o variabile: una qualunque delle “qualità” che vogliamo misurare sul caso. Il
valore varia al variare del caso statistico allo studio. Essi possono essere:
discreti: tra due valori non c'è l'intermedio (es: sesso)
continui: tra due valori c'è sempre l'intermedio (es: altezza)
qualitativi: da una sequenza di dati qualitativi, ordinandoli, ottengo una serie. Sono
sempre discreti.
quantitativi: da una sequenza di dati quantitativi, ordinandoli, ottengo una seriazione.
In questa posso identificare: valore minimo, valore massimo e intervallo di
variazione o range o campo di variazione (max – min). Possono essere sia continui
che discreti.
Costante: contrario della variabile, ossia qualcosa che non cambia al variare del caso
statistico.
Distribuzione: insieme delle misurazioni effettuate su un insieme di unità statistiche o casi
statistici.
Le fasi di un’indagine statistica: il metodo scientifico:
Teoria iniziale
Formulazione delle ipotesi
Rilevazione dei dati
Definizione di una metodologia per analizzare i dati
Analisi ed interpretazione dei risultati
Conclusioni utili a validare o no le ipotesi iniziali
Gli studi statistici e gli strumenti di indagine
Fonti dirette: hanno caratteristiche positive cioè sono costruite per un determinato obiettivo, il grado
di accuratezza dipende da chi le svolge, sono disponibili in tempi brevi; ma anche caratteristiche
negative: sono costose, non sono immediate, c'è una rielaborazione statistica da parte dell’utente e
hanno un problema di rappresentatività.
Il questionario: ha fonte diretta, sequenza dei quesiti nel questionario, chiarezza delle
domande (aperte o chiuse), scale attitudinali semplici (quesito singolo) e complesse (quesiti
multipli). Come modalità di contatto ha: intervista diretta, intervista postale, intervista
telefonica, internet.
Fonti indirette: hanno caratteristiche positive cioè hanno rapidità di accesso, sono economiche per
l’utente ma anche caratteristiche negative: non disponibili in breve, non sono costruite per un
determinato obiettivo. Ne sono esempi i campionamenti e gli esempi fatti dall'ISTAT.
Il campionamento: per non esaminare tutta la popolazione (sarebbe un censimento), si studia
solo una parte e poi si generalizza il risultato (inferenza). L'errore nel campionamento può
essere dato da due fattori:
variazione casuale: deriva dal caso e si ottiene un buon campione perché l'errore può
essere stimato
pf3
pf4

Anteprima parziale del testo

Scarica Statistica e Metodologia della Ricerca: Appunti e Esercizi e più Appunti in PDF di Statistica solo su Docsity!

Statistica e metodologia della ricerca ◦ Alcune definizioni di statistica: la statistica è la scienza che ha per oggetto la raccolta, l’analisi e l’interpretazione dei dati empirici riguardanti un determinato fenomeno ed esprimibili con un numero. Verso la fine del XVI secolo, l’italiano Ghislini ha introdotto il termine “statistica” per indicare “la scienza descrittiva degli Stati: la scienza, cioè, che ha per oggetto la descrizione degli elementi che compongono uno Stato e delle qualità che lo caratterizzano”. La statistica è in altre parole il momento empirico delle scienze di osservazione, nonché delle scienze sperimentali, per le quali i dati statistici costituiscono una particolare forma del contenuto empirico. ◦ La popolazione, le unità, i caratteri e le distribuzioni statistiche:

  • Popolazione o collettivo statistico : insieme di tutte le possibili unità statistiche. Può essere: ▪ finita: se il numero dei casi rimane comunque limitato ▪ infinita: quando il numero dei casi è particolarmente elevato
  • Unità statistica o caso statistico o individuo : singolo oggetto di studio, quello su cui vengono effettuate realmente le varie misurazioni
  • Campione : sottoinsieme della popolazione, ossia una popolazione in formato ridotto
  • Carattere o variabile : una qualunque delle “qualità” che vogliamo misurare sul caso. Il valore varia al variare del caso statistico allo studio. Essi possono essere: ▪ discreti : tra due valori non c'è l'intermedio (es: sesso) ▪ continui: tra due valori c'è sempre l'intermedio (es: altezza) ▪ qualitativi : da una sequenza di dati qualitativi, ordinandoli, ottengo una serie. Sono sempre discreti. ▪ quantitativi : da una sequenza di dati quantitativi, ordinandoli, ottengo una seriazione. In questa posso identificare: valore minimo , valore massimo e intervallo di variazione o range o campo di variazione (max – min). Possono essere sia continui che discreti.
  • Costante : contrario della variabile, ossia qualcosa che non cambia al variare del caso statistico.
  • Distribuzione : insieme delle misurazioni effettuate su un insieme di unità statistiche o casi statistici. ◦ Le fasi di un’indagine statistica: il metodo scientifico:
  • Teoria iniziale
  • Formulazione delle ipotesi
  • Rilevazione dei dati
  • Definizione di una metodologia per analizzare i dati
  • Analisi ed interpretazione dei risultati
  • Conclusioni utili a validare o no le ipotesi iniziali Gli studi statistici e gli strumenti di indagine ◦ Fonti dirette: hanno caratteristiche positive cioè sono costruite per un determinato obiettivo, il grado di accuratezza dipende da chi le svolge, sono disponibili in tempi brevi; ma anche caratteristiche negative: sono costose, non sono immediate, c'è una rielaborazione statistica da parte dell’utente e hanno un problema di rappresentatività.
  • Il questionario: ha fonte diretta, sequenza dei quesiti nel questionario, chiarezza delle domande (aperte o chiuse), scale attitudinali semplici (quesito singolo) e complesse (quesiti multipli). Come modalità di contatto ha: intervista diretta, intervista postale, intervista telefonica, internet. ◦ Fonti indirette: hanno caratteristiche positive cioè hanno rapidità di accesso, sono economiche per l’utente ma anche caratteristiche negative: non disponibili in breve, non sono costruite per un determinato obiettivo. Ne sono esempi i campionamenti e gli esempi fatti dall'ISTAT.
  • Il campionamento: per non esaminare tutta la popolazione (sarebbe un censimento), si studia solo una parte e poi si generalizza il risultato (inferenza). L'errore nel campionamento può essere dato da due fattori: ▪ variazione casuale : deriva dal caso e si ottiene un buon campione perché l'errore può essere stimato

selezione viziata : il campione è distorto perché non è rappresentativo della popolazione quindi non è un buon campione perché l'errore non può essere stimato. Esistono diversi metodi di campionamento: ▪ campionamento non probabilistico o “di convenienza” : non è basato sulla randomizzazione ma su altri criteri come disponibilità di unità, … ed è soggetto a forte distorsione (bias) ▪ campionamento casuale semplice : estraggo dal gruppo degli elementi a caso ▪ campionamento casuale sistematico : estraggo dal gruppo degli elementi secondo una logica (es: 1 ogni 4) ▪ campionamento casuale stratificato : stratifico il campione (es: per sesso, età, …) e procedo con un campionamento casuale semplice o sistematico. ▪ Campionamento casuale a grappolo: seleziono a caso una partizione con tutti i suoi appartenenti di una popolazione (es: classe di una scuola) Teoria della misurazione ◦ Le scale di misura

  • nominale o classificatoria : consiste in un insieme di categorie ciascuna delle quali è associata ad un nome. In questa ogni elemento apparterrà a una e una sola categoria quindi l'unica relazione possibile in questa scala sarà di uguaglianza (=) o di diversità (≠)
  • ordinale o per ranghi : oltre a poterle identificare in modo univoco è possibile ordinarle, quindi si aggiungono anche maggiore (>) e minore (<)
  • a intervalli/a rapporto : consiste in un insieme ordinato di categorie dove ogni categoria corrisponde ad un intervallo e dove tutti gli intervalli sono della stessa grandezza quindi sono le classi. Consente di misurare la differenza fra due individui appartenenti a categorie diverse Analisi esplorativa delle informazioni ◦ La distribuzione di frequenza: è una tabella che mostra il numero di individui o osservazioni appartenenti a ciascuna categoria appartenente ad una scala di misura.
  • frequenza assoluta : numero di volte che un carattere si esprime in relazione alle unità statistiche. La somma è sempre uguale alle unità statistiche. Es: 40 u.s. → 20 diciotto anni: freq. ass. = 20 + → 10 venti anni: freq. ass. = 10 + → 10 trenta anni: freq. ass. = 10 = 40
  • relativa : è il rapporto tra frequenza assoluta e u.s (freq. ass. : u.s.). La somma è sempre uguale a 1. Es: 40 u.s. → 20 diciotto anni: freq. rel. = 20: 40 = 0,5 + → 10 venti anni: freq. rel. = 10 : 40 = 0,25+ → 10 trenta anni: freq. rel. = 10 : 40 = 0,25= 1
  • cumulata: serve spesso a calcolare l'ampiezza delle classi e la ottengo sommando le freq. ass. Es: 40 u.s. → 20 diciotto anni: freq. ass. = 20 → 10 venti anni: freq. ass. = 10 freq. cum. classe 18 ≤ 20 = 30 → 10 trenta anni: freq. ass. = 10 freq. cum. classe 18 ≤ 30 = 40
  • relativa percentuale: si ottiene: freq. ass. : u.s. = x : 100. La somma è sempre uguale a 100%. Es: 40 u.s. → 20 diciotto anni: freq. rel. % = 20 : 40 = x : 100 → 50% + → 10 venti anni: freq. rel. % = 10 : 40 = x : 100 → 25% + → 10 trenta anni: freq. rel. % = 10 : 40 = x : 100 → 25% = 100%
  • relativa percentuale cumulata : sommo le freq. rel. % Es: 40 u.s. → 20 diciotto anni: freq. rel. % = 50% → 10 venti anni: freq. rel. % = 25% freq. % cum. classe 18 ≤ 20 = 75% → 10 trenta anni: freq. rel. % = 25% freq. % cum. classe 18 ≤ 30 = 100%

◦ Principali distribuzioni di probabilità

  • La distribuzione normale o distribuzione Gaussiana ha un andamento campanulare simmetrico. Il punto più alto per cui passa una sola retta parallela all'asse x concentra media, mediana e moda. La l'ampiezza della curva è data dalla dispersione quindi da: intervallo di variazione, devianza, varianza e deviazione standard.
  • La distribuzione del chi-quadrato : serve per confrontare le frequenze relative o relative %. x^2 = [ |(ad)| - |(bc)| - n : 2]^2 * n (a + b) * (a + c) * (b + d) * (c + d) Es: < 18 ≥ 18 TS 1 (a) 13 (b) → a + b = 14 PT 5 (c) 15 (d) → c + d = 20 a + c = 6 b + d = 28 u.s. = 34 Faccio i prodotti incrociati: a * d = 15 c * b = 65 Applico la formula: [ |65| - |15| - 34 : 2]^2 * 34 = [50 – 17]^2 * 34 14 * 6 * 28 * 20 47040 [33]^2 * 34 = 1089 * 34 = 37026 = 0, 47040 47040 47040 Per vedere se c'è differenza significativa tra le due popolazioni: Guardo nella colonna v i gradi di libertà cioè n. popolazioni – 1 → 2 – 1 = 1 Scorro la riga e cerco il numero subito più piccolo del mio → 0, Salgo alla prima riga P = 0, Essendo 0,40 più piccolo di 0,708 c'è differenza significativa per P < 0,40 con gdl: 1 Se il chi calcolato > chi tabulato c'è differenza significativa Se il chi calcolato < chi tabulato non c'è differenza significativa
  • La distribuzione di Student: anche questa serve per mettere a confronto due popolazioni. t = | xA – xB| * nA * nB nA + nB devA + devB nA + nB – 2 Es: se ho un tcal di 0, Guardo nella colonna v i gradi di libertà, per esempio 16 Scorro la riga e cerco il numero subito più piccolo del mio → 0, Salgo alla prima riga P = 0, Essendo 0,70 più grande di 0,42 non c'è differenza significativa per P < 0,70 con gdl: 16 Se il t calcolato > t tabulato c'è differenza significativa Se il t calcolato < t tabulato non c'è differenza significativa