Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi dei Dati con R e RStudio: Guida Introduttiva, Appunti di Statistica

Una panoramica completa sull'analisi dei dati utilizzando r e rstudio, esplorando concetti fondamentali come oggetti, funzioni e dataframe. Approfondisce le statistiche descrittive e l'importanza della visualizzazione grafica dei dati, evidenziando come un buon grafico possa chiarire aspetti cruciali di un campione. Introduce il pacchetto ggplot2 per la costruzione di grafici a strati e discute la probabilit dei dati osservati, con particolare attenzione alla distribuzione campionaria, all'errore standard e al teorema del limite centrale. Infine, affronta la statistica inferenziale, spiegando ipotesi nulla e alternativa, modelli statistici e il concetto di test statistic.

Tipologia: Appunti

2024/2025

Caricato il 25/08/2025

lisa-salvioli
lisa-salvioli 🇮🇹

5 documenti

1 / 106

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
ARGOMENTO 1: GUARDARE I DATI!
!
Software R e RStudio !
!
R è case sensitive: maiuscolo e minuscolo sono diversi !
Un oggetto è qualsiasi cosa sia creata in R: una variabile, un modello, un grafico. Può
essere un singolo valore (una media), o una serie d’informazioni (es. gli output delle
analisi).!
Le funzioni sono usate per creare o lavorare sugli oggetti. Richiedono tipicamente alcuni
argomenti: a volte solo il nome dell’oggetto su cui agisce la funzione, in altri casi più
argomenti separati da virgole. Le funzioni hanno sempre le parentesi tonde!
Oggetti:!
Funzioni:!
Vediamo la funzione più semplice ma utilissima: c() !
c() concatena una serie di elementi tutti dello stesso tipo in un singolo oggetto
(vettore)!
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Analisi dei Dati con R e RStudio: Guida Introduttiva e più Appunti in PDF di Statistica solo su Docsity!

ARGOMENTO 1: GUARDARE I DATI

Software R e RStudio

R è case sensitive : maiuscolo e minuscolo sono diversi Un oggetto è qualsiasi cosa sia creata in R: una variabile, un modello, un grafico. Può essere un singolo valore (una media), o una serie d’informazioni (es. gli output delle analisi). Le funzioni sono usate per creare o lavorare sugli oggetti. Richiedono tipicamente alcuni argomenti: a volte solo il nome dell’oggetto su cui agisce la funzione, in altri casi più argomenti separati da virgole. Le funzioni hanno sempre le parentesi tonde Oggetti:

Funzioni:

Vediamo la funzione più semplice ma utilissima: c()

c() concatena una serie di elementi tutti dello stesso tipo in un singolo oggetto

(vettore)

Conoscere il tipo di variabile è essenziale per eseguire comandi e analisi appropriate Un dataframe è una tabella composta da righe (i casi) e colonne (le variabili), simile a un foglio Excel Immaginiamo di avere due variabili che contengono le sigle di 10 atenei italiani e il voto di laurea medio in STP in tali atenei, rispettivamente: Per creare un dataframe

ARGOMENTO 2: INTRODUZIONE AI GRAFICI

Pacchetto ggplot Costruzione a strati Ogni strato contiene elementi grafici (geom = barre, punti, assi) Ogni geom possiede proprietà estetiche (aes = colore, spessore, linee) Queste properietà possono essere definite per l’intero grafico o per ciascuno strato Se le proprietà estetiche sono specificate globalmente per l’intero grafico, verranno ereditate da tutte le geom.

Possono essere specificate come valore fisso (es. il colore rosso), oppure in maniera dipendente dal valore di una variabile (es: rosso per maschi, verde per femmine) Costruzione del grafico: o Si crea un oggetto grafico specificando le caratteristiche globali del diagramma: dati e aes o Si aggiungono i vari strati ed elementi grafici che compongono il diagramma

La media del campione osservato è in genere utilizzata come stima del valore nella popolazione: ma è affidabile? ⟶ Ciò equivale a chiedere quanto grande sia la variabilità di tale misura da campione a campione⟶ Questa informazione è espressa dalla deviazione standard della distribuzione campionaria, ovvero dall’errore standard.

Intervallo di confidenza per la media

Intervallo di confidenza per la media Per N grande (N

  1. la distribuzione campionaria della media è approssimativamente normale, con media pari alla media della popolazione μ e deviazione standard pari a SEM Per una distribuzione normale, c’è il 95% di probabilità che un valore estratto a caso da essa si trovi entro una distanza di ±1:96 deviazioni standard dalla media Se consideriamo la media del nostro campione come estratta a caso dalla distribuzione campionaria della media, esiste il 95% di probabilità che: μ − (1.96 × SEM) ≤ x̄ ≤ μ + (1.96 × SEM) Ciò che ci interessa tuttavia è stimare dove cada la media della popolazione , non quella del campione. Basta però una semplice manipolazione algebrica a dare: x̄ − (1.96 × SEM) ≤ μ ≤ x̄ + (1.96 × SEM) Questo ci dice che prelevando un campione dalla popolazione e costruendo un intervallo con questa procedura , avremo il 95% di probabilità che l’intervallo contenga la media della popolazione. Ricapitolando, l’intervallo di confidenza (CI) è costruito in maniera tale che, se prelevassimo casualmente 100 campioni dalla stessa popolazione e calcolassimo per ognuno di essi il CI attorno alla media del campione, ci aspettiamo che la media della popolazione cada all’interno di questi CI in 95 casi su 100. Si può anche pensare il CI come quell’insieme di valori (ipotetici) della media della popolazione da cui la media del campione raccolto non differisce significativamente; ovvero quei valori della media della popolazione che sono compatibili con l’evidenza fornita dai dati del campione Note:

- IMPORTANTE: “confidenza” o “plausibilità” si riferiscono alla procedura di calcolo del

CI e non ai valori specifici calcolati sul campione raccolto.

- La media della popolazione NON ha il 95% di probabilità di trovarsi all’interno di un

singolo intervallo di confidenza: vi è contenuta (p = 1) oppure no (p = 0)

- Poiché l’intervallo di confidenza è attorno alla media, e la distribuzione campionaria si

suppone normale (e dunque simmetrica), ne deriva che l’intervallo di confidenza è simmetrico attorno alla media

Per N grande (tale che la distribuzione campionaria possa considerarsi normale), possiamo usare la seguente formula per l’intervallo di confidenza al 95% per la media: dove N 0,975 = 1,96 è il quantile del 97.5% della distribuzione normale. In realtà, per N piccoli la distribuzione campionaria della media segue la distribuzione t, per cui la formula precisa per l’intervallo di confidenza al 95% per la media è:

Distribuzione normale e distribuzione t

Al crescere dei gradi di libertà df, cioè delle dimensioni del campione N, poiché df = N - 1, la distribuzione t si avvicina sempre più ad una distribuzione normale standard (cioè con μ = 0 e σ = 1)

probabilità è piccola (per convenzione, p < 0:05), allora diciamo che l’effetto osservato è significativo (= Il valore di p rappresenta dunque la probabilità di falsi positivi)

Test statistic

Definiamo: varianza sistematica : la variazione nei dati raccolti spiegata dal modello adottato varianza non-sistematica : la variazione nei dati non spiegata dal modello adottato (errore, residuo) Il rapporto tra queste due componenti esprime l’efficacia del nostro modello nello spiegare i dati Ps: La forma specifica dell’equazione varia a seconda della test statistic, ma il concetto di base è lo stesso Crucialmente, una test statistic ha una distribuzione nota ! possiamo calcolare la probabilità di ottenere un effetto pari o maggiore di quello osservato, se fosse vera H Tale probabilità rappresenta la significatività del test per l’effetto ipotizzato dal modello Tipicamente, se la significatività è p < 0,05, rifiutiamo l’ipotesi nulla e confidiamo nell’effettiva presenza dell’effetto (ipotesi alternativa) La logica della verifica di una ipotesi è la seguente:

  1. generare una ipotesi sperimentale e una ipotesi nulla
  2. adattare un modello statistico ai dati raccolti (fitting)
  3. stabilire la bontà del fitting tramite una test statistic
  4. rifiutare l’ipotesi nulla se la probabilità associata alla test statistic è molto bassa (tipicamente p < 0:05) Ma ricordate che:

- effetti molto piccoli possono risultare significativi in campioni grandi (L’errore standard

diminuisce all’aumentare di N)

- il fatto che un effetto sia significativo non implica necessariamente che sia importante

- il fatto che un effetto non risulti significativo non implica necessariamente la sua non-

esistenza

Errori di Tipo I e di Tipo II

Nel verificare una ipotesi sperimentale su un campione di dati possiamo incorrere in un errore di: Tipo I : l’effetto è esibito dal campione, ma non è presente nella popolazione (falsi positivi, falsi allarmi) Tipo II : l’effetto non è esibito dal campione, ma è in realtà presente nella popolazione (falsi negativi) Per un test di significatività di un effetto, si parla di livelli di:

- α: probabilità di un errore di Tipo I

- β: probabilità di un errore di Tipo II

Dimensioni dell’effetto (effect size)

Statisticamente significativo non vuol dire rilevante: un modo che può aiutare a valutare l’effettiva importanza di un effetto è quello di calcolarne le dimensioni in maniera standardizzata (In modo da poter confrontare diversi studi, ad es.) Esistono diverse misure della grandezza di un effetto:

• d di Cohen

• r di Pearson

• rischio relativo (odds ratio)

L’ r di Pearson ha il vantaggio di essere vincolato a valori tra 0 (effetto assente) e 1 (effetto perfetto). Per convenzione:

  • r = .10 (effetto piccolo): spiega l’1% della varianza
  • r = .30 (effetto medio): spiega il 9% della varianza
  • r = .50 (effetto grande): spiega il 25% della varianza Nel confrontare le medie di due campioni con un t-test si usa spesso il d di Cohen :

Esempio di power analysis in R

Consideriamo l’analisi della potenza statistica per un test di correlazione semplice, utilizzando lo stesso coefficiente r di Pearson come misura della dimensione dell’effetto In questo caso, possiamo usare la funzione pwr.r.test del pacchetto pwr: dove specificando il valore di tre parametri, si ottiene il valore del quarto. Vogliamo calcolare il numero di soggetti necessario a rilevare una correlazione semplice di grandi dimensioni con una potenza statistica dell’80% e una soglia di significatività pari a 0.05: Per un test di correlazione semplice, con una potenza statistica desiderata dell’80% alla soglia statistica di 0.05, abbiamo bisogno di circa:

  • 782 soggetti per rilevare un effetto piccolo (r = .1)
  • 85 soggetti per rilevare un effetto medio (r = .3)
  • 29 soggetti per rilevare un effetto grande (r = .5)

ARGOMENTO 3: I REQUISITI DEI TEST PARAMETRICI

Presupposti di validità dei test

La maggioranza dei test statistici sono parametrici , ovvero suppongono che i dati provengano da una distribuzione nota e caratterizzabile da parametri precisi. In particolare, si richiedono le seguenti condizioni:

- Normalità! a seconda del contesto, ci si riferisce alla distribuzione campionaria o

alla distribuzione degli errori nel modello

- Omogeneità della varianza! con più gruppi, le varianze all’interno di ciascun gruppo

devono essere simili; nelle correlazioni, la varianza di una variabile non deve mutare con il valore dell’altra variabile

- Scala di misura dati (almeno) a intervalli! variabili continue e tali che ad intervalli

eguali sulla scala di misura corrispondano differenze eguali nella proprietà misurata (es. le ore della giornata)

- Indipendenza! a seconda del contesto, si può riferire ai dati dei diversi partecipanti,

oppure (nella regressione) agli errori nel modello

Normalità

La distribuzione campionaria In molti test statistici, il requisito di normalità non si riferisce alla distribuzione dei dati stessi ma alla distribuzione campionaria (=Distribuzione delle medie di un campione estratto dalla popolazione). Tuttavia sappiamo che:

  1. se i dati del campione sono distribuiti pressocché normalmente, anche la distribuzione campionaria lo sarà
  2. se il campione è abbastanza grande (N > 30), la distribuzione campionaria sarà approssimativamente normale indipendentemente dalle forma distribuzionale della popolazione (Teorema del Limite Centrale) Le analisi di regressione presuppongono che gli errori nel modello siano distribuiti normalmente

Omogeneità della varianza

Concetto di base La varianza di una variabile non deve cambiare al mutare del valore di un’altra variabile (“omoschedasticità”):

  • con diversi gruppi di soggetti, la varianza deve essere simile per tutti i gruppi
  • con due variabili continue (es. nelle correlazioni), la varianza dell’una deve rimanere più o meno costante lungo i valori dell’altra variabile

Il test del rapporto fra varianze

Detto anche Fmax di Hartley , fornisce un utile controllo incrociato al test di Levene quando il campione è grande Si calcola il rapporto tra la varianza del gruppo con varianza maggiore e quella del gruppo con varianza minore Si può ritenere il test non-significativo quando: con N ≈10 per gruppo, Fmax < 10 con N ≈ 15–20 per gruppo, Fmax ≲ 5 con N > 30–60 per gruppo, Fmax < 3– NOTA: richiede che i dati siano distribuiti normalmente in ciascun gruppo

Valori anomali e trasformazioni

La gestione dei valori anomali (outlier )

Se i dati sono giusti, cioè, sono già stati corretti o rimossi gli errori, possiamo:

  1. rimuovere il caso anomalo: se abbiamo validi motivi per credere che non provenga dalla popolazione desiderata
  2. trasformare i dati: in modo da ridurre l’asimmetria della distribuzione e quindi l’influenza del dato anomalo
  3. sostituire il valore con uno più rappresentativo, ad es. ▶ 1 unità sopra il valore successivo nel set dei dati ▶ la media del campione più 3 SD ▶ la media del campione più 2 SD

Trasformazioni dei dati

La strategia classica nel caso di non-normalità e di eterogeneità della varianza è quella di applicare una funzione ai dati che li renda più conformi ai presupposti distribuzionali dei test che si vogliono eseguire Le trasformazioni più comuni sono: logaritmica, log(x)! comprime la coda destra della distribuzione, quindi rettifica asimmetrie positive e spesso anche varianze diseguali; se il campione contiene valori nulli o negativi, aggiungere una costante ai dati che li renda tutti positivi radice quadrata, sqrt(x)! i valori più grandi vengono ridotti maggiormente rispetto a quelli più piccoli, quindi corregge asimmetrie positive e spesso varianze diseguali; se il campione contiene valori nulli o negativi, aggiungere una costante ai dati che li renda tutti positivi reciproco, 1=x! riduce anch’essa asimmetrie positive e varianze diseguali; notate che la grandezza dei valori viene invertita: ciò si può evitare usando la trasformazione 1=(max(x) - x) inversione, (max(x) - x) o (max(x) + 1 - x)! si usa preliminarmente alle trasformazioni precedenti nel caso di asimmetrie negative (ricordare che l’interpretazione della variabile risulta invertita!) La scelta di una trasformazione specifica si effettua in genere tramite tentativi per vedere quale funzioni meglio Nota: se stiamo esaminando differenze tra variabili, occorre applicare la stessa trasformazione a tutte le variabili in gioco

Svantaggi del trasformare i dati e alternative

Attenzione perché trasformando i dati:

  • si possono introdurre altri problemi distribuzionali
  • si cambia l’ipotesi che si intende sottoporre a verifica
  • l’interpretazione dei dati può risultare complicata