Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Analisi dei Dati con R e RStudio: Guida Introduttiva, Appunti di Statistica

Università degli Studi di Modena e Reggio Emilia (UNIMORE)Statistica

Una panoramica completa sull'analisi dei dati utilizzando r e rstudio, esplorando concetti fondamentali come oggetti, funzioni e dataframe. Approfondisce le statistiche descrittive e l'importanza della visualizzazione grafica dei dati, evidenziando come un buon grafico possa chiarire aspetti cruciali di un campione. Introduce il pacchetto ggplot2 per la costruzione di grafici a strati e discute la probabilit dei dati osservati, con particolare attenzione alla distribuzione campionaria, all'errore standard e al teorema del limite centrale. Infine, affronta la statistica inferenziale, spiegando ipotesi nulla e alternativa, modelli statistici e il concetto di test statistic.

Tipologia: Appunti

2024/2025

Caricato il 25/08/2025

lisa-salvioli 🇮🇹

5 documenti

1 / 106

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

ARGOMENTO 1: GUARDARE I DATI!

Software R e RStudio !

R è case sensitive: maiuscolo e minuscolo sono diversi !

Un oggetto è qualsiasi cosa sia creata in R: una variabile, un modello, un grafico. Può

essere un singolo valore (una media), o una serie d’informazioni (es. gli output delle

analisi).!

Le funzioni sono usate per creare o lavorare sugli oggetti. Richiedono tipicamente alcuni

argomenti: a volte solo il nome dell’oggetto su cui agisce la funzione, in altri casi più

argomenti separati da virgole. Le funzioni hanno sempre le parentesi tonde!

Oggetti:!

Funzioni:!

Vediamo la funzione più semplice ma utilissima: c() !

c() concatena una serie di elementi tutti dello stesso tipo in un singolo oggetto

(vettore)!

Scopri Appunti di Statistica Università degli Studi di Modena e Reggio Emilia (UNIMORE)

Documenti correlati

LEZIONI RSTUDIO DATA MINING

Appunti formule pratica Rstudio

Esercitazione con Rstudio

Basi di Rstudio (software statistico)

Procedimenti RStudio - Excel

spiegazione programma Rstudio

(1)

rstudio serie storiche

Alcuni comandi Rstudio

(1)

Esercizi Statistica Numerica - RStudio

Guida pratica per l'introduzione ad Rstudio- corso di Flavio Canonico

Introduzione al programma RStudio

(1)

Statistica 1 con Rstudio

Anteprima parziale del testo

Scarica Analisi dei Dati con R e RStudio: Guida Introduttiva e più Appunti in PDF di Statistica solo su Docsity!

ARGOMENTO 1: GUARDARE I DATI

Software R e RStudio

R è case sensitive : maiuscolo e minuscolo sono diversi Un oggetto è qualsiasi cosa sia creata in R: una variabile, un modello, un grafico. Può essere un singolo valore (una media), o una serie d’informazioni (es. gli output delle analisi). Le funzioni sono usate per creare o lavorare sugli oggetti. Richiedono tipicamente alcuni argomenti: a volte solo il nome dell’oggetto su cui agisce la funzione, in altri casi più argomenti separati da virgole. Le funzioni hanno sempre le parentesi tonde Oggetti:

Funzioni:

Vediamo la funzione più semplice ma utilissima: c()

c() concatena una serie di elementi tutti dello stesso tipo in un singolo oggetto

(vettore)

Conoscere il tipo di variabile è essenziale per eseguire comandi e analisi appropriate Un dataframe è una tabella composta da righe (i casi) e colonne (le variabili), simile a un foglio Excel Immaginiamo di avere due variabili che contengono le sigle di 10 atenei italiani e il voto di laurea medio in STP in tali atenei, rispettivamente: Per creare un dataframe

ARGOMENTO 2: INTRODUZIONE AI GRAFICI

Pacchetto ggplot Costruzione a strati Ogni strato contiene elementi grafici (geom = barre, punti, assi) Ogni geom possiede proprietà estetiche (aes = colore, spessore, linee) Queste properietà possono essere definite per l’intero grafico o per ciascuno strato Se le proprietà estetiche sono specificate globalmente per l’intero grafico, verranno ereditate da tutte le geom.

Possono essere specificate come valore fisso (es. il colore rosso), oppure in maniera dipendente dal valore di una variabile (es: rosso per maschi, verde per femmine) Costruzione del grafico: o Si crea un oggetto grafico specificando le caratteristiche globali del diagramma: dati e aes o Si aggiungono i vari strati ed elementi grafici che compongono il diagramma

La media del campione osservato è in genere utilizzata come stima del valore nella popolazione: ma è affidabile? ⟶ Ciò equivale a chiedere quanto grande sia la variabilità di tale misura da campione a campione⟶ Questa informazione è espressa dalla deviazione standard della distribuzione campionaria, ovvero dall’errore standard.

Intervallo di confidenza per la media

Intervallo di confidenza per la media Per N grande (N

la distribuzione campionaria della media è approssimativamente normale, con media pari alla media della popolazione μ e deviazione standard pari a SEM Per una distribuzione normale, c’è il 95% di probabilità che un valore estratto a caso da essa si trovi entro una distanza di ±1:96 deviazioni standard dalla media Se consideriamo la media del nostro campione come estratta a caso dalla distribuzione campionaria della media, esiste il 95% di probabilità che: μ − (1.96 × SEM) ≤ x̄ ≤ μ + (1.96 × SEM) Ciò che ci interessa tuttavia è stimare dove cada la media della popolazione , non quella del campione. Basta però una semplice manipolazione algebrica a dare: x̄ − (1.96 × SEM) ≤ μ ≤ x̄ + (1.96 × SEM) Questo ci dice che prelevando un campione dalla popolazione e costruendo un intervallo con questa procedura , avremo il 95% di probabilità che l’intervallo contenga la media della popolazione. Ricapitolando, l’intervallo di confidenza (CI) è costruito in maniera tale che, se prelevassimo casualmente 100 campioni dalla stessa popolazione e calcolassimo per ognuno di essi il CI attorno alla media del campione, ci aspettiamo che la media della popolazione cada all’interno di questi CI in 95 casi su 100. Si può anche pensare il CI come quell’insieme di valori (ipotetici) della media della popolazione da cui la media del campione raccolto non differisce significativamente; ovvero quei valori della media della popolazione che sono compatibili con l’evidenza fornita dai dati del campione Note:

- IMPORTANTE: “confidenza” o “plausibilità” si riferiscono alla procedura di calcolo del

CI e non ai valori specifici calcolati sul campione raccolto.

- La media della popolazione NON ha il 95% di probabilità di trovarsi all’interno di un

singolo intervallo di confidenza: vi è contenuta (p = 1) oppure no (p = 0)

- Poiché l’intervallo di confidenza è attorno alla media, e la distribuzione campionaria si

suppone normale (e dunque simmetrica), ne deriva che l’intervallo di confidenza è simmetrico attorno alla media

Per N grande (tale che la distribuzione campionaria possa considerarsi normale), possiamo usare la seguente formula per l’intervallo di confidenza al 95% per la media: dove N 0,975 = 1,96 è il quantile del 97.5% della distribuzione normale. In realtà, per N piccoli la distribuzione campionaria della media segue la distribuzione t, per cui la formula precisa per l’intervallo di confidenza al 95% per la media è:

Distribuzione normale e distribuzione t

Al crescere dei gradi di libertà df, cioè delle dimensioni del campione N, poiché df = N - 1, la distribuzione t si avvicina sempre più ad una distribuzione normale standard (cioè con μ = 0 e σ = 1)

probabilità è piccola (per convenzione, p < 0:05), allora diciamo che l’effetto osservato è significativo (= Il valore di p rappresenta dunque la probabilità di falsi positivi)

Test statistic

Definiamo: varianza sistematica : la variazione nei dati raccolti spiegata dal modello adottato varianza non-sistematica : la variazione nei dati non spiegata dal modello adottato (errore, residuo) Il rapporto tra queste due componenti esprime l’efficacia del nostro modello nello spiegare i dati Ps: La forma specifica dell’equazione varia a seconda della test statistic, ma il concetto di base è lo stesso Crucialmente, una test statistic ha una distribuzione nota ! possiamo calcolare la probabilità di ottenere un effetto pari o maggiore di quello osservato, se fosse vera H Tale probabilità rappresenta la significatività del test per l’effetto ipotizzato dal modello Tipicamente, se la significatività è p < 0,05, rifiutiamo l’ipotesi nulla e confidiamo nell’effettiva presenza dell’effetto (ipotesi alternativa) La logica della verifica di una ipotesi è la seguente:

generare una ipotesi sperimentale e una ipotesi nulla
adattare un modello statistico ai dati raccolti (fitting)
stabilire la bontà del fitting tramite una test statistic
rifiutare l’ipotesi nulla se la probabilità associata alla test statistic è molto bassa (tipicamente p < 0:05) Ma ricordate che:

- effetti molto piccoli possono risultare significativi in campioni grandi (L’errore standard

diminuisce all’aumentare di N)

- il fatto che un effetto sia significativo non implica necessariamente che sia importante

- il fatto che un effetto non risulti significativo non implica necessariamente la sua non-

esistenza

Errori di Tipo I e di Tipo II

Nel verificare una ipotesi sperimentale su un campione di dati possiamo incorrere in un errore di: Tipo I : l’effetto è esibito dal campione, ma non è presente nella popolazione (falsi positivi, falsi allarmi) Tipo II : l’effetto non è esibito dal campione, ma è in realtà presente nella popolazione (falsi negativi) Per un test di significatività di un effetto, si parla di livelli di:

- α: probabilità di un errore di Tipo I

- β: probabilità di un errore di Tipo II

Dimensioni dell’effetto (effect size)

Statisticamente significativo non vuol dire rilevante: un modo che può aiutare a valutare l’effettiva importanza di un effetto è quello di calcolarne le dimensioni in maniera standardizzata (In modo da poter confrontare diversi studi, ad es.) Esistono diverse misure della grandezza di un effetto:

• d di Cohen

• r di Pearson

• rischio relativo (odds ratio)

L’ r di Pearson ha il vantaggio di essere vincolato a valori tra 0 (effetto assente) e 1 (effetto perfetto). Per convenzione:

r = .10 (effetto piccolo): spiega l’1% della varianza
r = .30 (effetto medio): spiega il 9% della varianza
r = .50 (effetto grande): spiega il 25% della varianza Nel confrontare le medie di due campioni con un t-test si usa spesso il d di Cohen :

Esempio di power analysis in R

Consideriamo l’analisi della potenza statistica per un test di correlazione semplice, utilizzando lo stesso coefficiente r di Pearson come misura della dimensione dell’effetto In questo caso, possiamo usare la funzione pwr.r.test del pacchetto pwr: dove specificando il valore di tre parametri, si ottiene il valore del quarto. Vogliamo calcolare il numero di soggetti necessario a rilevare una correlazione semplice di grandi dimensioni con una potenza statistica dell’80% e una soglia di significatività pari a 0.05: Per un test di correlazione semplice, con una potenza statistica desiderata dell’80% alla soglia statistica di 0.05, abbiamo bisogno di circa:

782 soggetti per rilevare un effetto piccolo (r = .1)
85 soggetti per rilevare un effetto medio (r = .3)
29 soggetti per rilevare un effetto grande (r = .5)

ARGOMENTO 3: I REQUISITI DEI TEST PARAMETRICI

Presupposti di validità dei test

La maggioranza dei test statistici sono parametrici , ovvero suppongono che i dati provengano da una distribuzione nota e caratterizzabile da parametri precisi. In particolare, si richiedono le seguenti condizioni:

- Normalità! a seconda del contesto, ci si riferisce alla distribuzione campionaria o

alla distribuzione degli errori nel modello

- Omogeneità della varianza! con più gruppi, le varianze all’interno di ciascun gruppo

devono essere simili; nelle correlazioni, la varianza di una variabile non deve mutare con il valore dell’altra variabile

- Scala di misura dati (almeno) a intervalli! variabili continue e tali che ad intervalli

eguali sulla scala di misura corrispondano differenze eguali nella proprietà misurata (es. le ore della giornata)

- Indipendenza! a seconda del contesto, si può riferire ai dati dei diversi partecipanti,

oppure (nella regressione) agli errori nel modello

Normalità

La distribuzione campionaria In molti test statistici, il requisito di normalità non si riferisce alla distribuzione dei dati stessi ma alla distribuzione campionaria (=Distribuzione delle medie di un campione estratto dalla popolazione). Tuttavia sappiamo che:

se i dati del campione sono distribuiti pressocché normalmente, anche la distribuzione campionaria lo sarà
se il campione è abbastanza grande (N > 30), la distribuzione campionaria sarà approssimativamente normale indipendentemente dalle forma distribuzionale della popolazione (Teorema del Limite Centrale) Le analisi di regressione presuppongono che gli errori nel modello siano distribuiti normalmente

Omogeneità della varianza

Concetto di base La varianza di una variabile non deve cambiare al mutare del valore di un’altra variabile (“omoschedasticità”):

con diversi gruppi di soggetti, la varianza deve essere simile per tutti i gruppi
con due variabili continue (es. nelle correlazioni), la varianza dell’una deve rimanere più o meno costante lungo i valori dell’altra variabile

Il test del rapporto fra varianze

Detto anche Fmax di Hartley , fornisce un utile controllo incrociato al test di Levene quando il campione è grande Si calcola il rapporto tra la varianza del gruppo con varianza maggiore e quella del gruppo con varianza minore Si può ritenere il test non-significativo quando: con N ≈10 per gruppo, Fmax < 10 con N ≈ 15–20 per gruppo, Fmax ≲ 5 con N > 30–60 per gruppo, Fmax < 3– NOTA: richiede che i dati siano distribuiti normalmente in ciascun gruppo

Valori anomali e trasformazioni

La gestione dei valori anomali (outlier )

Se i dati sono giusti, cioè, sono già stati corretti o rimossi gli errori, possiamo:

rimuovere il caso anomalo: se abbiamo validi motivi per credere che non provenga dalla popolazione desiderata
trasformare i dati: in modo da ridurre l’asimmetria della distribuzione e quindi l’influenza del dato anomalo
sostituire il valore con uno più rappresentativo, ad es. ▶ 1 unità sopra il valore successivo nel set dei dati ▶ la media del campione più 3 SD ▶ la media del campione più 2 SD

Trasformazioni dei dati

La strategia classica nel caso di non-normalità e di eterogeneità della varianza è quella di applicare una funzione ai dati che li renda più conformi ai presupposti distribuzionali dei test che si vogliono eseguire Le trasformazioni più comuni sono: logaritmica, log(x)! comprime la coda destra della distribuzione, quindi rettifica asimmetrie positive e spesso anche varianze diseguali; se il campione contiene valori nulli o negativi, aggiungere una costante ai dati che li renda tutti positivi radice quadrata, sqrt(x)! i valori più grandi vengono ridotti maggiormente rispetto a quelli più piccoli, quindi corregge asimmetrie positive e spesso varianze diseguali; se il campione contiene valori nulli o negativi, aggiungere una costante ai dati che li renda tutti positivi reciproco, 1=x! riduce anch’essa asimmetrie positive e varianze diseguali; notate che la grandezza dei valori viene invertita: ciò si può evitare usando la trasformazione 1=(max(x) - x) inversione, (max(x) - x) o (max(x) + 1 - x)! si usa preliminarmente alle trasformazioni precedenti nel caso di asimmetrie negative (ricordare che l’interpretazione della variabile risulta invertita!) La scelta di una trasformazione specifica si effettua in genere tramite tentativi per vedere quale funzioni meglio Nota: se stiamo esaminando differenze tra variabili, occorre applicare la stessa trasformazione a tutte le variabili in gioco

Svantaggi del trasformare i dati e alternative

Attenzione perché trasformando i dati:

si possono introdurre altri problemi distribuzionali
si cambia l’ipotesi che si intende sottoporre a verifica
l’interpretazione dei dati può risultare complicata