




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica completa sull'analisi dei dati utilizzando r e rstudio, esplorando concetti fondamentali come oggetti, funzioni e dataframe. Approfondisce le statistiche descrittive e l'importanza della visualizzazione grafica dei dati, evidenziando come un buon grafico possa chiarire aspetti cruciali di un campione. Introduce il pacchetto ggplot2 per la costruzione di grafici a strati e discute la probabilit dei dati osservati, con particolare attenzione alla distribuzione campionaria, all'errore standard e al teorema del limite centrale. Infine, affronta la statistica inferenziale, spiegando ipotesi nulla e alternativa, modelli statistici e il concetto di test statistic.
Tipologia: Appunti
1 / 106
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































R è case sensitive : maiuscolo e minuscolo sono diversi Un oggetto è qualsiasi cosa sia creata in R: una variabile, un modello, un grafico. Può essere un singolo valore (una media), o una serie d’informazioni (es. gli output delle analisi). Le funzioni sono usate per creare o lavorare sugli oggetti. Richiedono tipicamente alcuni argomenti: a volte solo il nome dell’oggetto su cui agisce la funzione, in altri casi più argomenti separati da virgole. Le funzioni hanno sempre le parentesi tonde Oggetti:
Conoscere il tipo di variabile è essenziale per eseguire comandi e analisi appropriate Un dataframe è una tabella composta da righe (i casi) e colonne (le variabili), simile a un foglio Excel Immaginiamo di avere due variabili che contengono le sigle di 10 atenei italiani e il voto di laurea medio in STP in tali atenei, rispettivamente: Per creare un dataframe
Pacchetto ggplot Costruzione a strati Ogni strato contiene elementi grafici (geom = barre, punti, assi) Ogni geom possiede proprietà estetiche (aes = colore, spessore, linee) Queste properietà possono essere definite per l’intero grafico o per ciascuno strato Se le proprietà estetiche sono specificate globalmente per l’intero grafico, verranno ereditate da tutte le geom.
Possono essere specificate come valore fisso (es. il colore rosso), oppure in maniera dipendente dal valore di una variabile (es: rosso per maschi, verde per femmine) Costruzione del grafico: o Si crea un oggetto grafico specificando le caratteristiche globali del diagramma: dati e aes o Si aggiungono i vari strati ed elementi grafici che compongono il diagramma
La media del campione osservato è in genere utilizzata come stima del valore nella popolazione: ma è affidabile? ⟶ Ciò equivale a chiedere quanto grande sia la variabilità di tale misura da campione a campione⟶ Questa informazione è espressa dalla deviazione standard della distribuzione campionaria, ovvero dall’errore standard.
Intervallo di confidenza per la media Per N grande (N
- la distribuzione campionaria della media è approssimativamente normale, con media pari alla media della popolazione μ e deviazione standard pari a SEM Per una distribuzione normale, c’è il 95% di probabilità che un valore estratto a caso da essa si trovi entro una distanza di ±1:96 deviazioni standard dalla media Se consideriamo la media del nostro campione come estratta a caso dalla distribuzione campionaria della media, esiste il 95% di probabilità che: μ − (1.96 × SEM) ≤ x̄ ≤ μ + (1.96 × SEM) Ciò che ci interessa tuttavia è stimare dove cada la media della popolazione , non quella del campione. Basta però una semplice manipolazione algebrica a dare: x̄ − (1.96 × SEM) ≤ μ ≤ x̄ + (1.96 × SEM) Questo ci dice che prelevando un campione dalla popolazione e costruendo un intervallo con questa procedura , avremo il 95% di probabilità che l’intervallo contenga la media della popolazione. Ricapitolando, l’intervallo di confidenza (CI) è costruito in maniera tale che, se prelevassimo casualmente 100 campioni dalla stessa popolazione e calcolassimo per ognuno di essi il CI attorno alla media del campione, ci aspettiamo che la media della popolazione cada all’interno di questi CI in 95 casi su 100. Si può anche pensare il CI come quell’insieme di valori (ipotetici) della media della popolazione da cui la media del campione raccolto non differisce significativamente; ovvero quei valori della media della popolazione che sono compatibili con l’evidenza fornita dai dati del campione Note:
CI e non ai valori specifici calcolati sul campione raccolto.
singolo intervallo di confidenza: vi è contenuta (p = 1) oppure no (p = 0)
suppone normale (e dunque simmetrica), ne deriva che l’intervallo di confidenza è simmetrico attorno alla media
Per N grande (tale che la distribuzione campionaria possa considerarsi normale), possiamo usare la seguente formula per l’intervallo di confidenza al 95% per la media: dove N 0,975 = 1,96 è il quantile del 97.5% della distribuzione normale. In realtà, per N piccoli la distribuzione campionaria della media segue la distribuzione t, per cui la formula precisa per l’intervallo di confidenza al 95% per la media è:
Al crescere dei gradi di libertà df, cioè delle dimensioni del campione N, poiché df = N - 1, la distribuzione t si avvicina sempre più ad una distribuzione normale standard (cioè con μ = 0 e σ = 1)
probabilità è piccola (per convenzione, p < 0:05), allora diciamo che l’effetto osservato è significativo (= Il valore di p rappresenta dunque la probabilità di falsi positivi)
Definiamo: varianza sistematica : la variazione nei dati raccolti spiegata dal modello adottato varianza non-sistematica : la variazione nei dati non spiegata dal modello adottato (errore, residuo) Il rapporto tra queste due componenti esprime l’efficacia del nostro modello nello spiegare i dati Ps: La forma specifica dell’equazione varia a seconda della test statistic, ma il concetto di base è lo stesso Crucialmente, una test statistic ha una distribuzione nota ! possiamo calcolare la probabilità di ottenere un effetto pari o maggiore di quello osservato, se fosse vera H Tale probabilità rappresenta la significatività del test per l’effetto ipotizzato dal modello Tipicamente, se la significatività è p < 0,05, rifiutiamo l’ipotesi nulla e confidiamo nell’effettiva presenza dell’effetto (ipotesi alternativa) La logica della verifica di una ipotesi è la seguente:
diminuisce all’aumentare di N)
esistenza
Nel verificare una ipotesi sperimentale su un campione di dati possiamo incorrere in un errore di: Tipo I : l’effetto è esibito dal campione, ma non è presente nella popolazione (falsi positivi, falsi allarmi) Tipo II : l’effetto non è esibito dal campione, ma è in realtà presente nella popolazione (falsi negativi) Per un test di significatività di un effetto, si parla di livelli di:
Statisticamente significativo non vuol dire rilevante: un modo che può aiutare a valutare l’effettiva importanza di un effetto è quello di calcolarne le dimensioni in maniera standardizzata (In modo da poter confrontare diversi studi, ad es.) Esistono diverse misure della grandezza di un effetto:
L’ r di Pearson ha il vantaggio di essere vincolato a valori tra 0 (effetto assente) e 1 (effetto perfetto). Per convenzione:
Consideriamo l’analisi della potenza statistica per un test di correlazione semplice, utilizzando lo stesso coefficiente r di Pearson come misura della dimensione dell’effetto In questo caso, possiamo usare la funzione pwr.r.test del pacchetto pwr: dove specificando il valore di tre parametri, si ottiene il valore del quarto. Vogliamo calcolare il numero di soggetti necessario a rilevare una correlazione semplice di grandi dimensioni con una potenza statistica dell’80% e una soglia di significatività pari a 0.05: Per un test di correlazione semplice, con una potenza statistica desiderata dell’80% alla soglia statistica di 0.05, abbiamo bisogno di circa:
La maggioranza dei test statistici sono parametrici , ovvero suppongono che i dati provengano da una distribuzione nota e caratterizzabile da parametri precisi. In particolare, si richiedono le seguenti condizioni:
alla distribuzione degli errori nel modello
devono essere simili; nelle correlazioni, la varianza di una variabile non deve mutare con il valore dell’altra variabile
eguali sulla scala di misura corrispondano differenze eguali nella proprietà misurata (es. le ore della giornata)
oppure (nella regressione) agli errori nel modello
La distribuzione campionaria In molti test statistici, il requisito di normalità non si riferisce alla distribuzione dei dati stessi ma alla distribuzione campionaria (=Distribuzione delle medie di un campione estratto dalla popolazione). Tuttavia sappiamo che:
Concetto di base La varianza di una variabile non deve cambiare al mutare del valore di un’altra variabile (“omoschedasticità”):
Detto anche Fmax di Hartley , fornisce un utile controllo incrociato al test di Levene quando il campione è grande Si calcola il rapporto tra la varianza del gruppo con varianza maggiore e quella del gruppo con varianza minore Si può ritenere il test non-significativo quando: con N ≈10 per gruppo, Fmax < 10 con N ≈ 15–20 per gruppo, Fmax ≲ 5 con N > 30–60 per gruppo, Fmax < 3– NOTA: richiede che i dati siano distribuiti normalmente in ciascun gruppo
Se i dati sono giusti, cioè, sono già stati corretti o rimossi gli errori, possiamo:
La strategia classica nel caso di non-normalità e di eterogeneità della varianza è quella di applicare una funzione ai dati che li renda più conformi ai presupposti distribuzionali dei test che si vogliono eseguire Le trasformazioni più comuni sono: logaritmica, log(x)! comprime la coda destra della distribuzione, quindi rettifica asimmetrie positive e spesso anche varianze diseguali; se il campione contiene valori nulli o negativi, aggiungere una costante ai dati che li renda tutti positivi radice quadrata, sqrt(x)! i valori più grandi vengono ridotti maggiormente rispetto a quelli più piccoli, quindi corregge asimmetrie positive e spesso varianze diseguali; se il campione contiene valori nulli o negativi, aggiungere una costante ai dati che li renda tutti positivi reciproco, 1=x! riduce anch’essa asimmetrie positive e varianze diseguali; notate che la grandezza dei valori viene invertita: ciò si può evitare usando la trasformazione 1=(max(x) - x) inversione, (max(x) - x) o (max(x) + 1 - x)! si usa preliminarmente alle trasformazioni precedenti nel caso di asimmetrie negative (ricordare che l’interpretazione della variabile risulta invertita!) La scelta di una trasformazione specifica si effettua in genere tramite tentativi per vedere quale funzioni meglio Nota: se stiamo esaminando differenze tra variabili, occorre applicare la stessa trasformazione a tutte le variabili in gioco
Attenzione perché trasformando i dati: