Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Laboratorio di Statistica: Disegno e Campionamento, Appunti di Statistica

Le basi del disegno di uno studio scientifico e del campionamento statistico. Si discute della scelta della strategia di ricerca, della progettazione dello studio, della raccolta e dell'elaborazione dei dati. Inoltre, si approfondisce il concetto di campionamento casuale semplice e si descrivono i metodi di campionamento probabilistici e non probabilistici. utile per gli studenti di Statistica e di Scienze Sociali.

Tipologia: Appunti

2023/2024

In vendita dal 08/02/2024

uni_silvia
uni_silvia 🇮🇹

4.3

(3)

12 documenti

1 / 68

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
LABORATORIO DI STATISTICA
Lezione 1 02/10/2023
ESAME: 22 domande a crocette tra quelle sul sito + 10 data set da analizzare = tot 32
IL DIS EGNO DELL O STU DI O
I risultati di un singolo studio sono raramente definitivi (o addirittura chiari). Quindi, come fai a sapere se un'ipotesi è
corretta? Solitamente sono più studi messi insieme (separati e indipendenti).
Non esiste una "prova" (nel senso matematico della scienza), ma c'è "prova" che "funziona". Ricorda: Non è detto che
una cosa riproducibile sia necessariamente vera.
COS A È E CO ME SI FA U NO ST UDIO? È la STRATEGIA con cui conduciamo la nostra ricerca, rappresenta il modo in
cui guidiamo la nostra indagine. Si possono applicare diverse strategie in uno studio scientifico, la scelta dipende da
numerosissimi fattori come:
Cosa ci interessa verificare
Che tipo di popolazione stiamo esaminando
Che tipo di effetto stiamo studiando (un effetto è per esempio una differenza tra due dati, è qualcosa che
lega due variabili)
Che tipo di informazione vogliamo ottenere
Risorse per condurre lo studio
Problemi etici (ES. trattamento dati personali delle persone)
Problemi economici
1) PROGETTAZIONE DELLO STUDIO:
1. Scelta della tecnica di indagine
2. Progettazione del questionario
3. Valutazione preliminare di tempi e costi (è importante sapere prima di un esperimento quanto sia
significativo)
4. Predisposizione di un sistema di controllo della qualità
5. Stesura di un documento di progettazione (documento con scritto tutto quello che verrà fatto, e bisogna
seguirlo altrimenti si vìola il protocollo)
6. Predisposizione e realizzazione di sperimentazioni
2) REALIZZAZIONE DE LL’INDAGINE:
1. Rilevazioni delle informazioni (ES. questionari)
2. Codifica risposte aperte
3. Registrazione dei dati su supporto informatico
3) ELABORAZIONE DEI DATI:
1. Revisione dei dati
2. Elaborazione dei dati (valutare dati congruenti e consistenti)
3. Visualizzazione dei dati (vedremo come visualizzare i dati, grafico migliore per vederli e per vedere le
relazioni)
4. Validazione dei risultati (una volta che ho ottenuto un risultato, devo confermarlo e validarlo)
4) PRESENTAZIONE DE I RISULTATI
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44

Anteprima parziale del testo

Scarica Laboratorio di Statistica: Disegno e Campionamento e più Appunti in PDF di Statistica solo su Docsity!

LABORATORIO DI STATISTICA

Lezione 1 – 02/10/ ESAME : 22 domande a crocette tra quelle sul sito + 10 data set da analizzare = tot 32

IL DISEGNO DELLO STUDIO

I risultati di un singolo studio sono raramente definitivi (o addirittura chiari). Quindi, come fai a sapere se un'ipotesi è corretta? Solitamente sono più studi messi insieme (separati e indipendenti). Non esiste una "prova" (nel senso matematico della scienza), ma c'è "prova" che "funziona". Ricorda: Non è detto che una cosa riproducibile sia necessariamente vera. COSA È E COME SI FA UNO STUDIO? È la STRATEGIA con cui conduciamo la nostra ricerca, rappresenta il modo in cui guidiamo la nostra indagine. Si possono applicare diverse strategie in uno studio scientifico, la scelta dipende da numerosissimi fattori come:  Cosa ci interessa verificare  Che tipo di popolazione stiamo esaminando  Che tipo di effetto stiamo studiando (un effetto è per esempio una differenza tra due dati, è qualcosa che lega due variabili)  Che tipo di informazione vogliamo ottenere  Risorse per condurre lo studio  Problemi etici (ES. trattamento dati personali delle persone)  Problemi economici

  1. PROGETTAZIONE DELLO STUDIO:
  1. Scelta della tecnica di indagine
  2. Progettazione del questionario
  3. Valutazione preliminare di tempi e costi (è importante sapere prima di un esperimento quanto sia significativo)
  4. Predisposizione di un sistema di controllo della qualità
  5. Stesura di un documento di progettazione (documento con scritto tutto quello che verrà fatto, e bisogna seguirlo altrimenti si vìola il protocollo)
  6. Predisposizione e realizzazione di sperimentazioni
  1. REALIZZAZIONE DELL’INDAGINE:
  1. Rilevazioni delle informazioni (ES. questionari)
  2. Codifica risposte aperte
  3. Registrazione dei dati su supporto informatico
  1. ELABORAZIONE DEI DATI:
  1. Revisione dei dati
  2. Elaborazione dei dati (valutare dati congruenti e consistenti)
  3. Visualizzazione dei dati (vedremo come visualizzare i dati, grafico migliore per vederli e per vedere le relazioni)
  4. Validazione dei risultati (una volta che ho ottenuto un risultato, devo confermarlo e validarlo)
  1. PRESENTAZIONE DEI RISULTATI

IL PROTOCOLLO DI STUDIO

  • È un documento scientifico in quanto descrive tutti gli aspetti metodologici medici e statistici dello studio;
  • È un manuale operativo in quanto descrive tutti i dettagli per la sua conduzione;
  • È un documento legale in quanto vincola gli sperimentatori a seguire le procedure in esso contenute, ufficialmente approvate dagli autori e da autorità indipendenti competenti (comitato etico). In questo senso il protocollo ha lo scopo di proteggere i pazienti da procedure non adeguatamente valutate ed approvate e pertanto potenzialmente pericolose. Il protocollo di studio deve coprire le seguenti aree fondamentali:
  1. Razionale dello studio (parte della letteratura che motiva il perché mi è venuta una certa ipotesi);
  2. Obiettivi , formulati in termini di ipotesi medicostatistiche o scientificostatistiche. Devi ipotizzare una relazione, una differenza, qualcosa di misurabile;
  3. Disegno dello studio , incluso dimensionamento del campione; tecniche per ridurre gli errori sistematici e tecniche per il controllo della variabilità (ci sono disegni di studi già programmati). Più è complicata la mia ipotesi, maggiori saranno i campioni da analizzare.
  4. Trattamenti in studio e concomitanti;
  5. Criteri di inclusione/esclusione dei soggetti (devo scrivere prima quali soggetti includere e quali no);
  6. Procedute di gestione, controllo qualità e analisi statistica dei dati;
  7. Aspetti logistici, amministrativi e legali (logistici=dove mettere campioni) TIPI DI STUDIO

studio viene condotto, cioè limitandosi a selezionare il campione e poi “osservare”. Il fine dell’osservazione è determinare l’entità e le circostanze dell’associazione tra caratteristica ed evento. Si dividono in:

  1. CROSS-SECTIONAL STUDIES : si intende un tipo di studio basato su un campionamento trasversale nel tempo. Cross section è quindi uno studio condotto in un determinato tempo, prendendo una porzione di popolazione, una sezione incrociata (ES. giovani e vecchi). Forniscono solo indirettamente un'evidenza circa gli effetti di tempo e devono essere usati con grande cautela quando si traggono conclusioni circa il cambiamento. Se faccio uno studio su QI di vecchi e giovani e vedo che vecchi hanno QI più basso dei giovani, posso dedurre che gli anziani hanno QI più basso? No, perché sono persone vissute in due epoche diverse e non comparabili. Sarebbe giusto uno studio in cui vado a seguirli nel tempo, così potrei vedere se QI diminuisce. Quindi con lo studio cross sectional non si possono tirare conclusioni relative al tempo. Rispondono alla domanda “Cosa sta succedendo in questo momento?”, quanto un determinato fenomeno è presente nella popolazione in un determinato momento. Studiano lo stato di una particolare condizione o l’esposizione ad un particolare fattore di rischio. OBIETTIVI Descrivere la prevalenza di un fenomeno in una popolazione TIPI DI DATI Dati individuali ottenuti da campioni^ rappresentativi della popolazione VANTAGGI Di breve durata, poco costoso, scelgo io la popolazione SVANTAGGI Non si addice agli eventi rari
  2. CASE-CONTROLS STUDIES: sono studi che confrontano una popolazione di affetti verso una popolazione di non affetti e vanno a studiare diversi fattori di esposizione. La popolazione la costruisco io, e i due gruppi devono differire solamente per la variabile di interesse. La ricerca è orientata verso i fattori di esposizione. Lo studio mira a conoscere cosa sia successo in passato. OBIETTIVI Valutare l’effetto dei fattori di rischio, stimare il rischio, valutare il ruolo e la eventuale interazione dei fattori di rischio TIPI DI DATI Dati individuali ottenuti da tutti i documenti disponibili sui soggetti in studio VANTAGGI Di breve durata, poco costoso, scelgo io la popolazione, può essere usato per studiare malattie rare SVANTAGGI Non si addice a fattori di esposizione rari, non consente stime di incidenza o prevalenza
  3. PROSPECTIVE COHORT STUDIES : prendo una corte fissa (es 1000 persone) e guardo nel tempo cosa gli succederà. Iniziano l’osservazione di individui sani non affetti da malattia che vengono seguiti nel tempo per vedere cosa accadrà. Gli individui selezionati sono privi di malattia e vengono divisi in due gruppi, quelli che sono esposti o non esposti al fattore di rischio. Alla fine dello studio si confrontano il numero dei nuovi casi tra i due gruppi esposti e non esposti. Rispondono alla domanda cosa accadrà. OBIETTIVI Valutare incidenza e durata delle malattie e calcolare i rischi in funzione delle esposizioni TIPI DI DATI Dati individuali ottenuti da tutti i documenti disponibili sui soggetti in studio VANTAGGI Si possono stimare incidenza e prevalenza, la malattia è valutabile precisamente e^ la rivelazione dei fattori di rischio non è influenzata dalla malattia SVANTAGGI Organizzativamente complessi, non si possono testare ipotesi nuove emerse prima dello studio, inadatto per malattie rare

QUALE TIPO DI STUDIO E’ IL MIGLIORE?

I trials clinici sono i migliori, perché c’è tutto uno studio e una preparazione dietro, mentre l’opinione di un singolo esperto è quella più discutibile. Le malattie rare si possono studiare nello studio caso controllo ma non in quello di corte. Mentre i fattori di esposizione rari si possono studiare nello studio di corte. Lezione 2 – 03/10/ Esiste metodo ingenuo e metodo scientifico. IL CAMPIONAMENTO Dopo che si è fatto il disegno, si prende il campione. Per campione statistico si intende quel gruppo di unità elementari (non necessariamente persone), sottoinsieme particolare della popolazione o universo, individuato in essa in modo da consentire, con un rischio definito di errore, la generalizzazione all’intera popolazione. Il campione ci aiuta ad avere una stima. Parleremo di popolazione o universo per indicare tutti gli altri. Il campione deve essere rappresentativo , se non è rappresentativo non si può fare una stima campionaria. Nel campione misuro qualcosa e ottengo il parametro della popolazione. Il campione rappresentativo rappresenta in

ERRORI E BIAS

Quando raccogliamo i dati, la bontà dei dati dipende dalla presenza di errori e di bias.

  • ERRORE : un atto, asserzione o una convinzione che devia dal giusto. In matematica errore è la differenza tra un valore calcolato o misurato e il valore vero o quello eroicamente corretto.
  • BIAS : è qualcosa di più sottile dell’errore. Si tratta piuttosto di una “preferenza”, di una “inclinazione” che impedisce un giudizio imparziale o porta a decisioni o azioni ingiuste a causa di un pregiudizio. In statistica, Bias è un errore dovuto al fatto che sistematicamente alcuni gruppi o esiti sono favoriti rispetto ad altri. In pratica, il bias è un errore che si presenta in misura diversa nei diversi gruppi considerati intenzionalmente o involontariamente. I bias sono errori sistematici, possono occorrere nel disegno o nell’esecuzione di uno studio, determinano una stima non corretta dell’associazione fra esposizione e rischio di malattia. Si distinguono dagli errori casuali (errori random o random misclassification), come esemplificato di seguito. PRECISIONE E ACCURATEZZA Nei bias troviamo: errori sistematici, confondimento, misclassificazione, selezione. Mentre un errore è causale. Se la bilancia non pesa in modo giusto, dà errori di precisione, ma non influenza la validità. Il bias influenza la validità dei risultati, mentre l’errore influenza la precisione. Quando raccogliamo dati con bassa precisione vuol dire che i risultati sono imprecisi, mentre quando è bassa l’accuratezza vuol dire che non è vicino al valore giusto. Quando invece la precisione è alta, i dati sono tutti simili, ma se l’accuratezza è bassa, sono tutti lontani dal vero. Precisione : è espressa con intervalli di confidenza, e dipende dalla grandezza del campione e dall’efficienza dello studio. È anche la misura della variabilità. Più una misura è variabile, meno è precisa. Accuratezza : è il grado di corrispondenza del dato teorico, desumibile da una serie di valori misurati. Indica la vicinanza del valore trovato a quello reale. È un concetto qualitativo che dipende sia dagli errori casuali che da quelli sistematici. TIPI DI BIAS
  • Bias di selezione : riguarda un errore sistematico nell’identificazione della popolazione e/o nella selezione della campione a cui si riferisce lo studio. Questo errore influisce sulla validità esterna, i dati raccolti e analizzati su quel campione sono validi, ma riferiti a quel campione che non può essere generalizzato alla popolazione perché raccolto in modo non corretto. Sbaglio nel selezionare i campioni. Particolari tipi di bias di selezione sono: o Bias da reclutamento dei casi. Es. reclutiamo più facilmente soggetti con forme più gravi della patologia. o Bias del volontario: i controlli sono reclutati in una popolazione non rappresentativa della popolazione sana. Es: soggetti afferenti a strutture sanitarie o Diagnostic bias: la diagnosi è differenziale tra esposti e non. Es: relazione tra contraccettivi orali e tumore endometriale. I contraccettivi orali danno più frequentemente emorragie uterine, la cui investigazione porta a facilitare la diagnosi di neoplasia
  • Bias di assegnazione/selezione differenziale : quando i partecipanti non sono assegnati causalmente a un gruppo di trattamento o a un gruppo di controllo;
  • Bias di performance : quando i ricercatori o i partecipanti sono a conoscenza del trattamento che stanno ricevendo e questo può influenzare i risultati. Il bias di performance viene limitato dalla cecità o blinding.
  • Bias di pubblicazione : quando gli studi con risultati positivi sono più propensi ad essere pubblicati rispetto agli studi con risultati negativi;
  • Bias di confondimento: si verifica quando una o più variabili non controllate influiscono sui risultati di uno studio;
  • Bias di risposta : quando i partecipanti non rispondono in modo corretto;
  • Bias di attribuzione : quando i ricercatori attribuiscono significato un diverso a un evento o una variabile;
  • Bias di intervallo : quando intervalli di confidenza sono tropo stretti o larghi a causa di una scelta sbagliata diemnsione del campione;
  • Bias di rappresentatività : quando i campioni non sono rappresentativi della popolazione generale;
  • Bias di campionamento : si verifica quando gli intervalli di confidenza sono troppo stretti o larghi a causa di una scelta errata della dimensione del campione;
  • Bias di regressione verso la media: quando i valori estremi di una variabile influiscono sulle stime di regressione;
  • Bias di riferimento : errore nella scelta di campioni di controllo. Si verifica quando i partecipanti confrontano il loro trattamento con un gruppo di riferimento in modo non corretto.
  • Bias di autoselezione : quando i partecipanti scelgono di partecipare a uno studio in modo non causale a uno studio (ES. magari partecipano persone più motivate).
  • Bias di detection : la conoscenza relativa all’intervento a cui è sottoposto ogni partecipante condiziona il ricercatore nella produzione delle analisi, dei risultati o nelle conclusioni dello studio. Viene limitato dalla cecità o blinding.
  • Bias di informazione : quando il soggetto viene posto in un gruppo tra trattati e controlli perché si è a conoscenza della sua condizione, oppure della concomitanza di altri fattori e si colloca (volutamente o accidentalmente) in un gruppo (trattati) o in un altro (controlli).
  • Bias di osservazione : Errori di misura differenziali (soluzione: standardizzare la raccolta dati). Ne fanno parte i biasi di recall e la misclassificazione o Bias di recall : quando i partecipanti non ricordano le informazioni richieste durante uno studio. ES. studio se la febbre ha influenzato autismo, quindi faccio un questionario ai genitori di persone affette da autostimo e a genitori di una popolazione controllo. Probabilmente trovo una differenza significativa solo perché i genitori di persone autistiche hanno dato più peso a una febbre e se la ricordano di più. o Misclassificazione di casi e controlli: assegnazione dei soggetti in studio alla categoria sbagliata di una variabile categorica. Misclassificazione non differenziale (non dipende da altre variabili in esame) e misclassificazione differenziale (influenzata da altre variabili in esame).
  • Bias da violazione protocollo: quando i pazienti non seguono quanto previsto dal protocollo di studio, ricevendo o non ricevendo il trattamento o ricevendo trattamenti precedenti/concomitanti o successivi non previsti dal protocollo di studio.
  • Bias dati mancanti: alcuni dati pottrebbero essere mancanti per ragioni precise e la loro mancanza potrebbe influenzare l’analisi dei dati ed i risultati dello studio.
  • Bias di attrito: quando i pazienti inizialmente reclutati nello studio escono progressivamente, in momenti differenti.
  • È un linguaggio object-oriented, orientato agli oggetti. Cioè nell’ambiente di R salveremo le informazioni in un oggetto. Per esempio in “dati”. Pro e contro :
  • Funzioni potenti, ma solo per quello che R “sa fare”.
  • Poco potente e flessibile per il resto (meglio linguaggi di programmazione come C++, Java, etc.)
  • Ottimo per applicazioni statistiche di piccole e medie dimensioni
  • La licenza open source prevede che il software venga fornito sia nel formato compilato (eseguibile) che in quello sorgente Dagli anni Settanta sono state sviluppate tecniche statistiche che richiedono un notevole supporto computazionale al fine di essere fruibili. Negli anni Novanta i Bell Laboratories hanno deciso di sviluppare un nuovo ambiente per l'analisi statistica in grado di permettere, oltre l'applicazione delle metodologie conosciute, anche la sperimentazione di nuovi modelli e idee statistiche. Nasce quindi il linguaggio S. R è la versione gratis di S. R studio è un’interfaccia grafica che consente di utilizzare R in maniera più semplice. R è il motore. Si può scaricare o utilizzare su cloudcerca posit cloud. Scriptfoglio di testo sopra la console (è come un foglio di bella), permette di scrivere un programma e poi lanciarlo nella console Environment è l’ambiente con tutti gli oggetti, tutti i dati che poi inserisco Historytutti i comandi che ho eseguito vengono memorizzati qua Files cartelle presenti in documenti. Se sono su cloud devo caricare i dati con upload Plots sono i grafici Packagessono le funzioni che ci servono Help si possono chiedere informazioni COMANDI R STUDIO Delle volte è comodo scrivere comandi su script:

getwd()  Capire la directory in cui si sta lavorando, per capire in che cartella sta guardando il programma setwd(/directory/)  Cambiare la directory ls()  Lista oggetti nel workspace (avendo R studio si possono vedere gli oggetti in environment) history()  Mostra ultimi 25 comandi (non useremo quasi mai perché in R studio ci sono già). Posso anche salvare un comando dalla history e poi reimportarla in un altro lavoro. history(max.show=Inf)  Mostra tutti i comandi savehistory(file="nome.file")  Salva la history loadhistory(file="nome.file")  Carica la history save.image()  Salva area di lavoro (.Rdata). R data vuol dire che è stato salvato save(lista_oggetti,"NOME.RData")  Salva oggetti particolari (.Rdata) load ("NOME.RData")  Carica un oggetto .RData dir.create ("/directory/")  Crea una cartella help(NOME FUNZIONE)  Richiama il manuale di uso del pacchetto e della funzione ?NOMEFUNZIONE In R, tutto ciò che è scritto a parole vuole le virgolette. Se vogliamo scrivere un testo bisogna mettere tra virgolette. Il testo libero è tutti colorato in verde, quindi tutto ciò che è tra le virgolette è verde. Load workspace per ricaricare dati

I PACCHETTI

Sono delle cartelle che contengono delle funzioni, cioè delle operazioni eseguite con dei comandi. R consente di integrare una serie di funzioni e pacchetti già pronti e avvalersi in questo modo del lavoro di altri. È possibile utilizzare il menu per compiere queste operazioni. Se scarico un pacchetto, esso carica anche tutte le sue dipendenze , cioè altri pacchetti che utilizza. Può succedere che ci siano problemi con la dipendenza (magari viene cancellata), quindi nello scaricare il pacchetto dà errore perché non riesce a portarsi dietro la sua funzione dipendente. Library serve a richiamare il pacchetto già installato. Il programma presenta una serie di pacchetti aggiuntivi che possono aumentare notevolmente le potenzialità di R. Ne esistono dio tre tipi:

  • Pacchetti automaticamente installati e avviati
  • Pacchetti automaticamente installati ma non avviati
  • Pacchetti reperibili in rete Lezione 4 – 09/10/ SINTASSI DI UN COMANDO R Per inserire gli oggetti si utilizza il simbolo di assegnazione <- e non devo mettere le virgolette. Il simbolo <- è usato al posto dell’uguale (=). ES. dati<- 1  ho creato dati che contiene 1
  • R supporta il segno = ma ne sconsiglia l’uso
  • È disponibile anche il comando assign
  • Se non specifichiamo la variabile destinazione il risultato viene tenuto nella variabile. Last.value
  • Premendo i tasti freccia su e freccia giu possiamo navigare nella command history (la lista dei comandi eseguiti precedentemente) LE VARIABILI str sta per struttura. Cioè mi dice che tipo di struttura è l’oggetto
  • Ogni assegnazione in R sovrascrive il contenuto della variabile di destinazione.
  • Gli oggetti possono essere rimossi con il comando rm(oggettoDaCancellare)
  • Rimozioni multiple rm(pippo,pluto, x1)
  • con rm(list=ls()) svuotiamo il workspace Pulizia del Work Space con ls richiamo la lista e con rm rimuovo quella lista se voglio rimuovere sono un oggetto scrivo rm (oggetto) GLI OPERATORI Gli operatori matematici:
  • Addizione +
  • Sottrazione –

sex<- c (rep ("maschio", 5), rep ("femmina", 5)). ATTRIBUTI DI UN VETTORE, cioè le caratteristiche

  • Lenght (x) richiama la lunghezza del vettore
  • mode(X)  tipologia del vettore, numerico, ecc. Verifico il modo del vettore
  • names(X)  Visualizzo i nomi del vettore.
  • names(X)<-c( "A", "B"…)  Assegno nomi al vettore. ES. se ho il vettore con tutte le altezze, posso associare il nome della persona all’altezza corrispondente.
  • X [n]  visualizzo elemento n
  • X [n1: n2]  visualizzo da n1 a n2. Devo separare con i: altrimenti se metto virgola mi da errore, perché la virgola si usa quando ho riga e colonna.
  • X[c(n1 ,n2,n3)]  visualizzo n1 n2 e n
  • X[-(n1:n2)]  visualizzo tranne da n1 a n
  • X[X>n]  visualizzo elementi > n
  • X[X>n1 | X<n2]  visualizzo elementi >n1 o >n
  • X[X>n1 & X<n2]  visualizzo elementi >n1 e >n
  • X [“a”]  visualizzo elementi =a Ordinare un vettore:
  • sort(X)  mettere in ordine
  • sort(X,decreasig=T)  la T sta per true Funzioni elementari di un vettore:
  • mean(X) # calcola media del vettore
  • min(X) # calcola minimo del vettore
  • max(X) # calcola massimo del vettore
  • median(X) # calcola mediana del vettore
  • range(X) # calcola range del vettore
  • quantile(X) # calcola quantili del vettore
  • sum(X) # calcola sommatoria del vettore
  • sd(X) # calcola dev standard del vettore
  • var(X) # calcola varianza del vettore
  • cumsum(X) # calcola somma progressiva del vettore
  • union(X,Y) # unisce due vettori X e Y
  • intersect(X,Y) # interseca due vettori X e Y
  • setdiff(X,Y) # trova differenze tra due vettori X e Y
  • is.element(X,Y) # verifica se X è presente in Y
  • X%in%Y # verifica se X è presente in Y (uguale a is.element)
  • which(X,Y) # trova posizione in cui c’è X in Y (per esempio se voglio togliere degli elementi ma non so dove si trovano).
  • ave(X,FUN=funz.) # applica una funzione ad ogni elemento di X
  • rev(X) # inverte gli elmenti del vettore
  • round(X) # arrotonda gli elementi del vettore
  • head(X) # visualizza i primi sei elementi del vettore I FATTORI Semplici vettori che definiscono delle variabili categoriche. I dati qualitativi in R sono gestiti da oggetti chiamati factors. Una volta trasformati in fattoriali capisce i livelli. Per esempio, maschio e femmina trasformati in 1 e 2.

Prende una variabile qualsiasi e la trasforma in una variabile fattoriale as.factor(X) eta <- c("giovane", "anziano", "adulto", "adulto") creo vettore età facEta <- as.factor(eta)  rendo fattoriale ordered(facEta, levels=c("giovane", "adulto", "anziano")  assegno un ordine ai livelli di un fattore levels(facEta)<-c(1,2,3) ricodifico i livelli di un fattore NB. Se ho maschio femmina maschio e voglio dare 1=maschio e 2= femmina, devo mettere prima 2 e poi 1 perché me li mette in ordine alfabetico. Levels (sex2)<- c (2, 1) Lezione 5 – 10/10/ LE MATRICI È un oggetto a due dimensioni, sia righe che colonne. La funzione che crea la matrice è matrix. Una matrice è una tabella ordinata di elementi dello stesso tipo. Ciascun elemento è univocamente localizzato tramite una coppia di numeri interi: l’indice di riga e quello di colonna. mtx<-matrix(1:25,5)  matrice con 5 colonne e 5 righe di numeri casuali. C di colonna sta vicino alla D di dx R di riga vicino alla S di sx ES. vec1<- 1:25  creo vettore con numeri da 1 a 25 ordinati in colonna. Ha fatto 5 colonne e di conseguenza sono saltate fuori 5 righe matrice<-matrix(vec1,5) creo matrice richiamando vettore, con 5 righe e 5 colonne Gli elementi sono disposti per colonne, a meno di non specificare il parametro ,byrow=TRUE. byrow  ordinare per riga. ES. matrice<-matrix(vec1,5, byrow=T ). Se non metto dentro nulla inserisce in automatico per colonna mtx<- cbind (V1,V2,V3)  unisce tanti vettori per colonna mtx<- rbind (V1,V2,V3)  unisce tanti vettori per riga ALTRO MODO PER COSTRUIRE MATRICI emptyMTX<-matrix (nrow=3,ncol=5) emptyMTX[]<-12: Funzioni elementari:

  • dim(mtx) # indica dimensioni matrice
  • head(mtx) # visualizza prime sei righe matrice
  • mtx[,1] # richiama prima colonna matrice
  • mtx[1,] # richiama prima colonna matrice
  • mtx[1:3,1:5] # richiama prime tre righe e 5 colonne
  • mtx[c(1,3),c(1,5)] # richiama riga 1 e 3, colonne 1 e 5
  • t(mtx) # traspone la matrice ESERCIZIO : 100 soggetti totali, 50 che hanno mangiato tiramisù (ESP+) e 50 non l’hanno mangiato (ESP-). 40 tra quelli che l’hanno mangiato sono stati male (C+), 10 tra quelli che non l’hanno mangiato sono stati male, e voglio vedere se c’è una relazione.

DATAFRAME

I dataframe sono oggetti simili alle matrici ma che contengono colonne con oggetti di varia natura. Tipicamente vettori, fattori o vettori logici. Le colonne del data frame rappresentano variabili i cui modi ed attributi possono essere differenti (le matrici e gli array sono invece costituiti da elementi omogenei per modo ed attributo). $ dollaro si usa quando si vuole richiamare una colonna di un dataframe data.frame(vector1,vector2,..vectorn) costruisce dataframe, e all’interno vanno i vettori.  I VETTORI SONO LE COLONNE VARIABILI: colonne OSSERVAZIONE STATISTICA: righe (ES. esperimento e numero cellule contate) Per estrarre gli elementi di un dataframe si utilizzano i comandi visti per le matrici: str (DATAFRAME) per vedere struttura attach (DATAFRAME) e detach (DATAFRAME) per rendere ogni colonna un vettore DATAFRAME$Var1  per visualizzare le variabili di un dataframe. E’ comodo perché so esattamente da dove arriva quella variabile ES. nomi<-c("mario", "luca", "matteo", "giada", "lucia", "imma") altezza<-c(170,175,180,165,165,155) fumo<-c (1,1,0,0,0,0) sex<-c("M","M","M","F","F","F") netflix<-c("si","no","si","si","si","no") dati<-data.frame(nomi,altezza,fumo,sex,netflix) View(dati)  fa tabella dati$altezza  per visualizzare una variabile, in questo caso altezza all=Tserve per fare vedere tutto anche se non ho tutti i dati

Lezione 6 – 11/10/ FUNZIONI SPECIALI DATAFRAME MERGE  combina due dataframes basandosi su corrispondenze  R<-merge(DF1,DF2,by.x="NOME_COL",by.y="NOME_COL",all=T) SUBSET : filtra un dataframe. Select serve per visualizzare solo una colonna oppure più di una.  subset(airquality,Ozone<20, select = c(Ozone, Temp)) ES. Per esempio, per fare analisi solo su una parte, solo maschi, solo femmine APPLY : applica una funzione (media, mediana, ecc) alle righe o alle colonne di un DF  apply (DATAFRAME, 1 ,mean) alle righe  apply (DATAFRAME, 2 ,mean) alle colonne ES. Se ho un dataframe con tantissime variabili, diversi valori biologici per ciascuna colonna, e voglio la media per ciascuna di queste variabili, prendo il dataset e faccio apply. LAPPLY : applica una funzione agli elementi di una lista  lapply(list,1,fun) TAPPLY e BY : applica una funzione ad una variabile condizionatamente ad un indice. Dipendentemente a una variabile categorica  tapply(DATAFRAME$VETTORE,DATAFRAME$FATTORE,fun)  by((DATAFRAME$VETTORE,DATAFRAME$FATTORE,fun) SPLIT : prende un dataframe, lo divide in due e lo salva in una lista  list<-split(DF1,DF$FACTOR) SUMMARY : descrive l’intero dataframe  summary(DATAFRAME) TABULATE : produce un vettore con frequenze assolute di un fattore  tabulate(DATAFRAME)  table(DATAFRAME) ES. Per vedere quante macchine da 4,6,8 cilindri hanno cambio manuale e automatico. ISTRUZIONI CONDIZIONALI (non chieste all’esame) Sono gestititi dalla sintasi IF-ELSE ES. if (x<=0){y <- x^2}else{x} x <- c("Davide","Antonino","Paolo") if("Davide" %in% x) { se davide è presente in x print("Davide Trovato") } else { print("Davide non c’e") }

CREARE FUNZIONI PERSONALIZZATE CON R

correlazione<- function(x,y) { mx <- mean(x); my <- mean(y); vx <- sd(x); vy <- sd(y); g <- (sum((x-mx)(ymy))/length(x))/(vxvy); return(g) } Per esempio , per generare n numeri casuali da una distribuzione normale standard, farne l'istogramma e calcolare la media, si può definire la nuova funzione: normistmed <- function(quantinevuoi){ temp <- rnorm(quanti ne vuoi) hist(temp) mean(temp) } normistmed(100) IMPORTARE I DATI IN R Per importare dei dati su R è necessario come prima cosa analizzare il tipo di file che vogliamo importare. Dobbiamo verificare in particolare tre elementi:

  • l’estensione del file
  • se la prima riga contiene i nomi delle variabili o no,
  • cosa separa gli elementi l’uno dall’altro (virgole, punti e virgola, tabulazioni, eccetera) Le funzioni base per importare dati su R sono in particolare tre, e possono essere utilizzate per importare dei dati in formati quali .csv, .tsv o .txt. Si tratta delle funzioni read.table(), read.csv() e read.delim(). Queste tre funzioni hanno una struttura molto simile, ed è composta dai seguenti argomenti:
  • Il file : è il file che vogliamo importare su R e può essere identificato col semplice nome se si trova nella directory di lavoro che abbiamo scelto per quel particolare progetto, oppure con l’intero indirizzo se si trova su una cartella esterna
  • L’header : l’argomento header serve a specificare se nella prima riga dei nostri dati sono presenti i nomi delle variabili del file o no. In caso affermativo, è settato su TRUE
  • L’argomento sep indica il separatore che divide i dati. Può essere ad esempio una virgola, o un punto e virgola. Scriveremo quindi 1°METODO IMPORTAZIONE DATI Upload da excel Inserire NA: dato mancante devo scrivere in NA come chiamo il dato mancante, in modo che il sistema lo capisca. In questo modo mi dà double al posto di character. Dato mancante può essere indicato con NA, NAN, “spazio”, ecc 2°METODO IMPORTAZIONE DATI Salvare i dati in. txt o in. csv .txtvuol dire che le colonne sono separate da tabulazione, quindi in excel separati in due colonne. I dati sono separati da uno spazio. MIGLIORE

.csv in automatico aperto da excel, ma se lo apro con blocco note, ogni valore è separato dalla virgola o dal punto e virgola senza spazio. In Italia sono separati da ; Per importali faccio Import e From Text (base).

  • Semicolon è il punto e virgola. Comma è la virgola (scegliere in base a quelli che ho).
  • Mettere Heading: Yes. Altrimenti i titoli vengono considerati come dati e tutte le variabili risultano “caratteri”.
  • Stringa as factor: spuntare IMPORTANTE!! Quando carichi i dati copia anche il comando DEPORTARE I DATI Uso write.table(DATI, “pippo.txt”, sep=”\t”)  salva il file in txt. \t è il modo per indicare lo spazio Se non so dove sono andati i dati faccio getwd(). Lezione 7 – 16/10/ I dati si possono caricare da Excel o da altri formati. Sono un insieme di dati che hanno una determinata struttura. Il formato che possiamo usare è un testo delimitato da tabulazione (.txt), oppure un .csv. RICODIFICA DELLE VARIANTI E’ necessario attribuire e correggere il modo in cui si presentano le variabili una volta caricato un dataset. In particolare, attribuire valore categorico alle variabili categoriche, numerico alle numeriche. L’abbiamo già fatto importando i dati e mettendo as.factor. Ma se non l’ho fatto devo correggere dopo. Questo è possibile sovrascrivendo le variabili in questo modo: Oppure posso anche creare una nuova variabile con le informazioni scritte in modo diverso , per esempio se ho le altezze posso dividere i dati in quelli più alti di 170 e quelli più bassi di 170. Creo delle variabili categoriche. ES. creare una variabile categorica: VECCHI e GIOVANI. Poi sulla tabella dei dati si crea una nuova variabile categorica.