Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Elementi di Probabilità e Statistica (EPS), Appunti di Probabilità e Statistica

Probabilità, variabili aleatorie discrete e continue, statistica descrittiva e inferenziale.

Tipologia: Appunti

2020/2021
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 21/01/2021

chiara_tumminelli
chiara_tumminelli 🇮🇹

4.5

(13)

12 documenti

1 / 17

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CHIARA TUMMINELLI
1
PROBABILITÀ
DEFINIZIONE DI PROBABILITÀ: la probabilità è una disciplina della matematica che si occupa di dare
formalizzazioni e strumenti per trattare delle situazioni e dei casi in cui altre discipline della
matematica falliscono. Infatti, la probabilità si occupa di creare una struttura matematica e degli
strumenti per fenomeni soggetti a casualità, cioè esperimenti con esito non prevedibile (esempio:
lancio di un dado a 6 facce). Sinonimo di casualità è incertezza.
RIPASSO SUGLI INSIEMI: un insieme è una collezione di oggetti che vengono chiamati elementi
dell’insieme. Normalmente, gli insiemi vengono indicati con la lettera maiuscola (esempio: A);
invece, gli elementi di un insieme vengono indicati con la lettera minuscola (esempio: a). Per
indicare che l’elemento a fa parte dell’insieme A si scrive a A; invece, per indicare che l’elemento
a non fa parte dell’insieme A si scrive a A. Gli elementi di un insieme si scrivono tra parentesi graffe:
S = { x1, x2, x3, …, xn } è un insieme finito
S = { x1, x2, x3, … } è un insieme infinito numerabile
S = { x N, x ≥ 3 } = { 3, 4, 5, 6, … } è un insieme infinito numerabile
S = { x R, x ≥ 3 } è un insieme infinito non numerabile, o più che numerabile.
Inoltre, se ogni elemento di A è contenuto anche in B, si dice che x A → x B: A B
Le operazioni conosciute sugli insiemi, infine, sono:
complementazione: l’insieme complementare di A è l’insieme formato dagli elementi che
non si trovano nell’insieme A, cioè Ac = { x / x A }
unione: l’insieme che contiene gli elementi di A oppure di B, cioè AUB = { x / x A || x B}
intersezione: l’insieme che contiene gli elementi di A e di B, cioè A∩B = { x / x A && x B}
disgiunzione: gli insiemi A e B si dicono disgiunti se l’intersezione tra l’insieme A e l’insieme
B è un insieme vuoto, cioè se A ∩ B = Ø.
Partizione di Ω: una collezione di insiemi è una partizione di Ω se si verificano le seguenti
situazioni: gli insiemi sono a due a due disgiunti ( Ai ∩ Aj = Ø ) e coprono interamente Ω.
INSIEMI IN PROBABILITÀ: in probabilità si usano gli insiemi per descrivere o rappresentare gli esiti
degli esperimenti probabilistici. Ad esempio, se consideriamo il lancio di un dado a 6 facce e
consideriamo gli insiemi A e B, ovvero gli eventi A = { 1, 2, 3 } e B = { 4, 5, 6 } significa che l’evento A
contiene i casi in cui, lanciando un dado, esca il numero 1, il numero 2 oppure il numero 3; invece,
l’evento B contiene i casi in cui, lanciando il dado, esca il numero 4, il numero 5 o il numero 6. Quindi,
si verifica l’evento A se e solo se effettuando l’esperimento l’esito è un elemento dell’insieme A;
viceversa, si verifica l’evento B se e solo se effettuando l’esperimento l’esito è un elemento
dell’insieme B. L’insieme che contiene tutti i possibili esiti dell’esperimento si chiama spazio
campionario, e si indica con la lettera greca omega maiuscola Ω. Ad esempio, lo spazio campionario
di un dado a 6 facce è Ω = { 1, 2, 3, 4, 5, 6 }. Si evince che, quindi, gli eventi A e B che abbiamo
considerato in precedenza, siano formalmente dei sottoinsiemi dello spazio campionario, cioè A
Ω e B Ω.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
Discount

In offerta

Anteprima parziale del testo

Scarica Elementi di Probabilità e Statistica (EPS) e più Appunti in PDF di Probabilità e Statistica solo su Docsity!

PROBABILITÀ

DEFINIZIONE DI PROBABILITÀ: la probabilità è una disciplina della matematica che si occupa di dare formalizzazioni e strumenti per trattare delle situazioni e dei casi in cui altre discipline della matematica falliscono. Infatti, la probabilità si occupa di creare una struttura matematica e degli strumenti per fenomeni soggetti a casualità , cioè esperimenti con esito non prevedibile (esempio: lancio di un dado a 6 facce). Sinonimo di casualità è incertezza.

RIPASSO SUGLI INSIEMI : un insieme è una collezione di oggetti che vengono chiamati elementi dell’insieme. Normalmente, gli insiemi vengono indicati con la lettera maiuscola (esempio: A); invece, gli elementi di un insieme vengono indicati con la lettera minuscola (esempio: a). Per indicare che l’elemento a fa parte dell’insieme A si scrive a ∈ A; invece, per indicare che l’elemento a non fa parte dell’insieme A si scrive a ∉ A. Gli elementi di un insieme si scrivono tra parentesi graffe: S = { x 1 , x 2 , x 3 , …, x (^) n } è un insieme finito S = { x 1 , x 2 , x 3 , … } è un insieme infinito numerabile S = { x ∈ N, x ≥ 3 } = { 3, 4, 5, 6, … } è un insieme infinito numerabile S = { x ∈ R, x ≥ 3 } è un insieme infinito non numerabile , o più che numerabile. Inoltre, se ogni elemento di A è contenuto anche in B, si dice che ∀ xA → xB: AB Le operazioni conosciute sugli insiemi, infine, sono:

  • complementazione : l’insieme complementare di A è l’insieme formato dagli elementi che non si trovano nell’insieme A, cioè Ac^ = { x / x ∉ A }
  • unione : l’insieme che contiene gli elementi di A oppure di B, cioè AUB = { x / x ∈ A || x ∈ B}
  • intersezione : l’insieme che contiene gli elementi di A e di B, cioè A∩B = { x / x ∈ A && x ∈ B}
  • disgiunzione : gli insiemi A e B si dicono disgiunti se l’intersezione tra l’insieme A e l’insieme B è un insieme vuoto, cioè se A ∩ B = Ø.
  • Partizione di Ω: una collezione di insiemi è una partizione di Ω se si verificano le seguenti situazioni: gli insiemi sono a due a due disgiunti ( A (^) i ∩ Aj = Ø ) e coprono interamente Ω.

INSIEMI IN PROBABILITÀ : in probabilità si usano gli insiemi per descrivere o rappresentare gli esiti degli esperimenti probabilistici. Ad esempio, se consideriamo il lancio di un dado a 6 facce e consideriamo gli insiemi A e B, ovvero gli eventi A = { 1, 2, 3 } e B = { 4, 5, 6 } significa che l’evento A contiene i casi in cui, lanciando un dado, esca il numero 1, il numero 2 oppure il numero 3; invece, l’evento B contiene i casi in cui, lanciando il dado, esca il numero 4, il numero 5 o il numero 6. Quindi, si verifica l’evento A se e solo se effettuando l’esperimento l’esito è un elemento dell’insieme A; viceversa, si verifica l’evento B se e solo se effettuando l’esperimento l’esito è un elemento dell’insieme B. L’insieme che contiene tutti i possibili esiti dell’esperimento si chiama spazio campionario , e si indica con la lettera greca omega maiuscola Ω. Ad esempio, lo spazio campionario di un dado a 6 facce è Ω = { 1, 2, 3, 4, 5, 6 }. Si evince che, quindi, gli eventi A e B che abbiamo considerato in precedenza, siano formalmente dei sottoinsiemi dello spazio campionario, cioè A ⊆ Ω e B ⊆ Ω.

MODELLO PROBABILISTICO: un modello probabilistico è un oggetto matematico costruito per dare una rappresentazione dell’esperimento probabilistico formato da:

  • spazio campionario : come accennato in precedenza, si tratta dell’insieme che contiene tutti i possibili esiti di un esperimento;
  • legge di probabilità (P) : si tratta di una funzione che prende gli eventi, cioè i sottoinsiemi dello spazio campionario, e assegna loro un numero positivo. Il dominio di P è l’insieme delle parti dello spazio campionario, cioè P( Ω ).

I 3 ASSIOMI DI P: P deve godere delle seguenti proprietà:

  • Assioma 1: P deve essere un numero positivo, quindi P( A ) ≥ 0, ∀A ⊆ R
  • Assioma 2: per convenzione, lo spazio campionario ha misura finita, cioè P( Ω ) = 1
  • Assioma 3: additività: se A e B sono disgiunti, cioè se A∩B = Ø, allora P(AUB) = P(A)+P(B) e questa regola deve valere anche per collezioni infinite di esempi. Infatti, l’area è una P.

Da questi assiomi si possono dedurre 4 proprietà della P:

  • se A ⊆ B  P(A) ≤ P(B) = monotonia
  • P(AUB) = P(A) + P(B) – P(A∩B)
  • P(AUB) ≤ P(A) + P(B)
  • P(AUBUC) = P(A) + P(B) + P(C) – P(A∩B) – P(A∩C) – P(B∩C) + P(A∩B∩C)

LEGGE UNIFORME DISCRETA: si tratta della P che possiamo sempre definire quando abbiamo una condizione di equità e quando Ω è finito (Esempio di utilizzo: lancio un dado equo a 6 facce e voglio calcolare la probabilità che esca 6).

#𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 𝒇𝒇𝒄𝒄𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒄𝒄 #𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 𝒑𝒑𝒇𝒇𝒄𝒄𝒄𝒄𝒄𝒄𝒑𝒑𝒄𝒄𝒇𝒇𝒄𝒄

PROBABILITÀ CONDIZIONATA : si utilizza quando si vuole calcolare la probabilità di eventi includendo informazioni parziali (Esempio di utilizzo: lancio un dado equo a 6 facce e calcolo la probabilità che la somma dei due lanci sia 9 sapendo che il primo lancio ha restituito 2).

𝑷𝑷(𝑨𝑨|𝑩𝑩) =

FORMULA DELLE P TOTALI: si utilizza quando si vuole calcolare la probabilità che si verifichi almeno uno di due o più eventi, cioè la probabilità dell’unione dei due eventi. Il teorema ha due diverse formulazioni, a seconda che si considerino solo eventi a due a due incompatibili oppure eventi qualsiasi. Caso di eventi a due a due incompatibili (esempio di utilizzo: il lancio di un dado considera eventi a due a due incompatibili, perché se esce un numero è ovvio che non possa uscirne un altro:

𝐏𝐏(𝐀𝐀𝐀𝐀𝐁𝐁) = 𝐏𝐏(𝐀𝐀) + 𝐏𝐏(𝐁𝐁)

VARIABILI ALEATORIE DISCRETE

DEFINIZIONE : Se l’insieme dei valori assunti dalla variabile aleatoria è finito o al più numerabile, la variabile aleatoria si dice discreta , quindi se Im(X) = { x ∈ R / ∃w ∈ Ω t.c. X(w) = x }. Per calcolare la probabilità utilizzando le variabili aleatorie discrete abbiamo bisogno della PMF.

PMF (PROBABILITY MASS FUNCTION): si tratta della funzione di massa o di probabilità. La funzione di massa di X è la funzione f (^) X dall’insieme dei numeri reali nei reali positivi che ad ogni elemento associa la probabilità che la variabile casuale discreta assuma valori uguali al reale x. La funzione di massa di una variabile discreta, quindi, è semplicemente P(X=x), cioè la probabilità che X sia uguale ad x. Questa probabilità è maggiore di 0 solo per i valori x che la variabile casuale può assumere, mentre sarà uguale a 0 per tutti gli altri valori di x.

VARIABILE ALEATORIA DI BERNOULLI : si utilizza quando si ha una distribuzione di probabilità su due soli valori (esempio: 0 e 1), detti anche fallimento e successo.

dbern ( d, probabilità ) per trovare la densità (R)

pbern ( p, probabilità ) per trovare la funzione distribuzione (R)

qbern ( q, probabilità ) per trovare la funzione quantile (R)

rbern ( r, probabilità ) per trovare deviazioni casuali (R)

E ( X ) = p per trovare la media di Bernoulli

Var ( X ) = ( x – p )^2 per trovare la varianza di Bernoulli

St.Dev = sqrt( Var( X ) ) per trovare la dev standard di Bernoulli

Partendo da un processo di Bernoulli, si costruiscono le seguenti variabili aleatorie discrete:

  • variabile aleatoria discreta binomiale
  • variabile aleatoria discreta geometrica
  • variabile aleatoria discreta ipergeometrica
  • variabile aleatoria discreta di Poisson

VARIABILE ALEATORIA BINOMIALE : si utilizza quando si deve calcolare la probabilità che un evento si verifichi avendo a disposizione n prove di tipo bernoulliano. Per poter utilizzare la variabile aleatoria binomiale devono verificarsi le seguenti condizioni:

  • il risultato di un ogni evento può essere solo positivo oppure negativo;
  • ciascun evento è indipendente da tutti gli altri eventi possibili;
  • la variabile assume un determinato numero intero di valori;
  • la probabilità di successo/fallimento è costante.

dbinom ( d, n prove, probabilità di successo) per trovare la densità (R)

pbinom ( p, n prove, probabilità di successo) per trovare la funzione distribuzione (R)

qbinom ( q, n prove, probabilità di successo) per trovare la funzione quantile (R)

rbinom ( r, n prove, probabilità di successo) per trovare deviazioni casuali (R)

E ( X ) = n * p per trovare la media binomiale

Var X) = np(1 – p) per trovare la varianza binomiale

St.Dev = sqrt( Var( X ) ) per trovare la dev standard binomiale

VARIABILE ALEATORIA GEOMETRICA : si utilizza quando si deve calcolare la probabilità che un evento si verifichi avendo a disposizione un numero illimitato di prove di tipo bernoulliano. Per poter utilizzare la variabile aleatoria binomiale devono verificarsi le seguenti condizioni:

  • il risultato di un ogni evento può essere solo positivo oppure negativo;
  • ciascun evento è indipendente da tutti gli altri eventi possibili;
  • non esiste un numero n di prove, ma si lavora su un numero illimitato di prove;
  • la probabilità di successo/fallimento è costante.

dgeom ( d, probabilità di successo) per trovare la densità (R)

pgeom ( p, probabilità di successo) per trovare la funzione distribuzione (R)

qgeom ( q, probabilità di successo) per trovare la funzione quantile (R)

rgeom ( r, probabilità di successo) per trovare deviazioni casuali (R)

E ( X ) = 1 / p per trovare la media geometrica

Var ( X ) = (1-p) / p^2 per trovare la varianza geometrica

St.Dev = sqrt( Var( X ) ) per trovare la dev standard geometrica

CALCOLO DELLA MEDIA: la media è anche chiamata valore atteso. Si calcola sommando i possibili valori della variabile, ciascuno moltiplicato per la probabilità di verificarsi.

a 1 * p 1 + a 2 * p 2 + a 3 * p 3 + … + a (^) n * pn

CALCOLO DEL MOMENTO DI ORDINE K: il momento di ordine k è il valore atteso della k-esima potenza.

M (^) k = E ( Xk^ )

CALCOLO DELLA VARIANZA : la varianza è anche chiamata scarto quadratico. Si calcola facendo la media del quadrato della differenza tra il valore e la sua media.

E [ ( X – E(X))^2 ]

PROPRIETÀ DELLA MEDIA: per calcolare la media composta occorre seguire le seguenti proprietà:

E (aX + b) = a E(X) + b E (X+Y) = E(X) + E(Y)

PROPRIETÀ DELLA VARIANZA: per calcolare la varianza occorre seguire le seguenti proprietà:

Var(X) = E(X 2 ) – E 2 (X) Var(aX + b) = a 2 Var(X) Var(aX) = a 2 Var(X) Var(X + b) = Var(X)

PROPRIETÀ DELLA DEVIAZIONE STANDARD: per calcolare la deviazione standard composta:

St.Dev(aX + b) = a * St.Dev(X)

PMF CONGUNTA: costruisco la tabella a doppia entrata e trovo il valore incrociando X e Y.

PMF MARGINALE : prendo la riga o la colonna di interesse e faccio la somma di tutti i valori.

VEDERE SE DUE VARIABILI SONO INDIPENDENTI: se il prodotto tra la PDF marginale della prima variabile e la PDF marginale della seconda variabile è uguale alla PMF congiunta allora le variabili sono indipendenti, altrimenti no.

VARIABILI ALEATORIE CONTINUE

DEFINIZIONE : una variabile aleatoria continua può assumere tutti gli infiniti valori appartenenti ad un intervallo di numeri reali. Per calcolare la probabilità utilizzando le variabili aleatorie continue abbiamo bisogno della PDF.

PDF (PROBABILITY DENSITY FUNCTION) : la PDF è la funzione che ci serve per calcolare la P di contro immagini mediante X (esattamente come facevamo con la PMF nel caso discreto).

VARIABILE ALEATORIA UNIFORME : si usa quando è necessario assegnare lo stesso grado di fiducia a tutti i possibili valori di una variabile definita in un certo intervallo. Assume il valore 1/(b-a) su tutti i punti di x ∈ [ a, b ] mentre vale 0 altrove.

dunif ( d, min, max ) per trovare la densità (R)

punif ( p, min, max ) per trovare la funzione distribuzione (R)

qunif ( q, min, max ) per trovare la funzione quantile (R)

runif ( r, min, max ) per trovare deviazioni casuali (R)

Se i valori di min e max non sono specificati, assumono rispettivamente i valori 0 e 1.

E ( X ) = ( a+b ) / 2 per trovare la media uniforme

Var ( X ) = (b-a)^2 /12 per trovare la varianza uniforme

St.Dev ( X ) = sqrt ( Var(X) ) per trovare la dev standard uniforme

Il grafico della variabile aleatoria uniforme, trattandosi di una funzione costante, è un segmento orizzontale da x = a ad x = b di altezza sull’asse x uguale a 1/(b-a) e l’area sottesa vale 1.

Se la media (μ) oppure la deviazione standard (δ) non sono specificati, assumono rispettivamente i valori 0 e 1.

E ( X ) = μ per trovare la media gaussiana

Var ( X ) = δ^2 per trovare la varianza gaussiana

St.Dev ( X ) = δ per trovare la dev standard gaussiana

Il grafico della variabile aleatoria normale è una curva gaussiana, che ha la tipica forma a campana.

CDF (FUNZIONE DI DISTRIBUZIONE CUMULATA): si tratta della funzione che associa a ciascun valore x la probabilità del seguente evento: la variabile casuale X assume valori minori o uguali ad x

ecdf ( X ) per trovare la CDF

X può essere, ad esempio, il calcolo di una normale. (Esempio: ecdf (pnorm (p, media, St.Dev)))

La funzione di distribuzione cumulata è differente nel caso discreto e continuo. Infatti, nel caso discreto il grafico è una funzione costante a tratti, mentre nel caso continuo è una funzione continua, come negli esempi qui sotto:

STATISTICA

DEFINIZIONE : la statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno collettivo in condizioni di incertezza o non determinismo, cioè di non completa conoscenza di esso o di una sua parte. La statistica si divide in descrittiva e inferenziale.

STATISTICA DESCRITTIVA

DEFINIZIONE : la statistica descrittiva comprende l’insieme dei metodi che riguardano la rappresentazione e la sintesi di un insieme di dati al fine di descriverne le caratteristiche principali: grafici, distribuzioni di frequenza).

DATI UNIVARIATI : sono i dati che prendono in esame un solo carattere dell’intera popolazione. In particolare, i dati possono essere:

  • Factor Data : variabili categoriali
  • Character Data: variabili identificative
  • Discrete Data : variabili numeriche-quantitative di natura discreta
  • Continuous Data : variabili numeriche-quantitative di natura continua

DATI UNIVARIATI QUANTITATIVI : Per quanto riguarda i dati quantitativi, quindi i dati discreti e continui, dobbiamo considerare tre indici:

  • Indici di posizione : si tratta delle medie, che sintetizzano la posizione di una distribuzione statistica sostituendo i dati rilevati con un solo valore (numero) reale tale da fornire un’efficace rappresentazione del fenomeno nella sua globalità e da riassumerne gli aspetti ritenuti più importanti. In sostanza, le medie consentono di dare una descrizione dell’ordine di grandezza di un dato fenomeno e confrontarlo con altri. In R la funzione che ci interessa è mean (dato) La media va sempre letta in relazione alla mediana campionaria, che sarebbe il valore che occupa la posizione centrale in una serie di dati disposti in ordine crescente o decrescente. In R la funzione che ci interessa è median (dato). È importante per capire la simmetria della distribuzione della variabile che stiamo studiando: se la mediana è maggiore della media significa che la distribuzione è asimmetrica in quanto la media è stata influenzata da valori estremali piccoli; se la mediana è minore della media significa che la distribuzione è asimmetrica in quanto la media è stata influenzata da valori estremali grandi; se la mediana è simile alla media significa che la distribuzione è simmetrica. Oltre alla mediana, che come abbiamo detto divide a metà un insieme di dati ordinati, abbiamo visto un altro indice di posizione, il quartile, che divide le distribuzioni in quattro parti uguali. La funzione R da utilizzare è quantile (dato) che restituisce il minimo, il primo quartile (Q1), il secondo quartile (Q2), il terzo quartile (Q3) e il massimo. Se si vuole calcolare un quartile in particolare, basta

default sarà TRUE se e solo se le interruzioni sono equidistanti e la probabilità non è specificata.

  • Box plot : si utilizza per visualizzare gli indici di posizione. Per disegnarlo è sufficiente utilizzare la funzione boxplot (dato) , per impostare il grafico in orizzontale occorre utilizzare il parametro logico horizontal: boxplot (dato, horizontal = TRUE). Considerando il grafico orizzontale, esso si presenta come una scatola: gli estremi rappresentano rispettivamente il primo quartile (Q1) e il terzo quartile (Q3). Al centro di questa scatola c’è un’altra linea verticale, che viene disegnata in corrispondenza del secondo quartile (Q2), quindi rappresenta la mediana. Al di fuori della scatola ci sono due linee orizzontali che si chiamano baffi (o whiskers) e indicano la dispersione dei valori inferiori al primo quartile (Q1) e superiori al terzo quartile (Q3) non classificati come outliers. Gli outliers, invece, sono raffigurati come dei pallini e rappresentano i punti considerati troppo lontani dalla scatola, ovvero valori particolarmente distanti dalle altre osservazioni disponibili. Una funzione molto utile per avere una visualizzazione chiara dei dati è la funzione summary, che stampa il valore minimo, il primo quartile (Q1), la mediana (Q2), la media, il terzo quartile (Q3) e il valore massimo: summary (dato). Un’ultima funzione utile è la funzione albine, che permette di tracciare delle linee sul grafico: abline (h=15, col="red"). Per fare questo, lasciare il grafico in verticale.

DATI UNIVARIATI QUALITATIVI : Per quanto riguarda i dati qualitativi, quindi i dati fattore o carattere, ci si concentra in particolare sulle rappresentazioni grafiche:

  • Tabella : per visualizzare la tabella si utilizza la funzione table (dato) , che restituisce tutte le misurazioni di un certo dato. Per visualizzare le percentuali, occorre utilizzare la funzione length in questo modo: table (dato)/length(dato ). È importante utilizzare il parametro useNA per controllare i valori nulli (ad esempio le non-risposte); la funzione table, quindi, è più completa se scritta in questo modo: table (dato, useNA = “ifany”)
  • Grafico a barre : spesso è il metodo preferito. È molto simile ad un istogramma e si disegna con la funzione barchart (table (dato)). Anche in questo caso, aggiungendo il parametro horizontal è possibile avere una visualizzazione verticale del grafico, in questo modo: barchart (table(dato), horizontal = FALSE). Per visualizzare le percentuali, invece, si utilizza la funzione length: barchart (table(dato)/length (x), horizontal = FALSE)
  • Grafico a punti : Un altro metodo, meno utilizzato, è la visualizzazione dei dati mediante i punti. In R si utilizza la funzione dotchart (table (dato)). Per visualizzare i dati in percentuali si utilizza la funzione length: dotchart(table(dato)/length(dato))
  • Grafico a torta : metodo pessimo. È stato spiegato per approfondimento, ma non va utilizzato perché poco intuitivo e dimostrativo per il cervello umano: pie (table (dato)).
  • Grafico a mosaico: anche questo metodo è poco utilizzato ma permette comunque una visualizzazione completa: mosaicplot (table (dati))

In alcuni casi, è utile modificare il valore delle variabili qualitative. Ad esempio, può capitare che una variabile categoriale venga presentata da R come un valore numerico. In questo caso, per trasformare la variabile in fattore si utilizza la funzione factor per creare una nuova variabile da

poter utilizzare per le nostre misurazioni: factor (dato) -> x. Infatti, se proviamo a fare un str(x) vedremo che adesso R tratta la variabile come fattore. Per non confondersi, è possibile modificare le etichette delle variabili mediante la funzione levels: levels(x) <- c(“si”, “no”, “forse”). Se provassimo a costruire la tabella, infatti, noteremmo che i valori inutilmente numerici sono stati modificati.

Allo stesso modo, può capitare che sia necessario trasformare un valore categoriale in valore numerico. In R si può fare con la funzione as.numeric: as.numeric (dato) -> y per creare una nuova variabile y contenente i nuovi valori numerici.

DATI MULTIVARIATI : sono i dati che prendono in esame più caratteri dell’intera popolazione. In particolare, si parla di statistica descrittiva bivariata quando i caratteri sono solo due. In particolare, per i dati multivariati ci interessa studiare se esiste una relazione tra le due variabili misurate. Abbiamo visto tre modi di trattare dati bivariati:

  • 1 dato quantitativo/ 1 dato qualitativo : in questo caso la domanda che ci poniamo è: la variabile numerica si distribuisce in maniera diversa nei diversi gruppi? Per rispondere è necessario disegnare un boxplot, correlando i dati in questo modo: boxplot (dato1 ~ dato2). L’output sarà composto da una serie di scatole: se le scatole si sovrappongono significa che la variabile si distribuisce in maniera simile nei diversi gruppi, se invece le scatole non si sovrappongono significa che la variabile si distribuisce in maniera diversa nei diversi gruppi.
  • 1 dato quantitativo / 1 dato quantitativo : in questo caso la domanda che ci poniamo è: esiste una relazione funzionale lineare tra le due variabili? Per capirlo occorre disegnare uno scatterplot, che si disegna con la funzione plot (dato1, dato2). Se la nuvola di punti si dispone lungo una retta con coefficiente angolare NON nullo (quindi una retta, ma non una retta orizzontale), esiste una relazione funzionale lineare tra le due variabili quantitative, altrimenti no. Per rappresentare quello che abbiamo appena detto in modo numerico si utilizzano gli indici di correlazione. Il primo che abbiamo visto è l’indice di Pearson, che appunto esprime un’eventuale relazione di linearità tra le due variabili. In R si calcola con la seguente funzione: cor (dato1, dato2, method = “pearson”). Se la correlazione è maggiore di 0 significa che c’è correlazione lineare di tipo diretto, cioè valori grandi di una variabile corrispondono a valori grandi dell’altra variabile e valori piccoli di una variabile corrispondono a valori piccoli dell’altra variabile; se la correlazione è minore di 0 significa che c’è correlazione lineare di tipo inverso, cioè valori grandi di una variabile corrispondono a valori piccoli dell’altra variabile e viceversa; se la correlazione è molto vicina allo 0 significa che non c’è correlazione perché la nuvola non è distribuita lungo una retta ma occupa, invece, tutti i quadranti nella stessa maniera. Il metodo di Pearson NON è utile nel caso in cui il dataset contenga valori molto grandi e di segno opposto. In questo caso si utilizza la correlazione di Spearman, che essendo un indice di monotonia indica quante osservazioni hanno la stessa concordanza.. In R si calcola con la seguente funzione: cor (dato1, dato2, method = “spearman”). Anche in questo caso, se la correlazione è maggiore di 0 significa che c’è correlazione lineare di tipo diretto, cioè valori grandi di una variabile corrispondono a valori grandi dell’altra variabile e valori piccoli di una variabile corrispondono a valori piccoli

limite centrale , il quale afferma che se la grandezza di un campione è grande, allora la distribuzione della somma delle n variabili aleatorie indipendenti sarà approssimativamente normale. La regola euristica è che un campione con un numero maggiore o uguale a 30 osservazioni sia sufficientemente grande da giustificare l’applicazione del teorema del limite centrale, anche se per molte distribuzioni non normali un campione più piccolo si dimostra sufficiente.

INTERVALLI DI CONFIDENZA : invece di restituire un numero n che sia la stima del parametro incognito, vogliamo restituire due valori: l’intervallo [a, b] e il valore della confidenza, cioè 1 – α, dove α è la significatività. Quindi, possiamo dire che “la confidenza / probabilità che l’intervallo [a, b] contenga il valore vero del parametro incognito è 1- α ”. Per valutare la stima di una variabile o di un valore si utilizza il t test , che è un test parametrico di significatività statistica che utilizza la distribuzione t di Student. La distribuzione t di Student ha come suoi parametri la media e l’errore standard della media e, per campioni grandi, non è sensibile agli scostamenti dalla normalità della forma della distribuzione. Inoltre, sempre per valori grandi, la distribuzione t tende a coincidere con la distribuzione normale standard; infatti, all’aumentare delle dimensioni del campione, tende a coincidere con la deviazione standard della popolazione. In particolare, abbiamo visto:

  • Intervalli di confidenza sulla media : il test valuta l’intervallo di confidenza facendo valutazioni sulla media. Il test si effettua in questo modo: t.test (dato, conf.level = 0.95). Se mi venisse chiesto di aumentare il numero di osservazioni, potrei dedurre che il mio intervallo di confidenza sarebbe più stretto; viceversa, se mi venisse chiesto di diminuire il numero di osservazioni, il mio intervallo sarebbe più largo. Infine, nel caso in cui le osservazioni fossero minori di 30, occorrerebbe ipotizzare che la distribuzione della variabile sia normale.
  • Intervalli di confidenza per proporzioni : si tratta di una stima per il valore del parametro p (probabilità di successo), che rappresenta la frequenza relativa o proporzione con cui una certa caratteristica si presenta negli individui della popolazione. Il primo intervallo di confidenza per proporzioni che abbiamo visto è il test binomiale, che esegue un test esatto di una semplice ipotesi nulla sulla probabilità di successo in un esperimento di Bernoulli. In R si calcola in questo modo: binom.test (c (pn, fn), conf.level = 0.95),** dove c è la funzione che crea un vettore, p è la probabilità di successo, n è il totale e f è la probabilità di fallimento. A differenza del test binomiale, che è molto preciso, il test di proporzioni uguali o date è molto più approssimativo. Questo test si utilizza in particolare per testare fatto che le probabilità di successo non siano le stesse o che non siano uguali a determinati valori dati. La funzione R è prop.test (c (pn, fn), conf.level = 0.95)** , dove c è la funzione che crea un vettore, p è la probabilità di successo, n è il totale e f è la probabilità di fallimento.
  • Intervalli di confidenza di differenza di medie : il test confronta la differenza osservata tra due medie con la differenza attesa in caso di indipendenza statistica. Nel caso di due variabili indipendenti, il test si effettua in questo modo: t.test (dato1, dato2, conf.level = 0.95). Se le variabili sono appaiate, come nel caso delle coordinate, si imposta il parametro paired: t.test(dato1, dato2, conf.level = 0.95, paired = TRUE ). Se mi venisse chiesto di aumentare il numero di osservazioni, potrei dedurre che il mio intervallo di confidenza sarebbe più stretto; viceversa, se mi venisse chiesto di diminuire il numero di osservazioni, il mio

intervallo sarebbe più largo. Infine, nel caso in cui le osservazioni fossero minori di 30, occorrerebbe ipotizzare che la distribuzione delle due variabili sia normale.

TEST DI IPOTESI : i test di ipotesi servono per calcolare la variabilità. Sul valore del parametro vengono formulate due ipotesi:

  • Ipotesi nulla : si tratta dell’ipotesi di totale casualità dei risultati.
  • Ipotesi alternativa : si tratta di una possibile ipotesi alternativa a quella della casualità.

Per trovare questi due valori occorre aggiungere dei parametri ai test sugli intervalli di confidenza: in particolare, il valore mu va impostato a 0, mentre il parametro alternative può essere “ less ”, “ greater ” o “ two.sided ” a seconda che si voglia verificare rispettivamente che la seconda ipotesi inserita sia minore, maggiore o uguale alla prima variabile inserita: t.test (dato1, dato2, conf.level = 0.95, mu = 0, alternative = “greater”). La domanda che ci si pone è: posso affermare con significatività x che il campione casuale porti sufficiente evidenza per abbandonare l’ipotesi nulla? Per rispondere a questa domanda occorre confrontare la significatività e il p-value: se il p-value è maggiore della significatività NON si abbandona l’ipotesi nulla in favore dell’alternativa; invece, se il p-value risulta minore della significatività si può abbandonare l’ipotesi nulla in favore dell’alternativa.