









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Probabilità, variabili aleatorie discrete e continue, statistica descrittiva e inferenziale.
Tipologia: Appunti
Offerta a tempo limitato
Caricato il 21/01/2021
4.5
(13)12 documenti
1 / 17
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










In offerta
DEFINIZIONE DI PROBABILITÀ: la probabilità è una disciplina della matematica che si occupa di dare formalizzazioni e strumenti per trattare delle situazioni e dei casi in cui altre discipline della matematica falliscono. Infatti, la probabilità si occupa di creare una struttura matematica e degli strumenti per fenomeni soggetti a casualità , cioè esperimenti con esito non prevedibile (esempio: lancio di un dado a 6 facce). Sinonimo di casualità è incertezza.
RIPASSO SUGLI INSIEMI : un insieme è una collezione di oggetti che vengono chiamati elementi dell’insieme. Normalmente, gli insiemi vengono indicati con la lettera maiuscola (esempio: A); invece, gli elementi di un insieme vengono indicati con la lettera minuscola (esempio: a). Per indicare che l’elemento a fa parte dell’insieme A si scrive a ∈ A; invece, per indicare che l’elemento a non fa parte dell’insieme A si scrive a ∉ A. Gli elementi di un insieme si scrivono tra parentesi graffe: S = { x 1 , x 2 , x 3 , …, x (^) n } è un insieme finito S = { x 1 , x 2 , x 3 , … } è un insieme infinito numerabile S = { x ∈ N, x ≥ 3 } = { 3, 4, 5, 6, … } è un insieme infinito numerabile S = { x ∈ R, x ≥ 3 } è un insieme infinito non numerabile , o più che numerabile. Inoltre, se ogni elemento di A è contenuto anche in B, si dice che ∀ x ∈ A → x ∈ B: A ⊆ B Le operazioni conosciute sugli insiemi, infine, sono:
INSIEMI IN PROBABILITÀ : in probabilità si usano gli insiemi per descrivere o rappresentare gli esiti degli esperimenti probabilistici. Ad esempio, se consideriamo il lancio di un dado a 6 facce e consideriamo gli insiemi A e B, ovvero gli eventi A = { 1, 2, 3 } e B = { 4, 5, 6 } significa che l’evento A contiene i casi in cui, lanciando un dado, esca il numero 1, il numero 2 oppure il numero 3; invece, l’evento B contiene i casi in cui, lanciando il dado, esca il numero 4, il numero 5 o il numero 6. Quindi, si verifica l’evento A se e solo se effettuando l’esperimento l’esito è un elemento dell’insieme A; viceversa, si verifica l’evento B se e solo se effettuando l’esperimento l’esito è un elemento dell’insieme B. L’insieme che contiene tutti i possibili esiti dell’esperimento si chiama spazio campionario , e si indica con la lettera greca omega maiuscola Ω. Ad esempio, lo spazio campionario di un dado a 6 facce è Ω = { 1, 2, 3, 4, 5, 6 }. Si evince che, quindi, gli eventi A e B che abbiamo considerato in precedenza, siano formalmente dei sottoinsiemi dello spazio campionario, cioè A ⊆ Ω e B ⊆ Ω.
MODELLO PROBABILISTICO: un modello probabilistico è un oggetto matematico costruito per dare una rappresentazione dell’esperimento probabilistico formato da:
I 3 ASSIOMI DI P: P deve godere delle seguenti proprietà:
Da questi assiomi si possono dedurre 4 proprietà della P:
LEGGE UNIFORME DISCRETA: si tratta della P che possiamo sempre definire quando abbiamo una condizione di equità e quando Ω è finito (Esempio di utilizzo: lancio un dado equo a 6 facce e voglio calcolare la probabilità che esca 6).
#𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 𝒇𝒇𝒄𝒄𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒄𝒄 #𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 𝒑𝒑𝒇𝒇𝒄𝒄𝒄𝒄𝒄𝒄𝒑𝒑𝒄𝒄𝒇𝒇𝒄𝒄
PROBABILITÀ CONDIZIONATA : si utilizza quando si vuole calcolare la probabilità di eventi includendo informazioni parziali (Esempio di utilizzo: lancio un dado equo a 6 facce e calcolo la probabilità che la somma dei due lanci sia 9 sapendo che il primo lancio ha restituito 2).
𝑷𝑷(𝑨𝑨|𝑩𝑩) =
FORMULA DELLE P TOTALI: si utilizza quando si vuole calcolare la probabilità che si verifichi almeno uno di due o più eventi, cioè la probabilità dell’unione dei due eventi. Il teorema ha due diverse formulazioni, a seconda che si considerino solo eventi a due a due incompatibili oppure eventi qualsiasi. Caso di eventi a due a due incompatibili (esempio di utilizzo: il lancio di un dado considera eventi a due a due incompatibili, perché se esce un numero è ovvio che non possa uscirne un altro:
𝐏𝐏(𝐀𝐀𝐀𝐀𝐁𝐁) = 𝐏𝐏(𝐀𝐀) + 𝐏𝐏(𝐁𝐁)
DEFINIZIONE : Se l’insieme dei valori assunti dalla variabile aleatoria è finito o al più numerabile, la variabile aleatoria si dice discreta , quindi se Im(X) = { x ∈ R / ∃w ∈ Ω t.c. X(w) = x }. Per calcolare la probabilità utilizzando le variabili aleatorie discrete abbiamo bisogno della PMF.
PMF (PROBABILITY MASS FUNCTION): si tratta della funzione di massa o di probabilità. La funzione di massa di X è la funzione f (^) X dall’insieme dei numeri reali nei reali positivi che ad ogni elemento associa la probabilità che la variabile casuale discreta assuma valori uguali al reale x. La funzione di massa di una variabile discreta, quindi, è semplicemente P(X=x), cioè la probabilità che X sia uguale ad x. Questa probabilità è maggiore di 0 solo per i valori x che la variabile casuale può assumere, mentre sarà uguale a 0 per tutti gli altri valori di x.
VARIABILE ALEATORIA DI BERNOULLI : si utilizza quando si ha una distribuzione di probabilità su due soli valori (esempio: 0 e 1), detti anche fallimento e successo.
dbern ( d, probabilità ) per trovare la densità (R)
pbern ( p, probabilità ) per trovare la funzione distribuzione (R)
qbern ( q, probabilità ) per trovare la funzione quantile (R)
rbern ( r, probabilità ) per trovare deviazioni casuali (R)
E ( X ) = p per trovare la media di Bernoulli
Var ( X ) = ( x – p )^2 per trovare la varianza di Bernoulli
St.Dev = sqrt( Var( X ) ) per trovare la dev standard di Bernoulli
Partendo da un processo di Bernoulli, si costruiscono le seguenti variabili aleatorie discrete:
VARIABILE ALEATORIA BINOMIALE : si utilizza quando si deve calcolare la probabilità che un evento si verifichi avendo a disposizione n prove di tipo bernoulliano. Per poter utilizzare la variabile aleatoria binomiale devono verificarsi le seguenti condizioni:
dbinom ( d, n prove, probabilità di successo) per trovare la densità (R)
pbinom ( p, n prove, probabilità di successo) per trovare la funzione distribuzione (R)
qbinom ( q, n prove, probabilità di successo) per trovare la funzione quantile (R)
rbinom ( r, n prove, probabilità di successo) per trovare deviazioni casuali (R)
E ( X ) = n * p per trovare la media binomiale
Var X) = np(1 – p) per trovare la varianza binomiale
St.Dev = sqrt( Var( X ) ) per trovare la dev standard binomiale
VARIABILE ALEATORIA GEOMETRICA : si utilizza quando si deve calcolare la probabilità che un evento si verifichi avendo a disposizione un numero illimitato di prove di tipo bernoulliano. Per poter utilizzare la variabile aleatoria binomiale devono verificarsi le seguenti condizioni:
dgeom ( d, probabilità di successo) per trovare la densità (R)
pgeom ( p, probabilità di successo) per trovare la funzione distribuzione (R)
qgeom ( q, probabilità di successo) per trovare la funzione quantile (R)
rgeom ( r, probabilità di successo) per trovare deviazioni casuali (R)
E ( X ) = 1 / p per trovare la media geometrica
Var ( X ) = (1-p) / p^2 per trovare la varianza geometrica
St.Dev = sqrt( Var( X ) ) per trovare la dev standard geometrica
CALCOLO DELLA MEDIA: la media è anche chiamata valore atteso. Si calcola sommando i possibili valori della variabile, ciascuno moltiplicato per la probabilità di verificarsi.
a 1 * p 1 + a 2 * p 2 + a 3 * p 3 + … + a (^) n * pn
CALCOLO DEL MOMENTO DI ORDINE K: il momento di ordine k è il valore atteso della k-esima potenza.
M (^) k = E ( Xk^ )
CALCOLO DELLA VARIANZA : la varianza è anche chiamata scarto quadratico. Si calcola facendo la media del quadrato della differenza tra il valore e la sua media.
E [ ( X – E(X))^2 ]
PROPRIETÀ DELLA MEDIA: per calcolare la media composta occorre seguire le seguenti proprietà:
E (aX + b) = a E(X) + b E (X+Y) = E(X) + E(Y)
PROPRIETÀ DELLA VARIANZA: per calcolare la varianza occorre seguire le seguenti proprietà:
Var(X) = E(X 2 ) – E 2 (X) Var(aX + b) = a 2 Var(X) Var(aX) = a 2 Var(X) Var(X + b) = Var(X)
PROPRIETÀ DELLA DEVIAZIONE STANDARD: per calcolare la deviazione standard composta:
St.Dev(aX + b) = a * St.Dev(X)
PMF CONGUNTA: costruisco la tabella a doppia entrata e trovo il valore incrociando X e Y.
PMF MARGINALE : prendo la riga o la colonna di interesse e faccio la somma di tutti i valori.
VEDERE SE DUE VARIABILI SONO INDIPENDENTI: se il prodotto tra la PDF marginale della prima variabile e la PDF marginale della seconda variabile è uguale alla PMF congiunta allora le variabili sono indipendenti, altrimenti no.
DEFINIZIONE : una variabile aleatoria continua può assumere tutti gli infiniti valori appartenenti ad un intervallo di numeri reali. Per calcolare la probabilità utilizzando le variabili aleatorie continue abbiamo bisogno della PDF.
PDF (PROBABILITY DENSITY FUNCTION) : la PDF è la funzione che ci serve per calcolare la P di contro immagini mediante X (esattamente come facevamo con la PMF nel caso discreto).
VARIABILE ALEATORIA UNIFORME : si usa quando è necessario assegnare lo stesso grado di fiducia a tutti i possibili valori di una variabile definita in un certo intervallo. Assume il valore 1/(b-a) su tutti i punti di x ∈ [ a, b ] mentre vale 0 altrove.
dunif ( d, min, max ) per trovare la densità (R)
punif ( p, min, max ) per trovare la funzione distribuzione (R)
qunif ( q, min, max ) per trovare la funzione quantile (R)
runif ( r, min, max ) per trovare deviazioni casuali (R)
Se i valori di min e max non sono specificati, assumono rispettivamente i valori 0 e 1.
E ( X ) = ( a+b ) / 2 per trovare la media uniforme
Var ( X ) = (b-a)^2 /12 per trovare la varianza uniforme
St.Dev ( X ) = sqrt ( Var(X) ) per trovare la dev standard uniforme
Il grafico della variabile aleatoria uniforme, trattandosi di una funzione costante, è un segmento orizzontale da x = a ad x = b di altezza sull’asse x uguale a 1/(b-a) e l’area sottesa vale 1.
Se la media (μ) oppure la deviazione standard (δ) non sono specificati, assumono rispettivamente i valori 0 e 1.
E ( X ) = μ per trovare la media gaussiana
Var ( X ) = δ^2 per trovare la varianza gaussiana
St.Dev ( X ) = δ per trovare la dev standard gaussiana
Il grafico della variabile aleatoria normale è una curva gaussiana, che ha la tipica forma a campana.
CDF (FUNZIONE DI DISTRIBUZIONE CUMULATA): si tratta della funzione che associa a ciascun valore x la probabilità del seguente evento: la variabile casuale X assume valori minori o uguali ad x
ecdf ( X ) per trovare la CDF
X può essere, ad esempio, il calcolo di una normale. (Esempio: ecdf (pnorm (p, media, St.Dev)))
La funzione di distribuzione cumulata è differente nel caso discreto e continuo. Infatti, nel caso discreto il grafico è una funzione costante a tratti, mentre nel caso continuo è una funzione continua, come negli esempi qui sotto:
DEFINIZIONE : la statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno collettivo in condizioni di incertezza o non determinismo, cioè di non completa conoscenza di esso o di una sua parte. La statistica si divide in descrittiva e inferenziale.
DEFINIZIONE : la statistica descrittiva comprende l’insieme dei metodi che riguardano la rappresentazione e la sintesi di un insieme di dati al fine di descriverne le caratteristiche principali: grafici, distribuzioni di frequenza).
DATI UNIVARIATI : sono i dati che prendono in esame un solo carattere dell’intera popolazione. In particolare, i dati possono essere:
DATI UNIVARIATI QUANTITATIVI : Per quanto riguarda i dati quantitativi, quindi i dati discreti e continui, dobbiamo considerare tre indici:
default sarà TRUE se e solo se le interruzioni sono equidistanti e la probabilità non è specificata.
DATI UNIVARIATI QUALITATIVI : Per quanto riguarda i dati qualitativi, quindi i dati fattore o carattere, ci si concentra in particolare sulle rappresentazioni grafiche:
In alcuni casi, è utile modificare il valore delle variabili qualitative. Ad esempio, può capitare che una variabile categoriale venga presentata da R come un valore numerico. In questo caso, per trasformare la variabile in fattore si utilizza la funzione factor per creare una nuova variabile da
poter utilizzare per le nostre misurazioni: factor (dato) -> x. Infatti, se proviamo a fare un str(x) vedremo che adesso R tratta la variabile come fattore. Per non confondersi, è possibile modificare le etichette delle variabili mediante la funzione levels: levels(x) <- c(“si”, “no”, “forse”). Se provassimo a costruire la tabella, infatti, noteremmo che i valori inutilmente numerici sono stati modificati.
Allo stesso modo, può capitare che sia necessario trasformare un valore categoriale in valore numerico. In R si può fare con la funzione as.numeric: as.numeric (dato) -> y per creare una nuova variabile y contenente i nuovi valori numerici.
DATI MULTIVARIATI : sono i dati che prendono in esame più caratteri dell’intera popolazione. In particolare, si parla di statistica descrittiva bivariata quando i caratteri sono solo due. In particolare, per i dati multivariati ci interessa studiare se esiste una relazione tra le due variabili misurate. Abbiamo visto tre modi di trattare dati bivariati:
limite centrale , il quale afferma che se la grandezza di un campione è grande, allora la distribuzione della somma delle n variabili aleatorie indipendenti sarà approssimativamente normale. La regola euristica è che un campione con un numero maggiore o uguale a 30 osservazioni sia sufficientemente grande da giustificare l’applicazione del teorema del limite centrale, anche se per molte distribuzioni non normali un campione più piccolo si dimostra sufficiente.
INTERVALLI DI CONFIDENZA : invece di restituire un numero n che sia la stima del parametro incognito, vogliamo restituire due valori: l’intervallo [a, b] e il valore della confidenza, cioè 1 – α, dove α è la significatività. Quindi, possiamo dire che “la confidenza / probabilità che l’intervallo [a, b] contenga il valore vero del parametro incognito è 1- α ”. Per valutare la stima di una variabile o di un valore si utilizza il t test , che è un test parametrico di significatività statistica che utilizza la distribuzione t di Student. La distribuzione t di Student ha come suoi parametri la media e l’errore standard della media e, per campioni grandi, non è sensibile agli scostamenti dalla normalità della forma della distribuzione. Inoltre, sempre per valori grandi, la distribuzione t tende a coincidere con la distribuzione normale standard; infatti, all’aumentare delle dimensioni del campione, tende a coincidere con la deviazione standard della popolazione. In particolare, abbiamo visto:
intervallo sarebbe più largo. Infine, nel caso in cui le osservazioni fossero minori di 30, occorrerebbe ipotizzare che la distribuzione delle due variabili sia normale.
TEST DI IPOTESI : i test di ipotesi servono per calcolare la variabilità. Sul valore del parametro vengono formulate due ipotesi:
Per trovare questi due valori occorre aggiungere dei parametri ai test sugli intervalli di confidenza: in particolare, il valore mu va impostato a 0, mentre il parametro alternative può essere “ less ”, “ greater ” o “ two.sided ” a seconda che si voglia verificare rispettivamente che la seconda ipotesi inserita sia minore, maggiore o uguale alla prima variabile inserita: t.test (dato1, dato2, conf.level = 0.95, mu = 0, alternative = “greater”). La domanda che ci si pone è: posso affermare con significatività x che il campione casuale porti sufficiente evidenza per abbandonare l’ipotesi nulla? Per rispondere a questa domanda occorre confrontare la significatività e il p-value: se il p-value è maggiore della significatività NON si abbandona l’ipotesi nulla in favore dell’alternativa; invece, se il p-value risulta minore della significatività si può abbandonare l’ipotesi nulla in favore dell’alternativa.