










Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una introduzione alla statistica descrivendo concetti come deviazione standard, quartili e percentili, outlier, boxplot, variabile aleatoria e distribuzioni probabilistiche come binomiale e poisson. Vengono presentate formule e teoremi come il teorema di chebyshev e la distribuzione normale come approssimazione. Utile per chi sta iniziando a studiare statistica.
Tipologia: Appunti
1 / 18
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!











POPOLAZIONE: insieme completo di tutti gli elementi (punteggi, persone, misure e così via) oggetto di studio. L’insieme è completo nel senso che include tutti gli elementi oggetto dello studio. CAMPIONE: sottocollezione di membri selezionati da una popolazione PARAMETRO: misura che descrive una caratteristica di un’intera popolazione STATISTICA: misura che descrive una caratteristica di un campione DIFFERENZA STATISTICA DESCRITTIVA ED INFERENZIALE Quando si raccolgono informazioni in riferimento ad un certo fenomeno, ci si trova ad aver a che fare con una mole notevole di dati grezzi. Di conseguenza, il primo problema che ci si trova ad affrontare è quello di sintetizzare la massa di dati grezzi in pochi numeri o indicatori particolarmente informativi, utilizzando metodiche grafiche o numeriche, che siano in grado di descrivere la massa di dati, senza alterarne il senso complessivo. Questa parte della statistica è nota con il nome di statistica descrittiva. Talvolta, la semplice descrizione dei dati grezzi non è il vero scopo dell’indagine statistica. Infatti spesso si studiano fenomeni per i quali non è possibile prendere in considerazione un numero di individui sufficientemente elevato. Ad esempio, se vogliamo studiare l’altezza media delle piante di mais di un determinato appezzamento, possiamo anche pensare di entrare nell’appezzamento in studio e misurare, una per una, le altezze di tutte le piante. Se invece vogliamo sapere l’altezza media delle piante di mais di una certa varietà, coltivata su tutto il comprensorio della Valle del Tevere, non saremo mai in grado di misurare le altezze di tutte le piante allevate in quel comprensorio, se non a costi troppo elevati. Pertanto effettueremo le nostre misure su un numero ridotto di piante, scelte a caso tra tutte quelle presenti nel comprensorio in studio. Nella situazione anzidetta, chi effettua l’indagine non è interessato solo agli individui effettivamente misurati e quindi non può utilizzare (se non inizialmente) tecniche di statistica descrittiva. Infatti l’interesse è rivolto a tutti gli individui, compresi quelli che non sono stati direttamente misurati. In questo senso, le piante misurate costituiscono solo un campione di tutte quelle presenti nel comprensorio della Valle del Tevere. Il procedimento per cui dalle caratteristiche di un sottogruppo di individui, estratto a caso da un gruppo più grande, si cerca di risalire alle caratteristiche del gruppo più grande prende il nome di inferenza statistica. La disciplina relativa si chiama statistica inferenziale.
FREQUENZA ASSOLUTA: è il numero di volte che si verifica un evento a prescindere dal numero totale delle prove FREQUENZA RELATIVA: è il rapporto tra la frequenza assoluta e il numero di prove eseguite; viene misurata con un numero decimale compreso tra 0 e 1, o in percentuale.
ISTOGRAMMA: grafico a barre che riporta sull’asse orizzontale le classi in cui sono stati suddivisi i dati e sull’asse verticale le frequenze. L’altezza delle barre corrisponde ai valori delle frequenze e le barre sono disegnate adiacenti le une alle altre TIPI DI ISTOGRAMMI
(75%) dei dati cade entro 2 deviazioni standard dalla media
(89%) dei dati cade entro 3 deviazioni standard della media
BOXPLOT MODIFICATI: con un punto di indicano gli outlier deboli con un circoletto gli outlier estremi ASSIOMI TEORIA DELLA PROBABILITA’ Considero il caso che l’insieme S, di cui consideriamo i sottoinsiemi, sia finito: allora ad ogni evento A è associato un numero P(A) se valgono i seguenti assiomi:
E rappresenta un evento; P(E) la probabilità che si verifichi quell’evento ALCUNE PROPRIETA’: P(E) è sempre compreso tra 0 e 1 P(E)= 0 evento impossibile P(E)= 1 evento certo Due eventi si dicono COMPLEMENTARI se P(E) + P(E’) = 1 EVENTO COMPOSTO: qualsiasi evento formato da 2 o più eventi semplici REGOLA PER LA SOMMA P (A o B)= P(in una singola prova si verifichi A o si verifichi B o si verifichino entrambi)
B) indica la probabilità che gli eventi A e B si verifichino contemporaneamente come esito di una singola ripetizione dell’esperimento REGOLA PER IL PRODOTTO
uno dei due che si verifica non ha nessun effetto sul verificarsi dell’altro
P(B|A)= PROBABILITA’ CONDIZIONATA e rappresenta la probabilità che si verifichi l’evento B quando A si è già verificato, ed è in generale diversa da P(B). TEORIA DI BAYES
insuccesso n= numero fissato di prove x= numero specifico di successi in n prove, quindi può assumere un valore intero tra 0 e n, inclusi P(x)= probabilità di avere esattamente x successi su n prove
Distribuzione di probabilità discreta che viene impiegata per descrivere il numero di volte in cui un evento si verifica all’interno di un intervallo specifico. La variabile aleatoria x indica il numero di volte in cui l’evento si verifica in un dato intervallo, il quale può rappresentare un tempo, una distanza, un’area, un volume o altre grandezze La distribuzione di Poisson, anche chiamata distribuzione degli eventi rari è una approssimazione della distribuzione binomiale, definita per valori interi non negativi. Si chiama distribuzione degli eventi rari perché può essere applicata quando la probabilità p di successo è molto piccola (p0) quando il numero n delle prove è molto elevato (n) quando il prodotto np è costante (= costante) L’approssimazione della binomiale ad una Poissoniana è accettabile se
MEDIA CAMPIONARIA: media delle variabili del campione E’ una stima del valore atteso della rispettiva variabile aleatoria. VALORE ATTESO di una variabile aleatoria discreta X la media dei possibili valori di X pesati con le rispettive probabilità. DISTRIBUZIONE CAMPIONARIA DELLA MEDIA Distribuzione di probabilità delle medie campionarie, quando tutti i campioni hanno la stessa taglia n TEORIA LIMITE CENTRALE Coinvolge due tipi di distribuzioni: la distribuzione della popolazione originaria e la distribuzione delle medie campionarie La variabile aleatoria x ha una distribuzione con media e deviazione standard . Si selezionano dalla popolazione campioni casuali tutti della stessa taglia n Se la taglia campionaria cresce, la distribuzione delle medie campionarie x si avvicina alla DISTRIBUZIONE NORMALE La media della distribuzione delle medie campionarie è la media della popolazione e la deviazione standard della distribuzione delle medie campionarie è / 𝑛 DISTRIBUZIONE NORMALE COME APPROSSIMAZIONE DI UNA DISTRIBUZIONE BINOMIALE Quando si lavora con una distribuzione binomiale, se np > o uguale di 5 e n(1-p) > o uguale di 5, la variabile aleatoria normale ha una distribuzione di probabilità che può essere approssimata da una distribuzione normale con media e deviazione standard date da
Quando utilizziamo una distribuzione normale (che è una distribuzione di probabilità continua) per approssimare una distribuzione binomiale (che è una distribuzione di probabilità discreta), viene applicata una correzione di continuità al valore discreto x, distribuito secondo una distribuzione binomiale, rappresentando il singolo valore x con un intervl lo di estremi x-0.5 e x+0. INTERVALLO DI CONFIDENZA= range di valori usati per stimare il vero valore del parametro della popolazione (IC) LIVELLO DI CONFIDENZA: è la probabilità 1- (spesso espressa con il valore percentuale 95%), cioè la proporzione di volte che l’intervallo di confidenza contiene
effettivamente il parametro della popolazione, assumendo che il procedimento di stima sia ripetuto un grande numero di volte, ovvero su un gran numero di campioni casuali estratti dalla stessa popolazione. Viene chiamato anche GRADO DI FIDUCIA o COEFFICIENTE DI CONFIDENZA. Quando i dati proveniente da un campione casuale semplice sono utilizzati per stimare la proporzione p di una popolazione, il MARGINE DI ERRORE, denotato con E è la differenza massima (con probabilità 1- ) tra la proporzione p del campione e il vero valore della proporzione p della popolazione.
Dove z(/2) è il valore critico INTERVALLO DI CONFIDENZA PER LA PROPORZIONE p DI UNA POPOLAZIONE
Si arrotondano i limiti dell’intervallo di confidenza per p alle tre cifre significative INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA NOTA
Procedura standard per verificare un’affermazione relativa ad una proprietà di una popolazione. IPOTESI NULLA (𝐻N) afferma che il parametro (proporzione, media o deviazione standard) è uguale a un determinato valore. Assumiamo che sia vera e giungiamo alla conclusione di rifiutare o di non rifiutare 𝐻N IPOTESI ALTERNATIVA (𝐻E) afferma che il parametro ha un valore che in qualche modo differisce dall’ipotesi nulla STATISTICA DI TEST: valore calcolato in base ai dati campionari ed è usato per prendere la decisione circa il rifiuto dell’ipotesi nulla. Viene determinata trasformando la statistica campionaria in un punteggio quale z,t o 𝑥 3 sotto l’assunto che l’ipotesi nulla sia vera. La statistica test può pertanto essere usata per determinare se c’è un’evidenza significativa contro l’ipotesi nulla REGIONE CRITICA: insieme di tutti i valori della statistica di test che ci portano a rifiutare l’ipotesi nulla LIVELLO DI SIGNIFICATIVITA’ (): probabilità che la statistica di test cada nella regione critica quando in realtà l’ipotesi nulla è vera. Se la statistica di test cade nella regione critica rifiuteremo l’ipotesi nulla, quindi è la probabilità di commettere l’errore di rifiutare l’ipotesi nulla quando è vera P-VALUE probabilità di ottenere un valore della statistica di test che sia estremo almeno come quello che si ottiene dai dati campionari, assumendo che l’ipotesi nulla sia vera. L’ipotesi nulla è rifiutata se il P- value è molto piccolo come 0.05 o meno. CRITERI DI DECISIONE:
POTENZA DEL TEST di ipotesi è la probabilità (1-) di rifiutare un’ipotesi nulla quando è falsa ed è calcolata usando un particolare livello di significatività , una particolare ampiezza campionaria, un
particolare valore ipotizzato del parametro della popolazione (usato nell’ipotesi nulla) e un particolare valore del parametro
d= singola differenza tra i due valori di una coppia (d)= valore medio delle differenze d per la popolazione di tutte le coppie appaiate d-= valore medio delle differenze d per i campioni accoppiati (uguale alla media dei valori x-y) s(d)= deviazione standard delle differenze d per i campioni accoppiati n= numero di coppie di dati STATISTICA DI TEST PER IPOTESI SU COPPIE APPAIATE Dove i gradi di libertà = n- Intervalli di confidenza per coppie appaiate COEFFICIENTE DI CORRELAZIONE LINEARE Misura la forza dell’associazione lineare tra coppie di dati quantitativi di un campione. SCATTERPLOT= grafico in cui le coppie (x,y) di dati campionari sono rappresentate graficamente attraverso un asse orizzontale (asse x) e un asse verticale (asse y). Ciascuna coppia (x,y) viene disegnata con un singolo punto NOTAZIONE PER IL COEFFICIENTE DI CORRELAZIONE LINEARE n: rappresenta il numero delle coppie di dati disponibili : indica la somma dei termini indicati x: indica la somma di tutti i valori x 𝑥 3 : indica che ciascun valore x deve essere elevato al quadrato e, successivamente questi quadrati devono essere sommati (x)^2: i valori di x devono essere sommati e che il totale deve essere elevato al quadrato xy: ciascun valore x deve essere prima moltiplicato per il corrispondente valore y. Dopo aver ottenuto tutti questi prodotti, farne la somma r: coefficiente di correlazione lineare per un campione
: coefficiente di correlazione lineare per una popolazione