Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: Deviaz. standard, Quartili, Percentili, Outlier, Boxplot, Var. Aleatoria, Dist, Appunti di Statistica

Una introduzione alla statistica descrivendo concetti come deviazione standard, quartili e percentili, outlier, boxplot, variabile aleatoria e distribuzioni probabilistiche come binomiale e poisson. Vengono presentate formule e teoremi come il teorema di chebyshev e la distribuzione normale come approssimazione. Utile per chi sta iniziando a studiare statistica.

Tipologia: Appunti

2018/2019

Caricato il 24/07/2019

2160357
2160357 🇮🇹

4 documenti

1 / 18

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
TEORIA STATISTICA
POPOLAZIONE: insieme completo di tutti gli elementi (punteggi,
persone, misure e
così via) oggetto di studio. L’insieme è completo
nel senso che include tutti gli elementi oggetto dello studio.
CAMPIONE: sottocollezione di membri selezionati da una popolazione
PARAMETRO: misura che descrive una caratteristica di un’intera
popolazione
STATISTICA: misura che descrive una caratteristica di un
campione DIFFERENZA STATISTICA DESCRITTIVA ED INFERENZIALE
Quando si raccolgono informazioni in riferimento ad un certo
fenomeno, ci si trova
ad aver a che fare con una mole notevole di
dati grezzi. Di conseguenza, il primo
problema che ci si trova ad
affrontare è quello di sintetizzare la massa di dati grezzi in pochi
numeri o indicatori particolarmente informativi, utilizzando metodiche
grafiche o numeriche, che siano in grado di descrivere la massa di
dati, senza
alterarne il senso complessivo. Questa parte della
statistica è nota con il nome di
statistica descrittiva.
Talvolta, la semplice descrizione dei dati grezzi non è il vero scopo
dell’indagine statistica. Infatti spesso si studiano fenomeni per i quali
non è possibile prendere in considerazione un numero di individui
sufficientemente elevato. Ad esempio, se
vogliamo studiare l’altezza
media delle piante di mais di un determinato
appezzamento,
possiamo anche pensare di entrare nell’appezzamento in studio e
misurare, una per una, le altezze di tutte le piante. Se invece
vogliamo sapere l’altezza media delle piante di mais di una certa
varietà, coltivata su tutto il
comprensorio della Valle del Tevere, non
saremo mai in grado di misurare le altezze
di tutte le piante allevate
in quel comprensorio, se non a costi troppo elevati.
Pertanto effettueremo le nostre misure su un numero ridotto di piante,
scelte a
caso tra tutte quelle presenti nel comprensorio in studio.
Nella situazione anzidetta, chi effettua l’indagine non è interessato solo agli
individui
effettivamente misurati e quindi non può utilizzare (se non
inizialmente) tecniche di statistica descrittiva. Infatti l’interesse è rivolto
a tutti gli individui, compresi quelli
che non sono stati direttamente
misurati. In questo senso, le piante misurate
costituiscono solo un
campione di tutte quelle presenti nel comprensorio della Valle
del
Tevere. Il procedimento per cui dalle caratteristiche di un
sottogruppo di individui, estratto a caso da un gruppo più grande, si
cerca di risalire alle caratteristiche del gruppo più grande prende il
nome di inferenza statistica. La disciplina relativa si chiama statistica
inferenziale.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Anteprima parziale del testo

Scarica Statistica: Deviaz. standard, Quartili, Percentili, Outlier, Boxplot, Var. Aleatoria, Dist e più Appunti in PDF di Statistica solo su Docsity!

TEORIA STATISTICA

POPOLAZIONE: insieme completo di tutti gli elementi (punteggi, persone, misure e così via) oggetto di studio. L’insieme è completo nel senso che include tutti gli elementi oggetto dello studio. CAMPIONE: sottocollezione di membri selezionati da una popolazione PARAMETRO: misura che descrive una caratteristica di un’intera popolazione STATISTICA: misura che descrive una caratteristica di un campione DIFFERENZA STATISTICA DESCRITTIVA ED INFERENZIALE Quando si raccolgono informazioni in riferimento ad un certo fenomeno, ci si trova ad aver a che fare con una mole notevole di dati grezzi. Di conseguenza, il primo problema che ci si trova ad affrontare è quello di sintetizzare la massa di dati grezzi in pochi numeri o indicatori particolarmente informativi, utilizzando metodiche grafiche o numeriche, che siano in grado di descrivere la massa di dati, senza alterarne il senso complessivo. Questa parte della statistica è nota con il nome di statistica descrittiva. Talvolta, la semplice descrizione dei dati grezzi non è il vero scopo dell’indagine statistica. Infatti spesso si studiano fenomeni per i quali non è possibile prendere in considerazione un numero di individui sufficientemente elevato. Ad esempio, se vogliamo studiare l’altezza media delle piante di mais di un determinato appezzamento, possiamo anche pensare di entrare nell’appezzamento in studio e misurare, una per una, le altezze di tutte le piante. Se invece vogliamo sapere l’altezza media delle piante di mais di una certa varietà, coltivata su tutto il comprensorio della Valle del Tevere, non saremo mai in grado di misurare le altezze di tutte le piante allevate in quel comprensorio, se non a costi troppo elevati. Pertanto effettueremo le nostre misure su un numero ridotto di piante, scelte a caso tra tutte quelle presenti nel comprensorio in studio. Nella situazione anzidetta, chi effettua l’indagine non è interessato solo agli individui effettivamente misurati e quindi non può utilizzare (se non inizialmente) tecniche di statistica descrittiva. Infatti l’interesse è rivolto a tutti gli individui, compresi quelli che non sono stati direttamente misurati. In questo senso, le piante misurate costituiscono solo un campione di tutte quelle presenti nel comprensorio della Valle del Tevere. Il procedimento per cui dalle caratteristiche di un sottogruppo di individui, estratto a caso da un gruppo più grande, si cerca di risalire alle caratteristiche del gruppo più grande prende il nome di inferenza statistica. La disciplina relativa si chiama statistica inferenziale.

FREQUENZA ASSOLUTA: è il numero di volte che si verifica un evento a prescindere dal numero totale delle prove FREQUENZA RELATIVA: è il rapporto tra la frequenza assoluta e il numero di prove eseguite; viene misurata con un numero decimale compreso tra 0 e 1, o in percentuale.

ISTOGRAMMA: grafico a barre che riporta sull’asse orizzontale le classi in cui sono stati suddivisi i dati e sull’asse verticale le frequenze. L’altezza delle barre corrisponde ai valori delle frequenze e le barre sono disegnate adiacenti le une alle altre TIPI DI ISTOGRAMMI

  • A barre orizzontali
  • A barre verticali
  • A barre contigue
  • A barre sovrapposte RANGE di un insieme di dati = VALORE MAX- VALORE MIN DEVIAZIONE STANDARD di un campione è una misura della variazione dei valori rispetto alla media. Si tratta di una media delle differenze dei dati dalla media campionaria VARIANZA di un insieme dei dati è una misura di variazione corrispondente al quadrato della deviazione standard VARIANZA CAMPIONARIA: quadrato della deviazione standard s VARIANZA DI UNA POPOLAZIONE: quadrato della deviazione standard della popolazione  TEOREMA DI CHEBYSHEV Dato un qualsiasi insieme di dati, la proporzione di tali dati che cade all’interno di K deviazioni standard dalla media è sempre almeno 1- 1/𝐾 3 , ove K è un qualsiasi numero positivo maggiore di 1. Per K=2 e K=3, otteniamo le seguenti stime:
  • Almeno

(75%) dei dati cade entro 2 deviazioni standard dalla media

  • Almeno

(89%) dei dati cade entro 3 deviazioni standard della media

FREQUENZA

RELATIVA=

BOXPLOT MODIFICATI: con un punto di indicano gli outlier deboli con un circoletto gli outlier estremi ASSIOMI TEORIA DELLA PROBABILITA’ Considero il caso che l’insieme S, di cui consideriamo i sottoinsiemi, sia finito: allora ad ogni evento A è associato un numero P(A) se valgono i seguenti assiomi:

  • P(A) > e uguale di 0
  • P(S)=

- Se A e B sono eventi incompatibili allora P(AB)= P(A)

+P(B)

DEFINIZIONE CLASSICA DI PROBABILITA’

E rappresenta un evento; P(E) la probabilità che si verifichi quell’evento ALCUNE PROPRIETA’: P(E) è sempre compreso tra 0 e 1 P(E)= 0 evento impossibile P(E)= 1 evento certo Due eventi si dicono COMPLEMENTARI se P(E) + P(E’) = 1 EVENTO COMPOSTO: qualsiasi evento formato da 2 o più eventi semplici REGOLA PER LA SOMMA P (A o B)= P(in una singola prova si verifichi A o si verifichi B o si verifichino entrambi)

P (A o B)= P(A) + P(B) – P(A e B) ove P(A e

B) indica la probabilità che gli eventi A e B si verifichino contemporaneamente come esito di una singola ripetizione dell’esperimento REGOLA PER IL PRODOTTO

Se A e B sono eventi indipendenti P(AB)= P(A) x P(B) 

uno dei due che si verifica non ha nessun effetto sul verificarsi dell’altro

Se A e B sono eventi dipendenti P(AB)= P(A) x P(B|A)

P(E)

P(B|A)= PROBABILITA’ CONDIZIONATA e rappresenta la probabilità che si verifichi l’evento B quando A si è già verificato, ed è in generale diversa da P(B). TEORIA DI BAYES

P(S)= p p=probabilità di successo

P(F)= 1-p=q q=probabilità di

insuccesso n= numero fissato di prove x= numero specifico di successi in n prove, quindi può assumere un valore intero tra 0 e n, inclusi P(x)= probabilità di avere esattamente x successi su n prove

= np

=  varianza tutto alla seconda

DISTRIBUZIONE DI POISSON

Distribuzione di probabilità discreta che viene impiegata per descrivere il numero di volte in cui un evento si verifica all’interno di un intervallo specifico. La variabile aleatoria x indica il numero di volte in cui l’evento si verifica in un dato intervallo, il quale può rappresentare un tempo, una distanza, un’area, un volume o altre grandezze La distribuzione di Poisson, anche chiamata distribuzione degli eventi rari è una approssimazione della distribuzione binomiale, definita per valori interi non negativi. Si chiama distribuzione degli eventi rari perché può essere applicata quando la probabilità p di successo è molto piccola (p0) quando il numero n delle prove è molto elevato (n) quando il prodotto np è costante (= costante) L’approssimazione della binomiale ad una Poissoniana è accettabile se

  • n> 50
  • = np < e uguale di 10 DISTRIBUZIONE GEOMETRICA SU SCHEMA DI BERNOULLI

MEDIA CAMPIONARIA: media delle variabili del campione E’ una stima del valore atteso della rispettiva variabile aleatoria. VALORE ATTESO di una variabile aleatoria discreta X la media dei possibili valori di X pesati con le rispettive probabilità. DISTRIBUZIONE CAMPIONARIA DELLA MEDIA Distribuzione di probabilità delle medie campionarie, quando tutti i campioni hanno la stessa taglia n TEORIA LIMITE CENTRALE Coinvolge due tipi di distribuzioni: la distribuzione della popolazione originaria e la distribuzione delle medie campionarie La variabile aleatoria x ha una distribuzione con media  e deviazione standard . Si selezionano dalla popolazione campioni casuali tutti della stessa taglia n Se la taglia campionaria cresce, la distribuzione delle medie campionarie x si avvicina alla DISTRIBUZIONE NORMALE La media della distribuzione delle medie campionarie è la media della popolazione  e la deviazione standard della distribuzione delle medie campionarie è / 𝑛 DISTRIBUZIONE NORMALE COME APPROSSIMAZIONE DI UNA DISTRIBUZIONE BINOMIALE Quando si lavora con una distribuzione binomiale, se np > o uguale di 5 e n(1-p) > o uguale di 5, la variabile aleatoria normale ha una distribuzione di probabilità che può essere approssimata da una distribuzione normale con media e deviazione standard date da

= np =

CORREZIONE DI CONTINUITA’

Quando utilizziamo una distribuzione normale (che è una distribuzione di probabilità continua) per approssimare una distribuzione binomiale (che è una distribuzione di probabilità discreta), viene applicata una correzione di continuità al valore discreto x, distribuito secondo una distribuzione binomiale, rappresentando il singolo valore x con un intervl lo di estremi x-0.5 e x+0. INTERVALLO DI CONFIDENZA= range di valori usati per stimare il vero valore del parametro della popolazione (IC) LIVELLO DI CONFIDENZA: è la probabilità 1- (spesso espressa con il valore percentuale 95%), cioè la proporzione di volte che l’intervallo di confidenza contiene

effettivamente il parametro della popolazione, assumendo che il procedimento di stima sia ripetuto un grande numero di volte, ovvero su un gran numero di campioni casuali estratti dalla stessa popolazione. Viene chiamato anche GRADO DI FIDUCIA o COEFFICIENTE DI CONFIDENZA. Quando i dati proveniente da un campione casuale semplice sono utilizzati per stimare la proporzione p di una popolazione, il MARGINE DI ERRORE, denotato con E è la differenza massima (con probabilità 1- ) tra la proporzione p del campione e il vero valore della proporzione p della popolazione.

E= z(/2)

Dove z(/2) è il valore critico INTERVALLO DI CONFIDENZA PER LA PROPORZIONE p DI UNA POPOLAZIONE

p-E<p<p+E

Si arrotondano i limiti dell’intervallo di confidenza per p alle tre cifre significative INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA NOTA

x-E<<x+E dove E= z(/2) /

INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA NON

NOTA

x- E<<x+E dove E= t(/2)

s/

DISTRIBUZIONE t STUDENT  t=

INTERVALLO DI CONFIDENZA PER LA VARIANZA DI UNA

POPOLAZIONE

TEST DI IPOTESI

Procedura standard per verificare un’affermazione relativa ad una proprietà di una popolazione. IPOTESI NULLA (𝐻N) afferma che il parametro (proporzione, media o deviazione standard) è uguale a un determinato valore. Assumiamo che sia vera e giungiamo alla conclusione di rifiutare o di non rifiutare 𝐻N IPOTESI ALTERNATIVA (𝐻E) afferma che il parametro ha un valore che in qualche modo differisce dall’ipotesi nulla STATISTICA DI TEST: valore calcolato in base ai dati campionari ed è usato per prendere la decisione circa il rifiuto dell’ipotesi nulla. Viene determinata trasformando la statistica campionaria in un punteggio quale z,t o 𝑥 3 sotto l’assunto che l’ipotesi nulla sia vera. La statistica test può pertanto essere usata per determinare se c’è un’evidenza significativa contro l’ipotesi nulla REGIONE CRITICA: insieme di tutti i valori della statistica di test che ci portano a rifiutare l’ipotesi nulla LIVELLO DI SIGNIFICATIVITA’ (): probabilità che la statistica di test cada nella regione critica quando in realtà l’ipotesi nulla è vera. Se la statistica di test cade nella regione critica rifiuteremo l’ipotesi nulla, quindi  è la probabilità di commettere l’errore di rifiutare l’ipotesi nulla quando è vera P-VALUE probabilità di ottenere un valore della statistica di test che sia estremo almeno come quello che si ottiene dai dati campionari, assumendo che l’ipotesi nulla sia vera. L’ipotesi nulla è rifiutata se il P- value è molto piccolo come 0.05 o meno. CRITERI DI DECISIONE:

  • METODO TRADIZIONALE Rifiuto 𝐻N se la statistica di test cade nella regione critica. Non rifiuto 𝐻N se la statistica di test non cade nella regione critica
  • METODO DEL P-VALUE Rifiuto 𝐻N se il P-value ≤  dove  è il livello di significatività quale 0.05 Non rifiuto 𝐻N se il P-value >  ERRORI DI I SPECIE E DI II SPECIE Quando si verifica un’ipotesi nulla, si arriva alla conclusione di rifiutare o non rifiutare tale ipotesi. Tali conclusioni sono a volte corrette e a volte sbagliate ERRORE DI I SPECIE: rifiuto

un’ipotesi nulla vera ()

ERRORE DI II SPECIE: non rifiuto un’ipotesi nulla falsa ()

POTENZA DEL TEST di ipotesi è la probabilità (1-) di rifiutare un’ipotesi nulla quando è falsa ed è calcolata usando un particolare livello di significatività , una particolare ampiezza campionaria, un

particolare valore ipotizzato del parametro della popolazione (usato nell’ipotesi nulla) e un particolare valore del parametro

NOTAZIONE PER COPPIE APPAIATE:

d= singola differenza tra i due valori di una coppia (d)= valore medio delle differenze d per la popolazione di tutte le coppie appaiate d-= valore medio delle differenze d per i campioni accoppiati (uguale alla media dei valori x-y) s(d)= deviazione standard delle differenze d per i campioni accoppiati n= numero di coppie di dati STATISTICA DI TEST PER IPOTESI SU COPPIE APPAIATE Dove i gradi di libertà = n- Intervalli di confidenza per coppie appaiate COEFFICIENTE DI CORRELAZIONE LINEARE Misura la forza dell’associazione lineare tra coppie di dati quantitativi di un campione. SCATTERPLOT= grafico in cui le coppie (x,y) di dati campionari sono rappresentate graficamente attraverso un asse orizzontale (asse x) e un asse verticale (asse y). Ciascuna coppia (x,y) viene disegnata con un singolo punto NOTAZIONE PER IL COEFFICIENTE DI CORRELAZIONE LINEARE n: rappresenta il numero delle coppie di dati disponibili : indica la somma dei termini indicati x: indica la somma di tutti i valori x 𝑥 3 : indica che ciascun valore x deve essere elevato al quadrato e, successivamente questi quadrati devono essere sommati (x)^2: i valori di x devono essere sommati e che il totale deve essere elevato al quadrato xy: ciascun valore x deve essere prima moltiplicato per il corrispondente valore y. Dopo aver ottenuto tutti questi prodotti, farne la somma r: coefficiente di correlazione lineare per un campione

: coefficiente di correlazione lineare per una popolazione