Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Valori medi e indice di variabilità, Appunti di Statistica

Come calcolare i valori medi razionali, inclusa la media aritmetica e geometricamente. Viene inoltre discusso l'importanza di medie ponderate e il confronto tra media aritmetica e media geometrica. Inoltre, vengono introdotti i concetti di mediana, quartili, variabilità assoluta e relativi, indice di variabilità, indice di diseguaglianza, e indice chi-quadrato. Inoltre una panoramica sui modelli di dispersione e regressione lineare.

Tipologia: Appunti

2018/2019

Caricato il 05/11/2019

AdyunX
AdyunX 🇮🇹

1 documento

1 / 9

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
I valori medi
Valori medi razionali che comprendono diversi valori medi
Valori medi di posizione per calcolarli vi è bisogno solo dei valori centrali.
Se dividiamo tutto in classe avremo la c con la sua frequenza n con i.
Se facciamo una sintesi la sommatoria andrà ad K invece di n, dove k<n.
La media geometrica
Π indica la funzione prodotto
La media aritmetica
Traslativa: si usa una costante in maniera additiva
Associativa
Bisogna fare riferimento ad una distribuzione a doppia entrata usando una tabella. Le variabili
devono essere o entrambe quantitative o almeno una lo deve essere
Le x sono I voti registrati. di I a 6 PRIMA FORMULA. MEDIA DI X
Seconda formula con proprietà associativa:
M(x, y1) =sommatoria di x i ni1 diviso n. 1
Dunque sarà (18*2+…+30*10)/22
Bisogna fare la media ponderata delle medie parziali
M(x) =(M(x/y1) * n. 1+M(x/y2)*n.2) /n
Secondo esempio
M(X) =sommatoria da 1 a 4 ci *ni.) /N
(15*24+25,5*22…+70,5*57)/149
M(y) =sommatoria j=1 a 3 di (yj n. J) /n
Medie parziali della variabile y: abbiamo tanti gruppi quante sono le colonne.
La sommatoria va da i=1 ad r perché tengo in considerazione le medie parziali.
pf3
pf4
pf5
pf8
pf9

Anteprima parziale del testo

Scarica Valori medi e indice di variabilità e più Appunti in PDF di Statistica solo su Docsity!

I valori medi

Valori medi razionali che comprendono diversi valori medi

Valori medi di posizione per calcolarli vi è bisogno solo dei valori centrali.

Se dividiamo tutto in classe avremo la c con la sua frequenza n con i.

Se facciamo una sintesi la sommatoria andrà ad K invece di n, dove k<n.

La media geometrica

Π indica la funzione prodotto

La media aritmetica

Traslativa: si usa una costante in maniera additiva

Associativa

Bisogna fare riferimento ad una distribuzione a doppia entrata usando una tabella. Le variabili devono essere o entrambe quantitative o almeno una lo deve essere

Le x sono I voti registrati. ∑ di I a 6 PRIMA FORMULA. MEDIA DI X

Seconda formula con proprietà associativa:

M(x, y1) =sommatoria di x i ni1 diviso n. 1

Dunque sarà (182+…+3010)/

Bisogna fare la media ponderata delle medie parziali

M(x) =(M(x/y1) * n. 1+M(x/y2)*n.2) /n

Secondo esempio

M(X) =sommatoria da 1 a 4 ci *ni.) /N

(1524+25,522…+70,5*57)/

M(y) =sommatoria j=1 a 3 di (yj n. J) /n

Medie parziali della variabile y: abbiamo tanti gruppi quante sono le colonne.

La sommatoria va da i=1 ad r perché tengo in considerazione le medie parziali.

Media geometrica

Quando i dati cambiano velocemente da un anno all’altro vengono chiamati valori geometrici. Se n è molto grande allora la radice viene trasformata in potenza con 1/N la quale viene poi trasformata in logaritmo. Nella trasformazione non abbiamo più la funzione prodotto ma una sommatoria. Per le variabili statistiche indichiamo una modalità da I a k, per le classi facciamo una sintesi e cerchiamo i valori centrali.

La media aritmetica è normalmente più grande della media geometrica.

La media di posizione: La Mediana

Bisogna ordinare innanzitutto i valori. Se ho una numerosità dispari rappresenta quella x che occupa la posizione n+1/2. Quando è pari devo far riferimento a due valori.

Le frequenze cumulato sono frequenze sommate. La frequenza cumulato che contiene la mia Mediana calcolata. La Mediana è la modalità. Se n è pari non sarà un solo valore centrale, ma più di uno.

Quanto le variabili sono divise in classi e errato dire che la Mediana è il valore centrale della classe. X (^) i-1 estremo inferiore

C (^) i-1 la frequenza della classe precedente alla classe della mediana

La Mediana viene preferita alla media aritmetica, perché è una media resistente ai valori eccezionalmente grandi o piccoli (chiamati anche valori anomali).

Quartili

Dividono le parti in 4, vengono sempre innanzitutto ordinati i valori. Viene indicato in parentesi quadra.

Il quartile di ordine 2 per definizione corrisponde con la mediana, il quartile di ordine 3 si associa a Q (^1)

La Moda

Prende in considerazione anche le variabili qualitative, sia nominali che ordinali. Se i valori sono unici la frequenza sarà pari a 1 e la moda in quella distribuzione non esiste.

Se la classe ha più classi con frequenze elevate abbiamo una classe plurimodale.

Gli indici di Variabilità e di Forma

Le variabili

O la variabilità è zero o è un numero comunque positivo.

Gli indici di Variabilità assoluta si distinguono perché sono espressi nella stessa misura della statistica osservata; quelli relativi sono dei numeri puri.

Indici di Variabilità assoluta

Indici di Diseguaglianza

Differenza tra i valori a coppia che si presentano.

Campo di variazione

È quello più generale, una volta ordinate le variabili mi permette di trovare il minimo e massimo. Dunque è una differenza tra il massimo e il minimo.

Differenza interquartile

Sono più affidabili i quartili.

Lo scarto con Q3 e Q1 è più affidabile di quello presente fra massimo e minimo. La differenza può essere anche 0 e non dovrebbe esserci variabilità

Differenza semplice media

E’ diversa da uno Scostamento. Queste sequenza vengono indicate come ripetizioni. N al quadrato perché vedo n rispetto ad i ed a j.

Sulla diagonale principale avrò tante differenze par a 0 tante quanto è la dimensione delle righe e colonne.

Indici di Variabilità relativi

Non dipendendo dall’indice della variabilità.

Coefficiente di variazione si calcola dopo aver calcolato lo SQM e lo divido per la Media o il valore massimo. In generale viene usata la media. Indica in quale gruppo c’è più variabilità.

Concentrazione

Osserviamo un carattere x deve essere quantitativo, additivo e trasferibile. Lo è quando i valori possono esser trasferiti ad un’altra unità statistica. P (^) i indica una frequenza cumulativa relativa.

È nulla quando i valori pi=Qi dunque la variabilità è nulla, abbiamo equistribuzione. Viene anche chiamato rapporto del Gini.

Indici di forma La simmetria da una regolarità, la media la moda e la mediana sono sempre uguali.

Lo studio dell’associazione

Le relazioni d’indipendenza Abbiamo diversi concetti di indipendenza: assoluto vi sarà dipendenza tra la variabili; Se c’è indipendenza assoluta vuol dire che ci saranno anche le altre indipendenza; quando c’è quella in media vuol dire che non sempre c’è quella assoluta ecc..

Tabella di contingenza se entrambe le variabili sono qualitative, mista se una è quantitativa e una è qualitativa e di correlazione se le variabili sono quantitative. Tvb

Indipendenza assoluta Concetto più generale. La frequenza osservata è indicata con n (^) ij mentre la frequenza teorica viene definita come il rapporto tra i totali delle righe(ni.) e colonna(n (^) .j). Se vi è uguaglianza tra frequenza osservate e frequenze teoriche vi è indipendenza assoluta. se c’è già un elemento è diverso vi è dipendenza e bisogna calcolarla.

La contingenza (C (^) ij ) si definisce come la differenza la frequenza osservata data dal rapporto tra le

frequenze marginali diviso n (n *ij). Questo indice in realtà viene calcolato facendo al quadrato le contingenze che daranno quasi sempre 0.

Indice chi-quadrato Questo indice è maggiore quanto più e elevata la connessione tra le variabili. Il minimo è zero, mentre l’estremo superiore. L’altra indice è il phi-quadrato. L’ultimo indice è il l’indice di Cramer.

Indipendenza in media

Almeno una della variabilità deve essere quantitativa. Se le medie non sono uguali tra di loro dobbiamo calcolare la dipendenza. Per il calcolo della dipendenza tra le variabili andiamo ad usare la devianza between rapportata con la devianza totale. E compresa tra zero e 1 in quanto si base sulla scomposizione delle devianze. Se la devianza between vale 0 l’indice vale 0. Se entrambe le variabili sono quantitative possiamo calcolare la dipendenza di y rispetto ad x e di x rispetto a y.

La concordanza assoluta e relativa

Le variabili sono entrambi di tipo quantitativo. Si dice concordanza qualora una variabile se aumenta fa aumentare anche l’altra; viceversa si chiama discordanza. La codevianza è la somma dei prodotto degli scarti dalla media. Formula con due variabili in tabella a doppia entrata con le relative frequenze. La covarianza è data dalla codevianza diviso il totale.

L’indipendenza correlativa Fa riferimento ad una funzione lineare. Coefficiente d i correlazione r: se facciamo dev(x)dev(y) e dividiamo entrambi per N abbiamo la varianza. Che possiamo anche scrivere come sqm(x)* sqm(y)

Il modello descrittivo di Regressione lineare semplice

il modello di regressione viene usato per fare delle previsioni.

Modello di dispersione (quaderno)

In generale per trovare i valori B0 e B1 si usa il metodo dei minimi quadrati.(OLS). Scomposizione devianza.

Variabile casuale continua la differenza è che i valori sono infiniti o finiti non numerabili. Per calcolare l’area della variabile casuale continua dobbiamo ricorrere all’integrale.

Il valore atteso è paragonabile ad una media aritmetica. Vedi QUADERNO.

La deviazione standard è semplicemente uno Scostamento quadratico medio.

Distribuzione di probabilità: esiste anche per la variabile continua. È uniforme perché la probabilità associata a tutti gli elementi è uguale. 1/N rappresenta pi.

Distribuzione di Bernoulli : Faccio un solo esperimento, come se facessi l’esperimento solo su un individuo. Se vi è successo la P(X) è indicata solo con p; l’insuccesso invece viene indicato con 1-p o indicata anche con q. Il valore atteso della variabile casuale di Bernoulli è sempre uguale a p. Per la varianza: (Sommatoria x2ipi –[E(X)]2= 1^2 * p+ 0 2 q – p^2 = P – p 2 = p(1-p)= pq.

DISTRIBUZIONE BINOMIALE

Nel momento che si fanno n esperimenti con la distribuzione di Bernoulli viene chiamata variabile binomiale. Può assumere sempre solo due valori 0 e 1. Viene calcolato facendo il valore binomiale che rappresenta le n prove prese da x a x. n = n!/(n-x)!x! x ES. x!= 123x 5!= 1234*

Il valore atteso siccome si dice che è una generalizzazione della variabile dicotomia allora sarà semplicemente np Per la variabile invece sarà npq.**

Distribuzione normale standardizzata Se si procede ad una trasformazione di X allora si fa in modo che la Mediana e la moda corrispondono a 0.

Dimostrazione valore atteso: siccome mi e sigma sono costanti allora possiamo spostare il denominatore fuori dalla parentesi. Il E(X) è indicato come mi e dunque il valore atteso di Z è 0.

La varianza :

Distribuzione chi- quadrato Ha una forma irregolare ed è caratterizzato da n gradi di libertà

La distribuzione t di Student ha le code più alte ma la figura è uguale a quella della distribuzione normale.

LA STIMA

La funzione di ripartizione indica una popolazione e il campione statistico viene estratto dalla popolazione. Il campione deve essere ben rappresentativo della popolazione. Non è sempre casuale, facciamo la distinzione perché solo se è di tipo casuale allora il campione dal punto di vista statistico ci dà informazioni affidabili. Può essere fatto con reintroduzione o senza reintroduzione, esempi una volta estratto viene rimesso nella popolazione o al contrario non viene rimesso dentro l’elemento allora la numerosità diminuisce.

La distribuzione della media campionaria: P : X N θ:μ;δ 2 C: {X 1 … X (^) n}n Teta indica T(stimatore): x segnato indica la media e S^2 indica sigma

Ci interessa sapere la media delle medie e la varianza. Le medie delle medie è proprio uguale alla media della popolazione affinché sia effettivamente un estrazione fatta da quella popolazione.

La varianza:

Teorema del Limite centrale Partiamo col definire n variabili casuali che sono indipendenti e che sono identicamente distribuite.

Teoria della Stima La stima del parametro incognito può essere per intervalli di confidenza o su parametri Bisogna dare innanzitutto una definizione di stima e stimatori. In generale diciamo che lo stimatori è una funzione delle n variabili casuali. Quando definiamo la stima indichiamo t minuscola ed è definita come una funzione delle variabili estratte e dunque indicate con x minuscola.

Teorema di De moivre – Laplace Quando si costruisce Z (variabile centrale e standardizzata)

La stima è il valore che lo stimatore assume quando usiamo valori reali, lo stimatore è una variabile casuale la stima no.

Stimatore corretto : è sempre associato ad una funzione di densità di probabilità indicata con f minuscola.

Stimatore efficiente : se lo stimatore è corretto, l’efficienza di uno stimatore sarà più semplice da calcolare. L’E.Q.M. è dato dal valore atteso del quadrato della differenza tra lo stimatore T e il parametro Teta. Aggiungendo e sottraendo lo stesso valore nella parentesi, ovvero il valore atteso otteniamo la varianza + la distorsione al quadrato dello stimatore. Se lo stimatore è corretto lo stimatore efficiente coincide con la varianza siccome la distorsione è uguale a 0. Uno stimatore è più efficiente dell’altro se uno ha la varianza più piccola dell'altra se è corretto, se non è corretto guardo l’E.Q.M.