Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


TEORIA COMPLETA ESAME STATISTICA, Sbobinature di Statistica

Teoria completa di tutti gli argomenti per esame di statistica

Tipologia: Sbobinature

2020/2021

In vendita dal 26/05/2023

Magiclollo2
Magiclollo2 🇮🇹

1 documento

1 / 21

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DEFINIZIONI STATISTICA TEORIA
STATISTICA DESCRITTIVA: ha lo scopo di raccogliere ed elaborare i dati per
descrivere fenomeni collettivi o di massa
UNITA STATISTICA: è l’entità che possiede il dato e sulla quale andiamo a rilevare
il fenomeno oggetto di studio
COLLETTIVO STATISTICO: l’insieme delle unità statistiche
CARATTERE: è il dato che si vuole rilevare sulle unità statistiche
MODALITA’: sono le manifestazioni del carattere--à MODALITA DEL
CARATTERE: sono quei attributi, numeri, attraverso il quale il carattere si manifesta
CARATTERE QUANTITATIVI: (numeri), si distinguono in continui, frutti di una
misurazione [infinite modalità], discreti, frutti di un conteggio [numero finito di
modalità.
CARATTERE QUALITATIVI: (parole, attributi, termini), si distinguono in
ordinabili, quando esiste un ordine fra le modalità, sconnessi, in cui le modalità non
hanno nessun ordine.
POPOLAZIONE STATISTICA: l’insieme di tutte le unità statistiche
CAMPIONE: una parte della popolazione, un numero limitato di unità
CENSIMENTO: un’indagine su tutta la popolazione
INDAGINE CAMPIONARIA: un’indagine su una piccola parte della popolazione
PIANO DEGLI ESPERIMENTI: sono indagini campionarie
FREQUENZE
Se i dati statistici esprimono il n° di volte in cui il fenomeno si è verificato
in relazione ad un determinato periodo di tempo, assumono la natura di
frequenza.
1. FREQUENZA ASSOLUTA (ni)= il n° di volte che una data modalità
si presenta nel collettivo statistico.
2. FREQUENZA RELATIVA (fi)= sono dei rapporti di composizione
che consentono una valutazione rapida del “peso” dell’importanza,
della singola modalità nell’ambito della distribuzione di frequenza.
åmoduzo
V
fi
-
ti
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15

Anteprima parziale del testo

Scarica TEORIA COMPLETA ESAME STATISTICA e più Sbobinature in PDF di Statistica solo su Docsity!

DEFINIZIONI STATISTICA TEORIA

STATISTICA DESCRITTIVA: ha lo scopo di raccogliere ed elaborare i dati per

descrivere fenomeni collettivi o di massa

UNITA’ STATISTICA: è l’entità che possiede il dato e sulla quale andiamo a rilevare

il fenomeno oggetto di studio

COLLETTIVO STATISTICO: l’insieme delle unità statistiche

CARATTERE: è il dato che si vuole rilevare sulle unità statistiche

MODALITA’: sono le manifestazioni del carattere--à MODALITA’ DEL

CARATTERE: sono quei attributi, numeri, attraverso il quale il carattere si manifesta

CARATTERE QUANTITATIVI: (numeri), si distinguono in continui , frutti di una

misurazione [infinite modalità], discreti , frutti di un conteggio [numero finito di

modalità.

CARATTERE QUALITATIVI: (parole, attributi, termini), si distinguono in

ordinabili , quando esiste un ordine fra le modalità, sconnessi , in cui le modalità non

hanno nessun ordine.

POPOLAZIONE STATISTICA: l’insieme di tutte le unità statistiche

CAMPIONE: una parte della popolazione, un numero limitato di unità

CENSIMENTO: un’indagine su tutta la popolazione

INDAGINE CAMPIONARIA: un’indagine su una piccola parte della popolazione

PIANO DEGLI ESPERIMENTI: sono indagini campionarie

FREQUENZE

Se i dati statistici esprimono il n° di volte in cui il fenomeno si è verificato

in relazione ad un determinato periodo di tempo, assumono la natura di

frequenza.

1. FREQUENZA ASSOLUTA (ni)= il n° di volte che una data modalità

si presenta nel collettivo statistico.

2. FREQUENZA RELATIVA (fi)= sono dei rapporti di composizione

che consentono una valutazione rapida del “peso” dell’importanza,

della singola modalità nell’ambito della distribuzione di frequenza.

åmoduzo

V

fi

  • ti

3. FREQUENZA CUMULATA (Ni)= hanno un significato appatto che

ci sia un ordine nelle modalità. Sono le freq. assolute degli individui

che presentano una modalità del carattere inferiore o uguale alla

modalità che si sta trattando.

4. FREQUENZA CUMULATA RELATIVA (Fi)= sono le freq. relative

degli individui che presentano una modalità del carattere inferiore o

uguale alla modalità che si sta trattando.

5. DISTRIBUZIONE PER CLASSI: si può raggruppare in classi

quando il carattere è quantitativo discreto con numerose modalità o

caratteri quantitativi continui

6. DENSITA’ DI FREQUENZA (Hi)= sono calcolabili solo ed

esclusivamente per quei caratteri le cui modalità sono raggruppate in

classi. Indica il peso effettivo che hanno le singole modalità

all’interno della classe

7. DENSITA’ DI FREQUENZA RELATIVE (hi)= sono le frequenze

assolute/ampiezza della classe

μ

He

:

EEE.EE?ssiFehi--&:%cE-ss=Ea

2 º

MODULO

MISURE

DI CENTRALITÀ ✓

L'

elenco delle

modalità rilevate

sulle unità se

ordinano

in senso crescente . RANGO → indica

il

posto

che nella

graduatoria

ordinata

è occupato

da

una certa modalità . MEDIANA → è

quel

valore di centralità

valore intermedio

. non

inferiore

al

delle modalità

e non superiore al restante 50%

delle

modalità medesime

.

n .

numero di unità del collettivo Se n pare → è uguale alla semi somma delle due modalità di rango : ze E

Se n de spore → è l' unica

modalità

di rango :

→ Il valore della

Mediana

depende

solo da

quello

delle unità centrale .

..

" " " DIMOSTRAZIONE a FS - la MEDIANA

corrisponde

alla

freq . con ieel ,

uguale

o

immediatamente

e superiore a

calcolo mediano nelle

distribuzioni

per

classe

-g_ E I

_

estremo

inferiore

di modalità

. Es .

. estremo

superiore Fli freq . com .

rel della classe

precedente a

quella

mediana FS.

freq

. com.

Tel

della classe mediana

i È | Ò . 5 es > Ti AB : BD = Ac : ce → AB

BD

Age ↓ ¥

AB

_ Ne

  • ED

Aci

es

ed Me

e i -10,

Fi ) . § Me = ei + (

Fi) . (es BD= ( 0,

Fi)

ce (FS

Fi

( FS

Fi )

PECULARIETÀ

DELLA MEDIANA

Il valore dello re

dipende

solo da

quelle

delle

unità centrale

Siano

% , &. . . . . yn

le

modalità ordinate e ( y ,

Me

ya

Me)

yn

Me )

gli

scarti o scostamenti dalla mediana . I & I i " E.lyi.me/-lyi- Allora È Iyi

  • Me /

= minimo cioè , per C

qualsiasi

se ha sempre

la

sommatoria

degli scarti in

valore

assoluto è un minimo , rispetto alla somma degli scarti

considerati

in

valore assolto

da

una qualsiasi

costante C

Dimostrazione

Consideriamo Yee Yn . Affinché C Merumeci

y ,

CI + I yn

c) (

la somma

degli

scarti in

valore assoluto

) deve essere y« « yn ( interno all' intervallo

Infatti

Se % « < yn segue

che

:

yé CI +

yn

c / = ¢ 41

Yn

È yn

Ye

Se ce %. < yn segue

che

: sostituendo C con y , avremo :

la

CI

yn

CI

_

Yi

c + Yn

È >

YnÈ Yn

Ye

Se yea yn < C segue

che

: sostituendo c con yn avremo : / YI

CI +

yn

- CI

= c- yntc - >

È

Yet k¥-

Ye

La somma degli

scarti in

valore

assoluto è minima

quando

c è interna all'intervallo .

PROPRIETÀ DEWA MEDIANA →

ha

la

proprietà di nnmmiezarelasommadeglscartidallamedeanainval reassolF

ALTRI

INDICI Di posizione

QUARTI

LI

✓ I Quarti le = Q .

quel

valore tale che il sesto

delle unità statistiche hanno

una modalità ≤ e

il

restante

Qe

I

Quarti

le

Me

quel

valore tale che il

50%

delle unità statistiche hanno

una modalità ≤ Qa e il

restante

50%

Qa

Quarti le = Qs →

quel

valore tale che

il

7590 delle unità

statistiche hanno

una modalità

≤ Qs

e il restante

25%

≥ Q

% T.EE/=ET-E = la 1 º freq

. com.

nel immediatamente ≥ 0.

Qz.

. la 1 º

freq

. com.

nel immediatamente ≥ 0.

Qs :

la 1 º freq . com. nel immediatamente ≥ 0.

E ' in classe = E le

es ,

E le

. 0,

FI , FSàF è uguale

alle

freq .

relativa

della classe

Me = ei

0,

FI )

.

es

E I )

FS

Fi )

Qs

= E i >

( es ; e

FI , FS ; F Is

PERCENTILE

☐ la generalizzazione del concetto di quarti le a qualsiasi

percentuale

definisce

il

percentile . è quel valore tale l' ✗ % delle unità delcollettivo

hanno

una modalità ≤

E

e

lo (

e

× )

hanno invece

modalità

≥ E EX . È = E i

es

ed

0,

FI FS

FI

Moda (

Md )

= è

la

modalità che presenta

la

frequenza più

alta

CLASSE MODALE :

nella distribuzione divisa

in classe , se può individuare

quella

cui

compete

la frequenza

maggiore

.

DISTRIBUZIONE UNIMODALE / PLURIMODALE = Se la distribuzione è

rappresentata

da una curva di frequenze , la moda si identifica con

il

massimo di

tale

curva . Se

la

curva ha 1 MASSIMO = DISTRIBUZIONE UNITODALE , 1- 1- MASSIMO i DISTRIBUZIONE PLURI MODALE

MEDIA ARITMETICA indice di posizione

centrale che

depende

da

tutte

le modalità

è sensibile ai valori estremi

anomale E Si ottiene sommando

tutte le modalità

rilevate dividendo per

il

numero

totale delle modalità

Nella distribuzione di frequenza : → Media ponderata ↓

con le freq

. assolute M

_ LE

✗ i ◦ Mi

con

le

freq .

relative =D M

= E le ◦ fa ( nel caso in cui ne sono

ignote

)

Nella distribuzione di frequenza per classe

di modalità

→ M.

. & E

vini ,

M

= E il • &

PROPRIETÀ ASSOCIATIVA

=D Se un

collettivo di

n

unità

viene suddiviso in tl gruppi , ciascuno

contiene

nì unità G- -1, .

...

, H

, allora la Medea

aritmetica delle medie delle modalità de

ciascun gruppo , che indichiamo

con Mi

i

-1. .

...

. H ) ponderata con le ni è pari alla

media aritmetica M

calcolata su tutte le modalità del collettivo . =D

M

=L ÈÉ Mi

Mi ✓

MEDIA GEOMETRICA =D In alcune cose

la

media aritmetica non è idonea per sapere

l'

accrescimento o

il decremento di

un

fenomeno,

quello

più .

adatto

è

la media

geometrica

purché le

modalità

siano tutte

positive

e non

nulle

SERIE STORICA →

carattere le cui

manifestazioni vengono rilevate al

variare del

tempo

.

Posso

descrivere

com' è cambiato al dato nel tempo

(E)

gode della seguente proprietà = quel

valore che sostituito

a tutte

le modalità ne

lascia invariato il prodotto ✗ i

Xa .

... -

Xn = G. G .

....

G = EX

. *

si sottrae 1 perché indica , nessuna variazione t ✗ AI % (NI

100 NI = numero indice = il

rapporto

tra il dato ad un certo istante e il dato all'istante

precedente

1 X ,

%

Variazioni

percentuali

periodiche

NI E)

100 2 Xa EH

ake

100 Dc

= Variazione

complessiva

= (

,

100 → considerare il

periodo

dal 1° istante d' osservazione f- 1 xt- xt

NE

È

-1ha

◦ 100

all' ultimo t è xtxt

At

◦ 100 Le consideriamo la Variazione complessiva come esito delle \ e ' , i i. ' : singole variazioni

periodo

dopo periodo abbiamo :

: : i #= ¥

... - - - - ¥

XT ✗ the

1-

txt

e)

100

Xe XÈ

÷ ' le dobbiamo può essere ottenuto facendo il prodotto di tutti i n° inde a

confrontare

con 1 = 1 nessuna variazione senza

tener conto di

una variazione diversa periodo dopo periodo , ma una variazione > 1- variazione crescita costante uguale periodo dopo periodo , che però mi assicuri la stessa variazione

complessiva

< 1- decremento avremo : MEDIA GEOMETRICA =D

Mg

.

Mg

  • .. . _ -

Mg

↓ ≤ è tale che , moltiplicata mi restituisce il

rapporto

tra il dato Per vedere come un

dato al

primo istante e l'

ultimo istante

, ovvero quello che me . si evolve nel

tempo

determina la variazione

complessiva

Descriviamo l' evoluzione del

fenomeno

nel tempo

...

¥ , Ms fÈ -1% periodiche

...

Istante per

istante

Dc % →...

complessivamente

Dn %

.. . mediamente

M

= Variazione media = (

Ng

100 ↓

descriviamo l'

evoluzione

del fenomeno nel tempo mediamente

Dopo aver studiato i valori medi, i quali sintetizzano l’insieme dei dati osservati in un unico valore numerico, è necessario affiancare altri indice

che possono fornire informazioni sulla dispersione, cioè l’ attitudine di un carattere a presentarsi con modalità differenziate. Queste misure di dispersione: assumano valore zero solo se è nulla la variabilità (tutti i valori osservati risultano uguali tra loro), all’aumentare della variabilità tali indici assumeranno valori sempre maggiori; tanto minore è la distanza delle osservazioni dal centro tanto maggiore sarà la rappresentatività e l’affidabilità del valore medio e infine permette di fare un confronto fra le distribuzioni. Dipende fortemente dagli eventuali valori abnormi, l’unità di misura è espressa al quadrato rispetto a quella dei dati ed è una misura assoluta di variabilità (non permette di fare confronti). Per risolvere questi difetti, ci sono le alternative:

3 º

MODULO DISPERSIONE O VARIABILITÀ

MISURE DI DISPERSIONE

CAMPO DI VARIAZIONE =D differenza tra

il

valore massimo e il valore minimo dei dati rilevati ↓ È =D a me

rappresenta

l' intervallo del 100% da dati

osservate

misura grossolana =

yn

ya

DISTANZA INTERQUARTILICA =D differenza tra il IIQuartile e il Ì Quarti le ↓ ¥ =D e me rappresenta

l' intervallo centrale

,

nel

quale

cade il 50% delle modalità eileoate . misura più raffinata

D. I

= Qs

Qe

VARIANZA

la media

degli

scarti al

quadrato

dalla

media

della distribuzione

la

Variabilità è nulla solo

se tutti i valori osservati

risultano

uguali tra loro

v (e) =

fÈM⊖ → distribuzione unitaria momento premo ≥ momento secondo me dà aritmetica la media delle xi

✓ (e)

=L

È , × ? ne

ti

→ distribuzione

di

frequenze ✓

(e)

= In È , Cf . ne

  • Ma →

distribuzione per classe

Difetti DELLA VARIANZA ( la Varianza se misura nel

quadrato

dell' unità di misura delle

modalità)

SCARTO QUADRATICO MEDIO SQM

= TV

( è espresso nella stessa unità di misura da dati ) ci dice di

quanto

in media ogni valore si discosta dalla Media

COEFFICIENTE di VARIAZIONE → CV = 501 → è ADIMENSIONALE ( comparare

la

variabilità in distribuzioni diverse oppure

collettivi

diverse

M

SCARTO SEMPLICE MEDIANO → SSM e i ÈÉ lken-Me-l.in i g. → ci

dice di

quanto mediamente i dati si discostano

dalla

mediana

SCOSTAMENTO SEMPLICE MEDIO → SM = È . 1%

hi

D ci

dice di

quanto mediamente i dati si discostano dalla Medea

Ste

= ÈÉ lcin-Me-l.ru SM

È

. kin-M-l.ru

.

TRASFORMAZIONI LINEARI

Siano

le

✗ e

le

modalità diverse del carattere ✗ con frequenze ni per ( i = 1 .

.. _

, K

; se ( costruiamo una nuova variabile E) ←

TRASLAZIONE

Élite

→ costante (

perché

non è indicizzata da ie quindi assume sempre lo stesso valore

avremo :

DIMOSTRAZIONE PER REDIA

A COSA È UGUALE LA MEDIA Di =L in funzione

della

media di

× ? ) K

MI

M

(E)

È . Ei . Mi =

I

È , ti+

c)

ni sommatoria di una somma algebrica = somma algebrica

delle

una

sommatoria

E-pEerata-ama-T.co

no ↓ 1 ÈI .

✗ e

ne

+ Coni )

uguale

Xi

  • C e- delle z , ↓ è una costante

può

essere scritta fuori il

segno

06 sommatoria

=L

( Èixini

E

Éeni ) = Ndo

↓ NÈ = n .

perché

la MG

.

NG

) + c

somma delle

frequenze

= h

1-n-c.tk

E

avremo

quindi

:

ftp.MK

=D

Dimostrazione M¥ 0

Media

TÈ¥jm¥

nella

trasformazione

lineare

M

(e) = attore

)

segno opposto

DIMOSTRAZIONE VARIANZA

nella

trasformazione

lineare

"

=

fai

?

✓ (e)

= 1

.

. batte)

  • DISTRIBUZIONI SIMMETRICHE

=D

Sono

distribuzioni simmetriche

perché

individuiamo

un asse

di

simmetria tale

che l'

immagine

a

dx

è

speculare

di

quella

a sx

  • CONDIZIONE

DI SIMMETRIA

=D Siano le ×

,

le

modalità

diverse

lqui

spaziale

del carattere ✗ (o se

la distribuzione

è

divisa

in

classe ed esse siano

di

uguale

È

frequenze

nn

per

(

i =

1

,

...

K) allora :

D

per

1=

,

...

,

K

"

la

[email protected]

  • UNIMODALE SIMMETRICA →

M = Me

=

Md

±

media on

Étienne

Inada

DISTRIBUZIONE

UNI MODALE ASIMMETRICA

A volte nell’elenco delle modalità rilevate, abbiamo n coppie, la prima che rappresenta un carattere e la seconda un altro carattere e

riassumiamo il tutto in una tabella a doppia entrata.

Possono essere caratteri quantitativi e qualitativi.

4 º

MODULO •

DstRBUZ0NiBWARA

:

Ho

All' interno della

Tabella

troviamo le

Frequenze congiunte

&

eh

; Lys

=

&

(Xi ;

_

his

÷

E

nej :(

i.

1

.

...

,

r

;

g-

=

1

.

...

.

s)

"

ha

.

noi

All'

esterno della

Tabella troviamo

le

Frequenze

Marginali

totale delle

frequenze

)

S

fr

X

_

e)

=

file

= Mi

. È

na

È

1

.

...

.

»

41

E

fr

( 7-

g)

fr

(%-)

= n.

Idem

,

G-

=

1

.

.. - is)

Y )

e ≥ ≥

e

TOTALE COMPLESSIVO DELLE FREQUENZE

N

=

hij

=

È

=

&

,

Me

.

I

Se

dividiamo

per

il totale delle

frequenze

otteniamo

le

freq

.

relative

...

Freq

.

relative

congiunte

:

@

i. b)

=

Mij

=

gli ]

(

e

E

.. -

it

;

.. .

.

,

s

Freq

.

relative

marginali

:

f

e)

=

ng

=

gli

i.

1

.

..

.ie

8-

=

nj-if.sk

.

±...

.

s)

r S

NATURALMENTE

È

È flxe

, yo

= 1 →

la

somma

delle

freq

.

relative

congiunte

= 1

S

"

§,

f-(a)

= 1

freq

. relative

ftp..it marginali

;

r r

r

  • MEDIE MARGINALI

MK

)

=L È

tini .

_

È!

8-

gqaq.gg

,

VALORI MK) -

£ È

ni

.

= =

È [

"

È

)

}

freq

.

relax ,

S S

centra

ma

.

£ :[

vc.n.ge

È.tk

È

M

y)

=L

È,

Yin

.

g-

=

È

.

4-

varianze MARGINALI

✓G)

=L ÈIKIMKI

]

ni

.

=

È

È

Mk)

]}

"

}

freq

.

relative

✓ (4)

=L

È

,

[ys.MN?n.,-

=

È .

È

MINÀ

.

]

r

'

G)

=L

È

,

[ci

ni

.

MKT

]

=

È

.

[

ci

.fi

.

MKÌ

)

VALORICEILAKLVH-1.EE

.

n.s.MN

÷

:[

ci

:&, .mg

}

}

"

?

"

Se X è indipendente da Y allora tutte le distribuzioni di X condizionate ad Y sono uguali tra loro ed uguali alla distribuzione marginale relativa

di X, ma ciò implica anche che tutte le distribuzioni di Y condizionate ad X siamo uguali tra loro ed uguali alla distribuzione marginale di Y e quindi che Y sia indipendente da X. Pertanto, condizione necessaria e sufficiente affinché X ed Y siano indipendenti è che:

✓ {

= ?

...

. e)

CONDIZIONE D' INDIPENDENZA

È=M•n! G- = 1 .

..

. .

s)

Se

nisi

Me .

}

i caratteri sono statisticamente

dipendente

. Per verificare se esiste dipendenza

tra i

2 carattere

FREQUENZE

CONGIUNTE D' INDIPENDENZA =D N' È = m.Y

CONTINGENZE =D

Cig

= Me ]

Nis

frequenze congiunte

frequenze congiunte d' indipendenza

INDICE CHI
QUADRO

DI PEARSON

→ valutare il grado della dipendenza

×?

È È

ciè

dove → 4s =

neo

n' y

☐ M' ij = Me . . no J i.

N' ij n

Proprietà di

X

☐ per cui non ada l' idea dell'odine di

grandezza

X è una misura assoluta di dipendenze per ✗ ed

carattere quantitativi ex qualitativi) ed

il

suo calcolo non se

basa

ne sulle modalità di ✗ ne so quello di Y .

Se ✗ e Y sono INDIPENDENTI allora ✗ 2= Se ✗ e Y NON sono INDIPENDENTI × ≥ > 0 , ed è .

Tanto

più grande quanto più

le

nej se differenziano

dalle

Nes

DIMOSTRAZIONE ALTERNATIVA r s ÈÈ ✗ ≤ ÈE È , nè = È È÷m → " scendo Guadato

2 S Tolgo = ÈE È ( nè -20min: >

n'

È

) la sommatoria di una somma

algebrica

= somma

algebrica

delle sommatoria

E

nega { ostante ' [ neri

È [ n' È = È ¥ 1 Mio → È

i. 15= ¥ = È [ ' MI iii. n' →

ÈÌÈ

.ms

ÈÌÈ , n' es = → freq . d' indipendenza = n ↓

freq . congiunte la somma delle

frequenze

= n È È È = i. 1 Meg -2M + n = È È NÉ. ti 1 je È

N

oppure

: È [ ' MI

n ✗ % € 1 Me .

Mi =D

conoscere la

modalità di

un

carattere

a

indica immediatamente

qual'

è la modalità

dell'

altro

MASSIMA DIPENDENZA

la

dipendenza è massima se

per

ogni

colonna

e per ogni

ago

non più di una frequenza congiunta

è diversa da zero

◦ È punto di vista

grafico

INDICE RELATIVO DI DIPENDENZA

DI CRAMER :

41

Yz 43

È = ✗

2 ✗ E MI 0

@

È

con ◦ ≤ « ≤ 1- Max ✗ 2

[

T

n ] = 1 MASSIMA DIPENDENZA , perchè Hogg unge il suo mal Xz 0

ha

0 % 4 Quadro

dimensione tabella

= 0

quando ✗ 2= ) c'È INDIPENDENZA ,

le

G. ,

sono nulle

0

ns

} ↓ {

F-

m' ntas }

perchè

sono

date

.fr?s--ni,--- se ✗ 3

valutare il

grado

della c' è

indipendenza queste

freq . ↓

ne

dipendenza

. sono

uguali

. quindi

le

differenze

_

O il ×

è nullo

Scelta un' unità

a caso tra

queste n , osservando la y

sappiamo

che ✗ sarà

per forza te , perché non ci sono

unità

per cui la Ye è congiuntamente osservata con ≤ e × } ,

l'

unica coppia

che si

osserva è Xie NON C' È DIPENDENZA

L'

INDIPENDENZA è PIÙ FORTE DELLA

fNCORRELAZONE-t.LI

NEARE

Se i due caratteri quantitativi risultano dipendenti, possiamo ipotizzare che essi sono legati da una relazione lineare, cioè

Se X ed Y sono concordi sono prevalenti i punti che cadono nel II° e III° quadrante, a tali punti corrispondono scarti di X e di Y che hanno,

rispettivamente, lo stesso segno e che producono prodotti di scarti positivi. Covarianza-> essendo pari alla media dei prodotti degli scarti,

sarà POSITIVA.

Se X ed Y sono discordi, i punti del diagramma scatter cadranno nel I° e IV° quadrante, quindi corrispondono scarti di X e di Y che hanno

segno opposto, producendo pertanto prodotti di scarti negativi. Covarianza-> sarà NEGATIVA.

MISURE

DI

DIPENDENZA LINEARE

O EORRELA

ZIONE

S0%coppeedcoratrQUANTHN

g.

perchè

una

retta

la

possiamo

disegnare

soltanto

se

e Y sono

numeri

y

= a

bx

Ì

"

coefficiente angolare

= a

dice

la

pendenza

della retta e se

la retta è crescente

o

decrescente

intercetta -

.

ci

dice

cosa

accade ad

y , quando

la ✗

è nulla

Per

verificare

questa ipotesi.

misureremo

la

strettezza della

dipendenza

lineare

,

ovvero

,

misurando

il

grado

di correlazione

tra ✗ e Y

mettiamo le

coppie

( li

,

y

sul

  • DIAGRAMMA SCAITER

per

notare il

tipo

di relazione

g

NUVOLA DEI PUNTI

TREND LINEARE

(

al crescere

di

una variabile

cresce

anche

l'altro

,

ma

deve

crescere in un

modo

che

sia

rappresentabile

attraverso una retta

)

o

la retta a serve

a

fare

Previsione e

Controllo

7

\

MISURE DI strettezza DELLA

RELAZIONE LINEARE

O DI

CORRELAZIONE

TRA ✗

e Y

È

COVARIANZA

è la media dei

prodotti degli

scarti dalle

rispettive

medie di ✗ e

7

:

[email protected] _-EEE.Y.tQ

di correlazione

S

non a

de l'idea dell'ordine di

grandezza

COVARIANZA

POSITIVA

00

Ì QUADRANTE

E

°

QUADRANTE

NEGATIVO

POSITIVO

COVARIANZA NEGATIVA

°

QUADRANTE

QUADRANTE

POSITIVO

NEGATIVO

La COVARIANZA è una misura della correlazione o strettezza della relazione lineare tra X ed Y perché se non c’è correlazione (ovvero, sono

perfettamente indipendenti) la COVARIANZA è nulla [COV(X,Y)=0];

Se la correlazione è massima, tra X ed Y c’è una perfetta relazione lineare (sono dipendenti) [Y=a+bx], allora la COVARIANZA è massima in

valore assoluto (| maxCov(X,Y)|=

CHE VALORI PUÒ ASSUMERE

LA COVARIANZA

?

Consegue

che :

La covarianza

può

assumere

tutti

i

possibili

valori

,

nVHVLYIE.GOV/X,Y)--Vk)V#

la

COV

può

assumere

valore

comprese

solo

comprese

tra

Taja

colui ≤ ÈH

SQMK

.

e) ≤ Cork

.

SQMK.ee)

IN

sintesi

V

) V

) )

  • CALCOLO SEMPLIFICATO

DELLA COVARIANZA

DIMOSTRAZCONECOVK.Y.LI

È

,

[

×

.

  • Mk )

]

[

yi

MIA

}

=

In

ÌÉ

,

[ Kyi

KEH

Yi

Mk

)

  • MIYIMKI

}

sommatoria di

una somma

algebrica

= somma

algebrica

delle sommatoria

ostante che

¥

Istante

.

che sommate n

volte

rivolte la

costante medesime

non

dipende

dai

n

=

In

[

È

i Yi

  • MA

Èexi

MKIÈ

,

yi

a

MIYIMKI
È

n

Y-Mthadx-redeadiy~fi-n.fi?zxeyi-MlYIM(x)-M&x

) +

MYKA

da cui

COVK.net?Exeyi-MklMlQ

%

ENTO PRIMO MISTO

  • Prodotto DEI MOMENTI PRIMI

Se

y

,

=

le

la COV= Vale cento

Se

i dati

sono

organizzati

in una

tabella a

doppia

entrata avremo

:

COVEY

=

£ È

,

È

,

xiyjne,

MANLY)

distribuzioni

per

classi

,

valore

cqtral.nu

]

INDICE RELATIVO

DI
DIPENDENZA LINEARE

O CORRELAZIONE

8 ª

tendenza

lineare

)

☐ r

" "

| maca

_ rHY

COV

(

×

,

Y

=

COVE

.

Y

μ,

, μ,

[email protected]

Bravas

. persone

.

.de#aoaaueee.aaaanma.a

differenza

di

quest'

Éa

"

"

  • ..

7 (

×

,

Y

è una misura

relativa di correlazione

Dimostrazioni

gm

,

gg

,

,

game

gg

,

gag

, away,

@ , penne ,

Cokie) ≤ ÈH

VKI V )

TVKIVIYT

TVÉTY

)

QUINDI

verso

1

. > È

ÈENe

_ 1 ≤r

verso

7=0 INCORRELAZONE .

allora →

→ COVK

,

= 0

→ 2=

ÈQ7-

c'è

dipendenza

C' è in correlazione ma

può

esserci

dipendenza

,

diversa

da

quella

lineare

2=0,

CIO

se

c' è

indipendenza ,

allora c' è

[

"

"

"

"

"

"

"""

" "" " " "

" " " °

"

\

.

i.

:

"

"

.

,

:*:

Illazione

lineare

i

punti

stanno È

E- 1-

Fece

retta

Dopo aver verificato la dipendenza tra i caratteri quantitativi X e Y, determiniamo il legame di dipendenza tra X e Y

Le motivazioni che spingono alla ricerca di f sono :

PREVISIONE:

CONTROLLO:

Nella PREVISIONE ho un nuovo valore di X e voglio prevedere qual’è il corrispondente valore di Y.

Nel CONTROLLO mi chiedo, che valore devo dare alla X per ottenere un desiderato valore di Y

6 º

MODULO

LA

REGRESSIONE

cioè :

f-

×)

nella

fase

di raccolta dei valori

osservati di ✗

e. E ,

.

. .

,

n

) sono

stati

rilevati

quelli

di Y

ya , ya ,

...

, yn)

.

Se

si osserva un nuovo

valore di

;

me

, possiamo prevedere

l'

ignoto

valore di Y con

yh+

=

flint

per fare

la

previsione

,

devo conoscere

&

,

ovvero

la

relazione

tra

e

Y

.

dopo

aver

determinato

la

funzione

Y

=p

G)

ora

bisogna

individuare

quale

valore

incognito

l'

operatore

deve

dare alla ✗

per

ottenere un

desiderato valore

yo

della X

.

che

è

=

f-

1-

yo

) ,

cioè

quel

valore

di ✗

tale

che

flxd

=

yo

IN SINTESI

MODELLO

DI RELAZIONE PIÙ SEMPLICE

:

MODELLO LINEARE

ESEMPIO Di PEPRFEITA RELAZIONE LINEARE TRA ✗ ed Y

:

Y

=

a + bx

a =

intercetta

D=

coefficiente

angolare

a-_ ci dice cosa

accade

ad

y

, quando

la

✗ è

nulla

b

=

è

la

variazione

di

y

in

seguito

a

una variazione

unitaria di ×

DETERMINARE LA

POLINOMIALE

Il

modo

più

semplicistico

per

determinare

"

f-

"

peì

idonea

a

rappresentare

il

legame

tra X

ed

Y

è

costituito

dalle

n

coppie

di

valore

( xiii

)

che

graficamente

se

possono

rappresentare

con n

punte

e

consiste

nello

scegliere

la

polinomiale

di

equazione 4=00+01×+9× 4

.

..

.

tane

che

passa

per

tutti

gli

n

punte

date

:

Difetti DELLA

POLINOMIALE
DI

GRADO (n

a)

non

opera

nessuna

sintesi

;

i dati

consistono in

n

coppie

×

. .

ye

e

lo

polinomiale

è individuata

da

n

parametri (

a

.

.

...

, an.

e)

b)

non

utilizzabile a causa

della sua

complessità

c) è

diversa

dalla

legge

che

lega

Y ad ✗

.

perché

genere

bbe dati

affette

da

un

certo

grado

di errore

.

SI OPERA MEGLIO se :

a)

si

ipotizza

un modello

semplice

di

relazione tra ✗ ed

Y

b) si determinano i valori

dei

parametri

del

modello minimizzando i residui

,

cioè

le

differenze

tra

i valori osservati

di

Y

ed i

valori

teoria di

Y

'

c)

se

giudica

la bontà di adattamento del modello

ai

dati sulla

base dell' andamento dei residui .

d) se

il modello

è

insoddisfacente

.

sulla base dei residui

,

si

sceglie

un nuovo

modello da

prendere

in considerazione .

ED ANCORA :

INSINTESI.mn

pendente

a- MIA

BMK)

a

Retta di

regressione

!

è + b

' naPENDENE

n

§

,

§

,

×

,

y

,

npy

, μ

,

☐ g

,

y

,

g, amo

per

n

,

numeratore e

Genoa ,

nappe

  • a =

gy

y )

.

gyygy

È

×

  • n

ME

/

COVA

,

=

f.

ÈI

,

Hye

Mery

  • b

G¥÷

V4)

=L È

,

i.

ME

IN CASO CONTRARIO

i

d' = M

(

Y

  • BN
×)

fremente

a

" dipendente

{

b.

COVK

.

Y

Vlx

) a =

RK)

btly

dove a e b sono

,

da

una parte ,

i

valori

da dare

ad aeb

per

minimizzare

5 e.

dall'

altra

,

sono

gli

stimatori

dell

'

intercetta

e

del D=

COVA ,

coefficiente

angolare

della REITA Di

REGRESSIONE

.

.

ottenute col metodo

VLY)

dei

MINIMI QUADRATI .

PROPRIETÀ

DELLA REITA DI

REGRESSIONE retta

di allineamento

1.)Se

tutte

le

coppie

di

dati osservati

(

n

. ye

soddisfano

la

relazione:

yeictdxi ,

¥

,

allora

i

punti

corrispondenti

sono

perfettamente

allineate

sulla

retta :

E- ctd

che

coincide

esattamente

con

la

REITA DI REGRESSIONE

: E-

a

'

+ È

,

cioè :

b- _

C0¥¥_

=D e

a

'

.

M

(Y)

  • b

'

Mk

    • C

,

di

conseguenza

Y'

i.

,

ki e

VIY

'

= ✓(Y

p

÷

variabilità totale

DIMOSTRAZIONE

variabilità della

%)

regressione

( delle

y

:)

Date

le

n

coppie

✗ e.

g)

la REITA Di

REGRESSIONE avrà

equazione

:

Y'

i

àtb

'

✗ con

b-_

C0V÷

e

d' =

Rte

b'

Mk)

Ma :

cov

Kid

_

TÌÈÌKI

  • M "

]

[[M se c. e. •

Gene lineare tra ✗ ed y

.

la stessa

relazione

a sarà

tra le medie

→ RM

« ddl

"

Not

=L

È

,

Eu

Mettete

IMKI

]

Messo in

evidenza

=L

È

.ir#xi-MkY--d1-iiiE.-Lxe-MkD2--dVk

)

DA cui :-D

D=

Cork

,

=

b

'

V4)

INOLTRE :-D

C-

MH)

d

Mk

)

= M

(Y)

b Mk

) = è

INFINE

:

= è

i-bki-ctdx-yi.tk

,

e VCY

'

Y)

la

retta

di

regressione

coincide

con la

retta

di allineamento

dei

dati

PROPRIETÀ

DI MINIMO

DEI Residui

Definiti

Residui le

differenze

tra

i valori

osservati

ya )

ed i valori teoria

( y

della Y cioè a

=

y

y

avremo

:

È

,

%

y

:)

minimo

a.

b)

dimostrazione

adgrlykia.LY

o

la

somma

da

quadrata

dei residui = memmo

yi

.

à +

bin

Ki

,

dove

à e

b

'

sono

tal

:/

È

,

(

ya

  • à -

bid

minimo ma

=

È

(

yi

y

:)

?

minimo

I

=

la somma

dei

quadrati

dei residui

LA MEDIA

Dei RESIDUI È NULLA

MK)

= O

perché

BÈL

È

.

.

ci =

Èelye

y

DIMOSTRAZIONE

la

SOMMA

DEI RESIDUI è

nulla

n

n

n

alla

equazione

normale

aÈe

.

_

Èia

inoltre →

È

.ie?Ia'+biu--E.yi

quindi

È

.

.

Ci

=

Èin

È yi

= 0

Me

= 0

E-

la

somma

delle

teoriche =

la

somma

delle

ye

Osservate

n MOMENTO SECONDO n

(e) =

In § ,

perché

la

varianza è uguale

al Momento

secondo -

Momentary? papà

la

Media

dei

residui = 0

=D In È , et ✓

MISURA DELLA

BONTÀ

DELLA REGRESSIONE Dopo aver stimato

il

modello di relazione tra ✗ ed

Y affrontiamo il

problema

della bontà

dell'

adattamento

del

modello ottenuto

a date

rilevate

. aggiungo e sottraggo yì evitare È .in?I.-Lyi-MH+E- È DELLE yi il

nùmerotre

della varaanzattperhe se = È Kyi

y ;)

( Hi

M ( Y) ] Io risolviamo il quadrato di binomio Devoto per n Trovo la Voce anza 1 È

ek.MN

= È

yi

y

? È ( y ' i

MAI [

ZÈE

ye . y :)

y :

  • MIN

)

→ sommatoria di

una somma algebrica = somma

algebrica

delle sommatoria "

farà

→ il doppio prodotto è nullo

fra

la somma da residue è nulla = È , (ya

MH) ) ? È ( y :

  • M

(4) Ti È ( %

y:[

→ diviso MEMBRO A MEMBRO PER h : Ìo Ha desse μ devianza a-«e devianza dei Y ' i Residui , perché se divise per la → f-

È

≥ (Ye

y :) ≥ =

et

DIMOSTRAZIONE

V (4)

=

V

' )

Ue

) =D

V

=

Variabilità

totale delle

ye

osservate

V

' ) =

Variabilità

della

Regressione

delle yì

teoriche

A ✓ (e) =

Variabilità Residua

degli ee Ordinate da

punta

che

rappresentano

i nostri dati

. . ÷ . .

..

.. . commettendo approssimando la nuvola dei punti con la retta

verificheremo

se

l'

idea di una

dipendenza

lineare è

confermata

da dati , calcoliamo con r .

  1. scriviamo la retta di regressione .

andiamo a vedere

se questa

retta è un buon modello per i nostri dati , calcoliamo con

R?

ci

VLYÌ è

grande , migliore sarà l' adattamento della retta ai dati maggiore V '

, minore sarà V ) , la retta ha. catturato al

meglio

le

informazioni

È la V '

) ≤ V

perché

V

(4)

V

' )

Nel

|

i