Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti esame statistica, Sbobinature di Statistica

Appunti esame statistica voto 28/30 università: Unical (Cosenza)

Tipologia: Sbobinature

2022/2023

In vendita dal 07/07/2023

fabio-palmieri
fabio-palmieri 🇮🇹

4.4

(26)

8 documenti

1 / 21

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DEFINIZIONI STATISTICA TEORIA
STATISTICA DESCRITTIVA: ha lo scopo di raccogliere ed elaborare i dati per
descrivere fenomeni collettivi o di massa
UNITA STATISTICA: è l’entità che possiede il dato e sulla quale andiamo a rilevare
il fenomeno oggetto di studio
COLLETTIVO STATISTICO: l’insieme delle unità statistiche
CARATTERE: è il dato che si vuole rilevare sulle unità statistiche
MODALITA’: sono le manifestazioni del carattere--à MODALITA DEL
CARATTERE: sono quei attributi, numeri, attraverso il quale il carattere si manifesta
CARATTERE QUANTITATIVI: (numeri), si distinguono in continui, frutti di una
misurazione [infinite modalità], discreti, frutti di un conteggio [numero finito di
modalità.
CARATTERE QUALITATIVI: (parole, attributi, termini), si distinguono in
ordinabili, quando esiste un ordine fra le modalità, sconnessi, in cui le modalità non
hanno nessun ordine.
POPOLAZIONE STATISTICA: l’insieme di tutte le unità statistiche
CAMPIONE: una parte della popolazione, un numero limitato di unità
CENSIMENTO: un’indagine su tutta la popolazione
INDAGINE CAMPIONARIA: un’indagine su una piccola parte della popolazione
PIANO DEGLI ESPERIMENTI: sono indagini campionarie
FREQUENZE
Se i dati statistici esprimono il n° di volte in cui il fenomeno si è verificato
in relazione ad un determinato periodo di tempo, assumono la natura di
frequenza.
1. FREQUENZA ASSOLUTA (ni)= il n° di volte che una data modalità
si presenta nel collettivo statistico.
2. FREQUENZA RELATIVA (fi)= sono dei rapporti di composizione
che consentono una valutazione rapida del “peso” dell’importanza,
della singola modalità nell’ambito della distribuzione di frequenza.
1º
MODULO
f-
¥
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15

Anteprima parziale del testo

Scarica Appunti esame statistica e più Sbobinature in PDF di Statistica solo su Docsity!

DEFINIZIONI STATISTICA TEORIA

STATISTICA DESCRITTIVA: ha lo scopo di raccogliere ed elaborare i dati per

descrivere fenomeni collettivi o di massa

UNITA’ STATISTICA: è l’entità che possiede il dato e sulla quale andiamo a rilevare

il fenomeno oggetto di studio

COLLETTIVO STATISTICO: l’insieme delle unità statistiche

CARATTERE: è il dato che si vuole rilevare sulle unità statistiche

MODALITA’: sono le manifestazioni del carattere--à MODALITA’ DEL

CARATTERE: sono quei attributi, numeri, attraverso il quale il carattere si manifesta

CARATTERE QUANTITATIVI: (numeri), si distinguono in continui , frutti di una

misurazione [infinite modalità], discreti , frutti di un conteggio [numero finito di

modalità.

CARATTERE QUALITATIVI: (parole, attributi, termini), si distinguono in

ordinabili , quando esiste un ordine fra le modalità, sconnessi , in cui le modalità non

hanno nessun ordine.

POPOLAZIONE STATISTICA: l’insieme di tutte le unità statistiche

CAMPIONE: una parte della popolazione, un numero limitato di unità

CENSIMENTO: un’indagine su tutta la popolazione

INDAGINE CAMPIONARIA: un’indagine su una piccola parte della popolazione

PIANO DEGLI ESPERIMENTI: sono indagini campionarie

FREQUENZE

Se i dati statistici esprimono il n° di volte in cui il fenomeno si è verificato

in relazione ad un determinato periodo di tempo, assumono la natura di

frequenza.

1. FREQUENZA ASSOLUTA (ni)= il n° di volte che una data modalità

si presenta nel collettivo statistico.

2. FREQUENZA RELATIVA (fi)= sono dei rapporti di composizione

che consentono una valutazione rapida del “peso” dell’importanza,

della singola modalità nell’ambito della distribuzione di frequenza.

MODULO

f-

¥

3. FREQUENZA CUMULATA (Ni)= hanno un significato appatto che

ci sia un ordine nelle modalità. Sono le freq. assolute degli individui

che presentano una modalità del carattere inferiore o uguale alla

modalità che si sta trattando.

4. FREQUENZA CUMULATA RELATIVA (Fi)= sono le freq. relative

degli individui che presentano una modalità del carattere inferiore o

uguale alla modalità che si sta trattando.

5. DISTRIBUZIONE PER CLASSI: si può raggruppare in classi

quando il carattere è quantitativo discreto con numerose modalità o

caratteri quantitativi continui

6. DENSITA’ DI FREQUENZA (Hi)= sono calcolabili solo ed

esclusivamente per quei caratteri le cui modalità sono raggruppate in

classi. Indica il peso effettivo che hanno le singole modalità

all’interno della classe

7. DENSITA’ DI FREQUENZA RELATIVE (hi)= sono le frequenze

assolute/ampiezza della classe

μ

He

:

EEE.EE?ssiFehi--&:%cE-ss=Ea

2 º

MODULO

MISURE

DI CENTRALITÀ ✓

L' elenco delle

modalità rilevate

sulle

unità

se

ordinano

in senso crescente . RANGO →

indica

il

posto

che nella

graduatoria ordinata è occupato

da

una

certa modalità

. MEDIANA → è quel

valore di centralità

valore intermedio

. non

inferiore

al

delle modalità

e non superiore

al restante

50%

delle

modalità medesime

.

n.

numero di

unità del

collettivo Se n pare → è uguale alla semi somma delle due modalità di rango :

ze

E

Se n de spore → è l' unica

modalità

di rango :

→ Il

valore della

Mediana

depende solo da

quello

delle

unità centrale .

..

" " " DIMOSTRAZIONE a FS

la MEDIANA

corrisponde

alla

freq . con ieel ,

uguale

o

immediatamente

e superiore a 0. calcolo mediano nelle

distribuzioni

per

classe

-g_ E I - _

estremo

inferiore

di modalità

. Es . .

estremo

superiore Fli freq. com.

rel della classe

precedente a

quella

mediana FS .

freq

. com.

Tel

della classe mediana

i

È

| Ò . 5 es > Ti AB : BD = Ac : ce → AB

  • BD

Age ↓ ¥

AB

_ Ne

  • ED

Aci

es

ed Me

e i -10,

Fi ) . § Me = ei + (

Fi ). (es BD= (0,

Fi)

ce (FS

Fi

( FS

Fi )

PECULARIETÀ

DELLA MEDIANA

Il valore dello re

dipende

solo

da

quelle

delle unità centrale

Siano

% , &. . . . . yn le modalità ordinate e

y ,

  • Me

)

ya

Me )

yn

  • Me

) gli

scarti

o scostamenti dalla mediana . I & I i " E.lyi.me/-lyi- Allora È Iyi

Me

= minimo cioè , per C

qualsiasi

se ha sempre

la

sommatoria

degli scarti in

valore assoluto è

un minimo , rispetto alla somma degli scarti

considerati

in

valore assolto

da

una qualsiasi

costante

C →

Dimostrazione

Consideriamo

Yee

Yn

. Affinché C Merumeci

y ,

CI

  • I yn

c) (

la somma

degli

scarti in valore assoluto ) deve essere y« « yn ( interno all'intervallo

Infatti

Se % «< yn segue

che

yé CI + / yn

c / =

¢ 41

Yn

È yn

Ye

Se ce % . < yn segue

che

: sostituendo C con y , avremo :

la

  • CI

/ yn

CI _

Yi

c + Yn

È >

Yn È Yn

Ye

Se yea yn < C segue

che

: sostituendo c con yn avremo : / YI

CI +

yn

  • CI

= c- yntc - >

È

Yet k¥-

Ye

La somma degli

scarti in

valore assoluto è minima

quando

c è interna all'intervallo .

PROPRIETÀ DEWA MEDIANA

→ ha la

proprietà di nnmmiezarelasommadeglscartidallamedeanainval reassolF

ALTRI

INDICI Di posizione

QUARTI

LI

✓ I Quarti le =

Q

.

quel

valore tale che il sesto

delle unità statistiche hanno

una modalità ≤ e

il

restante

Qe

I

Quarti

le

= Me

quel

valore tale che il

50%

delle unità statistiche hanno

una modalità ≤ Qa e il restante

Qa

Quarti le

= Qs →

quel

valore tale che

il

7590 delle unità

statistiche

hanno

una modalità ≤

Qs e

il

restante

25%

≥ Q

% T.EE/=ET-E = la 1 º freq

. com.

nel immediatamente

≥ 0.

Qz.

. la 1 º freq

. com.

nel immediatamente ≥ 0.

Qs :

la 1 º freq

. com.

nel

immediatamente

≥ 0.

E ' in

classe

= E le

es ,

E le

. 0,

FI , FSàF è uguale

alle

freq .

relativa della classe

Me = ei

0,

FI)

es

E I

FS

Fi )

Qs

= E i >

( es ;

e1)

FI , FS ; F Is

PERCENTILE

☐ la generalizzazione

del

concetto di quarti le a qualsiasi percentuale definisce

il

percentile . è quel valore tale l' ✗ % delle unità delcollettivo hanno una modalità ≤

E

e lo ( e

× )

hanno invece

modalità

≥ E EX . È = E i

es

ed

0,

  • FI

FS

FI

Moda (

Md )

= è la

modalità

che

presenta

la frequenza più

alta

CLASSE MODALE :

nella distribuzione divisa

in classe , se può individuare

quella

cui

compete

la frequenza

maggiore

.

DISTRIBUZIONE UNIMODALE

PLURIMODALE = Se la distribuzione è

rappresentata

da

una curva di frequenze , la moda si identifica con

il

massimo di tale curva . Se

la

curva

ha

1 MASSIMO = DISTRIBUZIONE UNITODALE , 1- 1- MASSIMO i DISTRIBUZIONE PLURI MODALE

MEDIA ARITMETICA indice

di posizione

centrale che

depende

da

tutte

le modalità

è sensibile

ai valori estremi

/ anomale E Si ottiene sommando tutte le modalità rilevate dividendo per

il

numero

totale delle modalità

Nella distribuzione di

frequenza : → Media ponderata ↓

con le freq . assolute M

_ LE

✗ i ◦ Mi

con

le

freq .

relative

=D M

E le ◦ fa ( nel caso in cui ne sono

ignote

)

Nella distribuzione di

frequenza per

classe

di modalità

→ M.

.

& E

vini , M = E il • &

PROPRIETÀ ASSOCIATIVA

=D Se un

collettivo di

n

unità

viene suddiviso in tl gruppi , ciascuno contiene nì unità G- -1, .

..

. , H

, allora la Medea

aritmetica delle medie delle modalità de

ciascun gruppo , che indichiamo

con Mi

i

-1. .

...

. H )

ponderata

con le ni è pari alla media aritmetica M calcolata su tutte le modalità del collettivo . =D

M

=L ÈÉ Mi

Mi ✓

MEDIA GEOMETRICA =D In alcune cose la media aritmetica non è idonea per sapere l' accrescimento o

il decremento di

un fenomeno ,

quello

più .

adatto

è la media

geometrica

purché le

modalità

siano tutte

positive

e non nulle SERIE STORICA → carattere

le cui

manifestazioni vengono

rilevate al variare del

tempo

.

Posso

descrivere

com' è

cambiato al dato nel

tempo

(E)

gode della seguente proprietà = quel

valore che sostituito

a

tutte le

modalità ne

lascia invariato il

prodotto

✗ i

Xa .

... -

Xn = G. G . .

...

G = EX

. *

si sottrae 1 perché indica , nessuna variazione t ✗ AI % (NI

100 NI = numero indice = il

rapporto

tra il dato ad un certo

istante

e il dato all' istante precedente 1 X ,

= Variazioni

percentuali

periodiche

=

NI E)

100 2 Xa EH

( ✗

ake

100 Dc

= Variazione

complessiva

= (

,

100 → considerare il

periodo

dal 1°istante d' osservazione f- 1 xt-1 xt

NE È-1ha

◦ 100

all' ultimo t è xtxt- ④ At

100 Le

consideriamo la Variazione complessiva come esito delle e ' , i i. ' : singole variazioni periodo dopo

periodo

abbiamo :

: : i #= ¥

... - - - - ¥

XT ✗ the

1-

txt

e)

100 Xe XÈ

÷ ' le dobbiamo può essere ottenuto facendo il

prodotto

di tutti i n° inde a confrontare con 1 = 1 nessuna variazione senza tener

conto

di una variazione diversa periodo dopo periodo , ma una variazione > 1- variazione crescita costante

uguale

periodo dopo periodo , che però mi assicuri la stessa variazione complessiva < 1- decremento avremo : MEDIA GEOMETRICA =D

Mg

.

Mg

  • ..

. _

Mg

≤ è tale che ,

moltiplicata mi

restituisce il

rapporto

tra il dato

Per

vedere come un

dato al

primo istante e l'

ultimo

istante , ovvero quello che me . si evolve nel

tempo

determina la variazione

complessiva

Descriviamo l' evoluzione del fenomeno nel tempo

...

¥ ,

Ms

-1% fÈ

periodiche

...

Istante per istante Dc % →

...

complessivamente

Dn %

  • ☐ .. . mediamente

M %

= Variazione media = (

Ng

100 ↓

descriviamo l'evoluzione del

fenomeno

nel tempo mediamente

Dopo aver studiato i valori medi, i quali sintetizzano l’insieme dei dati osservati in un unico valore numerico, è necessario affiancare altri indice

che possono fornire informazioni sulla dispersione, cioè l’ attitudine di un carattere a presentarsi con modalità differenziate. Queste misure di dispersione: assumano valore zero solo se è nulla la variabilità (tutti i valori osservati risultano uguali tra loro), all’aumentare della variabilità tali indici assumeranno valori sempre maggiori; tanto minore è la distanza delle osservazioni dal centro tanto maggiore sarà la rappresentatività e l’affidabilità del valore medio e infine permette di fare un confronto fra le distribuzioni. Dipende fortemente dagli eventuali valori abnormi, l’unità di misura è espressa al quadrato rispetto a quella dei dati ed è una misura assoluta di variabilità (non permette di fare confronti). Per risolvere questi difetti, ci sono le alternative:

3 º

MODULO DISPERSIONE

O

VARIABILITÀ

MISURE DI DISPERSIONE

CAMPO DI VARIAZIONE =D differenza tra

il

valore massimo e il

valore minimo

dei dati rilevati ↓ È =Da me

rappresenta

l'intervallo del 100% da dati

osservate

misura grossolana =

yn

ya )

DISTANZA INTERQUARTILICA =D differenza tra il IIQuartile e il Ì Quarti le ↓ ¥ =D e me

rappresenta

l' intervallo centrale

,

nel

quale

cade il 50% delle modalità eileoate . misura più raffinata

D. I

= Qs

Qe

VARIANZA

la media

degli

scarti

al

quadrato

dalla media della distribuzione

la

Variabilità è nulla solo

se tutti i valori osservati

risultano

uguali tra loro

v (e) =

fÈM⊖ → distribuzione unitaria

momento

premo ≥ momento secondo me dà

aritmetica

la

media delle xi

✓ (e)

=L È , × ? ne

ti

→ distribuzione di frequenze ✓

(e)

= In È , Cf . ne

Ma → distribuzione per classe

Difetti

DELLA VARIANZA ( la Varianza se misura nel

quadrato

dell' unità di misura delle

modalità)

SCARTO QUADRATICO

MEDIO SQM =

TV

( è espresso nella stessa unità di misura da dati ) ci dice di quanto in media ogni valore si discosta dalla Media

COEFFICIENTE di VARIAZIONE → CV = 501 → è ADIMENSIONALE ( comparare la variabilità in distribuzioni diverse oppure

collettivi

diverse

M

SCARTO SEMPLICE MEDIANO → SSM e i ÈÉ lken-Me-l.in i g. → ci dice di quanto mediamente i dati si discostano

dalla

mediana

SCOSTAMENTO SEMPLICE MEDIO → SM = È . 1%

hi - D ci dice di quanto mediamente i dati si discostano dalla Medea

Ste

= ÈÉ lcin-Me-l.ru SM

È

. kin-M-l.ru

.

TRASFORMAZIONI LINEARI

Siano

le

✗ e

le

modalità diverse del carattere ✗ con frequenze ni per (i = 1 .

.. _

,

K)

; se (costruiamo una nuova variabile E) ←

TRASLAZIONE

Élite

→ costante (

perché

non è indicizzata da ie quindi assume sempre lo stesso

valore)

avremo :

DIMOSTRAZIONE PER REDIA

A COSA È UGUALE LA MEDIA Di =L in funzione della

media di ×

?

K

MI

M

(E)

È . Ei . Mi =

I

È , ti

c) ni

sommatoria di una somma algebrica = somma algebrica

delle

una

sommatoria

E-pEerata-ama-T.cono

ÈI .

✗ e

ne

+ Coni)

uguale

= Xi + C e- delle z , ↓

è una costante

può

essere scritta fuori il segno

06 sommatoria

=L

( Èixini E Éeni) = Ndo

↓ NÈ = n .

perché

la

MG)

.

NG

c somma delle

frequenze

= h

1-n-c.tk

E

avremo

quindi

:

ftp.MK

=D

Dimostrazione Media " = - M¥ 0

FEY-jmmu-g.ae

nella

trasformazione

lineare

M

(e) = attore)

segno opposto

DIMOSTRAZIONE VARIANZA

nella

trasformazione

lineare

"

=

fai

?

✓ (e)

.

. batte

  • DISTRIBUZIONI SIMMETRICHE

=D

Sono

distribuzioni simmetriche

perché individuiamo

un asse

di simmetria

tale

che l'

immagine

a

dx

è

speculare

di

quella

a sx

  • CONDIZIONE

DI SIMMETRIA

=D Siano le ×

,

le

modalità

diverse

lqui

spaziale

del carattere ✗ (o se

la distribuzione

è divisa in

classe ed

esse siano

di

uguale

È

frequenze

nn

per

(

i =

1

,

...

K) allora :

D

per

1=

,

...

,

K

"

lo

è

freq

.

ultimo

freq

lo

è

jleeq

: penultima

  • UNIMODALE SIMMETRICA →

M

Me

=

Md

±

media on

Étienne Inada

DISTRIBUZIONE UNI MODALE ASIMMETRICA

A volte nell’elenco delle modalità rilevate, abbiamo n coppie, la prima che rappresenta un carattere e la seconda un altro carattere e

riassumiamo il tutto in una tabella a doppia entrata.

Possono essere caratteri quantitativi e qualitativi.

MODULO •

DstRBUZ0NiBWARA

:

Ho

All' interno della

Tabella troviamo

le

Frequenze congiunte

&

eh

;

Lys

=

& (

Xi

;

%-)

_

his

÷

E

nej

i.

1

.

...

,

r

;

g-

=

1

.

...

.

s

)

"

ha

.

noi

All'

esterno della

Tabella troviamo

le

Frequenze

Marginali

(totale delle

frequenze

)

S

fr

X

_

e)

=

file

Mi

. È

na

È

1

.

...

.

» 41

E

fr

( 7-

g)

fr

(%-)

= n.

Idem

,

G-

=

1

.

.. - is

) (

Y)

e ≥ ≥ e

TOTALE COMPLESSIVO DELLE FREQUENZE

N

=

hij

=

È

=

,

Me

.

I

Se

dividiamo

per

il totale delle

frequenze

otteniamo

le

freq

.

relative

...

Freq

.

relative

congiunte

:

@

i. b)

=

Mij

=

gli ]

(

e

E

.. -

it

;

.. ..

,

s)

Freq

.

relative

marginali

:

f

e)

=

ng

=

gli

i.

1

.

..

.ie

8-

=

nj-if.sk

.

±...

.

s)

r S

NATURALMENTE

È

È flxe

, yo

= 1 →

la somma

delle

freq

.

relative

congiunte

= 1

S

"

§ ,

f-

(a)

=

1

freq

.

relative

ftp..it marginali

;

r r

r

  • MEDIE MARGINALI

MK)

=L

È

tini

.

_

È!

8-

gqaq.gg

,

VALORI

MK

) -

£ È

#ni

.

= = È [

"

È

)

}

freq

.

relax ,

S

S

centra

ma

.

£ :[ vc.n.ge

È.tk

È

M

y

=L È ,

Yin

.

g-

=

È

.

4-

varianze MARGINALI

G)

=L ÈIKIMKI

]

ni

.

=

È

È

Mk

]

}

"

}

freq

.

relative

✓ (4)

=L

È

,

[ys.MN?n.,-

=

È

.

È

MINÀ

.

]

r

'

G)

=L

È

,

[ci

ni

.

  • MKT

] =

È

.

[

ci

.fi

.

MKÌ )

VALORICEILAKLVH-1.EE

.

n.s.MN

÷

:[

ci

:&, .mg

}

}

"

?

"

Se X è indipendente da Y allora tutte le distribuzioni di X condizionate ad Y sono uguali tra loro ed uguali alla distribuzione marginale relativa

di X, ma ciò implica anche che tutte le distribuzioni di Y condizionate ad X siamo uguali tra loro ed uguali alla distribuzione marginale di Y e quindi che Y sia indipendente da X. Pertanto, condizione necessaria e sufficiente affinché X ed Y siano indipendenti è che:

✓ {

= ? . . . . e)

CONDIZIONE D' INDIPENDENZA

È=M•n! G- = 1 .

..

. .

s)

Se

nisi ≠ Me .

}

i caratteri sono statisticamente

dipendente . Per verificare se esiste dipendenza

tra i

2 carattere

FREQUENZE CONGIUNTE

D' INDIPENDENZA =D

N'

È

m.Y

CONTINGENZE =D

Cig

= Me ]

Nis

frequenze congiunte

frequenze congiunte d'

indipendenza

INDICE CHI
QUADRO

DI PEARSON

→ valutare il grado della

dipendenza

×?

È È

ciè

dove

→ 4s =

neo

n' y

  • ☐ M'

ij

Me . . no J i.

N' ij n

Proprietà di

X

☐ per cui non ada l' idea dell'odine di grandezza

X è una misura assoluta di dipendenze per ✗ ed

carattere quantitativi ex qualitativi) ed il suo calcolo non se

basa

ne sulle modalità di ✗ ne so quello di Y .

Se ✗ e Y sono INDIPENDENTI allora ✗ 2= Se ✗ e Y NON sono INDIPENDENTI × ≥ > 0 , ed è .

Tanto

più grande quanto più

le

nej se differenziano

dalle

Nes

DIMOSTRAZIONE ALTERNATIVA r s ÈÈ ✗ ≤ ÈE È , nè = È È÷m → " scendo Guadato

2 S Tolgo = ÈE È ( nè -20min: >

  • n'

È

) la sommatoria di una somma

algebrica

= somma algebrica

delle sommatoria

E

nega { ostante ' [ neri

È [ n' È = È ¥ 1 Mio → È

i. 15= ¥ = È [ ' MI iii. n' →

ÈÌÈ

.ms

ÈÌÈ , n' es = → freq . d' indipendenza = n ↓

freq . congiunte

la

somma delle frequenze = n È È È = i. 1 Meg -2M + n = È È NÉ. ti 1 je È

N

oppure

: È [ ' MI

n ✗ % € 1 Me .

Mi =D conoscere

la

modalità di

un

carattere

a

indica immediatamente

qual'

è la modalità dell'altro

MASSIMA DIPENDENZA

la

dipendenza è massima se

per

ogni

colonna

e

per ogni ago

non più

di

una frequenza congiunta

è diversa da

zero ◦ È punto di vista grafico INDICE RELATIVO DI DIPENDENZA

DI CRAMER :

41

Yz 43

È

= ✗ 2 ✗ E MI 0

@

È

con ◦ ≤ « ≤ 1- Max ✗ 2

[

T

n ] = 1 MASSIMA DIPENDENZA , perchè

Hogg

unge il suo mal Xz 0

ha

0 % 4 Quadro

dimensione

tabella =

0 (quando ✗2= ) c' È INDIPENDENZA ,

le

G. ,

sono nulle

0

ns } ↓ {

F-

m' ntas }

perchè sono

date

.fr?s--ni,--- se ✗ 3

valutare il

grado

della c' è

indipendenza queste freq . ↓

ne

dipendenza

. sono

uguali

. quindi

le

differenze

_

O il ×

è nullo Scelta un'

unità

a caso

tra

queste n ,

osservando

la y

sappiamo

che ✗ sarà

per forza te, perché non ci sono

unità

per

cui la Ye è congiuntamente osservata con ≤ e × } ,

l'

unica coppia

che si

osserva è Xie NON C' È DIPENDENZA

L'

INDIPENDENZA è PIÙ FORTE DELLA

fNCORRELAZONE-t.LI

NEARE

Se i due caratteri quantitativi risultano dipendenti, possiamo ipotizzare che essi sono legati da una relazione lineare, cioè

Se X ed Y sono concordi sono prevalenti i punti che cadono nel II° e III° quadrante, a tali punti corrispondono scarti di X e di Y che hanno,

rispettivamente, lo stesso segno e che producono prodotti di scarti positivi. Covarianza-> essendo pari alla media dei prodotti degli scarti,

sarà POSITIVA.

Se X ed Y sono discordi, i punti del diagramma scatter cadranno nel I° e IV° quadrante, quindi corrispondono scarti di X e di Y che hanno

segno opposto, producendo pertanto prodotti di scarti negativi. Covarianza-> sarà NEGATIVA.

MISURE

DI

DIPENDENZA LINEARE

O EORRELA

ZIONE

S0%coppeedcoratrQUANTHN

g. perchè

una

retta

la

possiamo

disegnare

soltanto se

✗ e Y sono

numeri

y

= a

bx

Ì

"

coefficiente

angolare

= a

dice

la

pendenza

della retta e se

la retta è

crescente o

decrescente

intercetta

.

ci

dice

cosa

accade ad

y ,

quando

la ✗ è

nulla

Per

verificare

questa ipotesi.

misureremo

la

strettezza della

dipendenza

lineare

,

ovvero

,

misurando

il

grado

di correlazione

tra

e Y

mettiamo

le

coppie

( li

,

y

sul

  • DIAGRAMMA SCAITER

per

notare il

tipo

di relazione

g

NUVOLA DEI

PUNTI

TREND

LINEARE

(

al crescere

di

una

variabile

cresce

anche

l'altro

,

ma

deve

crescere in un

modo

che

sia

rappresentabile

attraverso una

retta

)

o

la retta a serve

a

fare

Previsione e

Controllo

7

\

MISURE DI strettezza DELLA RELAZIONE

LINEARE

O DI

CORRELAZIONE

TRA ✗

e Y

È

COVARIANZA

è la media dei

prodotti degli

scarti dalle

rispettive

medie di ✗ e

7

:

[email protected]_-EEE.Y.tQ finestra

di correlazione

S

non

a

de l'idea

dell'ordine di

grandezza

COVARIANZA

POSITIVA

00

Ì QUADRANTE

E

°

QUADRANTE

NEGATIVO

POSITIVO

COVARIANZA NEGATIVA

°

QUADRANTE N° QUADRANTE

POSITIVO

NEGATIVO

La COVARIANZA è una misura della correlazione o strettezza della relazione lineare tra X ed Y perché se non c’è correlazione (ovvero, sono

perfettamente indipendenti) la COVARIANZA è nulla [COV(X,Y)=0];

Se la correlazione è massima, tra X ed Y c’è una perfetta relazione lineare (sono dipendenti) [Y=a+bx], allora la COVARIANZA è massima in

valore assoluto (| maxCov(X,Y)|=

CHE VALORI PUÒ ASSUMERE

LA COVARIANZA

?

Consegue

che :

La covarianza

può

assumere

tutti i

possibili

valori

,

nVHVLYIE.GOV/X,Y)--Vk)V#

la

COV

può

assumere

valore

comprese

solo

comprese

tra

Taja

colui ≤

ÈH

SQMK

.

e) ≤ Cork

.

SQMK.ee

IN sintesi

V

) V

) )

  • CALCOLO SEMPLIFICATO

DELLA COVARIANZA

DIMOSTRAZCONECOVK.Y.LI

È

,

[

×

.

Mk )

][

yi

MIA

=

In

ÌÉ

,

[ Kyi

KEH

Yi

Mk

)

MIYIMKI

}

sommatoria di una somma

algebrica

= somma

algebrica

delle

sommatoria

ostante che

¥

Istante

.

che sommate n

volte

rivolte la

costante medesime

non dipende

dai

n

=

In [

È

i Yi

  • MA

Èexi

MKIÈ

,

yi

aMIYIMKI

È

n

Y-Mthadx-redeadiy~fi-n.fi?zxeyi-MlYIM(x)-M&x

) +

MYKA

da cui

COVK.net?Exeyi-MklMlQ

%

ENTO

PRIMO MISTO

  • Prodotto DEI MOMENTI PRIMI

Se

y

,

= le

la COV

= Vale cento

Se

i dati

sono

organizzati

in

una tabella a

doppia

entrata avremo

:

COVEY )

=

£ È

,

È

,

xiyjne,

MANLY

distribuzioni

per

classi

,

valore

cqtral.nu

]

INDICE RELATIVO

DI
DIPENDENZA LINEARE

O CORRELAZIONE

8 ª

tendenza

lineare

)

  • ☐ r

" "

| maca ,

_ rHY

COV

(

×

,

Y

=

COVE

.

Y

μ ,

,μ,

[email protected]

Bravas

. persone

.

.de#aoaaueee.aaaanma.a

differenza

di

quest'

Éa

"

"

"

-. .

×

,

Y

è una misura

relativa di correlazione

Dimostrazioni

gm μ

,

gg

,

game

gg

,

gag

, away,

, penne ,

Cokie) ≤

ÈH

VKI V )

TVKIVIYT

TVÉTY

)

QUINDI

verso

1

. > È

ÈENe

_1≤r

verso

7=0 INCORRELAZONE .

allora →

→ COVK

,

= 0

→ 2= ÈQ7-

c'è

dipendenza

C' è incorrelazione ma

può

esserci

dipendenza

,

diversa da

quella

lineare

2=0,

CIO

se

c' è

indipendenza ,

allora c' è

[

"

"

"

"

"

"

"""

" "" " " "

" " "°

"

\

.

i.

:

"

"

.

,

:*

:

Illazione

lineare

i

punti

stanno È

E- 1-

Fece

retta

Dopo aver verificato la dipendenza tra i caratteri quantitativi X e Y, determiniamo il legame di dipendenza tra X e Y

Le motivazioni che spingono alla ricerca di f sono :

PREVISIONE:

CONTROLLO:

Nella PREVISIONE ho un nuovo valore di X e voglio prevedere qual’è il corrispondente valore di Y.

Nel CONTROLLO mi chiedo, che valore devo dare alla X per ottenere un desiderato valore di Y

6 º

MODULO

LA REGRESSIONE

cioè :

%

f-

(

×)

nella

fase

di raccolta dei valori

osservati di

e

. E , ...

,

n

) sono

stati

rilevati

quelli

di Y

ya , ya ,

.

..

,

yn)

.

Se

si osserva un nuovo

valore di

;

me

, possiamo prevedere

l'

ignoto

valore di Y con

yh+

=

flint

per fare

la

previsione

,

devo

conoscere

&

,

ovvero

la

relazione

tra

e

Y

.

dopo

aver

determinato

la

funzione

Y

=p

G)

ora

bisogna

individuare

quale

valore

incognito

l'

operatore

deve dare

alla

per

ottenere un

desiderato valore

yo

della X

.

che

è → ✗

=

f-

1-

yo

,

cioè

quel

valore

di ✗

tale

che

flxd

=

yo

IN SINTESI

MODELLO

DI RELAZIONE PIÙ SEMPLICE

:

MODELLO LINEARE

ESEMPIO Di PEPRFEITA RELAZIONE LINEARE TRA ✗ ed Y

:

Y

=

a

bx

a =

intercetta

D=

coefficiente angolare

a-_ ci dice cosa

accade

ad

y

, quando

la

✗ è nulla

b

=

è

la

variazione

di

y

in seguito

a

una variazione unitaria

di ×

DETERMINARE LA

POLINOMIALE

Il

modo

più

semplicistico

per

determinare

"

f-

"

peì

idonea

a

rappresentare

il

legame

tra X

ed Y

è

costituito

dalle

n

coppie

di

valore

(

xiii

)

che

graficamente

se

possono

rappresentare

con n

punte

e

consiste nello

scegliere

la

polinomiale

di

equazione

4=00+01×+9× 4

.

...

tane

che

passa

per

tutti

gli

n

punte

date :

Difetti DELLA

POLINOMIALE
DI

GRADO (n

a)

non

opera

nessuna

sintesi

;

i

dati

consistono in

n

coppie

×

. . ye

e

lo

polinomiale

è individuata

da

n

parametri (

a

.

.

...

, an . e)

b)

non

utilizzabile

a causa

della sua

complessità

c) è diversa

dalla

legge

che

lega

Y ad ✗

. perché

genere

bbe dati

affette

da

un

certo

grado

di errore

.

SI OPERA MEGLIO se :

a)

si

ipotizza

un

modello

semplice

di

relazione tra

ed

Y

b) si determinano i valori

dei

parametri

del

modello minimizzando i

residui

,

cioè

le

differenze

tra

i valori osservati

di

Y

ed i

valori teoria di

Y

'

c)

se

giudica

la bontà di adattamento del modello

ai

dati sulla base

dell'andamento dei residui

.

d)

se

il modello è

insoddisfacente

.

sulla base dei

residui

,

si

sceglie

un nuovo

modello da

prendere

in considerazione

.

ED ANCORA :

INSINTESI.mn

pendente

a- MIA

BMK)

a

  • Retta di

regressione !

è +

b

' na PENDENE

n

§

, §

,

×

,

y

,

npy

,

μ

,

☐ g, y

,

g, amo

per

n

,

numeratore e Genoa, nappe

  • a =

gy

y)

.

gyygy

È

×

  • n

ME

/

COVA

,

=

f.

ÈI

,

Hye

Mery

  • b

G¥÷

V

=L È

,

i.

ME

IN CASO CONTRARIO

i

d' = M

(

Y

  • BN

×

fremente

a

" dipendente

{

b.

=

COVK

.

Y

Vlx

) a =

RK

btly

dove a e b sono

,

da

una parte ,

i

valori

da dare

ad aeb

per

minimizzare

5 e.

dall'

altra

,

sono

gli

stimatori

dell

'

intercetta e

del D=

COVA

,

coefficiente

angolare

della REITA Di

REGRESSIONE

.

.

ottenute col metodo

VLY)

dei

MINIMI

QUADRATI.

PROPRIETÀ

DELLA REITA

DI

REGRESSIONE

retta

di

allineamento

1.)

Se tutte

le

coppie

di dati

osservati

(

n

. ye

soddisfano

la

relazione:

yeictdxi ,

¥

,

allora i

punti

corrispondenti

sono

perfettamente

allineate

sulla

retta

:

E- ctd

che

coincide

esattamente

con

la

REITA DI REGRESSIONE

: E-

a

'

+ È

,

cioè :

b-

_

C0¥¥_

=D e

a

'

.

M

(Y)

  • b

'

Mk

    • C

,

di

conseguenza

Y'

i.

,

ki e

VIY

'

= ✓(Y )

p

÷

variabilità totale

DIMOSTRAZIONE

variabilità della

%)

regressione

delle

y :)

Date

le

n

coppie

e. g)

la REITA Di REGRESSIONE

avrà

equazione

:

Y' i àtb

'

✗ con

b-

_

C0V÷

e

d' = Rte)

b'

Mk)

Ma :

cov

Kid

_

TÌÈÌKI

M "

]

[[M

se c. e. •

Gene lineare tra ✗ ed y

.

la stessa

relazione

a sarà

tra le medie

→ RM

« ddl

"

Not

=L

È

,

Eu

Mettete

IMKI

]

Messo in

evidenza

=L

È

.ir#xi-MkY--d1-iiiE.-Lxe-MkD2--dVk

)

DA cui :-D

D=

Cork

,

=

b

'

V4)

INOLTRE:-D

C-

MH)

  • d

Mk

)

= M

(Y)

b Mk

) = è

INFINE

: →

= è

i-bki-ctdx-yi.tk

,

e VCY

'

Y)

la

retta

di

regressione

coincide

con

la retta

di allineamento

dei

dati

PROPRIETÀ

DI MINIMO

DEI Residui

Definiti

Residui le

differenze

tra

i valori

osservati

ya

ed i

valori

teoria

y

:) della

Y

cioè a =

y

y

avremo

:

È

,

(

%

y

:)

minimo

a.

b)

dimostrazione

adgrlykia.LY

o

la somma

da

quadrata

dei residui = memmo

yi

.

à +

bin

Ki

,

dove

à e

b

'

sono

tal

:/

È

,

(

ya

  • à -

bid

minimo ma

=

È

(

yi

y

?

minimo

I

= la

somma

dei

quadrati

dei residui

LA MEDIA

Dei RESIDUI È NULLA

MK

= O

perché

BÈL

È

. .

ci = Èelye

y

DIMOSTRAZIONE

la

SOMMA

DEI RESIDUI è

nulla

n

n

n

alla

equazione

normale

aÈe

.

_

Èia

inoltre

È .ie?Ia'+biu--E.yi

quindi

È

. .

Ci

=

Èin

È yi

= 0

Me

= 0

E-

la

somma

delle

teoriche =

la

somma

delle

ye

Osservate

n MOMENTO SECONDO n

(e) =

In § ,

perché la varianza è uguale

al Momento

secondo -

Momentary? papà

la

Media dei

residui = 0

=D In È , et ✓

MISURA DELLA BONTÀ DELLA REGRESSIONE Dopo aver stimato

il

modello di relazione tra ✗ ed

Y affrontiamo il

problema

della bontà

dell'

adattamento

del

modello ottenuto

a

date rilevate

. aggiungo e

sottraggo

yì evitare È .in?I.-Lyi-MH+E- È DELLE yi

il nùmerotre

della varaanzattperhe se = È Kyi

y ;)

(Hi

M ( Y ) ] Io risolviamo il quadrato di binomio Devoto per n Trovo la Voce anza 1 È ek.MN = È

yi

y

? È ( y ' i

MAI [

ZÈE

ye . y :)

y :

  • MIN

→ sommatoria di una somma

algebrica

= somma

algebrica

delle sommatoria "

farà

→ il

doppio

prodotto è nullo

fra

la somma da residue è nulla = È , (ya

MH

)) ? È ( y :

  • M

(4) Ti È ( %

y:[

diviso MEMBRO A MEMBRO PER h :

Ìo Ha

desse μ devianza a- « e devianza dei Y ' i Residui ,

perché

se divise per la → f-

È

≥ (Ye

y :) ≥ =

et

DIMOSTRAZIONE

V (4)

=

V

'

+ Ue

) =D

V

) = Variabilità

totale delle

ye ( osservate

V

' ) = Variabilità della

Regressione

delle yì

teoriche

A ✓ (e) = Variabilità Residua degli ee Ordinate da

punta

che

rappresentano

i nostri dati

. . ÷ . .

..

. .. commettendo approssimando la nuvola dei punti con la retta

verificheremo se

l'

idea di una dipendenza lineare è

confermata

da dati , calcoliamo con r.

  1. scriviamo la retta di regressione .

andiamo a vedere se

questa

retta è un

buon

modello per i nostri dati , calcoliamo con

R?

ci

VLYÌ è

grande

, migliore sarà l' adattamento della retta ai dati

maggiore

V '

,

minore sarà V

) , la retta ha. catturato al

meglio

le

informazioni

È

la

V '

) ≤ V

perché

V

(4)

V

' )

Nel

|

i