Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica per Biotecnologi, Appunti di Statistica

statistica descrittiva, cenni alla probabilità e statistica inferenziale

Tipologia: Appunti

2023/2024

Caricato il 01/07/2024

Utente sconosciuto
Utente sconosciuto 🇮🇹

1 / 42

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
STATISTICA
1°lezione 27.09.2023
1. Stasca descriva: tecniche finalizzate a sintezzare le informazioni presen in una matrice di da
2. Cenni di probabilità: definizione e alcuni conce chiave collega al calcolo delle probabilità.
3. Inferenza Stasca: partendo da un campione, si possono estendere le informazioni raccolte alla popolazione,
soo determinate assunzioni (generalizzazione dei risulta).
INTRODUZIONE ALLA STATISTICA
Prima di tuo è una scienza. Infa, si può affermare che se la matemaca è la scienza dei numeri la stasca è la
scienza dell’incertezza.
La scienza stasca si prefigge principalmente due fini:
- Descrivo: dalle informazioni disponibili soo forma di dato si propongono misure di sintesi che permeono
di comprendere un fenomeno.
- Inferenziale: dai da osserva si può smare l’entà del fenomeno di interesse, estendendo le conclusioni
anche a situazioni non direamente osservate (generalizzazione).
È importante per i biotecnologi conoscere la stasca perché durante le diverse fasi (soprauo nella fase 2 e 5 )
della ricerca essa è fondamentale.
Le fasi della ricerca sono:
1. Definizione teorica del problema
2. Scelta del metodo
3. Raccolta dei da (operavizzazione + scelta degli strumen)
4. Analisi dei da
5. Presentazione e Interpretazione dei risulta
6. Conclusioni
Gli esperimen presentano le seguen componen:
- UNITÀ STATISTICHE: entà su cui vengono osservate le grandezze studiate (ad esempio: pazien, animali,
provee).
- VARIABILI O CARATTERI: sono le grandezze o, più in generale, caraerische, registrate sulle unità stasche
(ad esempio: livello di pH, altezza, valori di emoglobina, genere).
- POPOLAZIONE DI INTERESSE: insieme di potenziali unità stasche da cui provengono le unità inserite nello
studio.
Spesso è necessario fare i con con alcuni limi dovu ai meccanismi con cui le unità entrano nello studio.
TIPOLOGIE DI VARIABILI
Le variabili, a seconda della loro natura, possono essere disnte in:
- VARIABILI QUANTITATIVE (numeriche): caraerische che possono essere valutate numericamente (età,
altezza, peso e altri parametri biometrici, numero di figli).
- VARIABILI QUALITATIVE (categoriche): caraerische che suddividono la popolazione in gruppi, presentando
diverse modalità (genere, presenza malaa, tolo di studio).
Per modalità si intendono tu i possibili valori che una variabile può assumere.
Lo statista deve prendere in considerazione il suo oggetto di studio che può essere per esempio pazienti,
regioni, animali ect. Successivamente deve registrare le variabili e rilevare i dati di esse.
Le variabili possono essere qualitative(quando si esprime un dato non sottoforma di numero ma di qualità, per esempio
il genere di una persona, il suo titolo di studio) o quantitative(una q.tà espressa in numeri)
Il concetto di POPOLAZIONE indica a cosa appartengono le unità, per esempio se studiamo un campione di studenti la
mia popolazione sarà gli studenti appartenenti ad una certa classe di età.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a

Anteprima parziale del testo

Scarica Introduzione alla Statistica per Biotecnologi e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

1°lezione 27.09.

  1. StaƟsƟca descriƫva: tecniche finalizzate a sinteƟzzare le informazioni presenƟ in una matrice di daƟ
  2. Cenni di probabilità: definizione e alcuni conceƫ chiave collegaƟ al calcolo delle probabilità.
  3. Inferenza StaƟsƟca: partendo da un campione, si possono estendere le informazioni raccolte alla popolazione, soƩo determinate assunzioni (generalizzazione dei risultaƟ).

INTRODUZIONE ALLA STATISTICA

Prima di tuƩo è una scienza. Infaƫ, si può affermare che se la matemaƟca è la scienza dei numeri la staƟsƟca è la scienza dell’incertezza. La scienza staƟsƟca si prefigge principalmente due fini:

  • Descriƫvo: dalle informazioni disponibili soƩo forma di dato si propongono misure di sintesi che permeƩono di comprendere un fenomeno.
  • Inferenziale: dai daƟ osservaƟ si può sƟmare l’enƟtà del fenomeno di interesse, estendendo le conclusioni anche a situazioni non direƩamente osservate (generalizzazione). È importante per i biotecnologi conoscere la staƟsƟca perché durante le diverse fasi (sopraƩuƩo nella fase 2 e 5 ) della ricerca essa è fondamentale. Le fasi della ricerca sono:
  1. Definizione teorica del problema
  2. Scelta del metodo
  3. Raccolta dei daƟ (operaƟvizzazione + scelta degli strumenƟ)
  4. Analisi dei daƟ
  5. Presentazione e Interpretazione dei risultaƟ
  6. Conclusioni Gli esperimenƟ presentano le seguenƟ componenƟ:
  • UNITÀ STATISTICHE: enƟtà su cui vengono osservate le grandezze studiate (ad esempio: pazienƟ, animali, proveƩe).
  • VARIABILI O CARATTERI: sono le grandezze o, più in generale, caraƩerisƟche, registrate sulle unità staƟsƟche (ad esempio: livello di pH, altezza, valori di emoglobina, genere).
  • POPOLAZIONE DI INTERESSE: insieme di potenziali unità staƟsƟche da cui provengono le unità inserite nello studio. Spesso è necessario fare i conƟ con alcuni limiƟ dovuƟ ai meccanismi con cui le unità entrano nello studio.

TIPOLOGIE DI VARIABILI

Le variabili, a seconda della loro natura, possono essere disƟnte in:

  • VARIABILI QUANTITATIVE (numeriche): caraƩerisƟche che possono essere valutate numericamente (età, altezza, peso e altri parametri biometrici, numero di figli).
  • VARIABILI QUALITATIVE (categoriche): caraƩerisƟche che suddividono la popolazione in gruppi, presentando diverse modalità (genere, presenza malaƫa, Ɵtolo di studio). Per modalità si intendono tuƫ i possibili valori che una variabile può assumere. Lo statista deve prendere in considerazione il suo oggetto di studio che può essere per esempio pazienti, regioni, animali ect. Successivamente deve registrare le variabili e rilevare i dati di esse. Le variabili possono essere qualitative(quando si esprime un dato non sottoforma di numero ma di qualità, per esempio il genere di una persona, il suo titolo di studio) o quantitative(una q.tà espressa in numeri) Il concetto di POPOLAZIONE indica a cosa appartengono le unità, per esempio se studiamo un campione di studenti la mia popolazione sarà gli studenti appartenenti ad una certa classe di età.

Sono presenƟ due ulteriori soƩo-categorie di variabili quanƟtaƟve (numeriche):

  • VARIABILE QUANTITATIVA DISCRETA: assume valori appartenenƟ all’insieme dei numeri naturali (0,1,2,…,N). Esempio: numero di animali in ogni allevamento. -->solitamente sono conteggi
  • VARIABILE QUANTITATIVA CONTINUA: grandezza misurabile che assume valori nell’insieme dei numeri reali (altezza, temperatura, prezzo, valori di emoglobina). Nella praƟca le variabili conƟnue vengono discreƟzzate/troncamento. Ad esempio, si sceglie un numero finito di decimali dopo la virgola. Anche se esse possono sembrare discrete comunque la loro natura è quella di essere conƟnue. Si possono individuare due Ɵpologie di variabili qualitaƟve (categoriche):
  • VARIABILE QUALITATIVA NOMINALE: non può essere individuato un ordinamento tra le modalità (colore occhi, genere, presenza malaƫa, professione). Caso parƟcolare: variabile con sole due modalità. In questo caso si parla di variabile dicotomica (binaria o dummy) esempio: paziente malato/sano.
  • VARIABILE QUALITATIVA ORDINABILE: si può individuare un ordinamento tra le modalità. Si precisa che la distanza tra le modalità non può essere quanƟficata dal punto di vista numerico. Esempi: Ɵtolo di studio, giudizio. Nelle variabili qualitaƟve non sempre si possono ordinare (ordine gerarchico) per esempio il Ɵtolo di studio può essere ordinato secondo la quanƟtà di anni di studio (diploma di scuola superiore ---> master),ma il genere di una persona non ha un ordine con le variabili qualitaƟve non possiamo fare la media ma possiamo fare una distribuzione di frequenza

GERARCHIA e NOTAZIONE delle VARIABILI

ALTRI TIPI DI VARIABILI

A seconda del loro ruolo all’interno dell’esperimento, è possibile inoltre disƟnguere tra:

  • VARIABILE DI RISPOSTA: è l’oggeƩo di studio vero e proprio.
  • VARIABILI ESPLICATIVE: caraƩerisƟche delle unità che influenzano la variabile di risposta (ad esempio: età, genere, traƩamento).  1. variabile di risposta= prezzo (o valutazione) di un appartamento ---> le variabili esplicaƟve possono essere: m2, numero di camere, numero di bagni, zona (quarƟere), esposizione, ...
  1. variabile di risposta= presenza o comparsa di una determinata malaƫa ---> le variabili esplicaƟve possono essere: genere, età, eccesso di fumo e/o alcol, patologie pregresse...

ANALISI UNI-VARIATE: tecniche esploraƟve che permeƩono di sinteƟzzare l’informazione contenuta in una colonna (variabile) del dataset.  spesso vi è la categoria altro per racchiudere tutto ciò che non viene incluso nel resto, in questo modo i dati ricevuti sono più esatti e di conseguenza anche le statistiche finali saranno più coerenti alla verità

DISTRIBUZIONI DI FREQUENZA

Sintesi descriƫva che permeƩe di valutare la frequenza con cui la variabile studiata assume determinaƟ valori. Dipende dalla Ɵpologia di variabile (qualitaƟva/quanƟtaƟva):

  • VARIABILI QUALITATIVE: tabelle, diagramma a barre (o a torta) ---> viene utilizzato per rappresentare una mutabile

(es. tipologie di sport). Le barre, lunghe e strette, rappresentano le modalità. L’altezza di ogni barra indica la frequenza di

ogni specifica modalità. Le barre sono equidistanti a causa della discontinuità delle modalità, infatti si tratta di un

fenomeno discreto

  • VARIABILI QUANTITATIVE: tabelle, box-plot, istogramma---> è una rappresentazione grafica di una variabile che sia

caratterizzata da modalità continue. Per esempio possono essere rappresentati i parti tripli per età (classi di età nelle

ascisse e numero parti nelle ordinate)

 Queste Ɵpo di valutazioni sono interessanƟ per studiare le variabili dal punto di vista uni-variato  È importante anche dire che in base al Ɵpo di variabile quindi qualitaƟvo o quanƟtaƟve possiamo fare differenƟ analisi (per esempio non possiamo fare la media di variabili qualitaƟve) Come sono faƩe le variabili quanƟtaƟve le indichiamo con X che presentano K diverse modalità nella matrice dei daƟ--->x 1 , ..., xi, ..., xk FREQUENZA ASSOLUTA (ni)---> definita come il conteggio di unità staƟsƟche del campione che mostrano quella modalità (riprendendo l’esempio di prima delle aziende: q.tà di aziende che si trovano al nord) La frequenza assoluta della modalità xi è indicabile con ni ---> La somma delle frequenze assolute deve dare la numerosità del campione Non sempre le frequenze assolute risultano facilmente leggibili ed interpretabili.  È quindi uƟle affiancarle alle FREQUENZE RELATIVE (fi), che forniscono immediatamente l’idea del peso che una modalità ha all’interno della distribuzione.

Sono definite come: 𝑓௜ =

௡೔ ௡ La somma delle frequenze relaƟve è 1 MolƟplicando fi per 100 si oƩengono le frequenze relaƟve percentuali (pi) la cui somma è 100, ciò in verità non è sempre così per esempio nelle variazione(variazione della produzione della mia fabbrica, “ho prodoƩo il 200% in più rispeƩo all’anno precedente”), ma nelle distribuzioni di frequenza ciò deve SEMPRE essere così. Le frequenze cumulate(cumulate sulle nostre modalità) assolute, relaƟve o percentuali sono invece idenƟficate con Ni, Fi, Pi (per esempio se considero le aziende del nord e del centro queste pesano 80% rispeƩo a quelle del sud che sono il 20%)

 RIEPILOGO

esercizio:  esito esame staƟsƟca:

  • 2 hanno preso 18
  • 3 hanno preso 24
  • 2 hanno preso 27
  • 3 hanno preso 30

Numero di osservazioni n=∑i ni=

  • Somma totale delle frequenze assolute/relaƟve/percentuali Nelle frequenze cumulate il totale si ha nelle frequenze cumulate dell’ulƟma modalità
  • I voƟ sono le diverse modalità SEMPLICI
  • Frequenze assolute => q.tà di persone che hanno preso quel determinato voto
  • Frequenze relaƟve => freq. assoluta/num. di modalità
  • Frequenza percentuale => freq. relaƟve × 100 CUMULATE
  • Frequenze assolute => q.tà di persone che hanno preso quel determinato voto o meno
  • Frequenze relaƟve => freq. assoluta cumulata/num. di modalità
  • Frequenza percentuale => freq. relaƟve cumulata × 100

esercizi: es1:  la moda è 25 in quanto 4 persone hanno preso 25: 4 freq.assoluta maggiore, ha una freq.relaƟva di 0,4 e freq.percentuale del 40% es2: 100 persone rispondono al quesƟonario: la moda è “abbastanza soddisfaƩa/o” perché ha una frequenza di 48 persone rispeƩo alle 13,22 e 17 delle altre possibili risposte.

MEDIA ARITMETICA

È definita come il valore associato alle unità staƟsƟche se ognuna di esse ricevesse lo stesso ammontare della variabile oggeƩo di studio. La media si trova sommando tuƫ n daƟ osservaƟ dividendo essa per n La media aritmeƟca può essere calcolata solo se le variabili sono quanƟtaƟve ci sono delle variabili che riesco a sommare facilmente e la somma stessa è un valore che ha senso(oƩengo un aggregato)---> per esempio se sommo il reddito delle persone, ma se sommo i voƟ di un esame la somma non ha senso, in questo caso ha senso solo il voto medio ---> non sempre la media è un dato uƟle al nostro studio tre proprietà:

  • Quando la distribuzione è simmetrica, media aritmeƟca e mediana coincidono. Inoltre, se la distribuzione è anche unimodale, oltre che simmetrica, anche la moda coincide con mediana e media.
  • Quando la distribuzione è asimmetrica, le tre misure iniziano a differenziarsi tra loro.
  • La media aritmeƟca è sensibile ai valori estremi. Si dice che non è un indicatore robusto, al contrario della mediana esercizi: la media voto dell’esame di staƟsƟca è 24, le moda è 25 quindi i due parametri non coincidono
  • Le misure di posizione sono definite basandosi sull’idea di ordinamento delle osservazioni. 3°Lezione 11.10.

MEDIANA

Si traƩa del valore della variabile che divide in due parƟ di eguale numerosità il colleƫvo staƟsƟco:

  • se n è dispari: la mediana è il valore assunto dall’unità staƟsƟca con posizione (n + 1)/2,
  • se n è pari: si hanno due posizioni centrali: n/2 e n/2 + 1.  Se la variabile è numerica la mediana è la semisomma dei due valori.  Se la variabile è qualitaƟva ordinabile si hanno due modalità mediane.  in caso di numero di casi dispari cerco la posizione mediana che è (n+1)/ In caso il numero di casi fosse pari: ordinare come nel caso dei dispari i daƟ dal più piccolo al più grande segnare le posizioni trovo i due valori centrali (n/2 e (n/2+1)) e faccio la media tra i due valori centrali LA MEDIANA è quel valore che biparƟsce le osservazioni Come si calcola? 1.si ordina la distribuzione
  1. si calcola la posizione centrale o le posizioni centrali
  2. la mediana è quel valore che occupa la posizione centrale o la semisomma dei due valori 70 75 80 85 100 110 900 MEDIA 202,9 ---> media molto lontana sia dalle case piccole sia dalla villa quindi non ha molto senso MEDIANA 85 Esempio 70 75 80 85 100 110 ---> i due valori da considerare sono in posizione 6 e7 e facci la media tra i due 82,5 è la mediana

BOXPLOT Un box plot mostra la distribuzione dei daƟ -> Variabili quanƟtaƟve qualitaƟve -> Un box plot consente di visualizzare il centro e la distribuzione dei daƟ. Inoltre, lo si può usare come strumento visivo per la verifica della normalità o per idenƟficare possibili outlier. -> Valori outlier individualizzabili aƩraverso questo Ɵpo di grafico

QualitaƟve  istogrammi QualitaƟvo  diagramma a torte Slide 14 analisi uni-variata Slide 15 analisi bi-variata quanƟtaƟva

INDICI DI VARIABILITÀ

  • In realtà la staƟsƟca si occupa principalmente di variabilità
  • poesia di Trilussa. μ1 = μ2 = 1; Var1 = 0 6== Var2 = 2
  • Indici che valutano la dispersione aƩorno alla media
  • Indici robusƟ alla presenza di valori anomali (outliers)

4° Lezione 18.10.

LA DEVIANZA  è la somma degli scarƟ dalla media al quadrato

=> La variabilità viene valutata sulla dispersione delle unità rispeƩo alla media aritmeƟca  Nella formula essendo che si fa la somma degli scarƟ, ma che quesƟ per la regola vista in precedenza risulta 0 dobbiamo fare il quadrato---> ciò ci dà la possibilità di avere un numero sempre posiƟvo, perché la somma degli scarƟ è sempre=

  • 1° problema: l’unità di misura che risulta essere al quadrato
  • 2° problema : più osservazioni abbiamo maggiore sarà il valore della devianza  a causa del faƩo che la devianza non è un indicatore relaƟvo ma è legato alla numerosità delle osservazioni

=> per risolvere questo problema si uƟlizza LA VARIANZA--->essa divide la devianza per n quindi risulta essere una

media (e non più una somma) per calcolare la varianza c’è un metodo alternaƟvo ---> si può usare anche sigma al quadrato perché (ce lo dirà) => la varianza si può esprimere come la media dei quadraƟ dei valori della variabile meno il quadrato della media [Siamo ancora nella staƟsƟca descriƫva cioè nella sola analisi di daƟ, ma successivamente nelle variabili casuali, la media prenderà il nome di valore aƩeso e la varianza rimane così] Rimane però il problema dell’unità di misura:

=> si uƟlizza la radice quadrata della varianza oƩenendo LA DEVIAZIONE STANDARD ->

=> cioè la radice quadrata della media dei quadraƟ dei valori della variabile meno il quadrato della media viene deƩo anche Scarto QuadraƟco Medio si può indicare con σ (sigma) o DS o SQM Comunque gli indici visƟ fino ad ora risentono dell’ordine di grandezza, per cui è difficile fare dei confronƟ tra variabili(mondo mulƟvariato)=> quindi si può risolvere ciò con un numero puro --->

IL COEFFICIENTE DI VARAIAZIONE che si oƫene dividendo la deviazione standard per la media aritmeƟca per 100

 Possono esserci problemi di instabilità quando x ≈ 0.  Devianza, Varianza, Deviazione Standard e CV sono legaƟ alla somma dei quadraƟ degli scarƟ dalla media, pertanto sono sensibili alla presenza di valori anomali  si usa nella staƟsƟca descriƫva, a differenza di varianza/devianza/deviazione standard che hanno delle proprietà oƫme nel mondo dell’inferenza (Può essere molƟplicato per cento per avere come risultato la percentuale relaƟva a quel valore) Dev(x) ∈ [0,+ ∞) v^2 (x)∈ [0,+ ∞) v(x) ∈ [0,+ ∞) CV(x) ∈ [0,+ ∞)

non è normalizzato cioè non è costreƩo a stare all’interno di un certo range [x ± DS deviazione standard è una misura di errore assoluto] Esercizio slide 13 ---> Si dispone dei valori di emoglobina per un campione di n =9 laƩanƟ xi = {12,2; 13,2; 12,3; 13,1; 11,5; 14 5; 11,3; 13,6; 12,6} Si calcolino: Varianza, Deviazione Standard, CV

  • Media 12,
  • Scarto= da ogni osservazione soƩraggo la media e trovo gli scarƟ
    1. 12,2-12,7=-0,
    2. 13,2-12,7=0,
    3. 12,3-12,7=-0,
    4. 13,1-12,7=0,
    5. 11,5-12,7=-1,
    6. 14,5-12,7=1,
    7. 11, 3-12,7=-1,
    8. 13,6-12,7=0,
    9. 12,6-12,7=-0, La somma degli scarƟ dalla media è = 0
  • Il risultato della somma degli scarƟ al quadrato è
    1. 12,2-12,7=-0,5scarto^2 =0,
    2. 13,2-12,7=0,5scarto^2 =0,
    3. 12,3-12,7=-0,4scarto^2 =0,
    4. 13,1-12,7=0,4scarto^2 =0,
    5. 11,5-12,7=-1,2scarto^2 =1,
    6. 14,5-12,7=1,8scarto^2 =3,
    7. 11, 3-12,7=-1,4scarto^2 =1,
    8. 13,6-12,7=0,9scarto^2 =0,
    9. 12,6-12,7=-0,1scarto^2 =0, LA DEVIANZA=8,28(g/dL)^2 [dev.q] excel
  • VARIANZA => v^2 (x) =8,28/9= 0,92(g/dL)^2 [var.p] excel
  • DEVIAZIONE STANDARD è la radice quadrata della varianza ~ 0,96 questo dato è l’errore assoluto quindi x ± DS=>12,7±0,96 ---> non sempre è giusto esprimerlo così [dev.st.p] excel se al posto di p meƩo c prendo in considerazione le sƟme
  • CV = 0,96/12,7 ~ 0,08 errore relaƟvo --> 0,08 x 100 = 8% ---> in questo modo riusciamo a togliere il problema dell’u. di misura--> variazione dell’oƩo percento intorno alla media Se ci fossero dei valori outlier e quindi la media fosse un caƫvo indicatore tuƫ quesƟ daƟ sarebbero condizionaƟ e risulterebbe quindi un analisi scorreƩa In questo caso però abbiamo solo 3 valori che fuoriescono leggermente dal range di errore che sono il 5° - il 6°- il 7° MISURE MENO SENSIBILI AI VALORI ANOMALI
  • sono comunque sensibili ma non troppo da influenzare in modo negaƟvo i risultaƟ  dal punto di vista probabilisƟco l’uƟlizzo dei valori assoluƟ ha meno senso dell’uƟlizzo della varianza che invece è legata alle proprietà delle variabili casuali uƟlizzo più dal punto di vista descriƫvo che non inferenziale

DIPENDENZA E INDIPENDENZA LINEARE

  1. CORRELAZIONE POSITIVA: i punƟ si dispongono più o meno su una reƩa. Se x aumenta, y aumenta ed ha coefficiente angolare +
  2. INCORRELAZIONE : i punƟ si dispongono casualmente
  3. CORRELAZIONE NEGATIVA: i punƟ si dispongono più o meno su una reƩa, all’aumentare di x, y diminuisce ed ha coefficiente angolare –  Se i punƟ sono più o meno su una stessa reƩa (molto vicino tra loro) l’associazione è forte (primo grafico), è debole (terzo grafico) quando i punƟ sono più lontani tra loro.  Non sempre la relazione è lineare, ma se applichiamo il coefficiente di correlazione lineare siamo all’interno del mondo lineare  Si parla di indipendenza lineare se la relazione tra due variabili (quanƟtaƟve) può essere descriƩa mediante una reƩa parallela all’asse delle x (coefficiente angolare nullo).=> non c’è relazione
  • Esistono due misure per esprimere tale relazione:
  1. Indice di correlazione di Pearson.
  2. Il coefficiente di regressione lineare. esse sono legate a quanƟtà simili, la differenza tra le due misure è l’interpretazione: cioè mentre la correlazione non va ad esprimere un ordinamento causale tra le variabili, ma dice soltanto che vi è una correlazione, invece la regressione vuole stabilire una relazione per esprimere che una variabile incide sull’altra. Essendo che l’interpretazione è diversa (=>presuppone l’impostazione di un modello staƟsƟco) il coefficiente di regressione non si inserisce nella stessa famiglia di codevianza, covarianza, correlazione(parente).

LA COVARIANZA

  • La CODEVIANZA(CoDevianza) è la somma dei prodoƫ degli scarƟ delle due variabili rispeƩo ai rispeƫvi valori medi Se si fa una media della codevianza dividendola per n (num. osservazioni) oƩeniamo la COVARIANZA. Si fa ciò perché la codevianza possiede gli stessi problemi della devianza QuesƟ indici sono ≠ da devianza e varianza a causa dei loro intervalli di valori che possono assumere:
    • Dev(x) ∈ [0,+ ∞)
    • v^2 (x)∈ [0,+ ∞)
    • Cov(x,y) ∈ (- ∞,+ ∞)  Cov(x,y) ∈ ℝ, può essere anche negaƟva o nulla  v^2 (x)= Cov(x,x)  Non c’è direzionalità nella relazione Cov(x,y)=Cov(y,x)  La covarianza risente dell’ordine di grandezza delle variabili e delle u. di m. la covarianza può essere calcolata uƟlizzando la media dei prodoƫ e il prodoƩo delle medie, per semplificare il calcolo --->

il nostro scopo è trovare un INDICE DI CORRELAZIONE perché così facendo si ha un indice

indipendente(normalizzato) dalla combinazione delle u. di m.

  1. Siano X e Y due variabili numeriche con medie (osservate) x (^) media , y (^) media
  2. Sia v^2 (x) = n−1^ Σ n^ i=1 (xi – x (^) media)^2 (si può indicare anche con σ^2 x)
  3. Sia v^2 (y) = n−1^ Σ n^ i=1 (yi – y (^) media)^2 (si può indicare anche con σ^2 y )
  4. Infine: v(x, y) = n−1^ Σn^ i=1 (xi – x (^) media)^2 (yi – y (^) media)^2 (oppure σxy ) l’indice è il risultato del rapporto tra: la covarianza tra le due variabili e il prodoƩo della loro variazione individuale L’indice r viene deƩo Indice (di correlazione) di Pearson: possiede un intervallo di -1 ≤ r ≤ 1
  • r = −1: massima correlazione negaƟva
  • −1 < r < 0: correlazione negaƟva
  • r = 0: assenza di correlazione, ovvero indipendenza lineare
  • 0 < r < 1: correlazione posiƟva
  • r = 1: massima correlazione posiƟva  r= -1, 1, 0 sono casi rarissimi esempi grafici Non linearità della relazione tra le variabili se il nostro grafico tende a una parabola r sarà quasi uguale a 0
  1. calcolare la media delle variabili media(x)=60, media(y)=9,
  2. calcolare varianza scarƟ delle osservazioni dalla media (x-media(x)) (y-media(y))---> la somma degli scarƟ dalla media fa sempre 0
  3. calcolare deviazioni standard  il prodoƩo degli scarƟ dalla media di x e y {[(x-media(x))^2 ] * [(y-media(y))^2 ]}
  4. calcolare:
    • la somma [(x-media(x))^2 ] = Dev (x)
    • la somma di [(y-media(y))^2 ] = Dev (y)
    • la somma di {[(x-media(x))^2 ] * [(y-media(y))^2 ]} = Codev(x,y)
  5. Calcolare la varianza v^2 (x)=Dev(x)/n e v^2 (y)=Dev(y)/n Calcolare la covarianza cov(x,y )= Codev(x,y)/n Calcolare indice di correlazione r = cov(x,y)/[v(x)*v(y)] [vi è la funzione “CORRELAZIONE” su Excel] 2° METODO
  6. calcolare la media delle variabili media(x)=60, media(y)=9,
  7. calcolare i quadraƟ dei valori delle variabili
  8. calcolare il prodoƩo tra variabili
  9. Calcolare la varianza v^2 (x)=x^2 – [media(x)]^2 e v^2 (y)=y^2 – [media(y)]^2
  10. Calcolare la codevianza  (media dei valori dei prodoƫ delle variabili) – [media(x)*media(y)]
  11. Calcolo deviazione standard  radice quadrata della varianza
  12. Calcolare indice di correlazione r = codev(x,y)/[v(x)*v(y)] [vi è la funzione “CORRELAZIONE” su Excel]

IL MODELLO DI REGRESSIONE

della correlazione alla regressione L’INDICE DI CORRELAZIONE (r) misura l’intensità di una relazione simmetrica. Può essere uƟle misurare l’enƟtà di una relazione logica tra le due variabili, ipoƟzzando Y come variabile di risposta in funzione di X, ossia la esplicaƟva.  Tale relazione lineare sarà descriƩa dalla seguente reƩa: y = b 0 + b 1 x

  • dove b 0 è l’interceƩa
  • b 1 il coefficiente angolare.  la relazione non è esaƩa: quindi si può scrivere: yi = b 0 + b 1 xi + εi
    • i = 1,... , n
    • ε è un termine di errore. la reƩa di regressione L’obieƫvo è determinare una reƩa in grado di interpolare i punƟ campionari. Esempio. y: peso; x: altezza di 40 cavalli Calcolo staƟsƟco dei valori dei parametri  Per oƩenere i valori di b 0 e b 1 è necessario fissare un criterio di oƫmo  Solitamente si vuole minimizzare la somma quadraƟca degli scarƟ tra punƟ e reƩa (cd. metodo dei minimi quadraƟ). Si ricavano così seguenƟ parametri:
  • b 1 è deƩo coefficiente di regressione e misura la “forza” della relazione lineare tra Y e X. Indica di quanto varia Y (in media) se X cresce di una unità

I valori che il COEFFICIENTE DI REGRESSIONE può assumere sono sinteƟzzabili come segue:

  • Se b1 = 0 la reƩa è orizzontale e indica assenza di relazione tra le variabili, ossia indipendenza lineare
  • Se b1 > 0 è presente una correlazione posiƟva tra le variabili.
  • Se b1 < 0 è presente una correlazione negaƟva tra le variabili.

COEFFICIENTE DI DETERMINAZIONE LINEARE (R^2 ) esso di uƟlizza per valutare la bontà di adaƩamento della

reƩa ai daƟ

Nel caso di regressione semplice (=> una variabile dipendente e una indipendente) esso coincide con il quadrato di r

  • Esso assume valori compresi tra 0 (indipendenza lineare) e 1 (perfeƩa dipendenza lineare)