Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi Statistica della Popolazione: Campionamento e Distribuzioni di Frequenze, Appunti di Statistica Economica

Una introduzione alla statistica applicata alla popolazione, con un focus sul campionamento e sulle distribuzioni di frequenze. Come creare campioni rappresentativi, il concetto di indagini campionarie e la stima di parametri della popolazione. Vengono inoltre introdotti i concetti di frequenze relative e percentuali, distribuzioni di frequenze in classi e istogrammi.

Tipologia: Appunti

2018/2019

Caricato il 16/05/2019

1922915
1922915 🇮🇹

5

(2)

7 documenti

1 / 14

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
14/02/2018
STATISTICA
In Italia, l’Istat si occupa di tutte le statistiche ufficiali.
Ci sono sezioni riguardo la popolazione ma anche sezioni più moderne, ad es sulle molestie sessuali sul lavoro.
INTRODUZIONE ALLA STATISTICA
Oggi la statistica è sotto l'occhio di tutti: in continuo aumento l'utilizzo di dati statistici nei giornali e nei media per
avvalorare oppure criticare scelte e posizioni di vario genere; ma per il cittadino comune non è quasi mai facile
orientarsi, comprendere messaggi imprecisi, parziali o, addirittura sbagliati.
La statistica è uno strumento utile al cittadino consapevole che vuole capire i fenomeni che lo riguardano (naturali,
sociali, economici e politici) svolgendo, così, anche un’attività di MONITORAGGIO e CONTROLLO: nella vita di
tutti i giorni è sempre più importante saper valutare le numerose informazioni statistiche che giungono da diverse
fonti, comprenderne il significato e riconoscerne l’attendibilità.
La statistica è un circolo.
Il decisore deve mettere in atto delle scelte
che ricadono su aziende, regioni, singoli. Gli
effetti sono misurati sulle persone (= unità
statistiche). Esse, applicano dei
comportamenti e generano delle informazioni
che fanno ancora alle decisioni.
Anche per decidere quale film guardare al cinema, inconsapevolmente ci basiamo sulla statistica nella scelta.
Mettere in atto un criterio di scelta basandosi sul parere delle persone è statistica.
Lessico
Informazione con una sola informazione non si applica la statistica. Non mi posso basare su una sola persona, la
statistica è un fenomeno collettivo.
Raccolta Informazioni tante informazioni se raccolte in modo non corretto producono statistiche DISTORTE(errate)
PAROLA STATISTICA
Statistica (nome fs): è la disciplina
Statistiche (nome fpl): è il risultato della Statistica
Statistico (nome ms): colui il quale applica la Statistica
Statistica : aggettivo
La STATISTICA studia i modi in cui un FENOMENO COLLETTIVO può essere sintetizzato, analizzato e quindi
compreso.
LA POPPLAZIONE è l’insieme delle unità statistiche. fenomeno collettivo.
Ci sono diversi esempi di popolazione in base al fenomeno da analizzare.
Esempio classico di popolazione = popolazione italiana. Vuol dire che siamo interessati a studiare i fenomeni che
interessano la popolazione italiana.
Il Censimento, dal latino census da censere, significa rilevare-misurare.
Il censimento consente di:
-quantificare gli abitanti
-conoscere le loro caratteristiche
-prevedere la dinamica della popolazione (saldi demografici, saldi migratori)
21/02/2018
22/02/2018
IL CAMPIONE
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe

Anteprima parziale del testo

Scarica Analisi Statistica della Popolazione: Campionamento e Distribuzioni di Frequenze e più Appunti in PDF di Statistica Economica solo su Docsity!

STATISTICA

In Italia, l’Istat si occupa di tutte le statistiche ufficiali. Ci sono sezioni riguardo la popolazione ma anche sezioni più moderne, ad es sulle molestie sessuali sul lavoro.

INTRODUZIONE ALLA STATISTICA Oggi la statistica è sotto l'occhio di tutti: in continuo aumento l'utilizzo di dati statistici nei giornali e nei media per avvalorare oppure criticare scelte e posizioni di vario genere; ma per il cittadino comune non è quasi mai facile orientarsi, comprendere messaggi imprecisi, parziali o, addirittura sbagliati. La statistica è uno strumento utile al cittadino consapevole che vuole capire i fenomeni che lo riguardano (naturali, sociali, economici e politici) svolgendo, così, anche un’attività di MONITORAGGIO e CONTROLLO: nella vita di tutti i giorni è sempre più importante saper valutare le numerose informazioni statistiche che giungono da diverse fonti, comprenderne il significato e riconoscerne l’attendibilità.

La statistica è un circolo. Il decisore deve mettere in atto delle scelte che ricadono su aziende, regioni, singoli. Gli effetti sono misurati sulle persone (= unità statistiche). Esse, applicano dei comportamenti e generano delle informazioni che fanno ancora alle decisioni.

Anche per decidere quale film guardare al cinema, inconsapevolmente ci basiamo sulla statistica nella scelta. Mettere in atto un criterio di scelta basandosi sul parere delle persone è statistica.

Lessico Informazione con una sola informazione non si applica la statistica. Non mi posso basare su una sola persona, la statistica è un fenomeno collettivo. Raccolta Informazioni tante informazioni se raccolte in modo non corretto producono statistiche DISTORTE(errate) PAROLA STATISTICA Statistica (nome fs): è la disciplina Statistiche (nome fpl): è il risultato della Statistica Statistico (nome ms): colui il quale applica la Statistica Statistica : aggettivo

La STATISTICA studia i modi in cui un FENOMENO COLLETTIVO può essere sintetizzato, analizzato e quindi compreso. LA POPPLAZIONE è l’insieme delle unità statistiche. fenomeno collettivo. Ci sono diversi esempi di popolazione in base al fenomeno da analizzare. Esempio classico di popolazione = popolazione italiana. Vuol dire che siamo interessati a studiare i fenomeni che interessano la popolazione italiana.

Il Censimento, dal latino census da censere, significa rilevare-misurare. Il censimento consente di: -quantificare gli abitanti -conoscere le loro caratteristiche -prevedere la dinamica della popolazione (saldi demografici, saldi migratori) 21/02/

IL CAMPIONE

CAMPIONE E CAMPIONAMENTO

Il campionamento è la procedura per la selezione di un campione. L’utilizzo di un campione risponde a tre fondamentali esigenze: -risparmio di tempo -risparmio di costi -praticità nella gestione Quando la parte da analizzare è piccola, non conviene fare un campione. La creazione d iun campione dipende dall’ampiezza della popolazione di riferimento. L’ampiezza dice la dimensione del campione. METODI DI CAMPIONAMENTO

  1. PROBABILISTICO In base alla popolazione da rilevare e alle caratteristiche che si incontrano si possono applicare diverse tipologie di campionamento. -simple random sampling -stratified sampling -systematic sampling -cluster sampling
  2. NON PROBABILISTICO Difficile da gestire in termini di generalizzazione di risultato su tutta la popolazione.

ESEMPIO Per poter indagare le abitudini di consumo nei bar degli iscritti all’Università IULM si hanno due strade alternative: -chiedere ad ognuno di loro cosa preferisce abitualmente consumare. Troppo faticoso in termini di tempo. -intervistare UN CAMPIONE di studenti (5 ad esempio), estratto dalla popolazione “iscritti all’Università IULM“, che si possa ritenere rappresentativo dell’intera popolazione. Questo campione sarà estratto dalla popolazione degli studenti Iulm. Non fa riferimento a tutti gli studenti universitari ma solo alla popolazione degli studenti Iulm. Il campione si può generalizzare solo alla popolazione di riferimento da cui è estratto il campione.

INDAGINI CAMPIONARIE Le indagini campionarie hanno lo scopo di stimare alcuni parametri della popolazione (percentuali, medie) sulla base dei risultati ottenuti a partire da un campione. Stima di un parametro della popolazione: valore approssimativo e probabilistico che definisce, con un certo margine di errore, il valore della caratteristica nella popolazione da cui il campione deriva. Indagini campionarie. Un’indagine campionaria dovrebbe associare a ciascuna stima (risultato) una misura del suo errore 95 volte su 100 (probabilità), la spesa media giornaliera degli studenti che frequentano il bar è di 7.5 euro (± 1.4)

CAMPIONE RAPPRESENTATIVO Che cosa spinge un ricercatore a ritenere che i risultati di un’indagine campionaria raffigurino la popolazione che vogliamo indagare? I risultati si possono considerare affidabili quando le unità statistiche incluse nel campione hanno le stesse caratteristiche di quelle della popolazione campione rappresentativo. Un campione può considerarsi rappresentativo di una popolazione se e solo se la scelta delle unità si basa sulla casualità piuttosto che sulla comodità. RAPPRESENTATIVO = campione che rappresenta tutte le caratteristiche della popolazione. Garantita dal fatto che i componenti del campione siano stati estratti in modo casuale. Il campionamento casuale è il processo che utilizza il caso per selezionare gli individui da includere in un campione. Il campione rappresentativo è di tipo probabilistico.

Contrario di rappresentativo è distorto. Esempio classico di campione non rappresentativo Un classico esempio di campionamento distorto si è verificato durante la campagna presidenziale 1936. Circa 10.000.000 di questionari (il maggior numero in assoluto) furono distribuiti da Literary Digest, una nota rivista, per prevedere l’esito delle elezioni presidenziali.

Costruire un campione casuale semplice

  1. Costruire un elenco di tutta la popolazione (lista o frame)
  2. Numerare tutti gli individui, l’ultimo individuo corrisponderà a N
  3. Usare una tavola dei numeri casuali o un software per generare n numeri in cui n corrisponde all’ampiezza del campione Tavola dei numeri: Introdotta per la prima volta nel 1927. Sequenza di numeri generati casualmente in base a diverse distribuzioni. La scelta di questi numeri associati alle nostre unità, garantisce dimensione probabilistica del campione. Software: Devo indicare la fascia di numeri che mi serve. Scelgo su Excel la distribuzione uniforme. Mi darà la quantità di numeri che ho chiesto. Excel può però selezionare due volte lo stesso numero. Quindi devo rifare.

Ripasso settimana. Cosa fa la statistica? Studia i fenomeni collettivi. I componenti dei fenomeni collettivi sono le unità statistiche che si possono aggregare in popolazione e campioni. I campioni si ottengono secondo strategie di campionamento. Essi suddividono la possibilità di ottenere campioni in 2 gruppi: probabilistico e non probabilistico. Per avere campioni non distorti è meglio usare quelli probabilistici ogni singola unità della popolazione ha la stessa probabilità di fare parte del campione. Abbiamo visto il campione casuale semplice. Da una popolazione non si può estrarre un solo campione ma diversi numeri di campioni. Dai diversi campioni si possono ottenere risultati un po’ diversi ma sono tutti uguali ai risultati medi della popolazione. La statistica studia le caratteristiche dei fenomeni, qualitativi e quantitativi. Quelli qualitativi si presentano in base alle modalità. Variabili quantitative divise in discreto (non prevedono la virgola) e continuo (prevedono la virgola). 28/02/

  • Campionamento stratificato Secondo un determinato criterio si divide la popolazione in strati (es uomini e donne) e da ogni strato si estrae in modo casuale il numero di persone necessarie. Es voglio dividere per genere e residenza: maschio, femmina, altro, fuori sede e in sede. Quindi 3*2= 6. Ho 6 caselline possibili. Problema del campionamento stratificato: posso avere numerosità più o meno elevata in tutte le celle tranne in qualche ripartizione. Se ho stessa numerosità in tante celle, che bisogno ho di estrarre da diverse celle? Quaderno esempio Quindi applico questo campionamento quando posso suddividere la popolazione in strati e da questi strati estrarre in modo casuale il campione da essi. La suddivisione non è già presente nella popolazione ma è artificiale che il ricercatore impone al fine di aver una settorializzazione della popolazione. Non in tutti gli strati le unità si dispongono allo stesso modo quindi bisogna ricorrere a stratificazione proporzionale.
  • campionamento a grappolo dà la possibilità di avere una varietà molto elevata all’interno di ogni gruppo Se la popolazione è caratterizzata da stratificazione naturale, conviene usare il campione a grappolo. Es. città di Milano divisa in 9 raggruppamenti. Voglio estrarre 2 raggruppamenti. Applico il campionamento casuale semplice a queste ripartizioni. Quindi qua il campionamento casuale semplice non avviene sulle unità ma sui gruppi e tutte le persone del gruppo sono sottoposte ad analisi. Estratta ad es la ripartizione 1, intervisto tutti quelli di quella ripartizione. Se è troppo numerosa, applico un ulteriore campionamento, in questo caso a strati (o casuale semplice) questo si chiama campionamento a stadi dato da campionamento a grappolo + a strati (o un altro tipo di campionamento).
  • campionamento sistematico Metodo di campionamento di tipo probabilistico che non funziona su una lista.

Si va al supermercato a fine giornata e si guarda sugli scontrini il numero dell’ultimo, per vedere quanti scontrini sono stati emessi. Lo faccio per qualche giorno e mi faccio un’idea dell’ampiezza della popolazione. Costruisco una frazione di campionamento = rapporto tra la dimensione del mio campione e l’ampiezza della popolazione che ho stimato. N/n e trovo il valore di k. K = frazione di campionamento. O passo di campionamento. Distanza che deve esserci tra un’unità e l’altra. Determino es 8 Seleziono poi a caso un numero tra 1 e K. Chiamo questo numero p. questo è il numero di partenza. Es 2 La mia prima persona sarà a 2, poi a 20, poi 18… Campione composto dai seguenti individui:

p,p+k,p+2k, …p+(n-1)k

  • Campionamento multistadio

CAMPIONAMENTO NON PROBABILISTICO

  • campione di comodo : il ricercatore sceglie in modo arbitrario le unità più facilmente raggiungibili, magari sfruttando le proprie relazioni, es televoto
  • campione a scelta ragionata :le unità campionarie vengono scelte dal ricercatore in base ad alcune loro caratteristiche, perché meglio rappresentano il fenomeno in esame; di solito si usa quando l’ampiezza del campione è limitata.
  • campione per quote : analogo al campionamento stratificato, ma le quote all’interno di ogni strato sono selezionate dai ricercatori con criteri non probabilistici. Diverso da quello stratificato perché stratificato scelgo in modo casuale, per quote non ho selezione casuale che mi guida.
  • campione a valanga : es dato che conosci questo, potresti conoscere anche questo (Facebook).

ERRORI NELLE INDAGINI CAMPIONARIE

L’obbiettivo di un’indagine campionaria è ottenere informazioni su una popolazione in base all’osservazione di un campione. -errori di campionamento: legato al tipo di approccio di campionamento che faccio. -errori di tipo non campionario -errore legato ai non rispondenti (decidono di non rispondere) -errore legato ai rispondenti -errore di copertura (non trovo i rispondenti) -errore di misurazione

NUMEROSITA’ DEL CAMPIONE

Campioni numerosi sono molto affidabili ma hanno costi molto alti. Alla elevata precisione corrisponde un alto prezzo. Bisogna quindi fissare il margine di errore che si è disposti ad accettare.

Capitolo 2

ORGANIZZARE I DATI IN TABELLE

Frequenza assoluta: numero di volte in cui la modalità i di una variabile (a carattere) viene osservata nel collettivo. (ni) dove i è un elemento generico.

DISTRIBUZIONE DI FREQUENZE ASSOLUTE Una distribuzione di frequenze assolute elenca tutte le modalità di una variabile riportando, per ciascuna di esse, il corrispondete numero di volte in cui queste sono state osservate nel collettivo.

LA SOMMATORIA Serve per sommare una serie di addendi.

FREQUENZE RELATIVE E PERCENTUALI

Per eliminare l’effetto della numerosità del collettivo e rendere possibili confronti tra popolazione di numerosità diversa, è opportuno ricorrere alle frequenze relative o alle percentuali.

LE CLASSI

DISTRIBUZIONE DI FREQUENZE IN CLASSI

Quando i dati sono quantitativi, la costruzione delle distribuzioni di frequenze si può fare raggruppando le singole modalità in classi Intervalli numerici La suddivisione in classi è opportuna quando:

  • variabili quantitative discrete se hanno molte modalità
  • variabili quantitative continue sempre Le classi sono caratterizzate da:
  • limite inferiore il più piccolo valore contenuto nella classe -limite superiore il valore più elevato contenuto nella classe

Determinare classi di uguale ampiezza:

  • decidere il numero delle classi (k)?

-calcolare

-arrotondare il risultato per eccesso

08/03/ TABELLA: prima rappresentazione dei dati. Mi dà la possibilità di associare ad ogni modalità, il numero di volte che si manifesta nella popolazione. Si possono sintetizzare le informazioni anche attraverso i grafici. Questa sintesi è un modo di tener conto della popolazione molto antico, già dal paleolitico (conteggio degli animali incisi). Un’immagine comunica meglio delle tabelle. Non sempre i grafici sono realizzati in modo corretto. I grafici si basano sul disegno delle frequenze. Se non ho le tabelle non posso fare i grafici. GRAFICO = messa in disegno delle distribuzioni di frequenza. I grafici rappresentano una forma primordiale di comunicazione. o Lo sviluppo dei grafici è stato (ed è tuttora) caratterizzato da finalità descrittive e strategiche o Forte impulso alla diffusione dei grafici è imputabile all’introduzione dei pc o Argomento molto importante per: Infografica, Data Visualization, Graphic Design, STATISTICA Un grafico costruito non correttamente può fornire informazioni distorte e in alcuni casi può essere utilizzato per influenzare l’opinione pubblica. Il ricercatore che ha sancito un punto di svolta è John W. Tukey. Ha coniato anche il termine bit e software. Nel 1965 segna una nuova era. Fino ad allora si partiva da un’analisi capovolta: non si prendeva la realtà e sulla base di essa si applicavano i metodi. Si avevano i metodi e sulla base di essi si cercava la realtà che era conforme al metodo. Veniva piegata la realtà alla teoria. È il padre delle scienze applicate in ambito di statistica. EDWARD TUFTE Ha portato alla ribalta del Chartjunk. Chartjunk: tutti gli elementi presenti nella tabella e nei grafici che non sono necessari alla comprensione e distraggono il lettore. Sono elementi in più che deviano l’informazione statistica. Sparklines = Mette in correlazione diversi dati (es Borsa). Unico grafico che sintetizza le informazioni rilevanti.

Rappresentazione di un fenomeno con delle immagini = pittogramma. Es banconote. Tutti i fenomeni che esprimono una rilevazione nel corso del tempo sono detti serie storiche. Devono essere rappresentate su un diagramma di tipo dimetrico, dove sull’asse delle ascisse si pone il tempo, rispettando la distanza reale tra le diverse fasi di tempo. Sull’asse delle ordinate si trova l’espressione del fenomeno che stiamo ordinando.

VARIABILI E TIPOLOGIE DI GRAFICI

VEDI QUAD

DIAGRAMMA A TORTA

I grafici a torta sono particolarmente utili quando si vuole rappresentare la composizione di un aggregato. Quando si vuole mostrare il peso dei singoli effetti sul totale. Calcolare l’ampiezza dei settori circolari L’ ampiezza dei settori circolari (angoli al centro) per una modalità i è proporzionale alla frequenza relativa:

GRAFICO A BARRE ORIZZONATALI O VERTICALI

In un grafico a barre le modalità della variabile sono rappresentate da rettangoli distanziati la cui altezza è proporzionale alla frequenza (assoluta, relativa o percentuale). Quando lavoriamo con variabili qualitative non è necessario porle sull’asse delle ascisse perché non sono graduate. Parlando di modalità di tipo qualitativo le barre non sono attaccate.

È un diagramma a barre, non un istogramma. l’istogramma si usa per le variabili continue. Questo per le variabili qualitative.

ISTOGRAMMA

In un istogramma le modalità della variabile sono raggruppate in classi e vengono rappresentate da rettangoli non distanziati , con basi uguali o diverse. È associato alle variabili continue (sempre) oppure discrete con numerose modalità. In esso le modalità delle variabili sono raggruppate in classi e vengono rappresentate da rettangoli non istanziati, con basi uguali o diverse. Viene usato solo se ci sono le classi.

È un diagramma di tipo dimetrico. Sull’asse delle ascisse ci sono le estremità di ogni classe e su quello delle ascisse le frequenze. La distanza tra due estremi di una classe è detta ampiezza. È la rappresentazione grafica in cui le frequenze compongono l’area. Per costruire un istogramma bisogna considerare il rapporto tra l’ampiezza della classe e il numero di persone in quella classe. Questo rapporto è detto densità della classe. Per sapere quante persone stanno in ogni rettangolo moltiplico base per altezza.

Domande : che ruolo ha la frequenza specifica: -permette di individuare la giusta proporzione tra frequenza assoluta e ampiezza -ha il vantaggio di poter costruire qualsiasi tipo di istogrammi anche se le ampiezze fossero diverse tra loro. I rettangoli devono essere attaccati. Ovviamente se da un punto all’altro sulla base la frequenza è = 0, il rettangolo non ci sarà. ESEMPIO: DISTRIBUZIONE IN CLASSI CLASSI DI PESO n1 AMPIEZZA CLASSE a1 DENSITA’ n1/a1 =fs1 o di 40-45 1 45-40= 5 0.

-la media è una misura statistica che sintetizza il fenomeno analizzato mediante un solo valore -risente dei valori anomali (fuori dal normale) -fornisce alcune indicazioni ma non è una misura completa per descriver il collettivo se io dicessi che alla fine dell’anno il voto medio sarà 28 ma non dico la variabilità, non so se molti sono bravi e molti no (30 e alcuni voti più bassi) o se molti sono bravi da 28 e basta.

15/03/ La media è il prodotto delle modalità per il numero delle modalità che si presentano. Bisogna creare una modalità fittizia avendo dei raggruppamenti in classe. Quindi si fa la media degli estremi della classe e si trova un valore centrale. Questo valore centrale trovato lo userò poi per calcolare la media. PROPRIETA’ DELLA MEDIA ARITMETICA 1)La somma delle differenze tra i valori e la loro media aritmetica (scarti) è pari a zero:

2)Lo scarto dalla media elevato al quadrato è la quantità più piccola che possa esistere. Formula su quad

  1. In un collettivo suddiviso in L gruppi, la media aritmetica generale si può ottenere come media ponderata delle medie dei gruppi con pesi uguali alle loro numerosità.

LA MEDIANA

Misura che si applica per dividere a metà la popolazione o il campione. La possiamo calcolare a partire da variabili qualitative ordinali. Per poter dividere i primi 50 dai secondi 50 ad es abbiamo bisogna di un criterio fondamentale: ordinare le modalità su cui andiamo a costruire la nostra mediana. Con il numero 3 il valore centrale è 2. Fa riferimento all’ambito dei numeri dispari. individuo la mediana aggiungendo un’unità e dividendo per 2. (N+1)/ Con il numero 4, i valori centrali sono 2 fanno riferimento ai numeri pari la mediana è la media dei due valori che occupano le posizioni centrali N/2 e (N/2)+

21/03/

QUARTILI Dopo aver applicato la mediana, riapplico la mediana, nel primo pezzo di distribuzione che ho individuato. Se sarà pari troverò la posizione tra n/2 e N/2 + Se sarà dispari troverò la posizione (N+1)/ BOXPLOT

L’intervallo interquartile (o differenza interquartile), IQR, è la differenza tra il terzo e il primo quartile e contiene il 50% dei valori centrali di una distribuzione. IQR = Q3 – Q

L’intervallo interquartile può anche assumere un valore uguale a zero, quando il primo e il terzo quartile corrispondono allo stesso valore. Il boxplot (o diagramma a scatola e baffi) è un grafico che consente di rappresentare una distribuzione mediante 5 numeri sintesi dei 5 numeri.

La lunghezza dei baffi è rappresentata rispettivamente dal valore minimo e dal valore massimo della distribuzione.

11/04/ STATISTICA BIVARIATA Fino ad ora abbiamo analizzato campioni e popolazione, concentrandoci su una sola variabile, una sola caratteristica. statistica univariata. Bivariata = sullo stesso soggetto sul quale rilevavamo una caratteristica, ora ne rileviamo un’altra. Su ogni unità rileviamo 2 variabili che possono essere entrambe qualitative, entrambe quantitative o una qualitativa a una quantitativa. Ci chiediamo poi che relazioni ci possono essere tra queste cariabili. Possono essere di associazione, di dipendenza, di interdipendenza o di intensità. Intensità si parla di correlazione. Se un aspetto è correlato all’altro, vuol dire che sono associati, es all’aumentare di Kcal associate, aumenta il mio peso. Tra le due variabili quantitative c’è relazione. È una correlazione.

La correlazione mi serve per vedere come variano gli altri valori al variabile di una variabile. Mi dice quanto esiste la mia relazione lineare tra le mie variabile e in che direzione vanno le mie variabili. Nella correlazione non esiste dipendenza, sono sullo stesso livello. Regressione : quantifica se esiste legame di causa effetto, dipendenza, tra le due variabili. La regressione mi serve per capire, ipotizzato che tra variabile x e y c’è legame causale, cosa succede alla variabile dipendente quando muta quella indipendente. Esiste dipendenza. Si deve partire da un presupposto logico: la presenza di una relazione causa effetto.

Tipo di analisi: 2 VARIABILI QUANTITATIVE: INTENSITÀ E DIPENDENZA CORRELAZIONE & REGRESSIONE 2 VARIABILI QUALITATIVE: INDIPENDENZA E DIPENDENZA ASSOCIAZIONE 1 VARIABILE QUALITATIVA & 1 VARIABILE QUANTITATIVA: INDIPENDENZA IN MEDIA

Quaderno Diagramma di dispersione o scatterplot Il diagramma di dispersione (o scatterplot) è un grafico che mostra la relazione tra due variabili quantitative misurate sulla medesima unità. In esso, ogni unità è rappresentata da un punto avente per coordinate le coppie di modalità (valori x e y) assunte rispetto a ciascuna variabile. -Ogni unità statistica (es. STUDENTE) possiede due modalità di due diverse VARIABILI -L’unità statistica si rappresenta con un PUNTO Le coordinate del punto sono le modalità di X e Y -Per l’unità statistica i-esima, le coordinate saranno: xi -L’insieme dei PUNTI fornisce il DIAGRAMMA DI DISPERSIONE

REGRESSIONE

Nella correlazione non ci poniamo problemi che possa esistere relazione di causa effetto. Nella regressione x e y sono importanti, x variabile indipendente, y variabile dipendente. Possibile domanda Dati due fenomeni, individua quello causa e quello effetto. Costruisci poi la relazione che le lega. Oppure: esempi in cui dice “E’ possibile calcolare la regressione?” in cui bisogna vedere se c’è relazione causa effetto. Retta: y=a+bx a = intercetta b = pendenza o coefficiente angolare dice l’inclinazione della retta. La pendenza è sempre uguale spostandosi sia sull’asse delle x che delle y. caratteristica della pendenza: dà informazioni sul tasso di variazione in media. È sempre costante. Data una relazione lineare o proporzionale, il tasso di variazione in media che lega y a x è sempre proporzionale. linearità. Linearità = tasso di variazione tra x e y è sempre uguale. Uguale al coefficiente angolare, b. Per 2 punti passa una sola retta. Per un punto ne passano infinite. Per tracciare una retta servono 2 punti. b mi dice cosa succede alla variabile dipendente per ogni variazione unitaria della variabile indipendente. La pendenza b esprime la variazione della variabile dipendente quando aumenta (al variare) di un’unità della variabile indipendente, in media.

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

  1. Primo step: rappresentazione grafica attraverso il diagramma a dispersione (o scatterplot)
  2. Secondo step: calcolo ed interpretazione del coefficiente di correlazione lineare (ρ o r) Relazione tra due variabili quantitative
  3. Terzo step: stima dell’equazione della retta dei minimi quadrati che descrive la relazione di dipendenza lineare tra due variabili ⇒ re�a di regressione lineare
  4. Quarto step: calcolo e interpretazione del coefficiente di determinazione (R2) ⇒ bontà di ada�amento

VARIABILE DIPENDENTE E INDIPENDENTE Quando si analizza la relazione tra due variabili quantitative possiamo utilizzare il valore di una variabile per predire i valori dell’altra. La variabile risposta o dipendente (Y) indica la variabile i cui valori possono essere spiegati o previsti attraverso i valori cui valori possono essere spiegati o previsti attraverso i valori della variabile esplicativa o indipendente, detta anche predittore, (X). -spesa in campagne di comunicazione per prevedere il fatturato -spesa per consumi e reddito -numero di prodotti venduti e promozioni

RELAZIONE STATISTICA

Se il grafico di dispersione e il coefficiente di correlazione lineare indicano che esiste una relazione lineare tra due variabili Y e X, è possibile trovare un’equazione lineare che esprime questa relazione.

Da questo scatterplott vedo che la relazione è positiva, aumenta uno e aumenta l’altro. Ipotizziamo che sia uno scatterplott in cui x sono le calorie e y il peso. Al crescere delle calorie aumenta il peso. Kcal: antecedente logico per il peso. Voglio ora trovare b che mi dice come varia y al variare di x. Devo quindi stimare l’inclinazione della retta. Voglio trovare la retta che minimizza la distanza tra retta e punti, che sia il più vicino possibile a tutti i punti. METODO DEI MINIMI QUADRATI. Trovare l’equazione della retta Quaderno

L’INTERCETTA

Per interpretare correttamente l'intercetta, dobbiamo prima rispondere a due domande. a) E’ ragionevole che la variabile x assuma il valore 0? b) Esiste qualche qualche osservazione osservazione nei dati vicina a x = 0? a x = 0? ⇒ Se la risposta a entrambe le domande è no, allora non possiamo fornire un’interpretazione all’intercetta.

PREVISIONE La retta di regressione dei minimi quadrati può essere utilizzata per fare previsioni della variabile risposta y per valori non osservati della variabile esplicativa x. a. Previsione per valori all’interno del campo di applicazione del modello b. Invece, non si dovrebbe utilizzare la retta di regressione per fare previsioni al di fuori del campo di applicazione del modello, perché non possiamo essere sicuri che la relazione lineare continui ad esistere.