




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Il documento contiene i capitoli richiesti al superamento dell'esame: CAP 1 - CAP 2 - CAP 3 - CAP 4. Inoltre il documento è un perfetto connubio tra i capitoli del libro e gli appunti presi a lezione (compresi esempi) Voto ottenuto: 25/30
Tipologia: Sintesi del corso
1 / 114
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































La statistica studia da dove provengono i numeri (cioè come li otteniamo) e come i numeri possono riflettere o sintetizzare la realtà circostante. La statistica è la scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le informazioni al fine di pervenire a una o più conclusioni. In altri termini la statistica fornisce risposte a specifiche domande di ricerca. La statistica fornisce inoltre una misura di probabilità associata ogni conclusione raggiunta. La statistica consente di governare le informazioni al fine di prendere decisioni coscienziosamente. Le decisioni possono essere di natura: Pubblica Di mercato Sociale Politica L’informazione fa riferimento alla raccolta di dati, che se raccolti in modo non corretto producono statistiche distorte. Le parti fondamentali della statistica sono 4:
1. raccolta delle informazioni 2. Sintesi dei dati 3. analisi dei dati con finalità di trarre conclusioni o risposte a relative a specifici aspetti 4. correttezza delle conclusioni e generalizzazione dei risultati a cui siamo pervenuti
Il processo statistico parte dalla raccolta dell'informazione: per informazione si intendono “fatti o proposizioni utilizzati per trarre una conclusione o prendere una decisione”. L’informazione opportunamente codificata e organizzata fornisce i dati: possono essere numerici, come altezza, o non numerici, come il genere. È bene sapere la provenienza dei dati e, soprattutto, considerare le variabili che vi possono essere attorno a un fenomeno. Esempio: uno studio ha dimostrato che i bambini allattati al seno hanno un maggiore QI rispetto a quelli che sono stati alimentati con latte artificiale. Possiamo sostenere che questo studio suggerisce che una madre dovrebbe allattare al seno i suoi bambini? Non necessariamente. Infatti, altri fattori potrebbero, oltre al latte materno, contribuire ad alimentare il QI dei bambini come la genetica. Una situazione come quella ora descritta è ricondotta in statistica alle variabili cosiddette nascoste (“in agguato”) dette anche lurking variable che devono essere considerate con attenzione perchè capita spesso che due variabili siano influenzate da una terza. Un aspetto caratterizzante dei dati è la variabilità : i dati variano e possono variare a loro volta. DEFINIZIONI DELLA STATISTICA popolazione: è l’insieme e intero gruppo di individui studiato. Se mi rivolgo a tante persone, es tutti i consumatori allora si parlerà di popolazione. individuo: è una persona o un oggetto che è membro della popolazione indagata campione: è un sottoinsieme della popolazione che sta per essere studiato. Se mi rivolgo a poche persone allora si parlerà di campione. una statistica: è un descrittore del campione un parametro: è un descrittore della popolazione statistica descrittiva: consiste nell’organizzare e riassumere i dati. Essa descrive i dati attraverso la sintesi numerica, le tabelle e i grafici. Inferenza statistica: se estendiamo i risultati del nostro campione alla popolazione stiamo facendo inferenza statistica. Questa si concentra sui risultati ottenuti da un campione e li estende all’intera popolazione misurandone l’affidabilità. Un obiettivo dell’inferenza statistica è l'utilizzo della statistica per stimare i parametri. Fornisce, inoltre, le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza espresse in termini di probabilità Quando si passa da un campione alla popolazione c'è sempre un grado di incertezza connesso all' accuratezza dei risultati. E infatti ovvio che osservando un campione non si può avere una piena conoscenza della popolazione.
La MISURA di una caratteristica riferita ad una popolazione si definisce PARAMETRO (l’età media degli iscritti alle liste elettorali è di 52 anni). La MISURA di una caratteristica riferita a un campione si definisce STATISTICA (l’età media degli iscritti alle liste elettorali nelle città campione è 52 anni). Il campione si può costruire in modo PROBABILISTICO e NON PROBABILISTICO (tecniche di campionamento). ESEMPIO Per esempio, diciamo che volete conoscere il reddito medio degli abbonati a una particolare rivista. Si estrae un campione casuale di 100 abbonati e si determina che il loro reddito medio è di 27.500 dollari (una statistica). Si conclude che anche il reddito medio della popolazione μ è probabilmente vicino a 27.500 dollari. Questo esempio è un esempio di inferenza statistica. Individuare: 1) la popolazione di riferimento Abbonati rivista (N): la popolazione si indica con le lettere maiuscole 2) il campione 100 rispondenti (n): il campione si indica con le lettere minuscole 3) la statistica utilizzata Reddito medio campione, x: STATISTICA L’inferenza statistica è quella branca della statistica che è capace di estrapolare un dato da un certo campione che è applicabile a tutta la popolazione. Popolazione = insieme di unità statistica Parametro = misure popolazione Statistica = misure campione Distinzione tra parametro e statistica: supponiamo che il 48% degli studenti della vostra università possieda un’auto. Questo valore rappresenta un parametro poiché è una sintesi numerica della popolazione. Supponiamo di estrarre un campione di 100 studenti, da questo campione rileviamo che il 46% degli stessi possiede un'auto. Questo valore rappresenta una statistica perché è la sintesi numerica di un campione. ESEMPIO di ANALISI: L’obiettivo della statistica: domanda di ricerca (chi compra il nuovo prodotto?) I protagonisti: popolazione o campione (mi rivolgo a poche persone o a tutti i consumatori di un prodotto simile?)
Aspetti da misurare: variabili (sono interessato a conoscere il loro gradimento sul package, sulla funzionalità, ecc.) Scoperte: analisi (risultati) La società Gallup ha condotto un sondaggio dal quattro al 7 ottobre 2007 per capire che cosa pensano gli americani circa le vigenti leggi sulla detenzione il controllo delle armi. I ricercatori della Gallup hanno proceduto nel modo seguente:
1. identificare l'obiettivo della ricerca. I ricercatori desideravano determinare la percentuale di americani maggiorenni che erano a favore di leggi più severe per il controllo delle armi. Pertanto, la popolazione oggetto di studio e stata identificata con gli americani che hanno compiuto 18 anni. 2. Raccogliere i dati necessari per rispondere alle domande poste al punto precedente. Sarebbe impensabile intervistare più di 200 milioni di americani che rispondono alle caratteristiche richieste dall' indagine per determinare che cosa pensano riguardo la leggi sul controllo delle armi. Così i ricercatori intervistare un campione di 1010 americani maggiorenni. Di quelli intervistati, 515 affermarono di essere a favore di leggi più rigorose legate alla vendita delle armi da fuoco. 3. Descrivere i dati. Dei 1010 Individui intervistati, il 51% (=515/1010) è risultato favorevole a leggi più severe a copertura della vendita di armi da fuoco. Questa è **una statistica descrittiva poiché il suo valore determinato da un campione.
Genere: variabile qualitativa Temperatura: variabile quantitativa Numero di volte in cui uno studente è andato al cinema: variabile quantitativa Codice di avviamento postale (CAP): è una variabile qualitativa poiché classifica il luogo di destinazione della posta. Sebbene siano codici numerici, la loro somma p sottrazione fornisce risultati privi di significato SIMBOLOGIA: VARIABILI E MODALITA’ X (in maiuscolo): indica i diversi caratteri o variabili, generalmente si utilizza X ma si possono utilizzare anche Y, Z x (in minuscolo): indica le modalità associata all’unità statistica. ATTENZIONE : carattere e modalità devono essere indicati con la stessa lettera, si distinguono solo per il maiuscolo (variabili) e minuscolo (modalità).
Possiamo classificare le variabili quantitative in due tipi: discrete e continue
1. una variabile discreta una variabile quantitativa le cui modalità assumono un numero finito o un'infinità numerabile di valori. Il termine numerabile significa che i valori risultano da un conteggio, come 0,1,2,3 e così via. 2. una variabile continua è una variabile quantitativa le cui modalità assumono un numero infinito di possibili valori che non sono numerabili. ESEMPI: il numero di teste ottenuto lanciando cinque volte una moneta: variabile quantitativa discreta perchè contiamo le teste ottenute. I valori possibili che questa variabile può assumere sono 0,1,2,3,4,5. il numero di automobili che arrivano al McDrive tra le 12.00 e le 13.00: è una variabile discreta perché i suoi valori risultano dal conteggio delle automobili. I valori che questa variabile può assumere sono 0,1,2,3,4 e così via. la distanza che una BMW può percorrere: è una variabile continua perché viene misurata L'elenco dei valori osservati di una particolare variabile rappresentano modalità. Il genere è una variabile, le osservazioni di maschi e femmine sono le modalità. Le modalità qualitative sono osservazioni corrispondenti a variabili qualitative le modalità quantitative sono osservazioni corrispondenti a variabile quantitative le modalità discrete sono osservazioni corrispondente a variabili discrete le modalità continue sono osservazioni a variabili continue DETERMINARE LA SCALA DI MISURAZIONE DI UNA VARIABILE Una variabile è rilevata su SCALA NOMINALE se le sue modalità sono nomi, etichette o categorie. Inoltre, fra le modalità stesse non è possibile istituire nessun tipo di ordinamento. Una variabile è rilevata su SCALA ORDINALE se presenta le proprietà della scala nominale e fra le modalità del carattere è possibile istituire uno specifico ordine. Una variabile è rilevata su SCALA A INTERVALLI se gode delle stesse proprietà della scala ordinale e le differenze delle sue modalità hanno significato. Un valore pari a zero nella scala di misurazione a intervalli non significa assenza di quantità. Le operazioni aritmetiche come l'addizione e la sottrazione possono essere effettuate sulle modalità della variabile. Non si possono effettuare confronti perchè lo zero non rappresenta il punto di origine.
Metodo: ci chiediamo prima di tutto se la variabile classifica semplicemente ogni individuo: se si, allora la variabile è su scala nominale. Se invece la variabile esprime una classificazione e permette un ordinamento (ranking) allora la variabile è su scala ordinale. Le differenze fra i valori della variabile sono rilevanti e lo zero non significa assenza di quantità? In questo caso la variabile è su scala a intervalli. I rapporti fra i valori della variabile presentano un significato logico e c’è un naturale punto di partenza fissato a zero? Se fosse così, la variabile è rilevata su scala di rapporti. Mentre per le variabili qualitative vi è una corrispondenza, la situazione si complica nelle quantitative: scala di intervalli (continue o discrete) scala di rapporti (continue o discrete). Soluzione: A) Il genere è una variabile rilevata su scala nominale poiché permette solamente la classificazione di maschi e femmine e fra questi attributi non è possibile fare un ordinamento Desideriamo conoscere la composizione di genere di una parte degli studenti (n=10) nel corso di Fondamenti di statistica o Varabile/carattere: genere o Modalità: maschio, femmina o Unità statistica (n): studenti o Numerosità (n): 10 o Misura: scala nominale B) la temperatura è una variabile misurata su scale intervalli poiché le differenze fra i valori della variabile hanno un senso: 20 ° è 5 ° più calda di 15 °. Notiamo però che il rapporto fra le temperature non ha alcun significato: per esempio 20 ° non significa un caldo doppio di 10 °. Inoltre, 0 ° non significa assenza di calore. C) Il numero di volte che uno studente universitario andato al cinema la scorsa settimana è una variabile misurata su scala di rapporti , poiché il rapporto tra due valori ha senso come pure il valore zero. Per esempio, se lo studente Francesco ha visto quattro film al cinema mentre lo studente Tommaso ha visto solo due film, potremmo affermare che Tommaso ha visto la metà dei film rispetto a Francesco. D) il titolo di studio è una variabile su scala ordinale poiché le modalità che assume la variabile possono essere ordinate: il titolo di scuola superiore più elevato del titolo di terza media. Desideriamo conoscere il titolo di studio dei 15 funzionari del Ministero dei Trasporti o N: 15 o Carattere da rilevare: titolo di studio o Modalità: laurea, elementare, media superiore e inferiore
o Unità statistiche: funzionari o Misura: scala ordinale ALTRI ESEMPI: Valutazione soddisfazione corso di statistica. Il punteggio è una variabile quantitativa di tipo discreto misurabili su scala di intervalli. Giovanna su una scala da 1 a 5 da un punteggio di 2 Andrea su una scala da 1 a 5 da un punteggio di 4 Pasquale su una scala da 1 a 5 da un punteggio di 3 Roberta su una scala da 1 a 5 da un punteggio di 5 Possiamo affermare che Andrea è soddisfatto il doppio di Giovanna? NO. Possiamo affermare che tra Giovanni e Andrea e tra Pasquale e Roberta esiste la stessa distanza di punteggi? SI SCALA DI RAPPORTI La scala di rapporto permette di affermare che un hamburger è il doppio dell’altro. Si può fare quando c’è uno zero significativo di assenza di variabile è condiviso. Lo zero significa l’inizio e l’origine della scala. Le variabili idonee per la scala di rapporto devono essere quantitative Esempio 5: distanza percorsa per raggiungere l’Università: Giovanna 2km Andrea 4km Pasquale 3km Roberta 5km Possiamo afferma che Andrea percorre una distanza doppia di quella di Giovanna? SI perchè c’è uno zero condiviso Possiamo affermare che tra Giovanna e Andrea e tra Pasquale e Roberta esiste la stessa distanza in km? SI
esplicativa, ma ha un effetto sulla variabile risposta. Es si vuole capire se sono meglio le lezioni on-line o tradizionali: le prime vengono svolte la mattina, le seconde il pomeriggio. Se viene fuori che i voti più alti appartengono alla classe on- line, non è detto che ciò è dovuto al metodo on-line. Infatti, forse gli studenti del mattino sono più motivati, e questo è ciò che ha portato a punteggi più alti. È bene precisare che sia le variabili nascoste sia quelle confondenti possono confondere i risultati di uno studio, quindi un ricercatore dovrebbe essere consapevole della loro potenziale esistenza. TIPI DI STUDIO OSSERVAZIONALI Ci sono tre categorie principali di studi osservazionali:
Il campionamento casuale o probabilistico è il processo che utilizza il caso per selezionare gli individui da una popolazione da includere in un campione. Ci sono 4 tecniche di campionamento probabilistico (o piani di campionamento). Il fine è sempre lo stesso: estrarre da una popolazione più ampia un campione (in inglese Sample). Queste tecniche possono essere aggregate in tecniche di campionamento multistadio Un campione non probabilistico (o di convenienza) è un campione nel quale gli individui inclusi nell’indagine sono selezionati in maniera non casuale. I risultati sono poco affidabili e non possono essere generalizzati alla popolazione. Si parla autoselezione del campione. Quanto più la domanda di ricerca è collegata a una popolazione ampia, tanto più si utilizza il metodo di campionamento probabilistico. Se la domanda di ricerca è ristretta, la popolazione si avvicina molto al campione, quindi si può usare il campionamento non probabilistico ma non si possono generalizzare i risultati. CAMPIONE NON PROBABILISTICO Si ha quando ciascuna unità della popolazione è selezionata in maniera non causale e non è nota la sua probabilità di essere inclusa nel campione. Ci sono diversi tipi di campioni non probabilistici, ma i più popolari sono quelli in cui gli individui nel campione si auto selezionano: questi campioni si chiamano a risposta volontaria.
N= numerosità della popolazione N= numerosità del campione La selezione del campione casuale semplice può essere fatta secondo due modalità distinte:
6. Con reinserimento: l’unità selezionata viene reinserita nella popolazione e può essere estratta di nuovo 7. Senza reinserimento: l’unità selezionata viene rimossa dalla popolazione e non può più essere scelta (quasi sempre) ESEMPIO DI CAMPIONAMENTO CAUSALE SEMPLICE: Problema : Sofia ha quattro biglietti per un concerto e i suoi sei amici vorrebbero andare con lei. Sofia decide si selezionare causalmente tre dei suoi amici. a) Fare una lista di tutti i possibili campioni di ampiezza n=3 (senza reinserimento, ossia un soggetto non può apparire due volte) della popolazione di ampiezza N= b) Commentare la possibilità che il campione sia composto da Michele, Luca e Marisa. Metodo : dobbiamo elencare tutte le possibili combinazioni di tre persone scelte tra sei individui possibili. Ricordiamo che nel campionamento casuale semplice ogni campione di grandezza 3 ha uguale possibilità di essere selezionato. Soluzione : ci sono 20 possibili campione di ampiezza 3. Esiste un campione che contiene Michele, Luca e Marisa su 20 possibili campione: questo significa che c’è una possibilità su 20 che il campione causale semplice conterrà Michele, Luca e Marisa. Infatti, tutti i campioni di ampiezza n3 hanno una probabilità su 20 di essere scelti.
Di solito per ottenere un campione casuale semplice da una popolazione, possiamo scrivere i nomi di tutti gli individui su differenti bigliettini di carta e questo era il nome da un cappello. Tuttavia, l'ampiezza della popolazione spesso tale da rendere impossibile un campionamento come quello descritto: tipicamente, ci assegna ogni individuo della popolazione un unico numero compreso tra uno e N, dove N e l'ampiezza della popolazione. Dovendo enumerare gli individui nella popolazione, avremo necessità di possedere un elenco di tutti gli individui appartenenti alla popolazione medesima, che chiameremo lista di campionamento (frame). CAMPIONE STRATIFICATO Un campione stratificato è ottenuto separando la popolazione in gruppi non sovrapposti chiamati strati. Da ogni strato vengono poi estratte le unità con un campionamento casuale semplice. Le unità all’interno di ogni strato dovrebbero essere omogenee rispetto a certe caratteristiche. Si suddivide la popolazione in strati omogenei all’interno (es sesso ed età) e si seleziona casualmente un certo numero di elementi da ogni strato. Se una popolazione N=1560 è suddivisa in maschi e femmine e tra coloro che hanno e non superato l’esame, è utile suddividere in una tabella a doppia entrata. Ogni cello è uno strato ESEMPIO DI CAMPIONAMENTO STRATIFICATO
3. Fermo il 5 cliente e gli faccio il mio questionario, poi si ferma ogni 7 clienti fino a quando non arrivo a “intervistare” 40 clienti. Quindi fermo prima il cliente n 5, poi il numero 12 (7+5), poi il n 19 (12+7) fino ad arrivare a 40. 4. In questo caso ho costruito un campione casuale da una popolazione non particolarmente nota. Fasi del campionamento sistematico: 1. approssimare l’ampiezza della popolazione, se possibile 2. determinare l’ampiezza desiderata del campione n. 3. calco0lare N/n e arrotondare all’intero più vicino. Questo è il valore k 4. selezionare a caso un numero compreso tra 1 e k. Chiamare questo numero p 5. il campione sarà composto dai seguenti individui: p,p + k,p + 2k ... p + (n-1)k CAMPIONE A GRAPPOLO (cluster sampling) Un campione a grappolo è ottenuto suddividendo la popolazione in gruppi omogenei e selezionando tutti gli individui all’interno di un gruppo (cluster) casualmente. Nel campionamento a grappolo, le N unità della popolazione sono suddivise in gruppi eterogenei (grappoli), ciascuno dei quali rispecchia le caratteristiche della popolazione ma su scala ridotta. Mentre nel campionamento stratificato abbiamo scelto noi le variabili, qui i gruppi sono eterogenei e si sono autodefiniti. Esempio: popolazione iscritti all’università. Si creano autonomamente dei gruppi, delle celle in cui gli individui sono confluiti. Il ricercatore sceglie casualmente di estrarre un grappolo piuttosto che un altro.
BIP!!! io il campionamento stratificato e quella a grappolo sono diversi: nel primo dividiamo la popolazione in due o più gruppi omogenei virgola e successivamente otteniamo un campionamento casuale semplice da ogni gruppo. Nel secondo, dividiamo la popolazione in gruppi, ottenendo un campione casuale semplice degli stessi e intervistando tutti gli individui che appartengono ai cluster selezionati. CAMPIONAMENTO A DUE STADI Rappresenta una variante del campionamento a grappoli. Si differenzia da questo poichè sostituisce la fase finale di rilevazione totale delle unità all’interno dei grappoli con un’estrazione casuale. Un campione a due stadi è ottenuto selezionando:
1. Al primo stadio un certo numero di grappoli, con un’estrazione casuale 2. Al secondo stadio, da ciascun grappolo si seleziona un certo numero di unità campionarie , sempre attraverso un’estrazione casuale senza ripetizione Vi sono delle situazioni in cui l’elenco delle unità delle popolazioni (lista) è eccessivamente lungo o complicato da costruire, in tal caso si è soliti ricorrere al campionamento a due stadi che consiste in due estrazioni consecutive.