













































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica introduttiva alla statistica, esplorando le metodologie per la raccolta, l'analisi e l'interpretazione dei dati. Vengono illustrati i concetti fondamentali come la matrice dei dati, le unità statistiche, le variabili e le modalità, essenziali per comprendere come organizzare e analizzare le informazioni. Il testo include anche una classificazione dei caratteri statistici, distinguendo tra dati qualitativi e quantitativi, e offre esempi pratici per facilitare la comprensione dei concetti chiave. Inoltre, vengono presentati i tre concetti fondamentali della statistica: dati e ipotesi, statistica e software statistico, formule, test, concetti ed esempi. Il documento si conclude con domande di autovalutazione per verificare la comprensione dei concetti.
Tipologia: Sbobinature
1 / 85
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!














































































6 marzo Oggi non si può sfuggire ai dati perché nel mondo digitale, vengono raccolti sempre più dati. I dati sono fatti sul mondo e sono costantemente riportati come numeri da un numero sempre più crescente di fonti. Nell’ambito della medicina, qualsiasi medicinale, vaccino viene analizzato tramite analisi statistiche. Chiunque si occupi di business deve scegliere come affrontare questa esplosione di dati:
Per applicare correttamente un’analisi statistica bisogna seguire degli step, per ridurre la possibilità di commettere errori:
Nelle aziende:
Che cos’è la statistica? La statistica è un argomento molto ampio, con applicazioni in un vasto numero di campi diversi. In generale si può dire che la statistica è un insieme di metodologie per raccogliere, analizzare, interpretare i dati e trarre le conclusioni dai dati.
È l’insieme di criteri e metodologie di tipo quantitativo per l’osservazione, l’analisi e l’interpretazione di fenomeni collettivi , generati da un insieme di manifestazioni individuali. Operazioni tipiche delle analisi statistiche sono:
La statistica è un ramo della matematica che tratta l’analisi e l’interpretazione di grandi quantità di dati. Si utilizza per fornire una rappresentazione dei dati sotto forma di grafici o tabelle , oppure per sintetizzarli con indicatori caratteristici. La statistica può essere vista come strumento per conoscere le caratteristiche di un fenomeno a partire dalle informazioni su singole osservazioni.
Nella statistica univariata viene presa una colonna alla volta → nella statistica bivariata si analizzerà anche due colonne contemporaneamente.
3 concetti fondamentali:
7 marzo -La popolazione è l’insieme di individui o oggetti che si vogliono studiare. Questi individui o oggetti vengono denominati unità statistiche. -la variabile è una caratteristica di ogni appartenente alla popolazione. -un campione è una parte della popolazione. -il censimento è lo studio dell’intera popolazione.
Se il carattere che si studia deve avere la proprietà di manifestarsi con differenti modalità nel collettivo. Variabilità = attitudine ad assumere differenti modalità.
Carattere:
Le modalità devono essere esaustive (queste modalità devono coprire tutti i possibili valori e qualità che possono essere verificate) e non sovrapposte (una modalità deve essere esclusiva per l’altra modalità, deve averne una sola).
I dati qualitativi: -I dati qualitativi descrivono una caratteristica particolare di un’osservazione campionaria. Nella maggior parte dei casi non sono numerici. Le modalità del carattere si esprimono tramite attributi→ sondaggi anche numerici (quanto sei soddisfatto da 1 a 10) sono qualitativi perché si traduce il grado di soddisfazione in numeri. -I dati creati assegnando codifiche numeriche alle diverse categorie, senza che tali numeri abbiano un reale significato, sono chiamati dati nominali o sconnessi (es. religione, luogo di nascita, genere, non esiste un ordine naturale delle modalità). -I dati che sono creati assegnando numeri alle categorie dove l’ordine di assegnazione ha un significato sono chiamati dati ordinali o ordinati (es. grado di soddisfazione, posizione in una graduatoria, i mesi dell'anno, esiste un ordine naturale delle modalità). Tra queste due variabili potrò attuare strategie di analisi diverse.
Le scale di Likert sono utilizzate per raccogliere informazioni su atteggiamenti e opinioni incluso il grado di consenso di una affermazione, frequenza di uso, importanza di un argomento, qualità e gradimento. Meglio utilizzare valori dispari, invece che pari.
I dati quantitativi:
I dati quantitativi si distinguono in:
Alcune volte può succedere che ci siano delle variabili continue, ma che vengono trattate come fossero discrete, a causa del metodo di misurazione (es. PIL misurato in milioni di euro senza l’uso dei decimali; l’età in anni, il peso in kg senza decimali).
ESEMPIO : classificazione dei caratteri (autovalutazione) All’uscita di una libreria, supponete di venire coinvolti in un sondaggio dove vi viene chiesto: -Se avete comprato qualcosa, SI O NO→variabile qualitativa nominale; -Se sì, -quanto avete speso (somma spesa) → variabile quantitativa continua; -quanti libri avete acquistato (numero di libri) → variabile quantitativa discreta; -come avete pagato (mezzo di pagamento) → variabile quantitativa nominale. Qual è la vostra condizione lavorativa o non (attività principale) →variabile qualitativa nominale.
Esercizi di autovalutazione: -Un manager deve valutare la resistenza delle lampadine prodotte in un determinato processo produttivo. A questo scopo, il collettivo statistico di lampadine sarà l’intera popolazione di lampadine prodotte oppure un campione di esse? Perché? →il collettivo statistico di una lampadina sarà un campione delle lampadine prodotte e non l’intera popolazione. Motivo: verificare la resistenza delle lampadine spesso implica test distruttivi, quindi non è possibile testare tutte le lampadine prodotte. Si seleziona un campione rappresentativo che permetta di trarre conclusioni affidabili sull’intera produzione.
-Il rettore di un'università vuole sapere che tipo di attività hanno intrapreso i laureati 5 anni dopo il conseguimento del titolo. Qual è la popolazione in studio? (es. 1.2 Pelosi) → La popolazione in studio è di tutti i laureati dell’università in questione, 5 anni dopo il conseguimento del titolo. L’interesse è rivolto a tutti i laureati di un certo periodo.
10 marzo ACQUISIZIONE DEI DATI: Fonte primaria : dati raccolti direttamente
La raccolta dei dati tramite il campionamento viene utilizzata quando selezionare un campione è:
Estrazione del campione:
Statistica descrittiva e inferenza: La statistica descrittiva fornisce gli strumenti per sintetizzare ed esplicitare in forma corretta il modo in cui il fenomeno si è manifestato nel collettivo osservato. Mediante l’inferenza statistica è possibile misurare e controllare l’attendibilità delle informazioni provenienti da un campione→ estrazione del campione.
Statistica descrittiva: metodologie per rappresentare e interpretare un insieme di dati con lo scopo di descriverne e sintetizzarne le caratteristiche. →es. il governo italiano desidera conoscere il numero di disoccupati analizzando dati mensili. L’andamento temporale è evidenziato da una rappresentazione grafica. Un’indicazione sintetica dell’intensità del fenomeno è data dal valore medio. Per avere le variazioni percentuali mese per mese è sufficiente calcolare la serie dei numeri indici a base mobile.
Statistica inferenziale: metodi che consentono di stimare una caratteristica (parametro) della popolazione e di prendere decisioni sulla popolazione basandosi sull’osservazione del campione. →es. un’azienda è interessata ad acquistare uno spazio pubblicitario sulla home page di un sito web. Vuole conoscere la durata media del collegamento degli utenti che accedono a quel sito perché la decisione (se acquistare lo spazio o no) è legata al parametro durata media. Da un campione di accessi al sito si calcola la durata media e il risultato si estende all’intera popolazione. ● la teoria della probabilità è usata per calcolare la verosimiglianza di osservare o selezionare un particolare campione della popolazione. ● le decisioni sono basate su informazioni incomplete e quindi è necessario prendere decisioni in condizioni di incertezza.
Rappresentazione grafica dei dati Presentare le informazioni raccolte nella forma matrice grezza dei dati non ha senso. È utile rappresentarle in forma organizzata e sintetica allo scopo di:
ESERCIZIO EXCEL: copia tabella, inserisci, tabella pivot→ selezionare la tabella; a destra si apre il pannello di lavoro (4 quadranti in basso, a noi servono i due in basso) → numero di addetti nel quadrante righe→ poi per il conteggio si riprende il numero di addetti e si trascina nel quadrante valori. Per cambiare somma in conteggio→ premere freccetta vicino a valori → “impostazioni campo valore” → conteggio
13 marzo Le distribuzioni di frequenza sono delle tabelle che riporta le variabili e le frequenze assolute della modalità della variabile. La somma della colonna delle frequenze deve essere pari al numero delle righe. Frequenze assolute sono le meno utilizzate e perché tutto ciò che è in termini assoluti ci serve di meno, quindi → Frequenze relative e Frequenze relative percentuali (che si ricavano però dalle Frequenze assolute) Il passaggio avviene da assoluto a relativo rimuove il problema della dimensione diversa del campione e della diversa unità di misura, come si fa?
→ quando si sommano le frequenze assolute sommano sempre a n (numerosità del campione), quindi la somma delle funzioni relative sommerà sempre a 1 (perché n/n), cioè 9 sono frequenze che sono limitate superiormente a 1 e inferiormente a 0 (diverso dalle frequenze assolute che invece non hanno limiti)
Frequenze relative e frequenze relative percentuali:
La colonna delle frequenze relative si somma a 1, perché nj/n avrà numero massimo di 1. La frequenza relativa percentuale somma a 100.
Le frequenze assolute dipendono dalla numerosità del campione, quindi non possono essere utilizzate per effettuare confronti tra collettivi con diversa numerosità. Al contrario le frequenze relative e quelle percentuali sono numeri pari. Sì utilizzano per confrontare distribuzioni di frequenza riferite a collettivi di diversa numerosità.
Le frequenze relative percentuali sono quelle più usate e utili perché danno un ordine di grandezza rispetto alle modalità (22,2% dei negozi hanno 3 addetti ecc.). → non si possono fare nelle Tabelle Pivot su excel (solo per frequenze assolute), si usano le funzioni base di excel ● Le frequenze assolute dipendono dal campione quindi non possono essere usati per confrontare collettivi con numerosità diverse ≠ frequenze relative (numero tra 0 e 1) e relative percentuali sono numeri puri e si utilizzano per confrontare distribuzioni di frequenza riferite a collettivi di diversa numerosità.
Esempio di utilizzo delle frequenze relative percentuali: supponiamo che il manager dell’azienda debba valutare se la distribuzione dei punti vendita per numero di addetti in Toscana è diversa da quella di una regione spagnola, la Catalogna. Si sospetta che in Toscana ci siano più punti vendita con pochi addetti rispetto alla Catalogna. Se i due campioni sono di numerosità (n) diversa non si possono confrontare.
Frequenze cumulate : sono una derivazione delle altre tre frequenze, cioè uno strumento che si può applicare alle frequenze assolute, relative e relative percentuali. Cumulate = la somma delle frequenze di tutte le modalità che stanno prima di quella modalità. Rappresenta una porzione del numero totale delle osservazioni e può essere espressa come una frazione, un numero decimale o una percentuale. → si indicano con la maiuscola corrisponde della sua frequenza (N,F,P).
Frequenza assoluta cumulata:
Caratteristiche: ● le classi sono formate da gruppi contigui di modalità (uno di seguito all’altro, senza buchi nel mezzo) ● le classi NON devono sovrapporsi (perché una modalità deve appartenere ad una sola classe) ● le classi devono comprendere tutti i valori dell’insieme di dati ● e classi possono avere uguale ampiezza o diverse ampiezze (si decide osservando i dati, in base al tipo di risultato che si vuole ottenere) Nel caso di classi di uguale ampiezza, la dimensione di ogni classe può essere calcolata seguendo una regola empirica =
In questo caso non ha senso fare la tabella pivot su excel perché ogni valore si ripete solo una volta, in questo caso si raggruppano in 3 classi (decise da noi). → sono intervalli continui ma ci sono anche dei punti in cui si toccano, bisogna decidere in quale intervallo sta quel margine per non sovrapporlo e contare due volte.
Significa decidere quale parte dell'intervallo è aperto o chiuso (se è chiuso significa che quel borso sta nell’intervallo, se è aperto non sta nell’intervallo), per farlo si usano le parentesi :
ESERCIZIO EXCEL - Classi di valori con formula “Frequenza” o “Conta.se”.
17 marzo EXCEL Da una matrice dei dati su un foglio di lavoro Excel, è possibile creare una tabella (distr. di freq. o di quant.) selezionando dal menu “Inserisci” l’opzione “ Tabella Pivot”.
Seguono vari passaggi: Indico dove si trovano i dati da utilizzare (area del foglio Excel) Indico dove voglio che sia prodotta la tabella Dalla finestra di dialogo “Layout” specifico la variabile di classificazione (ad es. VAR1) trascinando il corrispondente pulsante nell’area “RIGA”
Rappresentazioni grafiche:
DIAGRAMMA A BARRE = per variabili quantitative discrete. Rappresenta la frequenza o la frequenza relativa di una tabella di frequenza sotto forma di un rettangolo o barra o colonna :
● grafico a barre tridimensionale → quando si passa dal bidi al tridi si perde un po l’altezza effettiva della barra, nel bidi è un’altezza più reale (se ci sono colonne con poca distanza, nel tridimensionale diventano ancora meno leggibili e informativi) → Il grafico deve essere il più pulito e leggibile possibile! ● grafico a barre multiple (se ci sono più valori, ma non sempre sono leggibili)
CARTOGRAMMA = solo per dati con connotazione geografica, serie territoriali
→ nella legenda si specifica l’intervallo che ricopre quel colore in base ai dati iniziali (è come se si discretizzasse il dato, ma è utile perchè con questo grafico si nota subito la gravità o meno del fenomeno, ha un impatto visivo immediato comprensibile anche per un non esperto di analisi dati)
Si usa anche per confrontare le diverse situazioni geografiche perdendo però il singolo dato con rappresentazioni in classe!! (si potrebbe anche inserire una tabella con valori o il dato esatto sopra ogni area ma diventa meno leggibile).
DIAGRAMMA CARTESIANO = per dati misurati nel tempo, rilevazione si muove nel corso del tempo, per serie storiche
● Serie storica : dati che si muovono nel corso del tempo (dimensione temporale), sempre lo stesso fenomeno ma tempi diversi ● Dati cross section : preciso istante temporale per uno spaccato geografico (dimensione geografica), solo fenomeno ma “luoghi” diversi ● Dati con doppia dimensione “Panel” : sia dimensione geografica che temporale (es. intervista alle stesse persone in anni diversi)
Quando si organizzano e si rappresentano i dati è necessario prestare attenzione a:
Le false impressioni sui dati possono essere create in molti modi:
Un esempio di sintesi selettiva, queste due tabelle raccontano storie completamente diverse: → se si oscurano le colonne finali non si vede che c’è stata una caduta importante nel mercato, cosa che nella colonna iniziale non si nota, le cresciute dell’anno 3 sono dovute al tentativo delle imprese di riottenere quello che avevano perso nei due anni prima (tassi di crescita importanti a seguito di picchi negativi - mercato in recupero, non è una bolla di crescita improvvisa) … si nasconde il motivo della crescita del terzo anno, i dati non sono sbagliati ma oscurati, l'interpretazione è diversa!
→ manca la legenda delle fette e i valori + se si cambia grafico ma il fenomeno è lo stesso anche il colore deve essere lo stesso! (stessa modalità di riposte = stesso valore) … spesso anche excel cambia i colori perchè non vede le stesse modalità
In Excel è facile creare inavvertitamente distorsioni:
Best practices per la rappresentazione dei dati:
ESERCIZIO EXCEL : Disegnare Grafici (Inserisci - Visualizza tutti grafici - Grafici consigliati)
20 marzo Per creare i grafici su excel dobbiamo selezionare la tabella dei dati→ inserisci→ grafici consigliati→ dobbiamo vedere che tipo di variabile è e scegliere poi il tipo di grafico giusto. Si può cambiare titolo→si può cambiare le barre. → aggiungi etichette dati (tasto destro). Per calcolare le frequenze relative e quelle relative %, dobbiamo calcolare il totale e poi fare il calcolo. Per copiare due tabelle dobbiamo copiare, la prima poi tenere premuto CTRL e premere la terza tabella. Per la frequenza relativa %, l’asse verticale dovrebbe avere un massimo di 100.
21 marzo 3- Indici di Posizione o di tendenza centrale Questi si usano per sintetizzare in maniera estrema i dati→ in un solo valore (fino ad ora abbiamo fatto solo una sintesi parziale)
Gli indici di posizione o di tendenza centrale ci daranno modo di trovare il “centro” dei nostri dati (identificabili come una nuvola di punti sulla retta dei numeri). Ci sono più classi di indicatori :
Concetti utili:
MEDIA = (si sottintende la media aritmetica), è un concetto considerato primitivo, cioè si considera innato e intuitivo in ciascun individuo per cui non c’è bisogno di darne una definizione
La media aritmetica sintetizza la posizione (tendenza centrale) della distribuzione di un insieme di dati. Si trova sommando tutti i valori dei dati e dividendo per il numero totale delle osservazioni. ● Il parametro media ignoto della popolazione si identifica con la lettera greca μ (mu). ● la media di un campione è indicata da →
Tendenza centrale (media, mediana, moda)
Variabilità (varianza, campo di variazione, concentrazione, eterogeneità)
Forma (asimmetria)
Tendenza centrale: la media