






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Riassunto scritto a mano, presenta tabelle per riassumere e schematizzare gli argomenti
Tipologia: Appunti
1 / 10
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







La statistica aziendale è l’insieme di tecniche quantitative utilizzate per raccogliere, analizzare e interpretare dati economico-gestionali , con l’obiettivo di supportare decisioni informate in ambito aziendale, finanziario e di marketing. Le sue funzioni principali: Descrittiva: sintetizza grandi quantità di dati (medie, varianze, grafici); Inferenziale: deduce informazioni sulla popolazione a partire da campioni; Predittiva: utilizza modelli (regressione, classificazione, cluster) per prevedere comportamenti o risultati. 🔹 1.2 DATI, VARIABILI E SCALE DI MISURA Dato: qualsiasi osservazione o misura rilevata in un’indagine. Variabile: caratteristica osservabile di un fenomeno (es. vendite, prezzo, soddisfazione).
Tipo di variabile Esempio Scala di misura Qualitativa nominale Settore, marca, genere Nominale Qualitativa ordinale
Livello di soddisfazione (basso / medio / alto) Ordinale Quantitativa discreta Numero di dipendenti^ Intervallo Quantitativa continua Fatturato, reddito Rapporto
🔹 1.3 DESCRIZIONE DEI DATI Distribuzioni di frequenza → conteggio e percentuali delle modalità osservate. Misure di posizione → media, mediana, moda. Misure di dispersione → varianza, deviazione standard, coefficiente di variazione. Misure di forma → asimmetria e curtosi. Grafici → istogrammi, box-plot, scatter-plot. 🔹 1.4 STATISTICA DESCRITTIVA E INFERENZIALE Aspetto Statistica descrittiva Statistica inferenziale Scopo Riassumere e rappresentare dati Estendere risultati dal campione alla popolazione Tecniche Media, varianza, tabelle Test d’ipotesi, intervalli di confidenza Esempio aziendale Analisi vendite mensili^ Stima della quota di mercato 🔹 1.5 CAMPIONAMENTO E POPOLAZIONE Popolazione: insieme di tutte le unità d’analisi (es. tutti i clienti). Campione: sottoinsieme rappresentativo della popolazione. Errore campionario: differenza tra valore osservato nel campione e quello reale nella popolazione. Tipi di campionamento: Casuale semplice , Stratificato (divisione in gruppi omogenei), Sistematico (una unità ogni k), Cluster (gruppi eterogenei casuali) 🔹 1.6 CORRELAZIONE E REGRESSIONE LINEARE Correlazione (r): misura la forza e direzione della relazione lineare tra due variabili.
relazione lineare
Errore di I tipo (α): rifiutare un’ipotesi vera. Errore di II tipo (β): non rifiutare un’ipotesi falsa. p-value: probabilità di osservare un risultato uguale o più estremo se l’ipotesi nulla fosse vera.
L’uso del linguaggio R consente di eseguire analisi complesse: importazione dati (funzione read.csv()); analisi descrittive (summary(), mean(), sd()); regressioni (lm()); analisi della varianza (aov()); rappresentazioni grafiche (plot(), ggplot2). In ambito aziendale, R è particolarmente utile per analisi di marketing , performance finanziaria , customer segmentation e forecasting. CAPITOLO 2 – ANALISI DELLA VARIANZA (ANOVA) 🔹 2.1 CONCETTO GENERALE L’ ANOVA – Analysis of Variance è una tecnica statistica che consente di confrontare le medie di più gruppi contemporaneamente, valutando se le differenze osservate siano dovute al caso o a effetti reali. Serve quindi a verificare se una variabile indipendente (fattore) ha un’influenza significativa su una variabile dipendente quantitativa. Esempi aziendali: confronto del fatturato medio tra più regioni di vendita ; confronto della soddisfazione media tra tre campagne pubblicitarie ; verifica se differenti livelli di formazione incidono sulla produttività. 🔹 2.2 PRINCIPIO LOGICO L’ANOVA confronta la variabilità tra i gruppi con la variabilità interna ai gruppi. Variabilità tra gruppi (SSA): misura quanto le medie dei gruppi si discostano dalla media generale. Variabilità entro i gruppi (SSE): misura la dispersione dei valori rispetto alle rispettive medie di gruppo.
Assunzioni: 1 Osservazioni indipendenti. 2 Normalità delle distribuzioni nei gruppi. 3 Omogeneità delle varianze (test di Levene o Bartlett). 🔹 2.4 Definizione ANOVA a una via (One-Way ANOVA) Si usa quando si vuole testare l’effetto di un solo fattore (es. canale di vendita) su una variabile quantitativa (es. vendite). Esempio: confronto del fatturato medio tra tre canali di distribuzione (online, store fisico, rivenditori). 🔹 2.5 SCHEMA DI CALCOLO Fonte di variazione Somma dei quadrati gradi di libertà Varianza media F-ratio Tra gruppi SSA k − 1 MSA = SSA/(k − 1) F = MSA/MSE Entro gruppi SSE N − k MSE = SSE/(N − k) Totale SST = SSA + SSE N − 1
Tre reparti (A, B, C) producono con rese medie diverse.
resa diversa. Per sapere quali, si applicano test post-hoc (Tukey, Bonferroni, Scheffé). 🔹 2.7 ANALISI POST-HOC I test post-hoc servono a individuare quali coppie di medie differiscono. Tukey HSD: confronta tutte le coppie con controllo dell’errore α globale. Bonferroni: più conservativo (divide α per il numero di confronti). Scheffé: adatto per confronti complessi tra combinazioni di gruppi. 🔹 2.8 Obiettivo ANOVA a due vie (Two-Way ANOVA)
Test di Wald: verifica la significatività di ogni coefficiente. Test del rapporto di verosimiglianza (Likelihood Ratio Test): confronta modelli annidati. Matrice di confusione: confronta osservazioni reali e predette. Curva ROC e AUC: misurano la capacità discriminante del modello. 🔹 3.5 ESEMPIO PRATICO IN R model <- glm(acquisto ~ reddito + eta, data=clienti, family=binomial) summary(model) exp(coef(model)) # calcolo degli odds ratio Interpretazione: se il coefficiente di “reddito” = 0.4,
Analisi della propensione all’acquisto. Previsione della fedeltà del cliente. Classificazione di clienti in rischiosi / non rischiosi. Analisi del churn rate (tasso di abbandono). SEZIONE 2 – ANALISI DISCRIMINANTE (LDA E QDA) 🔹 3.7 INTRODUZIONE L’ Analisi Discriminante è una tecnica di classificazione multivariata che consente di assegnare un’osservazione a uno dei gruppi predefiniti sulla base di variabili
indicatori come reddito, età, frequenza di acquisto. 🔹 3.8 LDA – Linear Discriminant Analysis L’ LDA costruisce una funzione discriminante lineare che massimizza la separazione tra
gruppi e quella entro i gruppi. Ipotesi dell’LDA: 1 Varianze-covarianze uguali tra i gruppi. 2 Distribuzione multivariata normale. 3 Osservazioni indipendenti. 🔹 3.9 INTERPRETAZIONE E DECISIONE
gruppo con D più alto o con probabilità posteriore maggiore. Valutazione: Tasso di classificazione corretta , Matrice di confusione , Cross-validation per verificare la stabilità del modello 🔹 3.10 QDA – Quadratic Discriminant Analysis Quando le matrici di covarianza differiscono tra gruppi , l’ipotesi di uguaglianza non è più valida → si utilizza la QDA. Il confine di separazione non è più lineare, ma curvo (quadratico). Questo la rende più flessibile, ma anche più soggetta a overfitting su piccoli campioni. 🔹 3.11 Confronto LDA vs QDA Caratteristica LDA QDA Forma della frontiera Lineare Curva / Quadratica Ipotesi su varianze
Uguali tra gruppi Diverse Complessità Bassa Alta Campioni richiesti Moderati Ampi Rischio overfitting Basso Più alto Interpretazione Più semplice Meno intuitiva 🔹 3.12 APPLICAZIONI AZIENDALI Credit scoring: classificazione clienti solvibili / insolventi. Marketing analytics: segmentazione comportamentale. HR analytics: previsione abbandono dipendenti. Controllo qualità: classificazione prodotti difettosi / conformi. 🔹 3.13 IMPLEMENTAZIONE IN R library(MASS)
mod_lda <- lda(gruppo ~ x1 + x2 + x3, data=dati) predict(mod_lda, newdata=dati_test)$class Output: prior probabilities = probabilità a priori dei gruppi; means = medie di ciascun gruppo; scaling = coefficienti discriminanti. CAPITOLO 4 – ANALISI IN COMPONENTI PRINCIPALI (PCA) 🔹 4.1 OBIETTIVO GENERALE L’ Analisi in Componenti Principali (Principal Component Analysis – PCA) è una tecnica statistica multivariata utilizzata per ridurre la dimensionalità di un insieme di variabili correlate, mantenendo la maggior parte dell’informazione originaria. Scopo principale:
(PC), che siano non correlate e ordinate in base alla varianza spiegata. 🔹 4.2 LOGICA DI BASE Le componenti principali sono combinazioni lineari delle variabili originali:
La prima componente (PC1) spiega la quota più elevata di varianza totale; le componenti successive spiegano varianza residua, mantenendosi ortogonali tra loro. In pratica, la PCA consente di riassumere molti indicatori in poche dimensioni interpretative (es. “redditività” “efficienza”, “innovazione”). 🔹 4.3 MATRICE DI COVARIANZA E DI CORRELAZIONE La PCA può essere condotta su due matrici: Matrice di covarianza: se le variabili hanno unità di misura simili.
espressi in unità diverse. 🔹 4.4 PROCEDURA DI CALCOLO
per evitare che variabili con scala
maggiore dominino l’analisi.
Le componenti devono essere interpretabili a livello aziendale 🔹 4.6 INTERPRETAZIONE DEI RISULTATI Elemento Significato Loadings (pesi) Correlazioni tra variabili originali e componenti Scores (punteggi) Coordinate delle osservazioni nello spazio delle componenti Autovalori (eigenvalues) Varianza spiegata da ciascuna componente Varianza cumulata Percentuale di informazione mantenuta dalle prime componenti Esempio: PC1 = “dimensione economica” (fatturato, utile, costi totali); PC2 = “efficienza gestionale” (produttività, ROI, costi/ricavi). 🔹 4.7 OUTPUT TIPICO IN R pca <- prcomp(dati, scale=TRUE)
Gerarchici Costruiscono una gerarchia di gruppi annidati
Single linkage, complete linkage, average linkage, Ward Non gerarchici
Suddividono i dati in un numero prefissato di cluster K-means, K-medoids
🔹 5.3 LOGICA DEL METODO CLUSTER GERARCHICO L’ analisi gerarchica costruisce una struttura ad albero (dendrogramma) , dove le unità si uniscono progressivamente in gruppi. 1 Ogni osservazione parte come un cluster individuale. 2 Si calcolano le distanze tra tutti i cluster. 3 Si uniscono i due cluster più simili. 4 Si ripete finché rimane un solo cluster. 🔹 5.4 MISURE DI DISTANZA Distanza Formula Uso
k
Manhattan ( d_{ij} = \sum_k x_{ik} - x_{jk} Mahalanobi
Metodo Descrizione Single linkage
unisce cluster con la minima distanza tra due elementi (effetto “chain”) Complete linkage usa la massima distanza tra elementi di due cluster Average linkage considera la distanza media tra tutte le coppie di elementi Ward minimizza l’aumento della varianza interna → il più usato in ambito aziendale
🔹 5.6 DENDROGRAMMA E SCELTA DEI CLUSTER Il dendrogramma mostra le fusioni tra cluster: sull’asse delle ordinate c’è la distanza di fusione , su quello delle ascisse le osservazioni. Numero ottimale di cluster → tagliare il dendrogramma a un’altezza che produce gruppi interpretabili e coerenti. Un salto improvviso nella distanza indica la fusione di cluster disomogenei → punto ideale di taglio. 🔹 5.7 Esempio in R d <- dist(scale(dati)) # matrice delle distanze hc <- hclust(d, method="ward.D2") # clustering gerarchico di Ward plot(hc, labels=FALSE, hang=-1) rect.hclust(hc, k=4, border="red") # visualizza 4 cluster 🔹 5.8 LOGICA DEL METODO K-MEANS CLUSTERING Il K-means è un algoritmo iterativo non gerarchico che suddivide le osservazioni in K gruppi predefiniti, minimizzando la distanza intra-cluster e massimizzando quella inter- cluster. 🔹 5.9 PROCEDURA OPERATIVA
osservazione viene assegnata al centroide più vicino. 4 Si ricalcolano i centroidi come media delle osservazioni assegnate.5 Si ripete fino alla convergenza (nessun cambiamento nelle assegnazioni). 🔹 5.10 FUNZIONE OBIETTIVO
k = 1
K
i ∈ C (^) k
L’algoritmo minimizza la somma dei quadrati delle distanze intra- cluster (Within-Cluster Sum of Squares, WCSS). 🔹 5.11 SCELTA DEL NUMERO OTTIMALE DI CLUSTER
Metodo Descrizione Elbow Method Grafico di WCSS vs K → punto in cui la curva “si piega” Silhouette Index Misura la qualità della separazione dei cluster (0–1) Gap Statistic Confronta la dispersione con quella attesa da un campione casuale 📊 In R: wss <- sapply(1:10, function(k) { kmeans(dati, k)$tot.withinss }) plot(1:10, wss, type="b") # Metodo del gomito 🔹 5.12 INTERPRETAZIONE DEI RISULTATI Ogni centroide rappresenta il profilo medio del cluster. Si analizzano le variabili più elevate o più basse rispetto alla media generale per descrivere il gruppo. I cluster devono essere coerenti, numericamente equilibrati e interpretabili. Esempio: Cluster 1 → clienti giovani, spesa bassa; Cluster 2 → clienti fedeli, spesa media; Cluster 3 → clienti premium, spesa elevata. 🔹 5.13 IMPLEMENTAZIONE IN R set.seed(123) km <- kmeans(scale(dati), centers=3, nstart=25) km$centers # coordinate dei centroidi km$cluster # assegnazione dei gruppi fviz_cluster(km, data=scale(dati)) # visualizzazione grafica 🔹 5.14 CONFRONTO TRA METODI Caratteristica Gerarchico K-Means Numero di cluster Determinato ex post Fissato a priori Stabilità Alta Dipende da inizializzazione Complessità O(n²) O(n × k × iterazioni) Interpretazione Dendrogramma Centroidi numerici Uso tipico Analisi esplorativa Segmentazione operativa 🔹 5.15 APPLICAZIONI AZIENDALI Area Esempio d’uso Marketing Segmentazione dei clienti in base a comportamento e spesa Finanza Raggruppamento di aziende per profilo di rischio Produzione Classificazione dei prodotti per performance qualitative HR Analytics Raggruppamento dipendenti per competenze o produttività CRM e Data Mining
Individuazione di profili di clientela simili per strategie mirate 🔹 5.16 INTEGRAZIONE PCA + CLUSTER Spesso la PCA è utilizzata prima del clustering per ridurre la dimensionalità: le prime componenti principali sostituiscono le variabili originali; si effettua poi il K-means o il clustering gerarchico sui nuovi fattori. Questo approccio migliora la stabilità e la leggibilità dei cluster , riducendo il rumore e la correlazione tra variabili. 🔹 5.17 SINTESI CONCLUSIVA Aspetto Cluster Gerarchico K-Means Logica Aggregativa (bottom-up) Partizionale (iterativa) Input Matrice di distanze Dati grezzi standardizzati Output Dendrogramma Centroidi e assegnazioni Interpretazione Visiva e strutturale Numerica e sintetica Uso aziendale Analisi esplorativa Segmentazione operativa CAPITOLO 6 – SINTESI E QUADRO RIEPILOGATIVO 🔹 6.1 VISIONE D’INSIEME La statistica aziendale integra strumenti quantitativi per supportare le decisioni manageriali basate sui dati. Le tecniche descritte — ANOVA, regressione logistica, analisi discriminante, PCA e cluster
Risultato: l’azienda elabora strategie di marketing mirate per ciascun segmento. 🔹 6.7 INTERPRETAZIONE E REPORTING La fase conclusiva di ogni analisi statistica aziendale è la traduzione dei risultati in decisioni operative : Comunicare i risultati in modo visivo e comprensibile (grafici, dashboard); Evidenziare variabili chiave e fattori critici di successo ; Integrare i risultati quantitativi con valutazioni qualitative del management. 🔹 6.8 STRUMENTI SOFTWARE I principali strumenti usati in ambito accademico e aziendale sono: Software Caratteristiche R Libero, open-source, completo per analisi avanzate Python (scikit-learn, pandas) Ottimo per automazione e machine learning SPSS / SAS Diffusi in contesti aziendali e di ricerca applicata Excel (Analisi dati) Base, utile per descrittiva e ANOVA semplice Power BI / Tableau Reporting e data visualization 🔹 6.9 LIMITI DELLA STATISTICA AZIENDALE Dipendenza dalla qualità dei dati raccolti ; Interpretazioni errate se non si rispettano le ipotesi dei modelli; Difficoltà di traduzione dei risultati quantitativi in azioni operative; Possibile ipersemplificazione di fenomeni complessi.