

































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Riassunti utili alla preparazione dell’esame di Statistica per le Imprese
Tipologia: Sintesi del corso
1 / 41
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


































Non c’è univocità sulla definizione di Statistica Aziendale né sulle tematiche di sua pertinenza in quanto
riguarda tutte le metodologie statistiche utilizzate nella prassi aziendale. Si può affermare che la statistica
aziendale riguarda tutti i fenomeni aziendali che si prestano ad analisi statistica e per i quali i metodi statistici
possono fornire un supporto al decisore per prendere delle decisioni e agire con una cognizione di causa e
con un supporto ottenuto dall’analisi dei dati statistici. In ogni area di attività vi sono diversi metodi statistici
che si possono utilizzare:
In ambito aziendale ci si trova, spesso, ad avere a che fare con le informazioni le quali sono una risorsa
essenziale per il decisore d’azienda. Però la decisione del management dipende anche dalla quantità e dalla
qualità dell’informazione disponibile. Quindi, il dato a se stante non consente di prendere una decisione
perché non è gestibile da un punto di vista del contenuto dell’informazione. Tale dato per essere utilizzabile
deve essere sintetizzato attraverso metodologie statistiche. Di conseguenza, il dato non è informazione e per
diventare tale necessità di un’elaborazione. In generale, allora, il metodo Statistico consente di:
o Indici di sintesi che rappresentano il centro di una serie di dati (media, mediana, media
armonica, quadratica, moda);
o Indici di sintesi che indicano la variabilità di una serie di dati → come i dati si distribuiscono
intorno al centro (devianza, varianza, scarto quadratico medio, differenza interquartile);
o Indici di forma → esprimono la forma di una distribuzione di una serie di dati. Le distribuzioni
possono essere simmetriche o asimmetriche.
I dati possono essere raggruppati in dati primari e secondari. I dati primari sono informazioni che devono
essere raccolte per la prima volta dall’azienda per analizzare un determinato fenomeno. Essi possono
provenire da: 1) Osservazioni; 2) Esperimenti; 3) Questionari. I dati secondari sono informazioni già esistenti,
utili per scopi scientifici ed economici. Tali dati sono disponibili internamente o esternamente. I loro pregi e
difetti sono:
I dati secondari sono:
commerciali di categoria e Altre organizzazioni.
La popolazione è tutto l’insieme degli elementi oggetto di studio. Gli individui sono i singoli elementi di una
popolazione (es. i libri della biblioteca nazionale è la popolazione; il libro di statistica all’interno della
biblioteca nazionale è un individuo). Sugli individui possono essere rilevate varie caratteristiche dette
variabili (o caratteri ):
suddividono in:
o Continue;
o Discrete.
o Nominali;
o Ordinali.
Il censimento è lo studio di tutti gli individui di una popolazione finita. Il sondaggio è lo studio di una parte
della popolazione. Il campione è la parte della popolazione che viene studiata nel sondaggio.
Dalla popolazione viene estratto un campione e le unità statistiche
appartenenti al campione sono chiamate e 1
, e 2
, …, e n
. Sulle n unità
statistiche si rilevano dei valori individuati con la variabile X, in x 1
, x 2
, …, x n
Ci si riferisce ai campioni, senza studiare tutta la popolazione perché:
Nel sondaggio elementare gli individui sono estratti a sorte dall’insieme degli individui della popolazione.
Per l’estrazione si ricorre alle tavole di numeri casuali. Per la costruzione di una tavola si attribuisce un
numero a ciascuna delle unità statistiche e successivamente si estraggono tanti numeri quanti sono le unità
che si vogliono all’interno del campione.
Una serie statistica può essere rappresentata attraverso tabelle e grafici. Per le variabili discrete la
rappresentazione in tabelle può essere per unità. Le unità sono rappresentate dalla variabile n, i valori distinti
di queste unità sono k, con k ≤ n. Si raggruppano le k modalità differenti e per ciascuna si va calcolare quante
volte si ripete all’interno di ciascuna distribuzione sperimentale. Quindi n 1
rappresenta il numero di unità che
presentano la modalità x i
. Con f 1
si indica la frequenza relativa, ovvero il numero di volte che si presenta la
modalità x i
diviso il totale delle unità statistiche.
Se la variabile è quantitativa, ma continua, è necessario effettuare un
raggruppamento in classi di modalità. C i- 1
i
sono gli estremi inferiore e
superiore della classe. Le parentesi quadre indicano che l’estremo
inferiore è incluso nella classe mentre quello superiore no.
La rappresentazione dei dati campionari potrà allora essere la seguente:
Le ipotesi per stimare i β con il metodo dei minimi quadrati sono le seguenti:
Gli errori devono avere media 0 → 𝐸(𝜀) = 0 questo implica 𝐸(𝑌) = 𝑋𝛽;
Ipotesi di omoschedasticità (gli errori hanno tutti lo stesso tipo di variabilità) →
′
2
𝒏
questo implica 𝑉𝐴𝑅(𝑌) = 𝜎
2
𝒏
sono determinazioni di una variabile deterministica con rango(X) = m+1, ovvero pieno , cioè nessuna
di queste variabili può essere ottenuta attraverso relazioni lineari di altre variabili. Quindi tutti i
vettori X sono linearmente indipendenti. L’assunzione riguardante il rango della matrice X impone
che il n.ro di info campionarie non ridondanti sia almeno pari ai parametri da stimare. Intendendo
per informazioni non ridondanti quelle esprimibili tramite combinazione lineare delle altre;
ipotesi forte che serve per inferenza sulle stime dei parametri determinati. Questa ipotesi include sia
la omoschedasticità 𝑉𝐴𝑅
𝑖
2
che la non correlazione delle variabili casuali errori
𝑖
𝐽
) = 0 per ogni i e j.
Di fatto, le prime 3 ipotesi sono necessarie per poter utilizzare il metodo dei minimi quadrati, mentre la 4°
non è necessaria per il metodo dei minimi quadrati ma è necessaria per fare inferenza sui parametri del
modello di regressione. Nel metodo dei minimi quadrati si utilizza, per la determinazione dei parametri, un
criterio che è quello di ricercare tra gli infiniti valori che si possono attribuire ai parametri quelli che
consentono di avere l’errore al quadrato minimo. L’obiettivo è determinare, sulla base dei dati campionari,
il vettore β delle stime che minimizza:
Per trovare il minimo si deriva rispetto a β e si uguaglia a 0, ottenendo:
da qui si ricava il vettore b delle stime dell’intercetta e dei coefficienti di regressione:
con b che è la stima e β che è lo stimatore. Quando all’interno della formulazione si considerano i termini
generali (X, Y, ecc) allora si parla di stimatore dei minimi quadrati (β), mentre quando nella formulazione si
sostituiscono ai termini generali i valori ottenuti sul campione si parla di stima dei minimi quadrati (b). Le
proprietà dello stimatore dei minimi quadrati sono:
uno stimatore corretto e quindi non distorto;
′
− 1
2
→ la variazia dello stimatore dipende dalla varianza dell’errore.
Se 𝜎
2
non è noto deve essere stimato con il Mean Squared Error (MSE) o errore quadratico medio.
MSE è dato dalla somma degli errori di regressione (SSE) fratto il
n.ro di osservazioni (n) - il n.ro di variabili indipendenti (m) - 1. Da
qui si deduce che:
dove c ii
rappresenta l’i-esimo elemento sulla diagonale della matrice (X’X)
Una volta stimato 𝛽 è necessario misurare la bontà di adattamento del modello stimato ai dati. Tale misura
è effettuata attraverso: 𝑅
2
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑑𝑖 𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛𝑒
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑡𝑜𝑡𝑎𝑙𝑒
Questo rappresenta l’ indice di determinazione lineare , assume valori compresi tra 0 ed 1, ed esprime con
immediatezza quanta parte della variabilità complessiva del fenomeno Y, che si intende spiegare tramite X,
si può attribuire al legame lineare stimato mediante la retta di regressione, per contro 1− R
2
esprime la parte
di variabilità che la regressione stimata non riesce a spiegare e che va imputata a tutte le altre cause
sintetizzate nelle variabili casuali errore.
Nel modello di regressione multipla l’indice di determinazione lineare può presentare alcuni problemi di
calcolo e di interpretazione (ad esempio, in caso di assenza di relazione lineare non è pari a 0). Inoltre, si
dimostra che R
2
, nel caso di regressione lineare multipla, cresce automaticamente al crescere del numero di
variabili indipendenti anche se essa non è significativa per spiegare le variazioni della Y. Per ovviare a questi
2 tipi di problemi viene introdotto R
2
corretto :
che varia sempre tra 0 e 1.
È necessario effettuare un controllo d’ipotesi sul modello. È possibile accertare 2 tipi di ipotesi. La prima
riguarda la significatività del modello totale, quindi va a verificare che tutti i parametri del modello valgono
0, il che equivale a dire che la Y non dipende da nessuna X. Matematicamente si verifica l’ipotesi nulla:
Contro l’ipotesi alternativa H 1
che almeno uno di questi parametri è diverso da 0. Tale ipotesi si controlla con
il test F di Fisher. La statistica test si ottiene dal rapporto tra la varianza di regressione e la varianza di
dispersione del modello:
L’ipotesi nulla viene rigettata se, a un prefissato livello di significatività α, la F così calcolata sui dati campionari
è maggiore del valore della F di Fisher tabulato in corrispondenza di m e (n-m-1) gradi di libertà: F α, m, n−m−
. In
realtà dal momento che si tratta di un test bidirezionale dovremmo, verificare se il valore di F calcolato risulta
compreso nel seguente intervallo:
Se il valore di F, risultasse compreso nell’intervallo, una volta fissato un certo α, accetteremmo l’ipotesi nulla
e quindi affermeremmo che il modello stimato non è significativo, altrimenti si accetterebbe l’ipotesi
alternativa secondo la quale il modello risulterebbe significativo.
La seconda ipotesi che si può verificare riguarda la significatività statistica del legame lineare tra la variabile
dipendente e il singolo regressore X i
. Si tratta di verificare l’ipotesi nulla per cui:
contro l’ipotesi alternativa:
Il test si effettua per ognuno dei parametri del modello beta. L’obiettivo è verificare che ciascuno di essi è
uguale a 0. L’ipotesi alternativa H 1
è che B i
sia diverso da 0. Qualora si dovesse accettare H 0
significa che la
specifica i-esima variabile non ha un legame lineare con la Y. Significato opposto se si dovesse accettare H 1
Tale ipotesi si controlla con il test t di Student. La statistica test si ottiene da:
L’ipotesi nulla viene rigettata se, a un prefissato livello di significatività α, la t così calcolata sui dati campionari
è maggiore del valore della t di Student tabulato in corrispondenza di (n-m-1) gradi di libertà: t α, n-m- 1
Esercizio
Dati
); Reddito della famiglia (X 2
); n.ro di auto
della famiglia (X 3
Si vuole analizzare la relazione tra il numero di Carte di Credito di una famiglia in relazione a tre possibili
variabili di influenza:
Le fasi principali dell’analisi sono:
Stima dei parametri
Per stimare i parametri si utilizza il metodo dei minimi quadrati, che per essere utilizzato devono esistere
delle ipotesi che devono verificarsi sui dati.
Coefficienti Errore Standard Statt Valore di
significatività
Intercetta 0.286 1.606 0.178 0.
Ampiezza della Famiglia 0.635 0.271 2.341 0.
Reddito della famiglia
(in migliaia di euro)
Numero di auto della
famiglia
I coefficienti sono tutti positivi, quindi la relazione che lega ciascuna X alla Y è positiva e diretta. Ciò significa,
ad esempio, che un aumento della variabile X 1
comporta un aumento sulla variabile Y 1
. I coefficienti, inoltre,
indicano di quanto aumenta la Y in seguito ad un aumento unitario di una variabile X, ferme restando le altre
variabili. Ad esempio, se X 1 aumenta di 1 la Y aumenta di 0.635, ferme restando X 2 e X 3. Come sappiano,
l’errore standard indica una misura sulla variabilità della stima. Quanto più basso è l’errore standard tanto
meglio è il risultato. Il risultato della Statt (Statistica t) consente di andare a valutare se la variabile è
significativa o meno. Il valore di significatività indica il livello di probabilità a cui il valore t è significativo.
Dai coefficienti calcoliamo l’ equazione di regressione , che è data da:
1
2
3
Si possono poi ottenere delle misure sulla bontà di adattamento del modello lineare.
R al quadrato 0.
R al quadrato corretto 0.
Si ricorda che R al quadrato varia tra 0 e 1; se fosse pari a 0 indicherebbe la mancanza di adattamento lineare
dei dati; se fosse pari a 1 indicherebbe un buon adattamento al modello dei dati.
Inferenza sui parametri di regressione
Consiste nell’andare a verificare se le variabili X, sulla base del coefficiente riscontrato, sono statisticamente
significative nello spiegare la variabile di risposta (Y). Fissando un valore di significatività che varia tra 0.5 e
0.10, l’unico coefficiente statisticamente significativo per spiegare la Y è quello della variabile X 1
(ampiezza
della famiglia). Questo criterio non tiene conto del fatto che il contributo che la variabile X 1
dà nello spiegare
la variabile Y non è soltanto diretto (sulla base di valori che assume) ma anche indiretto (sulla base dei valori
che assume rispetto alle altre variabili). Quindi, viene utilizzato il criterio di R al quadrato che consente di
stabilire quante variabili includere nel modello.
Regression model selection
Leggenda
Model results (tutti i modelli che si possono verificare)
MSE R-squared Ajusted R-squared Cp Included Variables
Se si decidesse di scegliere un modello con una sola variabile e quindi studiare la Y in funzione di una sola
variabile, secondo il criterio dell’R
2
bisogna scegliere quello più alto. Quindi il 75% dell’informazione
contenuta nei dati verrebbe spiegata dalla relazione con la variabile A. Se si decidesse di scegliere un modello
con 2 variabili dipendenti bisognerebbe scegliere il modello che tiene conto di A e C. Il senso della tabella è
quello di spingere a decidere che tipo di modello scegliere. I criteri da tenere presenti per la scelta sono 2:
2
corretto più alto; Oppure
Dati i criteri, le possibili soluzioni sono:
Si parte da una tabella di dati con p variabili osservate su n unità statistiche e l’obiettivo è quello di sintetizzare
le variabili, cioè passare da p variabili a 1-2 variabili che prendono il nome di componenti principali. Nel
momento in cui si effettua la riduzione si alterano le distanze dei punti dal centro del sistema di riferimento
e delle unità statistiche tra di loro. Quindi l’obiettivo diventa anche quello di ridurre tali distanze quanto
meno possibile, nell’ottica che la distanza, di un punto dagli altri e di un punto dal centro, è l’informazione
contenuta nelle p variabili osservate.
Interpretazione geometrica dell’ACP
Si riportano i dati in una tabella in cui le righe sono le n unità statistiche e le colonne sono le p variabili rilevate
sulle n unità statistiche. La matrice di dati di dimensione (n*p) è denominata X e su di essa si procede con 2
operazioni:
di p medie. Successivamente si vanno a sottrarre ai valori della matrice X tutte le p medie, si ottiene
così la matrice Y (nxp) dove le variabili risultano essere centrate. Pertanto l’effetto centratura è che
la nuova matrice contiene p variabili che hanno tutte media 0. In altri termini, la centratura consiste
nel traslare gli assi cartesiani fino al punto in cui l’origine degli stessi coincide con la media delle
osservazioni;
si divide per lo scarto quadratico medio. L’effetto geometrico è che le nuove variabili, oltre a
centrate, avranno varianza pari 1. Quindi le p variabili della matrice Z (n*p) ottenuta con l’operazione
di standardizzazione, sono a media 0 e varianza 1. Questo consente di svincolare le variabili dalle
rispettive unità di misura, così che sia possibile fare confronti tra di loro.
Dalla matrice X è possibile effettuare 2 tipi di rappresentazioni:
p
o spazio delle unità → Si rappresentano le n righe e quindi gli n punti nello spazio a p dimensioni;
n
o spazio delle variabili → Si rappresentano le p colonne e quindi i p punti nello spazio a n
dimensioni.
Matrice di varianza – covarianza
Data una matrice Y di dimensioni (np), sia Y’ la sua trasposta (pn). La matrice D (chiamata Matrice dei Pesi ),
che ha elementi diversi da 0 solo sulla diagonale e, precisamente, pari ad 1/n. Effettuando l’operazione Y’DY
si ottiene una matrice di dimensioni (p*p), denominata V che prende il nome di matrice di varianza –
covarianza. Nella diagonale della matrice V sono rappresentate le varianze delle p variabili della matrice X;
nei termini extra diagonali la matrice è simmetrica, cioè il valore della riga 2 colonna 1 e uguale al valore della
riga 1 colonna 2.
Matrice di correlazione
La matrice Z (np) è ricavata dal prodotto matriciale tra Y (np) ed M, definita come una matrice diagonale
chiamata Metrica di dimensione (p*p) con elementi pari all’inverso degli scarti quadratici medi delle
rispettive variabili. La matrice Z’ (p*n) è la trasposta della matrice Z ed è ricavata dal prodotto matriciale MY’.
Effettuando il prodotto matriciale tra Z’DZ, dove D è una matrice diagonale di ordine (n*n), si ottiene la
matrice R (p*p) detta
Matrice di Correlazione.
Il problema nell’ACP è cercare un sottospazio a k dimensioni che si adatta meglio alla nuvola dei punti con k
più piccolo di p perdendo la minor informazione possibile. Dato che un quantitativo informativo viene perso
a prescindere. L’obiettivo diventa quello di perdere l’informazione ridondante, cioè comune alle p variabili.
L’Analisi in Componenti Principali determina degli assi fattoriali sui quali proiettare la nube dei punti, in modo
che sia massimo il quadrato delle distanze tra ogni coppia di punti ed il baricentro della nube. Analiticamente,
nell’analisi in R
p
, bisogna determinare degli assi fattoriali per i quali è:
𝐹
2
𝑛
𝑖= 1
Dove d
2
è la distanza degli n punti i da G ovvero il baricentro dei dati. Quindi, l’obiettivo è quello di
massimizzare le distanze al quadrato di questi punti dal centro della nube dei punti. Nella riduzione delle
dimensioni, quindi, bisogna cercare di perdere la minor distanza possibile di ciascun punto dall’origine degli
assi. Invece, nell’analisi in R
n
, bisogna determinare degli assi fattoriali per i quali è:
𝐻
2
𝑝
𝑗= 1
Immaginiamo di avere 2 variabili (p = 2) il cui baricentro è G e l’unità
statistica i. Per ridurre la dimensione da 2 a 1 bisogna proiettare M su un
nuovo asse. L’obiettivo è che GH i
sia il più vicino possibile alla distanza
originaria GM i
→ max GH i
. La proiezione MH i
è di tipo ortogonale, quindi,
forma un angolo retto; di conseguenza massimizzare GH i
equivale a
minimizzare MH i
. MHG è un triangolo rettangolo quindi è possibile
utilizzare il Teorema di Pitagora per la risoluzione del problema.
In altri termini, dato u k
un vettore unitario (u’ k
u k
= 1), la proiezione GH i
del vettore GM i
è definita da Yu k
che
è il prodotto scalare di GMi. Così le n componenti del vettore colonna Yu k
sono le proiezioni degli n punti nel
vettore u k
. Tra i criteri usati per adattare l’insieme degli n punti al sottospazio, il metodo dei minimi quadrati
ortogonale è il più frequentemente usato.
Tale metodo consiste nel minimizzare la somma dei quadrati delle distanze, cioè la quantità:
𝑖
𝑖
2
𝑛
𝑖= 1
Applicando il teorema di Pitagora si ha:
𝑖
𝑖
2
𝑖
2
𝑖
2
Dato che ∑ 𝐺𝑀
𝑖
2
, l’ipotenusa del triangolo rettangolo, è fissa; massimizzare ∑ 𝑀
𝑖
𝑖
𝑛 2
𝑖= 1
equivale a
minimizzare
𝑖
2
Dato che u rappresenta l’unità di misura su cui misurare le n unità statistiche che sto proiettando, allora: per
determinare il primo asse principale u 1
, un vettore colonna (p*1), si indica con ∅
1
le coordinate degli n
individui su u 1
cioè ∅
1
1
, quindi, bisogna massimizzare la forma quadratica di 𝑌𝑢
1
, che equivale a
massimizzare la varianza dei punti proiettati. Tale forma quadratica non è altro che 𝑢
1
′
1
, di conseguenza
si ha:
𝐹
2
(𝑖. 𝐺) = max(𝑢
1
′
′
1
) = max (
𝑛
𝑖= 1
1
′
1
La distanza tra 2 variabili standardizzate può essere scritta nel seguente modo:
2
′
𝑖𝑗
𝑖𝑗
2
𝑖𝑗
2
𝑖𝑗′
2
𝑖𝑗
𝑖𝑗′
Dove i primi 2 termini rappresentano la somma dei quadrati dei punti dal centro pari a 1 per definizione e il
3° termine rappresenta il coefficiente di correlazione. Risolvendo diventa:
2
′
𝑗𝑗
Dove 𝑟 𝑖𝑗
′ è il coefficiente di correlazione che varia tra - 1 e 1.
cos(𝛼
𝑗𝑗
′
Il campo di variazione del coseno è compreso tra - 1 ed 1. In particolare:
La correlazione è:
È necessario considerare, inoltre, le lunghezze dei Vettori Variabili, costruiti unendo l’origine degli assi con il
punto che rappresenta ciascuna variabile. Il valore massimo della coordinata di proiezione sull’asse è pari ad
la variabile risulta essere rappresentata.
Ciò detto il procedimento per la risoluzione del problema di massimizzazione è il medesimo sviluppato nello
spazio R
p
. Le coordinate che prima erano ∅ ora sono 𝜓. Il problema di massimizzazione delle distanze al
quadrato equivale al problema di massimizzazione del quadrato delle coordinate. Andando a porre il vincolo
di norma unitaria dell’asse ricercato si utilizza ancora una volta il metodo di Lagrange:
′
′
𝑘
′
𝐾
𝐾
Derivando rispetto a 𝑉 𝐾
e ponendo uguale a 0 si ottiene l’autovettore associato al primo autovalore della
matrice ZZ’. Per le interpretazioni le variabili vengono confrontate in termini di angoli e, cioè, < è l’angolo tra
le variabili > è la correlazione.
In sintesi, nello spazio R
p
l’equazione caratteristica da risolvere, se si lavora sulla matrice dei dati centrati (Y)
è:
′
𝛼
𝛼
𝛼
Se si lavora sulla matrice standardizzata, cioè quando le variabili sono eterogenee per unità di misura e per
grandezza allora l’equazione caratteristica è:
′
𝛼
𝛼
𝛼
Nello spazio R
n
, l’equazione caratteristica sarà:
𝛼
𝛼
𝛼
Moltiplicando entrambi i membri dell’equazioni R
p
per Z’ si ottiene:
′
′
𝛼
𝛼
′
𝛼
Moltiplicando entrambi i membri dell’equazioni R
n
per Z’ si ottiene:
′
′
𝛼
𝛼
′
𝛼
Semplificando si ottiene che 𝜆 𝛼
𝛼
, quindi i 2 spazi sono legati da questa relazione. È evidente che le 2
soluzioni, che portano ad autovettori differenti, hanno gli stessi autovalori. L’autovettore ottenuto
diagonalizzando Z’Z è:
𝛼
𝛼
𝛼
dove 𝐾 𝛼
è constate si rende necessaria la norma unitaria del vettore 𝑍′𝑉
𝛼
a quella del vettore 𝑢
𝑎
. Grazie a
queste relazioni una volta trovati gli autovettori in uno spazio possiamo trovare quelli dell’altro attraverso le
formule di transizione.
La scelta del numero dei fattori può essere effettuata attraverso 3 metodi:
degli autovalori non spiega più del 75% della varianza:
𝑗
𝑖
𝑘
dove I k
è detto Tasso di Inerzia ed indica l’inerzia spiegata dalle prime k componenti;
variabili standardizzate hanno varianza unitaria;
quei fattori i cui autovalori precedono la regolarizzazione dell’istogramma (cioè, l’istogramma della
variabilità spiegata dalle varie componenti).
Quando si individuano delle osservazioni che oltrepassano le linee
rosse, allora si ferma il processo di produzione per comprendere e
rimuovere le cause di tali anomalie. Tale operazione porterà ad un
miglioramento della capacità dei processi.
Lo strumento, invece, per quantificare la capacità di un processo di
produzione è: lo Studio di Capacità (Process Capability).
Capacità di un processo produttivo : Un processo sarà dichiarato “capace” se dimostra, per la caratteristica
di qualità considerata, di produrre per un periodo di tempo sufficientemente lungo ad un tasso teorico di
non conformità inferiore alle esigenze contrattuali (Limiti di Specificazione). Questo tasso è generalmente
fissato a 0,27%.
In generale, la capacità di un processo:
È valutata per ogni caratteristica;
Dipende dai limiti specificati e dalla dispersione del processo;
Si determina con l’uso delle carte di controllo;
Si può valutare attraverso gli indici di capacità.
Gli Indici di Capacità sono: 1) C P
PK
M
MK
L’utilizzo di questi indici risulta comodo se fatto congiuntamente con le carte di controllo. Altrimenti, oltre a
dover raccogliere i dati, è necessario che la popolazione da cui tali dati sono prelevati, sia distribuita secondo
una distribuzione normale, perché è in relazione ad essa che gli indici sono definiti. La verifica della
distribuzione di un insieme di elementi può essere fatta tramite istogrammi.
Lo studio di capacità confronta l’ampiezza dell’intervallo delle specificazioni (c.d. intervallo di tolleranza) con
l’ampiezza dell’intervallo naturale del processo di produzione; se il 1° è più ampio del 2° allora l’azienda ha
buone probabilità di soddisfare le esigenze del cliente. Per intervallo naturale di un processo di produzione
si intende: l’osservazione, su un certo numero di unità di prodotto, per comprendere quanto sono variate;
quindi è la variabilità intrinseca del fenomeno. I limiti di tolleranza naturale inferiore e superiore sono posti
a valori pari a μ- 3 𝜎 e μ+3𝜎; quindi, per la distribuzione normale, l’intervallo naturale corrisponde ad una
probabilità del 99,73%, ovvero abbiamo una probabilità dello 0,27% di ottenere valori fuori da detto
intervallo.
In particolare: P [μ- 3 𝜎 < X < μ+3𝜎]
Quindi: Lo Studio di capacità di un processo di produzione non è
altro che la misurazione della capacità di un’azienda di soddisfare le
esigenze del cliente, cioè le caratteristiche di qualità del prodotto.
Prima di calcolare gli indici è necessario che la distribuzione della caratteristica di qualità del prodotto sia
normale; inoltre, il processo dev’essere sotto controllo altrimenti, esistendo delle cause speciali di variazione,
sarebbe impossibile prevedere il comportamento futuro del processo.
Gli intervallo di specificazione, definiti dal contratto, sono:
i
= Limite di specificazione inferiore;
s
= Limite di specificazione superiore.
I valori oltre i limiti di Specificazione sono definiti “ non-conformi ”.
Quindi bisogna:
Verificare la normalità del processo di produzione (graficamente verifichiamo l’Istogramma);
Rispettare la condizione di centralità: cioè che la media di processo coincida con la media delle
tolleranze. [𝜇 =
𝑇
𝑖
+𝑇
𝑠
2
, altrimenti C PK
P
Misura il potenziale di processo, come il c pk
sono entrambi indici off-line, cioè riapplicano a processo
produttivo fermo. Si calcola secondo la seguente formula:
𝑃
𝑇
𝑠
−𝑇
𝑖
6 𝜎
dove 𝜎= deviazione standard del processo, è incognita quindi dev’essere stimata.
Questo indice, quindi, è dato dal rapporto tra l’intervallo di specificazione, cioè tra la dispersione ammissibile
per il processo, e l’intervallo naturale, o dispersione naturale. Si utilizza 6 𝜎 perché in una distribuzione
gaussiana, il 99,73% degli elementi è compreso in 6 volte la deviazione standard, quando si hanno
esclusivamente variazioni casuali.
Tale indice è da preferire se la media del processo coincide con il centro delle specificazioni e quindi con la
media di tolleranza. L’indice C P
è un buon indicatore della capacità del processo, ma da solo non può essere
sufficiente. Esso controlla soltanto la dispersione del processo, senza fornire alcune informazioni sulla sua
centratura. Infatti, è possibile che un alto valore del C P
, che dovrebbe indicare un processo capace, produce
in realtà un alto numero di scarti, a causa della deriva della media del processo, vicino ai limiti di tolleranza.
Il C P
indica, dunque, quanto un processo è capace, soltanto se è centrato. Per questo motivo si introduce
l’indice c pk
, che considera anche la posizione del processo rispetto ai limiti di tolleranza.
L’indice CP varia da 0 a +∞. Se:
L’indice CP essendo una variabile causale che si distribuisce come una Х
2
(Chi quadrato) si può calcolare la sua
stima puntuale o una sua stima intervallare.
PK
Misura la “prestazione” del processo. Esso misura sia la dispersione, che la centratura del processo, tenendo
conto dell’ampiezza della distribuzione e della posizione in cui è posta, rispetto al punto medio di specifica.
Il C PK
viene definito come:
𝑃𝐾
𝑠
𝑖
Scegliendo il minore dei 2 valori calcolati, si determina quanto è capace il processo sul lato peggiore, quello
cioè rappresentato dal limite della gaussiana più vicino al limite di tolleranza.
LE CARTE DI CONTROLLO - Lez. 5
Il controllo statistico di processo è un insieme di strumenti utili per raggiungere la stabilità del processo e
migliorare la produttività attraverso la riduzione della variabilità. Ogni processo produttivo è soggetto ad una
sua variabilità intrinseca o naturale. Questa variabilità naturale è il risultato dell’effetto cumulato di molti
piccoli fattori costanti o casuali. Un processo la cui variabilità, sia provocata solo da fattori casuali, o cause
comuni verrà detto sotto controllo. Tra le varie fonti di variabilità ne esistono alcune che influiscono sulla
qualità risultante del prodotto (generalmente dovuti a: macchinari non ben funzionanti, errori dovuti agli
operatori, ecc.). La variabilità prodotta da questi fattori è più evidente di quella prodotta da fattori casuali e
dà luogo in genere ad una prestazione del processo inaccettabile. Le fonti di variabilità che non sono
riconducibili a fattori casuali vengono chiamate fattori specifici o cause speciali. Un processo che stia
funzionando in presenza di fattori specifici viene detto fuori controllo.
Nell’individuare i fattori che generano anomalie e quindi variabilità di un processo produttivo si fa riferimento
a:
il normale svolgimento del processo e ne determinano la fluttuazione naturale all’interno di un
intervallo determinato da un limite di controllo superiore ed uno inferiore (Esempio: cambiamenti
nelle condizioni lavorative).
del processo (Esempio: errore di un operatore). Fin quando non si provvede alla loro eliminazione,
esse continueranno ad influire in maniera imprevedibile sul processo portandolo fuori controllo.
Uno stato di controllo statistico come sostiene Deming non è affatto “uno stato naturale del processo, ma
una conquista fatta per successiva eliminazione, una dopo l’altra, di tutte le cause speciali di variabilità”. La
variabilità è un aspetto ineliminabile di ogni processo produttivo: lo scopo prefissato è allora quello di
minimizzare le cause di variabilità del processo, eliminando tutte le cause di tipo speciale.
Le carte di controllo sono: un documento che consente di monitorare l’andamento di un processo di
produzione allo scopo di renderlo più efficace. Sono, quindi, strumenti grafici di controllo on-line del
processo, del quale forniscono una rappresentazione grafica dell’evoluzione temporale. Dal processo sotto
esame vengono raccolti dei campioni, con i dati necessari dai quali vengono ricavati i parametri statistici
come, media, deviazione standard o il range, essi sono poi riportati sulle Carte. Queste operazioni vengono
compiute per un certo numero di campioni, dopodiché la carta è pronta per essere letta ed interpretata.
Le caratteristiche delle carte di controllo sono:
irregolare sull’esistenza di una causa speciale).
Il principio delle Carte di controllo è: Stabilire dei limiti di controllo tali che la quasi totalità delle osservazioni
fuori dai limiti da controllo siano dovute a delle cause speciali.
Esistono 2 tipologie di Carte di controllo:
di Shewart: Valore centrale ± 3*Scarto Quadratico Medio;
AFNOR: limiti probabilistici (2% 0
In letteratura le carte di controllo si dividono in 2 gruppi:
a) Carte di controllo per variabili
𝑥̅ ; R; S; X (per valori individuali); MR (per valori
individuali)
𝑥̅ = media;
R= Range;
S= Scarto quadratico medio;
X= per valori individuali;
MR=Moving range.
Monitoraggio della tendenza centrale della qualità →𝑥̅ , X.
Monitoraggio della variabilità →R, S, MR.
b) Carte di controllo per attributi
p; np; c; u.
p= monitoraggio della % dei non conformi;
np= monitoraggio del n.ro di prodotti non conformi;
c= monitoraggio del n.ro di difetti per unità di prodotto:
u= monitoraggio n.ro di difetti per prodotto.
Tale tipologia viene utilizzata quando la caratteristica di un prodotto è rappresentabile su una scala continua
di valori ed è possibile descriverla con una misura di centralità e una di variabilità.
Per il monitoraggio di un processo di produzione le carte di controllo vengono utilizzate in coppia (a differenza
delle carte per attributi): una per monitorare la media del processo e l’altra per la dispersione (𝑥̅ ;S);(𝑥̅ ;R).
La combinazione delle carte di controllo aumenta la possibilità di individuare un processo fuori controllo, e
rispetto alla carta singola, fornisce una maggiore quantità di informazioni utili per eliminare le cause
attribuibili.
Scopo:
Assicurare la stabilità di un processo rispetto alla tendenza centrale [𝑥̅ , X];
Assicurare il controllo della dispersione della caratteristica da controllare [R, S, MR].
Tale tipologia viene utilizzata quando la caratteristica di un prodotto è una caratteristica qualitativa, quindi
non misurabile. In questi casi ciascuna unità prodotta viene valutata conforme a seconda che possieda o
meno certi attributi e a seconda del numero di difetti presenti nell’unità prodotta. Le caratteristiche
qualificabili come attributo possono essere classificate come non conformità o non conformi.
essere caratterizzato da una o più non conformità.
Tutte le carte di controllo definiscono una linea centrale e 2 linee di controllo.