Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Controllo Statistico dei Processi: Esercizi e Quiz - Prof. Sarnacchiaro, Sintesi del corso di Statistica Economica

Riassunti utili alla preparazione dell’esame di Statistica per le Imprese

Tipologia: Sintesi del corso

2020/2021

Caricato il 17/03/2022

Stefania2503
Stefania2503 🇮🇹

5

(1)

2 documenti

1 / 41

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
RIASSUNTI LEZIONI STATISTICA PER LE IMPRESE
MODELLI LINEARI E TECNICHE FATTORIALI - UNITA’ 1
INTRODUZIONE ALLA STATISTICA PER LE IMPRESE - LEZ.1
Non c’è univocità sulla definizione di Statistica Aziendale né sulle tematiche di sua pertinenza in quanto
riguarda tutte le metodologie statistiche utilizzate nella prassi aziendale. Si può affermare che la statistica
aziendale riguarda tutti i fenomeni aziendali che si prestano ad analisi statistica e per i quali i metodi statistici
possono fornire un supporto al decisore per prendere delle decisioni e agire con una cognizione di causa e
con un supporto ottenuto dall’analisi dei dati statistici. In ogni area di attività vi sono diversi metodi statistici
che si possono utilizzare:
In ambito aziendale ci si trova, spesso, ad avere a che fare con le informazioni le quali sono una risorsa
essenziale per il decisore d’azienda. Però la decisione del management dipende anche dalla quantità e dalla
qualità dell’informazione disponibile. Quindi, il dato a se stante non consente di prendere una decisione
perché non è gestibile da un punto di vista del contenuto dell’informazione. Tale dato per essere utilizzabile
deve essere sintetizzato attraverso metodologie statistiche. Di conseguenza, il dato non è informazione e per
diventare tale necessità di un’elaborazione. In generale, allora, il metodo Statistico consente di:
Generare informazione, elaborando dati grezzi inizialmente privi di valori informativi;
Valorizzare l’informazione esistente mediante indici sintetici. Gli indici di sintesi si suddividono in:
o Indici di sintesi che rappresentano il centro di una serie di dati (media, mediana, media
armonica, quadratica, moda);
o Indici di sintesi che indicano la variabilità di una serie di dati come i dati si distribuiscono
intorno al centro (devianza, varianza, scarto quadratico medio, differenza interquartile);
o Indici di forma esprimono la forma di una distribuzione di una serie di dati. Le distribuzioni
possono essere simmetriche o asimmetriche.
Leggere e impiegare in modo razionale le informazioni probabilistiche ottenute;
Generare informazioni prospettiche (previsioni, modelli di simulazione).
I dati possono essere raggruppati in dati primari e secondari. I dati primari sono informazioni che devono
essere raccolte per la prima volta dall’azienda per analizzare un determinato fenomeno. Essi possono
provenire da: 1) Osservazioni; 2) Esperimenti; 3) Questionari. I dati secondari sono informazioni già esistenti,
utili per scopi scientifici ed economici. Tali dati sono disponibili internamente o esternamente. I loro pregi e
difetti sono:
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29

Anteprima parziale del testo

Scarica Controllo Statistico dei Processi: Esercizi e Quiz - Prof. Sarnacchiaro e più Sintesi del corso in PDF di Statistica Economica solo su Docsity!

RIASSUNTI LEZIONI STATISTICA PER LE IMPRESE

MODELLI LINEARI E TECNICHE FATTORIALI - UNITA’ 1

INTRODUZIONE ALLA STATISTICA PER LE IMPRESE - LEZ.

Non c’è univocità sulla definizione di Statistica Aziendale né sulle tematiche di sua pertinenza in quanto

riguarda tutte le metodologie statistiche utilizzate nella prassi aziendale. Si può affermare che la statistica

aziendale riguarda tutti i fenomeni aziendali che si prestano ad analisi statistica e per i quali i metodi statistici

possono fornire un supporto al decisore per prendere delle decisioni e agire con una cognizione di causa e

con un supporto ottenuto dall’analisi dei dati statistici. In ogni area di attività vi sono diversi metodi statistici

che si possono utilizzare:

In ambito aziendale ci si trova, spesso, ad avere a che fare con le informazioni le quali sono una risorsa

essenziale per il decisore d’azienda. Però la decisione del management dipende anche dalla quantità e dalla

qualità dell’informazione disponibile. Quindi, il dato a se stante non consente di prendere una decisione

perché non è gestibile da un punto di vista del contenuto dell’informazione. Tale dato per essere utilizzabile

deve essere sintetizzato attraverso metodologie statistiche. Di conseguenza, il dato non è informazione e per

diventare tale necessità di un’elaborazione. In generale, allora, il metodo Statistico consente di:

  • Generare informazione, elaborando dati grezzi inizialmente privi di valori informativi;
  • Valorizzare l’informazione esistente mediante indici sintetici. Gli indici di sintesi si suddividono in:

o Indici di sintesi che rappresentano il centro di una serie di dati (media, mediana, media

armonica, quadratica, moda);

o Indici di sintesi che indicano la variabilità di una serie di dati → come i dati si distribuiscono

intorno al centro (devianza, varianza, scarto quadratico medio, differenza interquartile);

o Indici di forma → esprimono la forma di una distribuzione di una serie di dati. Le distribuzioni

possono essere simmetriche o asimmetriche.

  • Leggere e impiegare in modo razionale le informazioni probabilistiche ottenute;
  • Generare informazioni prospettiche (previsioni, modelli di simulazione).

I dati possono essere raggruppati in dati primari e secondari. I dati primari sono informazioni che devono

essere raccolte per la prima volta dall’azienda per analizzare un determinato fenomeno. Essi possono

provenire da: 1) Osservazioni; 2) Esperimenti; 3) Questionari. I dati secondari sono informazioni già esistenti,

utili per scopi scientifici ed economici. Tali dati sono disponibili internamente o esternamente. I loro pregi e

difetti sono:

I dati secondari sono:

  • interni quando si riferiscono a info aziendali su Produzione, Costi, Vendite e Distribuzione;
  • esterni quando provengono da statistiche e rapporti pubblicati da Enti pubblici, Associazioni

commerciali di categoria e Altre organizzazioni.

LA TERMINOLOGIA

La popolazione è tutto l’insieme degli elementi oggetto di studio. Gli individui sono i singoli elementi di una

popolazione (es. i libri della biblioteca nazionale è la popolazione; il libro di statistica all’interno della

biblioteca nazionale è un individuo). Sugli individui possono essere rilevate varie caratteristiche dette

variabili (o caratteri ):

  • quantitative → se la modalità con cui viene espressa è numerica. Le variabili quantitative si

suddividono in:

o Continue;

o Discrete.

  • qualitative → se la modalità che la esprime è verbale. Le variabili qualitative si suddividono in:

o Nominali;

o Ordinali.

Il censimento è lo studio di tutti gli individui di una popolazione finita. Il sondaggio è lo studio di una parte

della popolazione. Il campione è la parte della popolazione che viene studiata nel sondaggio.

Dalla popolazione viene estratto un campione e le unità statistiche

appartenenti al campione sono chiamate e 1

, e 2

, …, e n

. Sulle n unità

statistiche si rilevano dei valori individuati con la variabile X, in x 1

, x 2

, …, x n

Ci si riferisce ai campioni, senza studiare tutta la popolazione perché:

  1. Ci si trova di fronte a risorse limitate;
  2. La popolazione può essere infinita;
  3. Il campione è più esatto della popolazione.

Nel sondaggio elementare gli individui sono estratti a sorte dall’insieme degli individui della popolazione.

Per l’estrazione si ricorre alle tavole di numeri casuali. Per la costruzione di una tavola si attribuisce un

numero a ciascuna delle unità statistiche e successivamente si estraggono tanti numeri quanti sono le unità

che si vogliono all’interno del campione.

Una serie statistica può essere rappresentata attraverso tabelle e grafici. Per le variabili discrete la

rappresentazione in tabelle può essere per unità. Le unità sono rappresentate dalla variabile n, i valori distinti

di queste unità sono k, con k ≤ n. Si raggruppano le k modalità differenti e per ciascuna si va calcolare quante

volte si ripete all’interno di ciascuna distribuzione sperimentale. Quindi n 1

rappresenta il numero di unità che

presentano la modalità x i

. Con f 1

si indica la frequenza relativa, ovvero il numero di volte che si presenta la

modalità x i

diviso il totale delle unità statistiche.

Se la variabile è quantitativa, ma continua, è necessario effettuare un

raggruppamento in classi di modalità. C i- 1

; C

i

sono gli estremi inferiore e

superiore della classe. Le parentesi quadre indicano che l’estremo

inferiore è incluso nella classe mentre quello superiore no.

La rappresentazione dei dati campionari potrà allora essere la seguente:

Le ipotesi per stimare i β con il metodo dei minimi quadrati sono le seguenti:

  1. Gli errori devono avere media 0 → 𝐸(𝜀) = 0 questo implica 𝐸(𝑌) = 𝑋𝛽;

  2. Ipotesi di omoschedasticità (gli errori hanno tutti lo stesso tipo di variabilità) →

2

𝒏

questo implica 𝑉𝐴𝑅(𝑌) = 𝜎

2

𝒏

  1. Matrice di osservazioni X non è stocastica quindi non sono determinazioni di variabili casuali, ma

sono determinazioni di una variabile deterministica con rango(X) = m+1, ovvero pieno , cioè nessuna

di queste variabili può essere ottenuta attraverso relazioni lineari di altre variabili. Quindi tutti i

vettori X sono linearmente indipendenti. L’assunzione riguardante il rango della matrice X impone

che il n.ro di info campionarie non ridondanti sia almeno pari ai parametri da stimare. Intendendo

per informazioni non ridondanti quelle esprimibili tramite combinazione lineare delle altre;

  1. Normalità distributiva dell’errore a cui segue la normalità distributiva della variabile dipendente →

ipotesi forte che serve per inferenza sulle stime dei parametri determinati. Questa ipotesi include sia

la omoschedasticità 𝑉𝐴𝑅

𝑖

2

che la non correlazione delle variabili casuali errori

𝑖

𝐽

) = 0 per ogni i e j.

Di fatto, le prime 3 ipotesi sono necessarie per poter utilizzare il metodo dei minimi quadrati, mentre la 4°

non è necessaria per il metodo dei minimi quadrati ma è necessaria per fare inferenza sui parametri del

modello di regressione. Nel metodo dei minimi quadrati si utilizza, per la determinazione dei parametri, un

criterio che è quello di ricercare tra gli infiniti valori che si possono attribuire ai parametri quelli che

consentono di avere l’errore al quadrato minimo. L’obiettivo è determinare, sulla base dei dati campionari,

il vettore β delle stime che minimizza:

Per trovare il minimo si deriva rispetto a β e si uguaglia a 0, ottenendo:

da qui si ricava il vettore b delle stime dell’intercetta e dei coefficienti di regressione:

con b che è la stima e β che è lo stimatore. Quando all’interno della formulazione si considerano i termini

generali (X, Y, ecc) allora si parla di stimatore dei minimi quadrati (β), mentre quando nella formulazione si

sostituiscono ai termini generali i valori ottenuti sul campione si parla di stima dei minimi quadrati (b). Le

proprietà dello stimatore dei minimi quadrati sono:

  1. 𝐸(𝐵) = 𝛽→ la media dello stimatore è il parametro incognito della popolazione. Si tratta, quindi, di

uno stimatore corretto e quindi non distorto;

− 1

2

→ la variazia dello stimatore dipende dalla varianza dell’errore.

Se 𝜎

2

non è noto deve essere stimato con il Mean Squared Error (MSE) o errore quadratico medio.

MSE è dato dalla somma degli errori di regressione (SSE) fratto il

n.ro di osservazioni (n) - il n.ro di variabili indipendenti (m) - 1. Da

qui si deduce che:

dove c ii

rappresenta l’i-esimo elemento sulla diagonale della matrice (X’X)

  • 1

Una volta stimato 𝛽 è necessario misurare la bontà di adattamento del modello stimato ai dati. Tale misura

è effettuata attraverso: 𝑅

2

𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑑𝑖 𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛𝑒

𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑡𝑜𝑡𝑎𝑙𝑒

Questo rappresenta l’ indice di determinazione lineare , assume valori compresi tra 0 ed 1, ed esprime con

immediatezza quanta parte della variabilità complessiva del fenomeno Y, che si intende spiegare tramite X,

si può attribuire al legame lineare stimato mediante la retta di regressione, per contro 1− R

2

esprime la parte

di variabilità che la regressione stimata non riesce a spiegare e che va imputata a tutte le altre cause

sintetizzate nelle variabili casuali errore.

Nel modello di regressione multipla l’indice di determinazione lineare può presentare alcuni problemi di

calcolo e di interpretazione (ad esempio, in caso di assenza di relazione lineare non è pari a 0). Inoltre, si

dimostra che R

2

, nel caso di regressione lineare multipla, cresce automaticamente al crescere del numero di

variabili indipendenti anche se essa non è significativa per spiegare le variazioni della Y. Per ovviare a questi

2 tipi di problemi viene introdotto R

2

corretto :

che varia sempre tra 0 e 1.

È necessario effettuare un controllo d’ipotesi sul modello. È possibile accertare 2 tipi di ipotesi. La prima

riguarda la significatività del modello totale, quindi va a verificare che tutti i parametri del modello valgono

0, il che equivale a dire che la Y non dipende da nessuna X. Matematicamente si verifica l’ipotesi nulla:

Contro l’ipotesi alternativa H 1

che almeno uno di questi parametri è diverso da 0. Tale ipotesi si controlla con

il test F di Fisher. La statistica test si ottiene dal rapporto tra la varianza di regressione e la varianza di

dispersione del modello:

L’ipotesi nulla viene rigettata se, a un prefissato livello di significatività α, la F così calcolata sui dati campionari

è maggiore del valore della F di Fisher tabulato in corrispondenza di m e (n-m-1) gradi di libertà: F α, m, n−m−

. In

realtà dal momento che si tratta di un test bidirezionale dovremmo, verificare se il valore di F calcolato risulta

compreso nel seguente intervallo:

Se il valore di F, risultasse compreso nell’intervallo, una volta fissato un certo α, accetteremmo l’ipotesi nulla

e quindi affermeremmo che il modello stimato non è significativo, altrimenti si accetterebbe l’ipotesi

alternativa secondo la quale il modello risulterebbe significativo.

La seconda ipotesi che si può verificare riguarda la significatività statistica del legame lineare tra la variabile

dipendente e il singolo regressore X i

. Si tratta di verificare l’ipotesi nulla per cui:

contro l’ipotesi alternativa:

Il test si effettua per ognuno dei parametri del modello beta. L’obiettivo è verificare che ciascuno di essi è

uguale a 0. L’ipotesi alternativa H 1

è che B i

sia diverso da 0. Qualora si dovesse accettare H 0

significa che la

specifica i-esima variabile non ha un legame lineare con la Y. Significato opposto se si dovesse accettare H 1

Tale ipotesi si controlla con il test t di Student. La statistica test si ottiene da:

L’ipotesi nulla viene rigettata se, a un prefissato livello di significatività α, la t così calcolata sui dati campionari

è maggiore del valore della t di Student tabulato in corrispondenza di (n-m-1) gradi di libertà: t α, n-m- 1

ESERCITAZIONE REGRESSIONE MULTIPLA - LEZ. 3

Esercizio

Dati

  • Variabile dipendente (Y) → n.ro di carte di credito possedute da una famiglia (unità di registrazione);
  • 8 famiglie o unità statistiche;
  • 3 variabili indipendenti (X) → Ampiezza della famiglia (X 1

); Reddito della famiglia (X 2

); n.ro di auto

della famiglia (X 3

Si vuole analizzare la relazione tra il numero di Carte di Credito di una famiglia in relazione a tre possibili

variabili di influenza:

Le fasi principali dell’analisi sono:

  1. Stima dei parametri di regressione;
  2. L’inferenza sui parametri di re;
  3. Regressione lineare multipla (test di ipotesi e intervalli di confidenza);
  4. Diagnostica di regressione (Plot dei Residui);
  5. Previsioni.

Stima dei parametri

Per stimare i parametri si utilizza il metodo dei minimi quadrati, che per essere utilizzato devono esistere

delle ipotesi che devono verificarsi sui dati.

Coefficienti Errore Standard Statt Valore di

significatività

Intercetta 0.286 1.606 0.178 0.

Ampiezza della Famiglia 0.635 0.271 2.341 0.

Reddito della famiglia

(in migliaia di euro)

Numero di auto della

famiglia

I coefficienti sono tutti positivi, quindi la relazione che lega ciascuna X alla Y è positiva e diretta. Ciò significa,

ad esempio, che un aumento della variabile X 1

comporta un aumento sulla variabile Y 1

. I coefficienti, inoltre,

indicano di quanto aumenta la Y in seguito ad un aumento unitario di una variabile X, ferme restando le altre

variabili. Ad esempio, se X 1 aumenta di 1 la Y aumenta di 0.635, ferme restando X 2 e X 3. Come sappiano,

l’errore standard indica una misura sulla variabilità della stima. Quanto più basso è l’errore standard tanto

meglio è il risultato. Il risultato della Statt (Statistica t) consente di andare a valutare se la variabile è

significativa o meno. Il valore di significatività indica il livello di probabilità a cui il valore t è significativo.

Dai coefficienti calcoliamo l’ equazione di regressione , che è data da:

1

2

3

Si possono poi ottenere delle misure sulla bontà di adattamento del modello lineare.

R al quadrato 0.

R al quadrato corretto 0.

Si ricorda che R al quadrato varia tra 0 e 1; se fosse pari a 0 indicherebbe la mancanza di adattamento lineare

dei dati; se fosse pari a 1 indicherebbe un buon adattamento al modello dei dati.

Inferenza sui parametri di regressione

Consiste nell’andare a verificare se le variabili X, sulla base del coefficiente riscontrato, sono statisticamente

significative nello spiegare la variabile di risposta (Y). Fissando un valore di significatività che varia tra 0.5 e

0.10, l’unico coefficiente statisticamente significativo per spiegare la Y è quello della variabile X 1

(ampiezza

della famiglia). Questo criterio non tiene conto del fatto che il contributo che la variabile X 1

dà nello spiegare

la variabile Y non è soltanto diretto (sulla base di valori che assume) ma anche indiretto (sulla base dei valori

che assume rispetto alle altre variabili). Quindi, viene utilizzato il criterio di R al quadrato che consente di

stabilire quante variabili includere nel modello.

Regression model selection

Leggenda

  • Dependent variable: numero di carte di credito
  • Independent variable: A= Ampiezza della famiglia; B= N. di auto; C = Reddito.

Model results (tutti i modelli che si possono verificare)

MSE R-squared Ajusted R-squared Cp Included Variables

0.91 75.0649 70.91 3.79524 A

3.14 14.2857 0.0 23.6081 B

1.15 68.7292 63.52 5.77594 C

0.96 78.2743 69.58 4.79194 AB

0.61 86.1376 80.59 2.33369 AC

1.33 69.6696 57.54 7.48195 BC

0.70 87.205 77.61 4.0 ABC

Se si decidesse di scegliere un modello con una sola variabile e quindi studiare la Y in funzione di una sola

variabile, secondo il criterio dell’R

2

bisogna scegliere quello più alto. Quindi il 75% dell’informazione

contenuta nei dati verrebbe spiegata dalla relazione con la variabile A. Se si decidesse di scegliere un modello

con 2 variabili dipendenti bisognerebbe scegliere il modello che tiene conto di A e C. Il senso della tabella è

quello di spingere a decidere che tipo di modello scegliere. I criteri da tenere presenti per la scelta sono 2:

  1. Scegliere il modello con R

2

corretto più alto; Oppure

  1. scegliere il modello con meno variabili (facilita l’interpretazione).

Dati i criteri, le possibili soluzioni sono:

  1. Se si sceglie il criterio 2 → modello che tiene conto solo della variabile A;
  2. Se si sceglie il criterio 1 → modello che tiene conto delle variabili A e C.

Si parte da una tabella di dati con p variabili osservate su n unità statistiche e l’obiettivo è quello di sintetizzare

le variabili, cioè passare da p variabili a 1-2 variabili che prendono il nome di componenti principali. Nel

momento in cui si effettua la riduzione si alterano le distanze dei punti dal centro del sistema di riferimento

e delle unità statistiche tra di loro. Quindi l’obiettivo diventa anche quello di ridurre tali distanze quanto

meno possibile, nell’ottica che la distanza, di un punto dagli altri e di un punto dal centro, è l’informazione

contenuta nelle p variabili osservate.

Interpretazione geometrica dell’ACP

Si riportano i dati in una tabella in cui le righe sono le n unità statistiche e le colonne sono le p variabili rilevate

sulle n unità statistiche. La matrice di dati di dimensione (n*p) è denominata X e su di essa si procede con 2

operazioni:

  1. Centratura → partendo dalla matrice X si calcolano le medie delle p variabili, ottenendo un vettore

di p medie. Successivamente si vanno a sottrarre ai valori della matrice X tutte le p medie, si ottiene

così la matrice Y (nxp) dove le variabili risultano essere centrate. Pertanto l’effetto centratura è che

la nuova matrice contiene p variabili che hanno tutte media 0. In altri termini, la centratura consiste

nel traslare gli assi cartesiani fino al punto in cui l’origine degli stessi coincide con la media delle

osservazioni;

  1. Standardizzazione → si effettua quando, oltre ad andare a sottrarre a tutti i valori la media aritmetica

si divide per lo scarto quadratico medio. L’effetto geometrico è che le nuove variabili, oltre a

centrate, avranno varianza pari 1. Quindi le p variabili della matrice Z (n*p) ottenuta con l’operazione

di standardizzazione, sono a media 0 e varianza 1. Questo consente di svincolare le variabili dalle

rispettive unità di misura, così che sia possibile fare confronti tra di loro.

Dalla matrice X è possibile effettuare 2 tipi di rappresentazioni:

1. R

p

o spazio delle unità → Si rappresentano le n righe e quindi gli n punti nello spazio a p dimensioni;

2. R

n

o spazio delle variabili → Si rappresentano le p colonne e quindi i p punti nello spazio a n

dimensioni.

Matrice di varianza – covarianza

Data una matrice Y di dimensioni (np), sia Y’ la sua trasposta (pn). La matrice D (chiamata Matrice dei Pesi ),

che ha elementi diversi da 0 solo sulla diagonale e, precisamente, pari ad 1/n. Effettuando l’operazione Y’DY

si ottiene una matrice di dimensioni (p*p), denominata V che prende il nome di matrice di varianza –

covarianza. Nella diagonale della matrice V sono rappresentate le varianze delle p variabili della matrice X;

nei termini extra diagonali la matrice è simmetrica, cioè il valore della riga 2 colonna 1 e uguale al valore della

riga 1 colonna 2.

Matrice di correlazione

La matrice Z (np) è ricavata dal prodotto matriciale tra Y (np) ed M, definita come una matrice diagonale

chiamata Metrica di dimensione (p*p) con elementi pari all’inverso degli scarti quadratici medi delle

rispettive variabili. La matrice Z’ (p*n) è la trasposta della matrice Z ed è ricavata dal prodotto matriciale MY’.

Effettuando il prodotto matriciale tra Z’DZ, dove D è una matrice diagonale di ordine (n*n), si ottiene la

matrice R (p*p) detta

Matrice di Correlazione.

Il problema nell’ACP è cercare un sottospazio a k dimensioni che si adatta meglio alla nuvola dei punti con k

più piccolo di p perdendo la minor informazione possibile. Dato che un quantitativo informativo viene perso

a prescindere. L’obiettivo diventa quello di perdere l’informazione ridondante, cioè comune alle p variabili.

L’Analisi in Componenti Principali determina degli assi fattoriali sui quali proiettare la nube dei punti, in modo

che sia massimo il quadrato delle distanze tra ogni coppia di punti ed il baricentro della nube. Analiticamente,

nell’analisi in R

p

, bisogna determinare degli assi fattoriali per i quali è:

𝐹

2

𝑛

𝑖= 1

Dove d

2

è la distanza degli n punti i da G ovvero il baricentro dei dati. Quindi, l’obiettivo è quello di

massimizzare le distanze al quadrato di questi punti dal centro della nube dei punti. Nella riduzione delle

dimensioni, quindi, bisogna cercare di perdere la minor distanza possibile di ciascun punto dall’origine degli

assi. Invece, nell’analisi in R

n

, bisogna determinare degli assi fattoriali per i quali è:

𝐻

2

𝑝

𝑗= 1

Immaginiamo di avere 2 variabili (p = 2) il cui baricentro è G e l’unità

statistica i. Per ridurre la dimensione da 2 a 1 bisogna proiettare M su un

nuovo asse. L’obiettivo è che GH i

sia il più vicino possibile alla distanza

originaria GM i

→ max GH i

. La proiezione MH i

è di tipo ortogonale, quindi,

forma un angolo retto; di conseguenza massimizzare GH i

equivale a

minimizzare MH i

. MHG è un triangolo rettangolo quindi è possibile

utilizzare il Teorema di Pitagora per la risoluzione del problema.

In altri termini, dato u k

un vettore unitario (u’ k

u k

= 1), la proiezione GH i

del vettore GM i

è definita da Yu k

che

è il prodotto scalare di GMi. Così le n componenti del vettore colonna Yu k

sono le proiezioni degli n punti nel

vettore u k

. Tra i criteri usati per adattare l’insieme degli n punti al sottospazio, il metodo dei minimi quadrati

ortogonale è il più frequentemente usato.

Tale metodo consiste nel minimizzare la somma dei quadrati delle distanze, cioè la quantità:

𝑖

𝑖

2

𝑛

𝑖= 1

Applicando il teorema di Pitagora si ha:

𝑖

𝑖

2

𝑖

2

𝑖

2

Dato che ∑ 𝐺𝑀

𝑖

2

, l’ipotenusa del triangolo rettangolo, è fissa; massimizzare ∑ 𝑀

𝑖

𝑖

𝑛 2

𝑖= 1

equivale a

minimizzare

𝑖

2

Dato che u rappresenta l’unità di misura su cui misurare le n unità statistiche che sto proiettando, allora: per

determinare il primo asse principale u 1

, un vettore colonna (p*1), si indica con ∅

1

le coordinate degli n

individui su u 1

cioè ∅

1

1

, quindi, bisogna massimizzare la forma quadratica di 𝑌𝑢

1

, che equivale a

massimizzare la varianza dei punti proiettati. Tale forma quadratica non è altro che 𝑢

1

1

, di conseguenza

si ha:

𝐹

2

(𝑖. 𝐺) = max(𝑢

1

1

) = max (

𝑛

𝑖= 1

1

1

La distanza tra 2 variabili standardizzate può essere scritta nel seguente modo:

2

𝑖𝑗

𝑖𝑗

2

𝑖𝑗

2

𝑖𝑗′

2

𝑖𝑗

𝑖𝑗′

Dove i primi 2 termini rappresentano la somma dei quadrati dei punti dal centro pari a 1 per definizione e il

3° termine rappresenta il coefficiente di correlazione. Risolvendo diventa:

2

𝑗𝑗

Dove 𝑟 𝑖𝑗

′ è il coefficiente di correlazione che varia tra - 1 e 1.

cos(𝛼

𝑗𝑗

Il campo di variazione del coseno è compreso tra - 1 ed 1. In particolare:

  • Il cos (0°) = 1;
  • Il cos (90°) = 0;
  • Il cos (180°) = - 1.

La correlazione è:

  • Nulla quando r = 0 e quindi d = 2 e allora le 2 due variabili sono ortogonali tra di loro (= 90°);
  • Positiva , quando r = 1 e quindi d = 0 e allora le 2 variabili formano un angolo acuto (< 90°);
  • Negativa , quando r = - 1 e quindi d = 4 e allora le 2 variabili formano un angolo ottuso (> 90°).

È necessario considerare, inoltre, le lunghezze dei Vettori Variabili, costruiti unendo l’origine degli assi con il

punto che rappresenta ciascuna variabile. Il valore massimo della coordinata di proiezione sull’asse è pari ad

  1. Tale proiezione rappresenta la “qualità della rappresentazione”: più essa è vicina al valore unitario, meglio

la variabile risulta essere rappresentata.

Ciò detto il procedimento per la risoluzione del problema di massimizzazione è il medesimo sviluppato nello

spazio R

p

. Le coordinate che prima erano ∅ ora sono 𝜓. Il problema di massimizzazione delle distanze al

quadrato equivale al problema di massimizzazione del quadrato delle coordinate. Andando a porre il vincolo

di norma unitaria dell’asse ricercato si utilizza ancora una volta il metodo di Lagrange:

𝑘

𝐾

𝐾

Derivando rispetto a 𝑉 𝐾

e ponendo uguale a 0 si ottiene l’autovettore associato al primo autovalore della

matrice ZZ’. Per le interpretazioni le variabili vengono confrontate in termini di angoli e, cioè, < è l’angolo tra

le variabili > è la correlazione.

In sintesi, nello spazio R

p

l’equazione caratteristica da risolvere, se si lavora sulla matrice dei dati centrati (Y)

è:

𝛼

𝛼

𝛼

Se si lavora sulla matrice standardizzata, cioè quando le variabili sono eterogenee per unità di misura e per

grandezza allora l’equazione caratteristica è:

𝛼

𝛼

𝛼

Nello spazio R

n

, l’equazione caratteristica sarà:

𝛼

𝛼

𝛼

Moltiplicando entrambi i membri dell’equazioni R

p

per Z’ si ottiene:

𝛼

𝛼

𝛼

Moltiplicando entrambi i membri dell’equazioni R

n

per Z’ si ottiene:

𝛼

𝛼

𝛼

Semplificando si ottiene che 𝜆 𝛼

𝛼

, quindi i 2 spazi sono legati da questa relazione. È evidente che le 2

soluzioni, che portano ad autovettori differenti, hanno gli stessi autovalori. L’autovettore ottenuto

diagonalizzando Z’Z è:

𝛼

𝛼

𝛼

dove 𝐾 𝛼

è constate si rende necessaria la norma unitaria del vettore 𝑍′𝑉

𝛼

a quella del vettore 𝑢

𝑎

. Grazie a

queste relazioni una volta trovati gli autovettori in uno spazio possiamo trovare quelli dell’altro attraverso le

formule di transizione.

La scelta del numero dei fattori può essere effettuata attraverso 3 metodi:

  • Tasso di inerzia : tale metodo consiste nel considerare tante componenti fino a che la sommatoria

degli autovalori non spiega più del 75% della varianza:

𝑗

𝑖

𝑘

dove I k

è detto Tasso di Inerzia ed indica l’inerzia spiegata dalle prime k componenti;

  • Eigenvalue-one : tale metodo consiste nel considerare tutte le componenti con λ>1, in quanto le

variabili standardizzate hanno varianza unitaria;

  • Scree-test : tale metodo consiste nel considerare le componenti prima del “ Salto Massimo ”, ossia

quei fattori i cui autovalori precedono la regolarizzazione dell’istogramma (cioè, l’istogramma della

variabilità spiegata dalle varie componenti).

Quando si individuano delle osservazioni che oltrepassano le linee

rosse, allora si ferma il processo di produzione per comprendere e

rimuovere le cause di tali anomalie. Tale operazione porterà ad un

miglioramento della capacità dei processi.

Lo strumento, invece, per quantificare la capacità di un processo di

produzione è: lo Studio di Capacità (Process Capability).

STUDIO DI CAPACITÀ

Capacità di un processo produttivo : Un processo sarà dichiarato “capace” se dimostra, per la caratteristica

di qualità considerata, di produrre per un periodo di tempo sufficientemente lungo ad un tasso teorico di

non conformità inferiore alle esigenze contrattuali (Limiti di Specificazione). Questo tasso è generalmente

fissato a 0,27%.

In generale, la capacità di un processo:

  1. È valutata per ogni caratteristica;

  2. Dipende dai limiti specificati e dalla dispersione del processo;

  3. Si determina con l’uso delle carte di controllo;

  4. Si può valutare attraverso gli indici di capacità.

Gli Indici di Capacità sono: 1) C P

; 2) C

PK

; 3) C

M

; 4) C

MK

L’utilizzo di questi indici risulta comodo se fatto congiuntamente con le carte di controllo. Altrimenti, oltre a

dover raccogliere i dati, è necessario che la popolazione da cui tali dati sono prelevati, sia distribuita secondo

una distribuzione normale, perché è in relazione ad essa che gli indici sono definiti. La verifica della

distribuzione di un insieme di elementi può essere fatta tramite istogrammi.

Lo studio di capacità confronta l’ampiezza dell’intervallo delle specificazioni (c.d. intervallo di tolleranza) con

l’ampiezza dell’intervallo naturale del processo di produzione; se il 1° è più ampio del 2° allora l’azienda ha

buone probabilità di soddisfare le esigenze del cliente. Per intervallo naturale di un processo di produzione

si intende: l’osservazione, su un certo numero di unità di prodotto, per comprendere quanto sono variate;

quindi è la variabilità intrinseca del fenomeno. I limiti di tolleranza naturale inferiore e superiore sono posti

a valori pari a μ- 3 𝜎 e μ+3𝜎; quindi, per la distribuzione normale, l’intervallo naturale corrisponde ad una

probabilità del 99,73%, ovvero abbiamo una probabilità dello 0,27% di ottenere valori fuori da detto

intervallo.

In particolare: P [μ- 3 𝜎 < X < μ+3𝜎]

Quindi: Lo Studio di capacità di un processo di produzione non è

altro che la misurazione della capacità di un’azienda di soddisfare le

esigenze del cliente, cioè le caratteristiche di qualità del prodotto.

GLI INDICI DI CAPACITA’

Prima di calcolare gli indici è necessario che la distribuzione della caratteristica di qualità del prodotto sia

normale; inoltre, il processo dev’essere sotto controllo altrimenti, esistendo delle cause speciali di variazione,

sarebbe impossibile prevedere il comportamento futuro del processo.

Gli intervallo di specificazione, definiti dal contratto, sono:

- T

i

= Limite di specificazione inferiore;

- T

s

= Limite di specificazione superiore.

I valori oltre i limiti di Specificazione sono definiti “ non-conformi ”.

Quindi bisogna:

  1. Verificare la normalità del processo di produzione (graficamente verifichiamo l’Istogramma);

  2. Rispettare la condizione di centralità: cioè che la media di processo coincida con la media delle

tolleranze. [𝜇 =

𝑇

𝑖

+𝑇

𝑠

2

]

  1. Se la condizione di centralità viene rispettata allora utilizzeremo l’indice C P

, altrimenti C PK

- INDICE C

P

Misura il potenziale di processo, come il c pk

sono entrambi indici off-line, cioè riapplicano a processo

produttivo fermo. Si calcola secondo la seguente formula:

𝑃

𝑇

𝑠

−𝑇

𝑖

6 𝜎

dove 𝜎= deviazione standard del processo, è incognita quindi dev’essere stimata.

Questo indice, quindi, è dato dal rapporto tra l’intervallo di specificazione, cioè tra la dispersione ammissibile

per il processo, e l’intervallo naturale, o dispersione naturale. Si utilizza 6 𝜎 perché in una distribuzione

gaussiana, il 99,73% degli elementi è compreso in 6 volte la deviazione standard, quando si hanno

esclusivamente variazioni casuali.

Tale indice è da preferire se la media del processo coincide con il centro delle specificazioni e quindi con la

media di tolleranza. L’indice C P

è un buon indicatore della capacità del processo, ma da solo non può essere

sufficiente. Esso controlla soltanto la dispersione del processo, senza fornire alcune informazioni sulla sua

centratura. Infatti, è possibile che un alto valore del C P

, che dovrebbe indicare un processo capace, produce

in realtà un alto numero di scarti, a causa della deriva della media del processo, vicino ai limiti di tolleranza.

Il C P

indica, dunque, quanto un processo è capace, soltanto se è centrato. Per questo motivo si introduce

l’indice c pk

, che considera anche la posizione del processo rispetto ai limiti di tolleranza.

L’indice CP varia da 0 a +∞. Se:

  • 0<CP<0.75 allora la capacità del processo di produzione di soddisfare le esigenze del cliente è scarsa;
  • 0.75<CP<1 allora la capacità è mediocre;
  • 1<CP<1.33 allora è buona;
  • CP>1.33 allora è ottima.

L’indice CP essendo una variabile causale che si distribuisce come una Х

2

(Chi quadrato) si può calcolare la sua

stima puntuale o una sua stima intervallare.

- INDICE C

PK

Misura la “prestazione” del processo. Esso misura sia la dispersione, che la centratura del processo, tenendo

conto dell’ampiezza della distribuzione e della posizione in cui è posta, rispetto al punto medio di specifica.

Il C PK

viene definito come:

𝑃𝐾

= 𝑚𝑖𝑛 [

𝑠

𝑖

]

Scegliendo il minore dei 2 valori calcolati, si determina quanto è capace il processo sul lato peggiore, quello

cioè rappresentato dal limite della gaussiana più vicino al limite di tolleranza.

LE CARTE DI CONTROLLO - Lez. 5

CONCETTI GENERALI

Il controllo statistico di processo è un insieme di strumenti utili per raggiungere la stabilità del processo e

migliorare la produttività attraverso la riduzione della variabilità. Ogni processo produttivo è soggetto ad una

sua variabilità intrinseca o naturale. Questa variabilità naturale è il risultato dell’effetto cumulato di molti

piccoli fattori costanti o casuali. Un processo la cui variabilità, sia provocata solo da fattori casuali, o cause

comuni verrà detto sotto controllo. Tra le varie fonti di variabilità ne esistono alcune che influiscono sulla

qualità risultante del prodotto (generalmente dovuti a: macchinari non ben funzionanti, errori dovuti agli

operatori, ecc.). La variabilità prodotta da questi fattori è più evidente di quella prodotta da fattori casuali e

dà luogo in genere ad una prestazione del processo inaccettabile. Le fonti di variabilità che non sono

riconducibili a fattori casuali vengono chiamate fattori specifici o cause speciali. Un processo che stia

funzionando in presenza di fattori specifici viene detto fuori controllo.

Nell’individuare i fattori che generano anomalie e quindi variabilità di un processo produttivo si fa riferimento

a:

  • Cause comuni : insite nella variabilità di un processo produttivo. Esse sorgono casualmente durante

il normale svolgimento del processo e ne determinano la fluttuazione naturale all’interno di un

intervallo determinato da un limite di controllo superiore ed uno inferiore (Esempio: cambiamenti

nelle condizioni lavorative).

  • Cause speciali : tutte quelle che generano una variabilità anomala rispetto al naturale svolgimento

del processo (Esempio: errore di un operatore). Fin quando non si provvede alla loro eliminazione,

esse continueranno ad influire in maniera imprevedibile sul processo portandolo fuori controllo.

Uno stato di controllo statistico come sostiene Deming non è affatto “uno stato naturale del processo, ma

una conquista fatta per successiva eliminazione, una dopo l’altra, di tutte le cause speciali di variabilità”. La

variabilità è un aspetto ineliminabile di ogni processo produttivo: lo scopo prefissato è allora quello di

minimizzare le cause di variabilità del processo, eliminando tutte le cause di tipo speciale.

LE CARTE DI CONTROLLO

Le carte di controllo sono: un documento che consente di monitorare l’andamento di un processo di

produzione allo scopo di renderlo più efficace. Sono, quindi, strumenti grafici di controllo on-line del

processo, del quale forniscono una rappresentazione grafica dell’evoluzione temporale. Dal processo sotto

esame vengono raccolti dei campioni, con i dati necessari dai quali vengono ricavati i parametri statistici

come, media, deviazione standard o il range, essi sono poi riportati sulle Carte. Queste operazioni vengono

compiute per un certo numero di campioni, dopodiché la carta è pronta per essere letta ed interpretata.

Le caratteristiche delle carte di controllo sono:

  • L’individuazione immediata di un fuori controllo del Processo;
  • Generare il minor numero possibile di “falsi allarmi” (errore di 2° specie, cioè un’informazione

irregolare sull’esistenza di una causa speciale).

Il principio delle Carte di controllo è: Stabilire dei limiti di controllo tali che la quasi totalità delle osservazioni

fuori dai limiti da controllo siano dovute a delle cause speciali.

Esistono 2 tipologie di Carte di controllo:

  1. di Shewart: Valore centrale ± 3*Scarto Quadratico Medio;

  2. AFNOR: limiti probabilistici (2% 0

In letteratura le carte di controllo si dividono in 2 gruppi:

a) Carte di controllo per variabili

𝑥̅ ; R; S; X (per valori individuali); MR (per valori

individuali)

𝑥̅ = media;

R= Range;

S= Scarto quadratico medio;

X= per valori individuali;

MR=Moving range.

Monitoraggio della tendenza centrale della qualità →𝑥̅ , X.

Monitoraggio della variabilità →R, S, MR.

b) Carte di controllo per attributi

p; np; c; u.

p= monitoraggio della % dei non conformi;

np= monitoraggio del n.ro di prodotti non conformi;

c= monitoraggio del n.ro di difetti per unità di prodotto:

u= monitoraggio n.ro di difetti per prodotto.

CARTE DI CONTROLLO PER VARIABILI

Tale tipologia viene utilizzata quando la caratteristica di un prodotto è rappresentabile su una scala continua

di valori ed è possibile descriverla con una misura di centralità e una di variabilità.

Per il monitoraggio di un processo di produzione le carte di controllo vengono utilizzate in coppia (a differenza

delle carte per attributi): una per monitorare la media del processo e l’altra per la dispersione (𝑥̅ ;S);(𝑥̅ ;R).

La combinazione delle carte di controllo aumenta la possibilità di individuare un processo fuori controllo, e

rispetto alla carta singola, fornisce una maggiore quantità di informazioni utili per eliminare le cause

attribuibili.

Scopo:

  1. Assicurare la stabilità di un processo rispetto alla tendenza centrale [𝑥̅ , X];

  2. Assicurare il controllo della dispersione della caratteristica da controllare [R, S, MR].

CARTE DI CONTROLLO PER ATTRIBUTI

Tale tipologia viene utilizzata quando la caratteristica di un prodotto è una caratteristica qualitativa, quindi

non misurabile. In questi casi ciascuna unità prodotta viene valutata conforme a seconda che possieda o

meno certi attributi e a seconda del numero di difetti presenti nell’unità prodotta. Le caratteristiche

qualificabili come attributo possono essere classificate come non conformità o non conformi.

NB:

  • Non conformità = non corrispondenza di un attributo dell’oggetto prodotto alle specifiche del cliente;
  • Non conforme = prodotto che non risponde alle proprietà complessive. Un pezzo non conforme potrà

essere caratterizzato da una o più non conformità.

Tutte le carte di controllo definiscono una linea centrale e 2 linee di controllo.