Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Data Analysis Prof. Della Beffa IULM, Appunti di Analisi Dei Dati

Appunti integrati con slides e testo d'esame (frequentante), prof. Della Beffa A.A. 2020/2021

Tipologia: Appunti

2019/2020

In vendita dal 21/12/2020

federica-bortolla
federica-bortolla 🇮🇹

4.6

(19)

25 documenti

1 / 42

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
FEDERICA BORTOLLA
UNIVERSITÀ IULM
Data Analysis
PROF. DELLA BEFFA
Le risorse che possono essere forte di vantaggio competitivo difendibile per un’impresa devono
avere determinati contributi che le rendono distintive rispetto a quelle dei concorrenti:!
Scarsità - le risorse e le competenze non devono essere diuse tra i concorrenti del settore o
del gruppo strategico, altrimenti tutti risulterebbero simili e non ci sarebbe distintività!
Difendibilità - anché i vantaggi competitivi siano durevoli nel tempo, l’impresa deve riuscire a
limitare l’accesso alle stesse risorse e competenze da parte dei concorrenti, creando barriere
(es. brevetti) che rendano possibile la difesa delle risorse e delle competenze critiche!
Appropriabilità dei risultati economici che ne derivano - i concorrenti dovrebbero essere
costretti a sostenere costi tanto elevati per l’appropriazione e l’utilizzo delle risorse al punto da
renderle economicamente non convenienti, questo per tradurre il vantaggio competitivo in
risultati economici positivi.!
Economicità - capacità delle risorse di contribuire al miglioramento de ecacia ed ecienza
dell’impresa stessa, ovvero alla sua capacità di generare valore.!
Un’impresa si dice orientata al mercato quando
definisce come obiettivo fondamentale delle sue
attività la soddisfazione dei propri clienti.!
L’elevata soddisfazione dei clienti produce un’alta
redditività, permettendo all’impresa di garantirsi
una sopravvivenza nel lungo periodo. Le imprese
market oriented presentano caratteristiche quali:!
-Cultura, fondata sulla fiducia verso il mercato
come sistema di regolazione degli scambi
economici e su un senso di responsabilità verso
i soggetti che lo compongono. Fiducia e
responsabilità devono tradursi nel valore
dell’imprenditorialità, ovvero la capacità di
rinnovarsi e assumersi responsabilità connesse.!
-Risorse e competenze di cui dispone, grazie ad una conoscenza approfondita del mercato
stesso e di fiducia dei propri clienti e di partner del mercato. Tra le competenze distintive:
capacità di generazione, diusione e utilizzo di informazioni sul mercato (marketing knowledge
management), capacità di creazione e gestione di relazioni con i clienti (customer relationship
management), capacità di creare e gestire ecacemente le relazioni con i clienti interni da parte
della funzione marketing (international customer relationship management), capacità di
rinnovarsi sistematicamente (marketing innovation management).!
-Sistemi operativi. Consentono da un lato, il radicamento di una cultura d’orientamento al
mercato, e dall’altro l’accumulo del patrimonio di risorse e il dispiegamento di competenze
distintive. Tra i sistemi operativi: la selezione, la formazione, l’incentivazione e la remunerazione
del personale, la gestione delle informazioni e della comunicazione e la misurazione e il
controllo.!
-Comportamenti tipici del personale, tra cui l’ascolto, la cura e l’educazione (comportamenti di
mercato innovativi) del cliente. !
Requisiti dell’impresa!
-Apertura: ottenere e mantenere aggiornata la conoscenza!
-Trasparenza: fare circolare la conoscenza al proprio interno!
-Innovazione: saper rispondere agli stimoli del mercato!
Orientamento al mercato
C.1 - Contesto
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a

Anteprima parziale del testo

Scarica Data Analysis Prof. Della Beffa IULM e più Appunti in PDF di Analisi Dei Dati solo su Docsity!

Data Analysis

PROF. DELLA BEFFA

Le risorse che possono essere forte di vantaggio competitivo difendibile per un’impresa devono

avere determinati contributi che le rendono distintive rispetto a quelle dei concorrenti:

  • Scarsità - le risorse e le competenze non devono essere diffuse tra i concorrenti del settore o

del gruppo strategico, altrimenti tutti risulterebbero simili e non ci sarebbe distintività

  • Difendibilità - affinché i vantaggi competitivi siano durevoli nel tempo, l’impresa deve riuscire a

limitare l’accesso alle stesse risorse e competenze da parte dei concorrenti, creando barriere

(es. brevetti) che rendano possibile la difesa delle risorse e delle competenze critiche

  • Appropriabilità dei risultati economici che ne derivano - i concorrenti dovrebbero essere

costretti a sostenere costi tanto elevati per l’appropriazione e l’utilizzo delle risorse al punto da

renderle economicamente non convenienti, questo per tradurre il vantaggio competitivo in

risultati economici positivi.

  • Economicità - capacità delle risorse di contribuire al miglioramento de efficacia ed efficienza

dell’impresa stessa, ovvero alla sua capacità di generare valore.

Un’impresa si dice orientata al mercato quando

definisce come obiettivo fondamentale delle sue

attività la soddisfazione dei propri clienti.

L’elevata soddisfazione dei clienti produce un’alta

redditività, permettendo all’impresa di garantirsi

una sopravvivenza nel lungo periodo. Le imprese

market oriented presentano caratteristiche quali:

- Cultura , fondata sulla fiducia verso il mercato

come sistema di regolazione degli scambi

economici e su un senso di responsabilità verso

i soggetti che lo compongono. Fiducia e

responsabilità devono tradursi nel valore

dell’imprenditorialità, ovvero la capacità di

rinnovarsi e assumersi responsabilità connesse.

- Risorse e competenze di cui dispone , grazie ad una conoscenza approfondita del mercato

stesso e di fiducia dei propri clienti e di partner del mercato. Tra le competenze distintive:

capacità di generazione, diffusione e utilizzo di informazioni sul mercato (marketing knowledge

management), capacità di creazione e gestione di relazioni con i clienti (customer relationship

management), capacità di creare e gestire efficacemente le relazioni con i clienti interni da parte

della funzione marketing (international customer relationship management), capacità di

rinnovarsi sistematicamente (marketing innovation management).

- Sistemi operativi. Consentono da un lato, il radicamento di una cultura d’orientamento al

mercato, e dall’altro l’accumulo del patrimonio di risorse e il dispiegamento di competenze

distintive. Tra i sistemi operativi: la selezione, la formazione, l’incentivazione e la remunerazione

del personale, la gestione delle informazioni e della comunicazione e la misurazione e il

controllo.

- Comportamenti tipici del personale, tra cui l’ascolto, la cura e l’educazione (comportamenti di

mercato innovativi) del cliente.

Requisiti dell’impresa

- Apertura : ottenere e mantenere aggiornata la conoscenza

- Trasparenza : fare circolare la conoscenza al proprio interno

- Innovazione : saper rispondere agli stimoli del mercato

Orientamento al mercato

C.1 - Contesto

Sistema informativo di marketing : è l’insieme

strutturato di persone, modelli organizzativi,

modelli di analisi, tecnologie disegnato per

generare un flusso ordinato e continuativo di

informazioni destinate ad essere utilizzate

come supporto alle decisioni del marketing

aziendale.

È volto alla raccolta, trattamento, conservazione, distribuzione e interpretazione di dati riguardanti

fenomeni di mercato e permettono di trasformarli in informazioni più utili per assumere decisioni di

marketing.

Tra le componenti del sistema informativo:

  • Procedure organizzative - utilizzate per descrivere le modalità ritenute più efficienti ed efficaci

tramite cui svolgere le singole attività.

  • Modelli e Metodologie - permettono di raccogliere, trattare e interpretare i dati, in modo da

trasformarli efficacemente in informazioni utili e di assumere decisioni conseguenti

  • Persone - si intendono non solo coloro che ricoprono ruoli organizzativi formalmente

responsabilizzati su alcune delle fasi (Responsabili Uffici), ma anche coloro determinanti ai fini

della funzionalità del processo stesso (venditori, manutentori).

TIPOLOGIE DI DATI E ATTIVITÀ DI RACCOLTA

È utile distinguere i dati a seconda dello scopo

per cui sono raccolti e delle fonti informative che

possono essere attivate per ottenerli.

1. FONTI INTERNE - DATI PRIMARI

Dati provenienti da attività di marketing

intelligence - raccolto dati di clienti e

concorrenti. Per quanto riguarda i clienti vengono

richiesti i dati riguardanti: l’esistenza nel mercato

di clienti nuovi o potenziali, l’evoluzione dei clienti

attuali, l’emergere di bisogni o comportamenti

nuovi. Per quanto riguarda i concorrenti

riguardano: l’entrata di nuovi concorrenti nel mercato o la minaccia di entrata da parte di

concorrenti potenziali, l’evoluzione dei concorrenti attuali.

Sono attività che possono essere svolte in modo: continuativo o sporadico.

2. FONTI INTERNE - DATI SECONDARI

Dati prodotti da sistemi di rilevazione aziendali - gestiti dalle diverse funzioni per le finalità a

cui ognuna è preposta. I dati più importanti riguardano: i costi e il risultati economico-finanziari

(riferiti all’economicità delle attività d’impresa) e i tempi di produzione e le scorte disponibili

(funzioni tecniche produttive e gestione della logistica).

3. FONTI ESTERNE - DATI SECONDARI

Dati secondari prodotti da soggetti esterni

all’impresa - si tratta di istituzioni, imprese o singoli

soggetti che, per loro fini istituzionali o per loro

esigenze specifiche, svolgono attività di raccolta

trattamento e interpretazione di dati riguardanti

anche fenomeni di mercato.

4. FONTI ESTERNE - DATI PRIMARI

Processo di raccolta dati ad hoc - si tratta di un

processo che dà vita a una ricerca di marketing

Sistema informativo di marketing

si modificano le variabili di risposta ad essa

collegate. Condizioni da soddisfare:

‣ Covariazione tra variabili cioè il fatto che a

ogni cambiamento di una variabile x

dovrebbe corrispondere una modificazione

della variabile y

‣ Ordine cronologico degli interventi

‣ Assenza di fattori esterni che possono

influenzare la coartante

Le tecniche descrittive sono quelle più utilizzate nella

prassi in quanto si fondano su tecniche statistiche di

analisi e procedimenti deduttivi semplici. Non

consentono però al management di individuare gli effetti che ciascuna variabile produce su un

problema.

La definizione del progetto di ricerca non è banale

né univoca: quale obiettivo? quali dati? quali

strumenti di analisi?

La non pertinenza delle informazioni disponibili

azienda è la motivazione che spinge ad avviare la

decisione di investire in ricerca. A ogni dato problema

di marketing, corrispondono diverse soluzioni di

ricerca, da cercare quali sono quelle relativamente

ottimali rispetto al quesito di ricerca.

La scelta dei verifica alla luce di determinati elementi:

  • Budget stanziato per la ricerca
  • Tempi che si è disposti ad attendere per i risultati
  • Capacità manageriali del committente (grado di

conoscenza delle tecniche di ricerca)

  • Stima soggettiva dei trade off

Atti relazione committente-ricercatore:

FORMALIZZAZIONE DEL PROBLEMA DI

MARKETING IN UNO STATEMENT CONDIVISO

TRADUZIONE DEL PROBLEMA DI MARKETING IN UN TEMA DI RICERCA CONTENENTE

ESPLICITI OBIETTIVI CONOSCITIVI. Gli obiettivi costituiscono la versione operativa della

formulazione del problema di ricerca e il punto di partenza del processo di ricerca vero e proprio.

(ES. Maralli pag. 36-37)

DEFINIZIONE DELLA FORMULA DI RICERCA. Si snoda in 4 attività decisionali chiave:

  • Determinazione del disegno di ricerca e delle fonti dei dati. Si tratta quindi del piano base,

che guida la raccolta dati e le varie analisi specificando il tipo d informazione che deve essere

Dal problema di marketing al problema di ricerca

Le opzioni che si aprono di fronte al

ricercatore sono 4:

  1. Indagini qualitative: raccolta dati

suscettibili di analisi non algoritmica

  1. Indagini quantitative: raccolta dati

elementari suscettibili di trattamento

statistico

  1. Indagini sperimentali: raccolta dati

mediante osservazioni dirette

  1. Indagini integrate: raccolta dati elementari

che integri le prime due.

raccolto, la relativa fonte dati e le procedure

analitiche. I dati possono essere riassunti nella

matrice dati:

‣ Secondo la fonte

  • (^) Dati di fonte interna : dati che l’organizzazione

produce in via ordinaria nello svolgimento

della propria attività, oppure detiene al suo

interno per i motivi più svariati

  • (^) Dati di fonte esterna : dati che risiedono al di

fuori delle mura dell’organizzazione e che sono in qualche maniera accessibili a essa

(anche le marketing research)

‣ Secondo la natura

  • (^) Dati primari : dati prodotti in risposta a una specifica esigenza di ricerca definita in tutti i

suoi aspetti, attraverso un’apposita rilevazione sul campo o la raccolta presso personale

interno.

  • (^) Dati secondari : dati già realizzati dall’organizzazione medesima in risposta a obiettivi

conoscitivi diversi e indipendenti. Ai vantaggi vengono associati svantaggi quali

obsolescenza, necessità di adattamento di dati e la loro accuratezza.

  • Sviluppo delle procedure operative di collezione dati.
  • Profilo degli intervistati-target. Un campione è un insieme elementi estratti sa una

popolazione statistica che ne rappresenta l’universo. Un campionamento è probabilistico

quando ciascuna delle unità della popolazione di riferimento ha la stessa probabilità di entrare a

far parte del campione. Un campione ragionato si ha quando il ricercatore sceglie le unità

campionarie a proprio giudizio.

  • Scelta delle tecniche di analisi dei dati e presentazione dei risultati.

ESECUZIONE DELLA FORMULA DI RICERCA. Attiene alla realizzazione operativa della formula di

ricerca. Step:

  • Raccolta di dati elementari (fieldwork): attività critica della ricerca per influenza e qualità del

risultato finale e per la sua incidenza sul costo complessivo della ricerca. Le tipologie di

fieldwork variano a seconda della modalità di collezione dei dati: metodi di raccolta basati su

questionari e metodi di raccolta basati su scalette di rilevazione o osservazione.

  • Trattamento elementare dei dati raccolti
  • Analisi dati
  • Redazione del report
  • Presentazione dei risultati

Questionario : strumenti di rilevazione dati

che si presenta come una successione

logicamente organizzata di domande

finalizzata alla raccolta di informazioni sulle

variabili quantitative o qualitative oggetto

dell’indagine.

  • Strumento di misura
  • Valenza comunicativa

Due requisiti iniziali: le domande devono

essere ricolte a tutti nella stessa forma e devono avere lo stesso significato per tutti coloro che

rispondono (no interpretazione soggettiva)

Fasi della redazione del questionario:

  1. Schema concettuale: esplicitare il tema dell’indagine in una scaletta logica strutturata
  2. Redazione: scelta delle specifiche categorie di domanda di cui servirsi per raccogliere

l’informazione

  1. Verifica: perchè vi sono spesso dissonanze che impediscono al questionario di scorrere

fluidamente.

Tecniche di raccolta dei dati:

OSSERVAZIONE : un punto chiave sta nel definire il

comportamento da indagare. Tra gli aspetti

fondamentali:

  1. Decidere se realizzare l’osservazione limitando o

evitando qualunque forma di controllo

nell’ambiente naturale in cui si svolge l’azione o

se logica più simile a un laboratorio.

  1. Scelta tra una misurazione diretta o indiretta del

comportamento.

  1. Distinzione tra osservazione umana (il ricercatore

osserva personalmente il comportamento e

registra gli elementi rilevanti archiviando il dato su

supporto cartaceo o elettronico) e meccanica

(viene utilizzato un macchinario più o meno

sofisticato per rilevare l’informazione, quali

pupillometro).

  1. Estrusività dell’osservazione, ovvero il fatto che

al soggetto osservato sia nota la presenza del

rilevatore o meno (Es. Mistery shopping).

L’osservazione permette quindi la misura dei

comportamenti reali anziché fornire indicazioni su

intenzioni o preferenze. Costi più bassi rispetto ad altri

metodi. Il limite risiede nel fatto che tali metodi registrano il comportamento senza fornire

indicazioni sulle sue motivazioni, e anche nella distorsione percettiva del rilevatore che può

tradursi in una distorsione delle info raccolte.

ESPERIMENTO : esistono esperimenti di laboratorio ed esperimenti sul campo

  • Esperimenti di laboratorio: esperimenti con un elevato livello di controllo sui fattori esoteriche

possono in qualche modo influenzare il fenomeno indagato, permettendo di misurare con

precisione l’effetto di un particolare fattore (variabile).

  • Esperimenti sul campo: si perde parte della capacità di controllo sulle determinanti dei

fenomeni.

Utilizzata per inferire una relazione causale tra fenomeni (X è soltanto una delle possibili cause di

Y). Le condizioni per realizzare un’inferenza di causalità sono 3:

  1. Concomitanza della variazione: se e quanto una causa X e un effetto Y di verificano e/o

variano insieme secondo le modalità indicate dall’ipotesi sotto indagine.

  1. Ordine temporale della variazione: l’evento causa deve verificarsi prima o simultaneamente

con l’effetto, non dopo.

  1. Assenza si altri possibili fattori causali

La ricerca sperimentale nel marketing soffre di tre limitazioni: tempi, costi e gestione del processo.

SONDAGGIO

Rilevazione di dati primari con interviste strutturate a un campione di soggetti appartenenti alla

popolazione obiettivo. Le domande possono riguardare comportamenti, preferenze, attitudini,

livello di soddisfazione… Risulta strutturato in quanto viene predisposto un elenco di domande

con un preciso ordine. Il processo di sondaggio è definito diretto se l’intervistato conosce il vero

scopo dell’indagine, indiretto in caso contrario. Le domande possono essere aperte o chiuse.

Si tratta di un metodo di rilevazione:

  • (^) Molto generale ma di facile somministrazione
  • Affidabilità delle risposte fornite in quanto selezionate tra le alternative suggerite
  • (^) Potenzialmente costoso
  • (^) Richiede competenza (conoscenza) e rigore nel definire gli obiettivi
  • Possibilità o volontà dell’intervistato di fornire le indicazioni desiderate dal ricercatore
  • Rigida strutturazione delle domande

Ricerche quantitative

Modalità di contatto dell’intervistato:

  • Interviste telefoniche. Prevedono che si selezioni un campione di abbonati alle diverse

compagnie operanti sul territorio e che si effettui l’intervista direttamente al telefono. È possibile

utilizzare il sistema CATI ( Computer Aided Telephone Interview - questionario computerizzato

che consente la codifica e l’archiviazione diretta su un supporto informatico delle informazioni

raccolte).

  • I vantaggi riguardano i limitati tempi e costi di realizzazione dell’indagine e l’ampia raggiungibili

spaziale del target. È possibile inoltre controllare la composizione del campione e controllare

almeno parzialmente l’attività di field seguendo le interviste con una visita presso i fornitori del

servizio.

  • Tra gli svantaggi, l’impossibilità di sottoporre stimoli visivi, la necessità d limitare il tempo di

erogazione del questionario e la necessità di ridurre il più possibile il numero di domande aperte.

Inoltre, la possibile distorsione derivante dall’approccio dell’intervistatore e l’impossibilità, in

alcuni casi, di verificare l’identità del rispondente.

  • Interviste personali (in home e punto vendita). Prevedono un contatto face-to-face tra

intervistato e intervistatore. L’intervistatore legge le domande e registra le risposte su supporto

cartaceo o attraverso sistema CAPI ( Computer Aided Personal Interview - attraverso terminale

elettronico; vantaggi interviste CATI). L’intervista può essere condotta in home, su

appuntamento telefonico

  • Possibilità di sottoporre all’intervistato presentazioni multimediali e di ottenere un questionario

auto-compilato con info di elevata qualità. La caduta di collaborazione è relativamente bassa

  • Barriere tecnologiche, introducendo una certa rigidità nel processo di intervista rispetto al

tradizionale supporto cartaceo. Tempi e costi elevati rispetto ad altri metodi di contatto ed è

necessario basarsi su un rapporto fiduciario tra fornitore del servizio e cliente/utilizzatore della

ricerca.

  • Interviste postali. Realizzate attraverso l’invio presso il domicilio o luogo di lavoro

dell’intervistato di un package contenente questionario, istruzioni per la compilazione, busta per

il ritorno e un incentivo alla risposta. Non esiste una interazione diretta con il ricercatore. Un

punto chiave è la costruzione di una mailing list accurata e ricca di nominativi rispetto

all’ampiezza campionaria desiderata.

  • Costo ridotto rispetto a metodi alternativi tradizionali, possibilità di proporre supporti visivi alla

compilazione. È possibile valutare il costo effettivo di un field postale solo alla conclusione

dell’attività considerando il tasso di risposta raggiunto

  • Distorsione del campione di rispondenti rispetto al suo disegno ideale. Non vi è alcun controllo

sull’effettiva identità del rispondente. Tempi lunghi necessari all’ottenimento di un tasso di

risposta accettabile. Problemi sulla qualità dell’autocompilazione

  • Interviste web based (e-mail e Internet). La posta elettronica permette sia di inviare un

questionario nel corpo del messaggio, sia di invitare alla compilazione tramite link di rimando

alla survey. Si può utilizzare il sistema CAWI ( Computer Aided Web Interviews - permette la

gestione completa della logica interna al questionario: individuazione, gestione e controllo

automatico del campione, organizzazione di liste esterne di contatti, codifica in corso di

intervista delle domande aperte, immediata

disponibilità dei dati raccolti)

  • Tra i vantaggi ci sono buoni tempi e costi

di esecuzione, possibilità di inserire

contenuti multimediali e domande aperte,

limitata intrusività (caduta di

collaborazione elevata dopo pochi minuti

di collaborazione)

  • Tra le limitazioni il tasso di risposta molto

basso, l’impossibilità di predisporre

questionari aventi salti e controlli logici

programmati dal ricercatore o una

randomizzazione della sequenza delle

domande, impossibilità di raggiungere

particolari segmenti di mercato in cui

internet non è ancora molto diffuso.

  1. Decisioni sul lay-out del questionario : deve essere costruita in modo da semplificare al

massimo il compito dell’intervistato o intervistatore.

  1. Pretest e revisione : opportuno da condurre prima di iniziare il field vero e proprio. Una prima

decisione riguarda le aree del questionario da indagare, ovvero se è opportuno somministrare

al campione di test tutto il questionario o solo le aree più controverse. È opportuno condurre il

pretest nelle stesse condizioni dell’indagine finale. Realizzazione debrief con gli intervistati

dell’indagine per evidenziare le difficoltà e le ambiguità dell’intervista. Gli intervistati

dovrebbero essere il più simili possibile al target deselezionato per l’indagine per garantirne la

rappresentatività. Quante interviste di pretest condurre?

Dati dichiarati e dati oggettivi - I dati rilevati con questionari non sono mai perfettamente

oggettivi, anche se riguardano comportamenti

ES. Auditel - meter (misura minuto per minuto tutti quei programmi che passano su quel

televisore)

I primi questionari risalgono al 1935 grazie a Gallup, attraverso il quale nascono i sondaggi di

opinione. I primi sondaggi in Italia risalgono al 1946 grazie alla Doxa (significa opinione -

paradosso: contrario all’opinione). Indagine sugli orientamenti di voto: monarchie o repubblica?

Indagine sulla distribuzione del reddito nazionale

Nel 1994 Berlusconi inizia ad utilizzare i sondaggi come tecnica per la definizione di strategie

elettorali e orientamento delle scelte politiche

Fasi di un sondaggio:

  1. Definizione dell’obiettivo e della formula di ricerca
  2. Definizione della popolazione
  3. Definizione del campione
  4. Metodo di contatto
  5. Costruzione del questionario
  6. Somministrazione del questionario al campione
  7. Raccolta dati
  8. Analisi
  9. Reporting

Formulazione delle domande

  • Evitare domande doppie (ha mai comprato online biglietti aerei o ferroviari?)
  • Evitare ambiguità (nella sua famiglia ci sono bambini?)
  • Attenzione alle negazioni — l’intervento della Regione Lombardia non è stato adeguato…
  • Risposte esaustive e mutuamente esclusive
  • Non dare nulla per scontato — dove è andato in vacanza l'estate scorsa?
  • Attenzione alle domande sul passato e ai temi etici →

limitarsi alle domande necessarie

L’approccio all’analisi dei dati può essere di natura

descrittiva o inferenziale.

La statistica descrittiva può essere definita come l’insieme

dei metodi che concernono la raccolta, il compendio, la

presentazione e la definizione di un insieme di dati per

descriverne in modo adeguato le varie caratteristiche.

La statistica inferenziale può essere definita come

l’insieme dei metodi che permettono la rima di una

caratteristica di una popolazione basandosi sull’analisi di un

campione.

Popolazione - totalità degli elementi presi in esame

dall’indagine

Campione - parte di popolazione selezionata per l’analisi

Esistono due tipi di dati: qualitativi e quantitativi che

Statistica univariata e probabilità

possono essere discreti o continui.

  • (^) Qualitativi : espressi solitamente in forma verbale, dando origine a

classificazioni in categorie

  • (^) Quantitativi : sono legati a quantità intrinsecamente numeriche

(livello di soddisfazione clienti)

  • (^) Discreti (conteggio): caratterizzato da una quantità finita o infinita

numerabile di classi di misura

  • (^) Continui (misura): risposta numerica che deriva da un processo di

misurazione. Possono assumere qualunque valore, precisione

esprimibile fino a infiniti decimali

DATI QUANTITATIVI: rappresentano informazioni intrinsecamente numeriche, si può eseguire ogni

tipo di calcolo (es. media). I livelli di misurazione riconosciuti sono le scale:

  • (^) Nominali : senza ordine implicito, forma di misurazione più debole
  • (^) Ordinali : con ordine implicito,
  • (^) Di intervalli : non ha un valore 0 fissato (es. temperatura, date)
  • (^) Di rapporti : ha un valore 0 fissato (es. conteggi, età, reddito: c'è uno zero vero)

STATISTICA DESCRITTIVA UNIVARIATA

Distribuzioni di frequenza - è il livello minimo di analisi descrittiva. Forniscono tutta la possibile

informazione per variabili categoriche. Associa ad ogni possibile valore di una variabile la

frequenza (relativa o assoluta) con la quale si presenta. Si può applicare a qualunque tipo di dato:

  • (^) Per variabili discrete fornisce tutta l'informazione disponibile
  • (^) Per variabili continue si raggruppano i valori in classi

Frequenze assolute molto precise in termini di rilevazione

Frequenze relative sono confrontabili, fatte su tot casi.

Dati categorici (qualitativi)

  • (^) i valori si esprimono in categorie o modalità
  • ogni unità deve appartenere a una e una sola categoria
  • non si possono eseguire operazione aritmetiche
  • si possono calcolare frequenze e percentuali
  • nominali (es. marca)
  • (^) ordinali: le categorie sono ordinate, ma le distanze tra di esse non sono uguali

es. istruzione, scala Mercalli, classifiche e ordinamenti,

scale di Likert (per niente, poco, così così, abbastanza, molto)

Dati binari (dicotomici)

  • (^) Sono dati nominali , ma si possono utilizzare come numerici in molte analisi
  • Un dato categorico con k categorie si può trasformare in k dati binari

Le origini: William Playfair creò il primo grafico a barre noto sull’attività di

export e import della scozia nel 1786.

Le rappresentazioni grafiche servono a rappresentare i risultati e descrivere,

esplorare i dati stessi. Possono essere utili per mostrare somiglianza tra unità

(caso occhiali Rayban) o per identificare relazioni valutando l’effetto dei

fattori.

Dati qualitativi: diagrammi a barre (ortogrammi) orizzontali e verticali,

diagrammi a torta.

BOX PLOT (o Box Whisker): hanno il compito di schematizzare la distribuzione di una variabile

numerica, evidenziando i valori anomali (outlier).

Data visualisation

Le 3 proprietà principali che caratterizzano un insieme di Dati numerici

sono:

  1. Tendenza centrale e non centrale
  2. Dispersione
  3. Forma della distribuzione

MISURE DI TENDENZA CENTRALE - tendenza a raggrupparsi intorno a un determinato punto

centrale. Tale valore è definito misura di tendenza o posizione centrale. Rientrano sotto questa

categoria la media aritmetica, la mediana e la moda.

  • (^) La media artimetica : a partire da un insieme di valori equifrequenti, si calcola sommando tutte

le osservazioni e dividendo il totale per il numero di unità interessate

  • (^) La media troncata (trimmed mean) è uno stimatore robusto , è la media dopo l'eliminazione dei

casi estremi (es. 10% trimmed mean: si eliminano il 5% più alto e il 5% più basso dei valori)

  • (^) La mediana : valore con posizione intermedia in una sequenza ordinata di dati, cioè quel valore

preceduto e seguito da un uguale numero di osservazioni (n+1/2).

  • (^) La moda : data dal valore che appare più spesso in un insieme di dati. Unica misura di

posizione che può essere calcolata per dati qualitativi misurati a livello nominale

MISURE DI TENDENZA NON CENTRALE - vengono utilizzare per riassumere e descrivere dati

quantitativi caratterizzati da una grande varietà di classi di misura.

  • (^) I quantili : Misure che aiutano a capire quale sia l’intervallo di valori tipici del dato considerato.

Ci sono i decimi, percentili, quartili. I quartili sono misure descrittive che dividono i dati ordinati

in 4 gruppi: Primo quartile (valore rispetto al quale il 25% delle osservazioni è più piccolo e il

75% delle osservazioni è più grande), secondo quartile (50%/50%), terzo quartile (75%/25%).

MISURE DI DISPERSIONE -la dispersione è una proprietà che caratterizza un gruppo di dati e

permette di cogliere il “grado di variabilità” dei dati stessi.

  • (^) Il campo di variazione : è costituito dalla differenza tra l’osservazione più grande e quella più

piccola di un gruppo di dati.

  • (^) La varianza (𝜎²): è la media delle differenze elevate al quadrato tra ciascuna delle osservazioni

in un gruppo di dati. Valore che aumenta all’aumentare della dispersione nei dati.

  • Lo scarto quadratico medio o deviazione standard (𝜎, 𝑠): la varianza ma non al quadrato.

Valore che aumenta all’aumentare della dispersione nei dati.

  • (^) Il coefficiente di variazione : misura relativa di dispersione, espressa in percentuale anziché

nell’unità di misura dei dati.

FORMA DELLA DISTRIBUZIONE - Può essere

simmetrica o asimmetrica (obliqua). Per descrivere la

forma è sufficiente confrontare media e mediana. Se

queste due sono pressoché uguali, i dati tendono a

distribuirsi in modo simmetrico. Se la media supera

la mediana i dati possono essere descritti come

obliqui destri. Se la mediana supera la media si parla

di distribuzione obliqua sinistra.

Livelli di analisi

  1. Analisi univariata : una variabile alla volta

statistiche descrittive: frequenze, media, varianza, ecc.

  1. Analisi bivariata : relazione tra due variabili (numerica + numerica / numerica + categorica /

categorica + categorica)

  1. Analisi multivariata : k variabili alla volta: modelli statistici, machine Learning…

Relazioni bivariate tra dati numerici

Andamento relativo di una variabile rispetto all’altra

- (^) Concordanza: a valori elevati di una variabile corrispondono perlopiù valori elevati dell’altra - (^) Discordanza: a valori elevati di una variabile corrispondono perlopiù valori bassi dell’altra

Misure di sintesi di un insieme di dati

COVARIANZA - dipende dall’ordine di grandezza delle variabili. Per eliminare questa dipendenza

di può normalizzarla. In presenza di un’associazione diretta tra le due variabili, la covarianza tende

ad assumere valori positivi. In presenza di un’associazione inversa valori negativi. Nel caso di

indipendenza statistica o relazione non concordante valore nullo.

COEFFICIENTE DI CORRELAZIONE - misura la presenza di relazioni lineari.

La correlazione non implica una relazione di causa-effetto: afferma che tra due

variabili c’è una relazione sistematica, ma non che una determina l’altra

Relazione tra una variabile categorica e una numerica

La relazione tra una variabile numerica e una categorica si analizza mediante le differenze in

media. La variabile categorica identifica i gruppi. Si confrontano le medie della variabile numerica

nei gruppi: se le medie nei gruppi sono diverse c'è una relazione, se le medie sono uguali non c'è

relazione.

Relazione tra due variabili categoriche

Dipendenza o indipendenza tra due variabili

categoriche. Si analizza con le frequenze congiunte,

che si rappresentano con tabelle a doppia entrata.

INDIPENDENZA - due variabili categoriche sono

indipendenti se la distribuzione di una non dipende dai

valori dell’altra.

FREQUENZE TEORICHE - indipendenza tra due

variabili categoriche significa che: le percentuali di riga

sono approssimativamente uguali in tutte le righe (e lo

stesso per le colonne). Inoltre, le frequenze congiunte

dipendono solo dalle frequenze marginali e le frequenze

osservate sono uguali a quelle teoriche.

Valore che può assumere chi quadrato: Qualunque valore = o maggiore a 0

È un valore che tende a diminuire quanto più ci si avvicina alla situazione di indipendenza e risulti

nullo in tale situazione. Chi quadrato è un indice che tende a crescere indefinitamente

all’aumentare del numero delle righe e del numero delle colonne.

CAMPIONAMENTO PROBABILISTICO

Richiede un insieme di regole e operazioni stabilite a priori per

formare il campione. Tra i piani di campionamento probabilistico

- Campionamento casuale semplice : per selezionare un numero

determinato di unità da una popolazione. A ogni estrazione

ciascun elemento della popolazione ha la stessa probabilità di

essere selezionato attraverso un metodo che garantisce la

casualità delle estrazioni. Ogni campione di numerosità n ha la

stessa probabilità di essere estratto. Ogni unità ha la stessa

probabilità di essere estratta.

- Campionamento stratificato : viene suddivisa la popolazione in

un numero finito di gruppi (strati), all’interno dei quali le unità

sono omogenee secondo un determinato criterio. Da ogni strato

viene estratto un campione casuale di numerosità proporzionale

a quella della popolazione. Più flessibile in quanto nei diversi

strati può essere scelta una percentuale diversa di unità. È

adatto quando gli strati sono omogenei al loro interno ma

disomogenei tra loro (variabili di classificazione discriminanti).

Consente stime a livello degli strati.

- Campionamento a grappolo : le unità elementari della

popolazione sono raggruppate in sottoinsiemi di unità contigue

di osservazione (grappoli o cluster). Data una popolazione, viene

estratto un certo numero di grappoli casuali e tutti gli elementi

selezionati entrano a far parte del campione. È adatto quando i

grappoli sono disomogenei al loro interno e omogenei tra loro.

Mira a ridurre il costo della rilevazione.

- Campionamento a due o più stadi : data una popolazione le cui

unità elementari sono riunite in gruppi, si seleziona dapprima un

campione casuale di gruppi e successivamente si estrae un

certo numero di unità elementari dai gruppi selezionati. Nel

primo stadio vengono selezionate le unità, e nel secondo le unità

delle unità, dette secondarie.

- Campionamento sistematico : solo la prima unità viene estratta

in modo casuale dalla popolazione, mentre le altre sono

selezionate in modo automatico secondo un criterio prefissato.

CAMPIONAMENTO NON PROBABILISTICO

Non sono costituiti secondo una legge probabilistica definita a

priori, pertanto la selezione delle unità avviene secondo particolari

esigenze conoscitive, criteri soggettivi o caratteristiche peculiari.

Non fornisce a ciascuna unità della popolazione la stessa

probabilità di essere selezionata nel campione. Generalmente

utilizzate nelle fasi preliminari della ricerca, in indagini pilota o in

ricerche di tipo esplorativo. Tra i campionamento non

probabilistici:

- Campionamento per quote : la popolazione viene suddivisa in

gruppi omogenei o classi in base ad alcune variabili strutturali

(sesso, reddito, età). Viene individuato il numero di osservazioni

da raccogliere in ogni gruppo (quote)

- Campionamento a scelta ragionata : le unità campionarie sono

selezionate solo in determinate aree di analisi sulla base di

informazioni preliminari circa la popolazione indagata.

Campionamento basato sulla conoscenza del carattere oggetto

di studio.

- Campionamento per convenienza : prevede che la selezione

degli elementi sia basata essenzialmente su criteri di

convenienza economica, temporale o altro genere.

CAMPIONAMENTO RIPETUTO (PANEL)

I panel sono rilevazioni campionarie condotte periodicamente per la stima e lo studio di alcune

variabili, e per l’analisi delle loro variazioni nel tempo. Sono svolti utilizzando lo stesso campione

parzialmente modificato ogni volta. Campionamento che trova impiego nell'evoluzione di un

determinato fenomeno nel tempo.

I panel sono utilizzati per rilevare con continuità il flusso degli acquisti e delle vendite di prodotti

durevoli e di largo consumo presso campioni di famiglie.

Statistiche univariate per dati quantitativi

  • scarto interquartile
  • MAD (median absolute Deviation) è la mediana degli scarti assoluti dalla mediana, è

un'alternativa robusta alla devstd

Probabilità: è una misura della possibilità che un evento possa verificarsi

Definizione frequentista: quando il numero di prove tende a infinito

  • (^0) ≤𝑝≤ 1
  • 𝑝=1: evento certo
  • 𝑝 = 0 : evento impossibile

La somma delle probabilità di tutti gli eventi possibili è 1

Distribuzioni di probabilità

Le distribuzioni di frequenza sono in genere basate su dati

osservati (campionari). Le distribuzioni di probabilità sono i

corrispondenti modelli teorici probabilistici di riferimento. Ne

esistono moltissime, per modellare fenomeni diversi, si

distinguono distribuzioni discrete e continue

  • (^) Variabile discreta → distribuzione discreta
  • (^) Variabile continua → distribuzione continua

Distribuzioni continue

Per variabili discrete la probabilità è concentrata nei punti.

Per variabili continue la probabilità è l' area sotto la curva.

L'area sotto la curva tra a e b rappresenta la probabilità che X

sia compresa tra a e b:

L'area totale sotto la curva è 1

Lla probabilità in un singolo punto è zero (!)

ES. Prob (h=170)=0?! - INTERVALLI

Uso delle distribuzioni di probabilità

la conoscenza di una distribuzione teorica permette di rispondere a domande come:

qual è la probabilità di valori tra a e b?

qual è la probabilità di valori maggiori (o minori) di a?

nei problemi applicativi si cerca di ricondurre la distribuzione osservata (campionaria) a una

distribuzione teorica nota

Distribuzione normale ( gaussiana ) è una distribuzione continua definita per −∞ < 𝑥 < +∞ e

caratterizzata da due parametri μ e σ:

𝑁 𝜇; 𝜎² : 𝜇 e 𝜎² sono la media e la varianza della distribuzione

P = Numero di casi favorevoli

Numero di prove

stima puntuale: 31 errore: 3.5)

  • (^) l'intervallo di confidenza è la stima puntuale ampliata con l'errore campionario

stima – errore < valore "vero" < stima + errore (es. intervallo di confidenza: (31 – 3.5; 31 + 3.5)

INTERVALLO DI CONFIDENZA DELLA MEDIA

La media campionaria ha una distribuzione approssimativamente normale.

L’ampiezza di un intervallo di confidenza dipende da:

  • Il livello di confidenza
  • La numerosità del campione

Mentre l’intervallo di confidenza dipende anche dal valore della stima puntuale.

TRADE-OFF NEGLI INTERVALLI DI CONFIDENZA

(semi)ampiezza dell'IC della media al 95% = 1,96 ∙ 𝜎/√𝑛

ampiezza dell'intervallo ~ precisione

livello di confidenza ~ affidabilità

Se si alza il livello di confidenza (es. da 95% a 99% → maggiore affidabilità) l'ampiezza

dell'intervallo aumenta (si passa da 1,96 a 2,57 → minore precisione)

Per aumentare il livello di confidenza e nello stesso tempo diminuire l'ampiezza dell'intervallo di

confidenza bisogna aumentare la numerosità del campione

REVERSE ENGINEERING

VERIFICA DELLE IPOTESI

Lo scopo della verifica delle ipotesi è fornire criteri razionali per decidere se accettare o

respingere delle ipotesi. La teoria dei test statistici costituisce quindi un supporto rilevante per un

qualunque processo decisionale supportato da evidenza empirica. Questa prevede che il

ricercatore formuli specifiche ipotesi sulla distribuzione della popolazione. Ipotesi che possono

essere parametriche (se riguardano il valore diano o più parametri) o non parametriche (se

prescindono dalla conoscenza della distribuzione della popolazione). Il paradigma della statistica

classica è:

  1. Formulazione dell’ipotesi - L'obiettivo è trarre conclusioni su due affermazioni contrastanti

relative a un parametro della popolazione. Si individuano due ipotesi differenti che non

possono risultare vere allo stesso tempo.

  • 𝑯 ⁰

: ipotesi nulla: la situazione teorica "nota"

  • 𝑯₁ : ipotesi alternativa: l'opposto di 𝐻₀
  1. Esperimento statistico - si individua una statistica

campionaria di distribuzione nota adatta a testare

l'ipotesi in esame e la si calcola su un campione. Si assume

che l'ipotesi sia vera e ci si chiede: se è vera, qual è la

probabilità di ottenere per caso un valore della statistica

test uguale o più estremo di quello osservato nel

campione? Si calcola questa probabilità (p-value) → se la

probabilità è molto piccola (es. p < 0,05) si rifiuta

l'ipotesi

  1. Tipo di conclusione - In base ai dati campionari e al

livello di confidenza scelto si può

  • Rigettare^ 𝑯 ⁰

: i dati campionari forniscono

evidenza sufficiente per accettare 𝐻₁

  • Non rigettare^ 𝑯 ⁰

: i dati campionari non

forniscono evidenza sufficiente per accettare

𝐻₁

𝑯 ⁰

, indipendenza

statistica tra X e Y

𝑯 1

, dipendenza

statistica tra X e Y

Gradi di libertà = (k-1)

(h-1), dove k sta per

numero di righe della

tavola di contingenza, e

h il numero di colonne.