

































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti di chemiometria lezione di chemiometria
Tipologia: Appunti
1 / 41
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


































In offerta
Prima domanda all’esame è che cosa hai portato alla tesi triennale e lui crea un problema da affrontare a livello chemiometrico. Questi sono i macro-argomenti della materia.
1. Analisi multivariata contro analisi univariata 2. Disegno sperimentale 3. Analisi multivariata in esplorazione dati 4. Analisi multivariata in regressione e classificazione 1. che voi vi trovate a lavorare in un qualsiasi ambito comunque in laboratorio, quando dovete fare una sperimentazione, cosa dovete fare? Tutto è riassunto in tre fasi: I. Pianificare l’esperimento. Io ho un certo problema, devo eseguire una certa sperimentazione, devo capire come organizzare gli esperimenti in modo tale da fare un’ottimizzazione della mia sperimentazione e ottenere il massimo numero di dati dal minimo sforzo. II. Eseguire gli esperimenti. Qui ci vogliono le competenze per svilupparli. III. Ottenete dei dati che dobbiamo analizzare per risolvere il problema.
La chemiometria si occupa dello step 1 e 3. Per capire gli approcci ci focalizziamo sull’analisi dei dati. I dati sono dei valori numerici che noi raccogliamo, di solito i dati si quantificano e quindi sono numeri. Quindi il risultato dei nostri esperimenti sia una tabella con diversi numeri. Questi numeri si suppone che cambino in base ai diversi parametri. Alcune volte i numeri dei diversi esperimenti non cambiano o almeno non significamente e quindi la minima differenza è dovuta all’errore sperimentare, oppure cambiano abbastanza e allora vuol dire che un parametro diverso altera il risultato. Perché cambiano? Immaginate di avere una torta composta dai 3 motivi per la quale i numeri cambiano. Una parte varia in funzione di quello che io effettivamente sto cercando e che mi da la risposta al mio problema (informazione utile). Ma i numeri non variano solo in base a quello che sto cercando, c’è anche un’informazione non pertinente che non centra con quello che sto cercando. Variano per qualche cosa che non è direttamente pertinente all’informazione che sto cercando. È una variazione sistematica. C’è anche il rumore, l’errore sperimentale. Errore legato alla strumentalizzazione o errore umano. Quindi la tabella è la somma di tutta la torta e l’obbiettivo è quello di acquisire tutta la fetta della torta relativa all’informazione utile. E l’analisi multivariata serve appunto a questo. Indipendentemente dal tipo di analisi che sia univariata o multivariata bisogna ricordare sempre che l’elaborazione dei dati avviene sempre dopo la pianificazione e l’esecuzione degli esperimenti, il che vuol dire che se io ho pianificato o eseguito male mi porto dietro degli errori e quindi c’è una fetta più grande di errore oppure ho pianificato male e ho una fetta più grande di informazione non pertinente.
Se io in una sperimentazione considero più variabili ma le analizzo una per volta, sto facendo comunque un’analisi univariata. La statistica multivariata è una forma di statistica che comprende l’osservazione e analisi simultanea di più di una variabile statistica. La chemiometria è la scienza che ricava informazione da sistemi chimici (una matrice complessa come qualsiasi alimento con una composizione chimica che può essere caratterizzata da parametri chimici come la quantità e qualità di proteine, acidi grassi ecc) per mezzo guidati dai dati. Cioè attraverso l’analisi dei dati. Analizzando i risultati delle mie misure sperimentali identifico delle relazioni tra le variabili. È una disciplina che si interfaccia molto con tante altre utilizzando dei metodi spesso impiegati nelle discipline di analisi dei dati come la statistica multivariata, la matematica applicata e la scienza del computer ma per investigare e risolvere problemi di chimica, biochimica e ingegneria chimica e tutte le scienze applicate (anche le tecnologie alimentari). Approccio multivariato. Qualcuno può dire che una cosa piace solo per un determinato parametro? La realtà che c’è intorno a sè io in qualche modo io la misuro analizzando diversi parametri e come reagiscono tra di loro e mi fa dire che quella cosa è bella.
In generale istintivamente quando andiamo in laboratorio dopo aver effettuato le sperimentazioni, i dati raccolti li analizziamo in modo univariato, indipendenti l’uno dall’altro o al massimo consideriamo 2 variabili alla volta. Finchè abbiamo poche variabili questo può essere fatto in qualche modo anche se è comunque una visione parziale, ma al giorno d’oggi è facilissimo avere un numero di dati molto più abbondanti e se usiamo un approccio univariato che è dispendioso in termini di tempo è anche sbagliato perché non abbiamo neanche tutta l’informazione. È l’insieme di tutti i dati, è l’interazione tra tutti i dati.
I dati non sono le informazioni, devo riuscire sempre a ricavare la fetta delle informazioni utili in mezzo a tutti i dati. Se torniamo alla torta di prima e ci focalizziamo su quello che ci interessa (informazione utile), questa è a sua volta divisa in 2 parte: La prima deriva dall’analisi univariata E un’altra fetta che deriva soltanto dall’analisi multivariata Tutta la parte dell’informazione utile può essere acquisita anche solo facendo un’analisi multivariata mentre non si può solo con l’analisi univariata.
Esempio: immaginiamo di avere misurato solo 2 variabili un certo numero di campioni. 2 vini san giovese e lambrusco per 2 variabili. In questa tabella vediamo che ho: sulla base della tabella e guardando quei numeri troviamo differenze sostanziali che possa far distinguere i due vini in base ai dati? No. Ora proviamo un approccio univariato e distribuiamo i dati lungo una retta una variabile per volta e vediamo se notiamo delle differenze. Si distinguono i due tipi vini in base a questo raggruppamento? No. Posso trarre qualche conclusione? Poco o niente, casomai posso dire che tendenzialmente i blu sono un po’ più bassi mentre i rossi sono un po’ più alti ma non esiste una divisione netta. A questo punto, secondo voi, sulla base di questi risultati, posso affermare che non è possibile distinguere i due tipi di vini e le variabili? Se noi diamo una rappresentazione multivariata.
Se invece facciamo un’analisi multivariata con tutte e 3 le variabili ecco che ruotando il grafico a 3 dimensioni si riesce a notare un campione che nettamente si discosta dagli altri campioni. Viene chiamato OUTLIER. Sta fuori, campione anomalo trivariato (perché non rispetta le interazioni tra le 3 variabili contemporaneamente infatti negli altri grafici a 2 variabili non si nota). Se abbiamo delle interazioni tra n variabili potrebbero non essere visibili con una statistica che considera n-1 variabili alla volta. Quindi avere un numero enorme di dati e usare un approccio univariato è come avere un pianoforte e suonarlo con un solo dito. Per concludere un’analisi dei dati multivariata mi permette di considerare anche le interazioni che sono le informazioni che posso avere in più rispetto all’informazione delle singole variabili. LEZIONE 2 È anche importante la pianificazione degli esperimenti.
Descrivere un approccio che identifica un metodo per poter pianificare la quantità e quali informazioni si dovranno ottenere dagli esperimenti. Questo è l’obbiettivo del disegno sperimentale. Massima resa con il minimo sforzo. Quali sono le domande che ci facciamo quando dobbiamo eseguire degli esperimenti? Innanzitutto, quali sono le variabili dobbiamo considerare? (ottimizzare la cottura) Dopodiché quali sono i valori che noi dobbiamo dare a queste variabili? (temperatura, tempo) Come acquisire il maggior numero dei dati con il minor numero possibile di esperimenti? Questi metodi vengono chiamati anche metodi basati sulla superficie di risposta che è la rappresentazione grafica o matematica del sistema che sto studiando. Se noi inseriamo le nostre variabili sulle assi x e y tipo temperatura di cottura e il tempo, sull’asse verticale c’è la risposta (quanto è soffice), se inseriamo tutti i valori possibili uscirà fuori una superficie di risposta. In questo modo possiamo vedere come la risposta cambia al cambiare dei valori e come i valori influenzano la risposta. In realtà questo disegno lo possiamo ottenere quando abbiamo 2 fattori. Se invece abbiamo più fattori non è più possibile avere una rappresentazione grafica in quanto andiamo sulle ipersuperfici. In realtà i fattori si dividono in controllabili e incontrollabili. Quindi i fattori controllabili si dividono in quantitativi (che posso distinguere con un numero) e i fattori di tipo qualitativo che posso dividere in categorie A e B.
Nell’esempio abbiamo 3 concentrazioni e 4 repliche per ciascun concentrazioni quindi 12 esperimenti. La concentrazione viene scritta in colonna per 4 volte in base alle repliche e si possono colorare con la formattazione condizionale. In un'altra colonna accanto si scrive la funzione =CASUALE(). In questo modo si genera un numero casuale compreso tra 0 e 1. Mettendo il cursore in basso a destra, cliccando e scorrendo verso il basso la funzione viene copiata nella colonna accanto ai fattori generando 12 numeri casuali. Adesso (andando su dati-ordina-numeri casuali) si ordina in numero crescente in base alla colonna dei numeri casuali e si ottiene una randomizzazione degli esperimenti. Questo può anche non bastare perché si deve controllare che la randomizzazione si abbastanza omogenea. Si può aggiungere alla randomizzazione anche i blocchi. In questo modo ogni settimana si fanno tutte e 3 i fattori ma ogni volta in un ordine diverso per attutire gli errori. cambiamo una variabile alla volta. In questo modo prendiamo il valore che risulta ottimale per ciascuna variabile e prendiamo dove queste si incontrano. Questo non è il metodo ottimale. Immaginiamo di aver fatto tutti gli esperimenti e aver ottenuto una superficie di risposta.
con questa noi riusciamo a vedere veramente qual è il valore ottimale reale dei 2 fattori. Come al solito non abbiamo considerato l’interazione tra i 2 fattori e abbiamo applicato un approccio univariato. Per considerare anche l’iterazione dobbiamo considerare un approccio diverso, quindi il disegno sperimentale. Cominciamo a vedere le tecniche del disegno sperimentale. Fondamentalmente, le tecniche possono essere definite come degli schemi da eseguire quando devo pianificare gli esperimenti. Quindi come e in quale combinazione dei diversi fattori devo considerare per evitare i problemi precedenti. Il primo è il più semplice di tutti è il disegno fattoriale. in generale c’è un numero di livelli. In questo disegno fattoriale si considera il minimo per ognuno dei fattori e un massimo per ognuno dei fattori. Quindi nel caso di 2 fattori con 2 livelli codificati con – e + oppure con -1 e +1. Una volta che abbiamo definito i livelli inferiori e superiori di entrambi i fattori, si considerano tutte le combinazioni tra i livelli di un fattore e i livelli dell’altro fatto. In questo caso le combinazioni sono 4. Esempio pratico: 2 fattori: pH e temperatura. Ovviamente i livelli minimi e massimi vanno scelti in base a dei valori possibili
Definire i valori dei coefficienti per sapere come la risposta varia al variare del valore dei coefficienti. Per stimare la risposta ci sono 2 metodi: il metodo della regressione e il metodo dell’analisi della varianza. Esempio: studiamo come varia la concentrazione di furfurali (sostanza organiche cancerogena che però contribuisce all’aroma dei prodotti come l’aceto balsamico) che si forma durante la tostatura dei chips di legno quercia in funzione della temperatura di tostatura, della durata e al tipo di legno. Quindi abbiamo 2 fattori quantitativi (i primi 2) e 1 qualitativo. Supponiamo di aver definito i valori dei singoli livelli inferiori e superiori per i fattori. Prima di tutto facciamo una tabellina come quella dell’immagine. Per definire i valori delle sperimentazioni un metodo molto semplice è quello di dare al primo fattore un andamento - +. Per il secondo fattore il raddoppio -- ++ e per il terzo fattore prima tutti i – e poi tutti +. In questo modo otteniamo tutte le condizioni possibili per le 8 sperimentazioni. Ovviamente i simboli – e + vanno sostituiti con i valori che abbiamo dato ai 2 livelli – e +. Esempio la prima sperimentazione è data da tutti i livelli inferiori, quindi 160°C per 20 min con il tipo di legno a. La seconda invece è definita da +-- quindi 180°C per 20 min usando il legno di tipo a ecc... poi bisogna randomizzare l’ordine degli esperimenti. poi immaginiamo di fare 2 repliche per ogni condizione per ridurre l’errore. Il modello sperimentale è quello dell’immagine: l’influenza dei singoli fattori, l’influenza dell’iterazione a 2 e all’ultimo l’interazione a 3. Modello lineare. Rappresentiamo i risultati come i vertici di un cubo.
Nelle condizioni --- quindi durata più corta, temperatura più bassa e tipo A, abbiamo 2 repliche e quindi 2 valori rappresentato da 59 e 61. E così per tutti gli altri fattori. Valutiamo i main effect (dei singoli fattori) per capire qual è il fattore che influenza maggiormente la concentrazione di furfurali. L’equazione è y+ medio – y- medio. Y+ medio è la media di tutti i valori della risposta quando l’effetto del fattore che sto considerando è positivo. Esempio per la temperatura, faccio la media di tutti i valori della risposta quando la temperatura è più alta. Allo stesso modo faccio per Y- medio. Il blu sono i valori bassi e i rossi i valori alti. Il valore risultante dall’equazione è 23. Facciamo lo stesso per gli altri fattori. Cosa vuol dire il valore negativo? Per capire quanto il fattore influenza la risposta dobbiamo sempre considerare il valore assoluto. Il valore negativo vuol dire che all’aumentare della durata, la concentrazione dei furfurali sembra diminuire (sembra perché bisogna capire se quel valore lì è significativo o no). Non possiamo dire quale influenza in modo significativo ma già possiamo intuire che la temperatura è il fattore che influenza maggiormente la risposta. LEZIONE 3 Adesso consideriamo l’interazione tra 2 fattori alla volta. Sono 3 interazioni a 2. x 1 x 2 , x 1 x 3 , x 2 x 3. La formula che si usa è la stessa. Per definire i livelli + e – si fa semplicemente la somma tra i 2 segni delle diverse condizioni sperimentali dei 2 fattori.
Comunque siamo arrivati alla fine ad avere un numero che identifichi ogni effetto dei singoli fattori, le interazioni a 2 e l’interazione di tutti e 3 i fattori sulla concentrazione di furfurali. Ora dobbiamo capire quali di questi numeri corrisponda ad un effetto significativo e quali no. Questo è uno dei metodi che si possono applicare. Il concetto è che quei numeri che abbiamo calcolato noi dobbiamo confrontarli con un numero che mi dica qual è l’incertezza dovuta agli errori sperimentali. Vogliamo vedere qual è l’intervallo di confidenza in modo tale da vedere se effettivamente l’effetto delle variazioni di quel fattore o di quelle interazioni è significativo rispetto all’errore sperimentale. Stimo l’errore sperimentale attraverso la varianza residua con la formula dell’immagine dove d sono le differenze tra le repliche misurate e nd è il numero delle condizioni sperimentali. Da questa varianza residua io posso stimare un intervallo di confidenza che è l’intervallo di variazione che posso avere e che al 95% è dovuto all’errore. 3,26 è l’intervallo di confidenza. Quindi qualsiasi valore sia dentro questo valore assoluto non è significativo e quella differenza la posso considerare dovuta all’errore sperimentale. Confrontando quei valori sono 3 i numeri che sono significativi. La temperatura è significativa da sola e con l’interazione con il tipo di legno e la durata del trattamento è significativo da solo. Quindi la qualità del legno da solo non è significativa ma confrontando l’interazione con la temperatura lo diventa. Quindi la mia risposta aumenta all’aumentare di x 1 ed è il fattore che influisce di più quindi se voglio diminuire la concentrazione di furfurali devo tenere una temperatura bassa, devo tenere una durata elevata per diminuirli e devo usare il legno A.
Questo è il secondo metodo che si può utilizzare. Si usa una multilineare modello di regressione creando una tabella con i singoli fattori, le interazioni a 2 e l’interazione a 3 assegnando un valore +1 -1 in base alle tabelle precedenti e la risposta. In rosso ci sono i valori significativi. Questi si differenziano tra gli altri perché è compreso nell’intervallo di confidenza come gli altri ma nei suoi valori non è previsto lo 0. Invece x 3 è 0,75 in un intervallo che va da -0,88 e 2,38 quindi un intervallo che va da un valore negativo ad uno positivo in cui è incluso lo 0 che quindi non è possibile! Come si calcola? Si compone intanto la tabella con i fattori, le interazioni e la risposta.