Scarica Dispense di Chemiometria e più Dispense in PDF di Statistica solo su Docsity! -1- Analisi Chemiometrica Risolvere un problema chemiometrico significa risolvere un problema complesso a causa di una difficile interpretazione dei dati. Siamo dinanzi ad un numero elevato di variabili, quest’ultime così numerose portano ad una serie di problematiche come l’errore sperimentale, relazioni lineari e non lineari, correlazione tra alcune variabili ed effetti di antagonismo. Il problema principale è l’allineamento dei dati e provarne l’affidabilità, di fatto generalmente si fa una prima distinzione tra informazione e rumore. Alcune tecniche hanno proprio il compito di separare questi due, mentre l’operatore si occupa di distinguere il dato utile da quello inutile. • Informazione = variazione sistematica sensata • Rumore = variazione casuale Problema Dati analitici Per risolvere un problema chemiometrico possiamo approcciare esso in due modi diversi. Il primo è l’approccio classico in cui viene trattata una variabile alla volta, ma ciò risulta essere un’interpretazione incompleta e non fornisce alcuna visione globale del sistema, mentre il secondo è l’approccio multivariato in cui tutte le variabili vengono trattate contemporaneamente e ciò risulta essere un aspetto positivo in quanto diamo un’interpretazione completa e abbiamo una visione globale del sistema. L’approccio multivariato è decisamente migliore di quello classico, però anch’esso presenta delle problematiche legate proprio alla natura multivariata dei dati. Queste sono: la presenza di matrici di dati incomplete, la presenza di effetti di scala nelle variabili e la presenza di anormalità nella distribuzione dei dati. proprietà intrinseche del dato Classificazione, risposta qualitativa Regressione, risposta quantitativa Ottimizzazione, soluzione empirica Generalmente per avere un approccio multivariato e sopperire queste problematiche si fa, per prassi, il pre-trattamento dei dati. 1° step: • Eliminare il campione o la variabile, ma ciò è molto drastico perché si perdono delle informazioni quindi si fa solo quando è inevitabile. • Sostituire il valore mancante con il valore medio degli altri dati, ciò è un buon metodo ma non è applicabile quando si hanno i dati suddivisi in gruppi. • Sostituire mediante regressione, per ciò deve esserci una buona correlazione tra i dati ed un R2 > 0,95. • Sostituire mediante PCA, prima si fa una predizione e se esiste una correlazione generica allora ciò va bene. 2° step: • Si stabilizza la varianza. • Si fa una linearizzazione delle relazioni tra le variabili. • Si normalizza la distribuzione dei dati. • Si elimina l’eteroscedasticità. 3° step: • Centratura: serve per spostare i dati attorno al valore medio della variabile, in questo modo la distanza tra i punti non cambia, di fatto sono solo traslati. • Autoscaling: prima avviene la centratura dei dati e poi la normalizzazione a varianza pari ad uno, in questo modo cambia la distanza tra i punti perché viene vincolata la varianza. È necessario però eliminare prima le variabili che variano all’interno dell’errore sperimentale, altrimenti assumono la stessa importanza delle variabili portatrici di informazione utile. • Range scaling: i dati sono vincolati a stare in un certo range tra un valore minimo e un valore massimo. • Maximum scaling: si impone un vincolo sul valore massimo dei dati. Consiste nel trattamento dei dati mancanti e vi sono varie possibilità di applicazione a seconda del problema. Consiste nelle trasformazioni delle variabili, viene applicato solo quando necessario. Consiste nella scalatura dei dati, ciò viene applicato per eliminare l’effetto scala e rendere le variabili confrontabili tra loro. Nel loadings plot non è importante attribuire un valore positivo o negativo alle variabili, ma è importante come si correlano tutte tra loro: se due variabili sono correlate in senso positivo goderanno di una proporzionalità diretta, invece se due variabili sono correlate in senso negativo significa che goderanno di una proporzionalità indiretta. Nello scores plot si individuano solo dei raggruppamenti poiché in quelle posizioni ci sono i loadings delle stesse componenti principali. Per avere un livello di informazione più alto bisogna comparare il loadings plot con lo scores plot ed individuare quante e quali variabili spiegano maggiormente su quella componente principale. Gli scores sono coefficienti anch’essi calcolati come combinazione lineare delle variabili originali con i propri loadings. ti,j = l1j x1i + l2j x2i + … + lnj xni Le componenti principali più significative vengono scelte in base alla quantità percentuale di informazione spiegata da ognuna di esse. Generalmente, ci si ferma a considerarle quando vi è un salto rilevante dalla componente precedente a quella successiva e difficilmente si va oltre le 6 componenti principali. Si può anche fare uso del metodo degli autovalori in cui si prendono significative le componenti principali il cui autovalore è superiore dell’autovalore medio. Scores plot Loadings plot -3- Cluster analysis È un metodo unsupervised, quindi non vengono fatte ipotesi a priori poiché il risultato varia a seconda del metodo scelto da applicare. Generalmente serve per scoprire dei raggruppamenti inaspettati all’interno di un dataset di cui si conosce poco, ma anche per fare un’analisi preliminare di classificazione in cui si verifica se i dati sono realmente strutturati in gruppi. La cluster analysis si può fare sulle variabili originali ma anche sulle componenti principali e il vantaggio di farla su quest’ultime è quello di eliminare il rumore di fondo e avere maggiori informazioni sui gruppi. Questo metodo si applica mediante l’utilizzo dell’algoritmo di clustering in cui si sceglie un criterio per unire gli oggetti tra loro più simili. Il clustering può essere gerarchico o non gerarchico: nel primo c’è una gerarchia nella divisione degli oggetti dai più simili ai meno simili, mentre nel secondo non esiste una gerarchia netta. Il cluster gerarchico più comune si chiama cluster gerarchico agglomerativo in cui inizialmente gli oggetti sono tutti separati, quindi un oggetto è un gruppo, e successivamente man mano si mettono insieme quelli più simili. La relazione che lega due oggetti da una condizione di similarità è la seguente: 𝑠!,# = 1 − 𝑑!,# 𝑑$%& - se di,j = dmax si,j = 0 oggetti completamente dissimili - se di,j = 0 si,j = 1 oggetti identici Il cluster gerarchico agglomerativo funziona in questo modo. Si hanno tanti gruppi quanti gli oggetti e inizialmente si scelgono i due oggetti più simili tra loro, poi li si unisce per formare un cluster e i due oggetti costituenti scompaiono dal dataset venendo sostituiti da un’entità chiamata cluster(1). Il raggruppamento di oggetti si dice modo Q, mentre quello di variabili si dice modo R. A questo punto viene valutata la distanza tra il cluster(1) e gli altri oggetti del dataset per scegliere quelli più simili tra loro che andranno a formare il cluster(2), e così via. L’insieme grafico dei cluster di un dataset prende il nome di dendogramma, in cui sulle ascisse ci sono gli oggetti, mentre sulle ordinate le distanze percentuali. Esistono vari metodi basati proprio su come si calcolano queste distanze. Il primo metodo è il single linkage. La distanza scelta per la formazione di un cluster qui è la minima distanza tra gli oggetti che lo compongono, e via via finché accoppiamo tutti gli oggetti con la minima distanza. Questo metodo però fornisce problemi di chaining, ovvero i vari cluster all’interno del dendogramma sono concatenati e non ben definiti. Il secondo metodo è il complete linkage. È simile a quello precedente però in questo caso si considera la distanza massima tra due oggetti nella formazione dei cluster, e via via finché accoppiamo tutti gli oggetti con la massima distanza. Questo metodo fornisce cluster sferici, ben definiti e di piccoli dimensioni. Entrambi i metodi mantengono l’identità degli oggetti che formano i vari cluster. Il terzo metodo è l’unweighted average linkage. La distanza scelta per la formazione di un cluster è la media non pesata tra due oggetti, inoltre si tiene conto del numero di oggetti presenti nei gruppi. Questo metodo non mostra grandi problemi di chaining e generalmente fornisce buoni risultati. Il quarto metodo è il weighted average linkage. La distanza scelta per la formazione di un cluster è la media pesata tra due oggetti, inoltre non si tiene conto del numero di oggetti presenti nei gruppi. Questo metodo fornisce dendogrammi molto simili a quelli dell’unweighted, ma solo meglio nel chaining. Sia nel metodo weighted che unweighted si sostituisce un determinato cluster con un qualcosa che non era presente prima, di fatto si calcola un’entità pesata o non pesata. Il quinto metodo è il metodo di Ward. Si considera la perdita di informazione per ogni volta che due oggetti si uniscono tra loro per formare un cluster, tale perdita di informazione è data dalla somma dei quadrati delle distanze tra gli oggetti e viene calcolata per ogni cluster. Questo metodo fornisce dendogrammi eccellenti, di fatto il chaining non si vede mai e i gruppi sono ben definiti. Un terzo possibile trattamento è la correzione, in cui vengono eliminati fenomeni di scattering, di interferenze, di lunghezza del cammino ottico e di shift della linea di base. Il primo metodo è la MSC, cui solitamente toglie gli effetti di amplificazione del segnale ed effetti di intercetta: i primi si moltiplicano al segnale, mentre i secondi si sommano al segnale. Questa metodica opera andando a correggere tutti gli spettri rispetto alla media degli spettri poiché lo spettro medio ci aiuta a calcolare una regressione tra ciascuno spettro e sé stesso. Quando questo metodo viene applicato a repliche dello stesso tipo si elimina l’errore sperimentale. Il secondo metodo è la SNV, corrisponde ad un’autoscalatura mediante la trasposizione della matrice dei dati. Con questo metodo uno spettro viene normalizzato sottraendo la media degli altri spettri e dividendo per lo scarto tipo delle risposte. Questo metodo viene applicato indipendentemente ad ogni spettro e di conseguenza viene sottratta meno informazione rispetto a quanto faccia la MSC. Un quarto possibile trattamento è l’operazione di derivata, cui mette in evidenza informazioni nascoste da bande sovrapposte. Questa opera riducendo gli allargamenti associati a variazioni di linea di base e riducendo gli allargamenti associati alla presenza di bande vicine. Il primo metodo per applicare un’operazione di derivata è il Norris, di fatto è un algoritmo che permette di calcolare la derivata prima e il numero di punti su cui si deve eseguire la media. Il secondo metodo è il Savitzky-Golay, questo algoritmo permette di calcolare le derivate di ordine superiore e successivamente fa un’approssimazione dei punti in base a quello che avviene nell’intervallo precedente e successivo. -5- Introduzione ai modelli Un modello è una funzione matematica che prevede una serie di coefficienti in grado di legare tra loro le variabili. Abbiamo i modelli deterministici, ovvero quelli basati su una legge già assodata, e i modelli stocastici, cioè quelli creati sulla base di dati sperimentali. In generale, un modello è statistico e affidabile in quanto serve per prevedere situazioni future. Per costruire un modello inizialmente si identifica il tipo di modello che necessitiamo per poi capire il numero di esperimenti da fare, dopo si realizzano questi esperimenti per ottenere i coefficienti del modello, in seguito si valutano le prestazioni di quest’ultimo, rendendolo più stabile se necessario e, infine, si predicono delle situazioni incognite. Quando si aggiungono le variabili, il modello inizia ad essere complicato. Aumentando il numero di variabili diminuisce l’errore sistematico perché viene descritta la realtà sempre meglio, ma aumentando la varianza quindi il modello diventa allo stesso tempo meno stabile. È necessario che un modello eviti la situazione dell’overfitting, cioè di spiegare troppo e non essere più in grado di predire. Di fatto, definiamo il fitting come la capacità di spiegare il modello e la prediction come la capacità di predire situazioni incognite, quindi trovando un compromesso tra fitting e prediction possiamo evitare l’overfitting. Definisco il compromesso sopra descritto per il metodo di regressione, poiché è il più comune tra tutti. 𝑅!"# = 1 − 𝑃𝑅𝐸𝑆𝑆 𝑇𝑆𝑆 = 1 − ∑ +𝑦$ − 𝑦$|$- ! $ ∑ (𝑦$ − 𝑦∗)!$ È definita l’equazione per il miglior compromesso, cioè R2 cross-validato , in cui il TSS è la somma totale dei quadrati dei valori e il PRESS è la somma dei quadrati degli errori in predizione. yi = tutti i valori yi|i = valore predetto dell’oggetto y * = media dei valori Le tecniche adatte per valutare R2 cv vengono chiamate tecniche di validazione e si basano sulla divisione del dataset in due parti: training set, cioè il fitting, ed evaluation set, ovvero la prediction. La prima tecnica si chiama leave one out, consiste nel calcolare dei modelli con n-dati in cui un solo dato viene escluso dal calcolo e in questo modo si valutano le capacità predittive del modello stesso con n-1 dati. Generalmente il dato da togliere non è mai né all’inizio né alla fine, ma in mezzo a tutti gli altri. Questa tecnica crea una minima perturbazione nei dati ma fornisce dei risultati che tendono troppo a R2, infatti va bene con pochi oggetti. La seconda tecnica è il leave more out, consiste nel suddividere i dati in g-gruppi di cancellazione e predire i k-dati esclusi dal calcolo. All’incirca viene omesso il 20% dei dati ed in questo modo la tecnica è più perturbativa di quella precedente, di fatto va bene con tanti oggetti. Lo svantaggio della tecnica è quello di dipendere troppo da come sono associati gli oggetti tra loro quando sono uniti in gruppi, ma ciò si può rimediare ripetendo la procedura più volte e utilizzare il valore medio ottenuto. Esiste una variante più comoda, chiamata Monte Carlo, che suddivide training set ed evaluation set casualmente e ripetutamente un certo numero di volte. La terza tecnica è il bootstrapping, consiste nel produrre un modello finale calcolato su tutti gli oggetti e non con qualcuno in meno, grazie a tecniche di ri- campionamento degli oggetti. Questo è molto vantaggioso poiché si costruisce una popolazione che ha sempre lo stesso numero di oggetti all’interno. La quarta tecnica è la double cross-validation, consiste nel compiere due cicli di validazione annidati l’uno con l’altro. Dai dati viene tenuto fuori il set più esterno e perciò il modello viene calcolato solo con il set interno, il vero compito del set esterno è quello di fungere da valutatore del modello. Quando si parla di coefficienti da trovare all’interno di un modello si fa riferimento ai minimi quadrati ordinari, o meglio OLS, e la loro finalità è quella di minimizzare la somma dei residui al quadrato. I minimi quadrati dipendono dallo scarto tipo di regressione, questo si propaga all’intercetta e alla pendenza mediante la legge di propagazione dell’errore. L’intercetta e la pendenza hanno una loro banda di confidenza, questa dipende dallo scarto tipo di regressione, dal numero di livelli di concentrazione inclusi nel modello e da come questi sono ripartiti. Tutte le considerazioni fatte sono di tipo qualitativo, ma quantitativamente parlando si calcola la significatività dei parametri, la normalità dei residui, l’omoscedasticità e l’eteroscedasticità dei residui, la linearità del modello. Per la significatività dei parametri si fa un test t-student, in cui si confrontano due coefficienti rispetto a due valori di riferimento. Il tcalcolato deve essere maggiore del ttabulato, così a quel punto i due coefficienti sono significativi, di conseguenza quelli non significativi vengono eliminati. Per i residui si fa un test di normalità, in cui si valuta la presenza o meno di trend tra i residui. I trend sono presenti quando il numero di sequenze con lo stesso segno è minore di una quantità ben precisa. Per l’eteroscedasticità si predilige il test di Hartley, in cui si confronta la varianza più grande con la varianza più piccola. Se il risultato ottenuto è maggiore del valore tabulato allora è presente eteroscedasticità, questa può essere tolta tramite calibrazione della retta con i minimi quadrati pesati. Per la linearità del modello si fa un’analisi della varianza con misure replicate oppure si fa l’analisi dei residui per verificare la presenza di un trend oppure si fa il test di Mandel. Quest’ultimo serve per confrontare un test lineare con un test non lineare tramite la verifica dell’incremento di informazione. Ecco un quadro generale. Calibrazione classica Calibrazione monovariata Calibrazione inversa Calibrazione multivariata La calibrazione classica stima meglio agli estremi di un modello, mentre la calibrazione inversa stima meglio al centro di un modello. Calibrazione classica 𝐶𝑜𝑛𝑐𝑒𝑛𝑡𝑟𝑎𝑧𝑖𝑜𝑛𝑒 = 𝑓(𝑠𝑒𝑔𝑛𝑎𝑙𝑒) Calibrazione inversa 𝑆𝑒𝑔𝑛𝑎𝑙𝑒 = 𝑓(𝑐𝑜𝑛𝑐𝑒𝑛𝑡𝑟𝑎𝑧𝑖𝑜𝑛𝑒) -7- Calibrazione multivariata La prima tecnica è la regressione lineare multipla, anche chiamata MLR. È un modello lineare del I ordine, i cui coefficienti sono indipendenti l’uno dall’altro. Esiste anche un modello lineare del II ordine, ma è dipendente dall’intercetta, da ogni singolo fattore, dalle interazioni fra due fattori e dai fattori quadratici. La MLR modella la ysperimentale attraverso la xsperimentale con un modello del I ordine e i coefficienti vengono calcolati mediante il metodo dei minimi quadrati. I coefficienti stimati dal modello sono del tipo b = ( xT x )-1 xT y , ma particolare attenzione merita ( xTx )-1, il cui nome è matrice di dispersione. Quest’ultima riporta le varianze dei coefficienti lungo la diagonale e le stime dei coefficienti sulle posizioni extra-diagonale. Altre due tecniche sono la PCR e la PLS, ovvero metodi basati sulla proiezione in variabili latenti. Queste due utilizzano solo parte dell’informazione contenuta nei dati per costruire il modello di regressione, mentre la MLR la utilizza tutta. La seconda tecnica è la regressione componenti principali, chiamata anche PCR, il cui compito è quello di modellare la risposta come combinazione lineare delle componenti principali con varianza maggiore e ciò comporta di lavorare sulla matrice delle componenti principali significative e non su quella del modello. I vantaggi sono la riduzione della dimensionalità, poiché si trattano problemi in cui gli oggetti sono minori delle variabili e ciò comporta una diminuzione delle componenti principali, il contributo di variabili simili finisce sulla stessa componente principale ed, inoltre, i problemi di multicollinearità vengono superati in quanto le componenti principali sono indipendenti tra loro. Una nota molto importante è che i coefficienti del modello MLR sono legati a quelli del modello PCR mediante la matrice dei loading. La terza tecnica è quella dei minimi quadrati parziali, chiamata anche PLS, funziona molto bene quando il numero di oggetti è minore rispetto al numero di variabili correlate tra loro. Questa tecnica correla un set di predittori, contenuti in x, ad un set di risposte, contenute in y: la combinazione tra le due avviene attraverso una regressione ai minimi quadrati. La PLS funziona in questo modo. Si utilizzano coppie di variabili latenti su x e su y e la tecnica ne cerca la massima covarianza ( xTy ), mentre la PCR ne cercherebbe la massima varianza ( xTx ). L’algoritmo fornisce a questo punto una sola variabile latente alla volta e cerca tutte la coppia più vicina ad essa. Questa procedura continua finché ci sono variabili latenti significative e si fermerà prima che il potere predittivo del modello diminuisce, cioè quando raggiunge la complessità ottimale, questo nella pratica significa che si arresta quando non ci sono più variabili latenti sufficientemente vicine in x e in y oppure quando non si estrae più informazione utile in x che predice il valore di y. Il numero ottimale di variabili latenti è determinato attraverso il miglior valore di R2 cross-validato. La LDA si basa sull’ipotesi che le matrici di varianza-covarianza di tutte le classi sono poste uguali tra loro e coincidono con la matrice di varianza-covarianza pooled. Le classi hanno dimensionalità diverse, ma si tiene conto solo di una forma media delle classi che è diversa da quella sferica. Il confine tra le classi si dice iperpiano e la direzione di rettilinea di classificazione è perpendicolare all’iperpiano stesso. Il QDA si basa sull’ipotesi che ogni classe ha la sua struttura e una matrice di varianza-covarianza distinta. È necessario che per ogni classe ci siano a disposizione più oggetti del numero di variabili totali, anche se raffigura essere uno svantaggio perché in questo modo necessita molti punti sperimentali. Il confine tra le classi è una superficie quadratica. Nell’RDA un oggetto viene assegnato con molta probabilità alla classe con varianza maggiore a parità di distanza, generalmente si cerca la combinazione di parametri che fornisce i risultati migliori. In questa tecnica però il risultato è interpretabile solo quando gli oggetti sono suddivisi in classi. Un altro metodo modellante è il SIMCA, cui si basa sulle componenti principali più significative. Questa tecnica funzione così: viene effettuata l’autoscaling per ogni classe, si fa l’analisi PCA su ogni classe separatamente, si stimano le componenti principali significative per ogni classe ed, infine, si calcola il confine cioè individuare lo score minimo e lo score massimo che oggetti devono avere sulla componente per finire dentro la classe. Per il SIMCA non vengono fatte ipotesi sulla distribuzione delle variabili, ogni classe è rappresentata dal suo modello di componenti principali e sono scalate in maniera indipendente. L’oggetto viene attribuito alla classe più vicina, ma ciò non ci garantisce che sia dentro al confine e quindi si applica la seguente formula. 𝐹 = !"# "# $ !"# #$ Il rapporto ci indica il confine delle classe e lo spazio interno al confine si chiama SIMCA box. F < FCARATTERISTICO l’oggetto è interno a quella classe F < FCARATTERISTICO per due classi l’oggetto è interno ad entrambe le classi F > FCARATTERISTICO l’oggetto non è interno alla classe (outlier) Il numeratore è la distanza SIMCA di ogni ogge7o di una classe, mentre il denominatore è la misura della dispersione degli ogge; del training-set a7orno al centro della classe. Il SIMCA implica la conoscenza di due indici. Il primo è il potere modellante, il cui spiega quanto pesa una variabile nel definire un modello, mentre il secondo è il potere discriminante, il cui spiega la differenza tra due classi alla volta. Un altro metodo è il PLS-DA, è un’analisi discriminante la cui logica è basata sull’algoritmo PLS, quindi si va a cercare una corrispondenza tra un blocco x e un blocco y attraverso le variabili latenti. La y appartiene ad una classe e codifica assumendo valori differenti: -1 per una classe e +1 per un’altra classe. Nel caso di più di due classi l’algoritmo spiega la differenza tra la classe(1) e le altre, tra la classe(2) e le altre, e così via ... Modellando tutte le classi insieme è possibile capire le differenze tra le varie classi. Metodi non-modellanti Particolare attenzione viene data ad un metodo non-modellante, ovvero il KNN, è un metodo empirico utilizzabile solo se le classi sono separate da superfici complesse. In questo metodo si calcola la distanza tra ogni coppia di oggetti e si sceglie un valore prefissato di oggetti vicini da valutare, dopo si attribuisce un nuovo oggetto alla classe più rappresentata tra gli oggetti vicini. In caso di parità di oggetti da valutare si applica il criterio maggioritario, cioè l’oggetto viene assegnato alla classe per cui la somma delle distanze è minima oppure alla classe per cui la somma dei pesi è massima. Metodi ad albero Si basano su una struttura gerarchica e su partizioni binarie. Nel nodo ci si pone delle domande, mentre la foglia è il finale, quindi deve contenere gli oggetti di una sola classe. Porsi la domanda serve per applicare una classificazione che permette di separare da una parte e dall’altra. 𝑥$ ≤ 𝑡$ Nel metodo CART ad ogni nodo dell’albero k gli oggetti vengono ripartiti in due gruppi basandoci solo su una variabile alla volta, a cui è associato un certo valore di soglia t. Ad ogni nodo l’algoritmo seleziona la variabile che separa meglio più oggetti da una parte all’altra. Nel metodo LDCT ad ogni nodo dell’albero non si prende in considerazione una sola variabile, ma viene applicata la LDA cercando di separare un gruppo puro da una parte e il resto dall’altra. Il problema di questo metodo è che bisogna separare i gruppi in due campioni, la separazione è definita dall’utente ad ogni nodo e si cerca di separare secondo una partizione maggiore all’interno di un gruppo. Tutti i metodi di regressione e classificazione visti possono aggiungere una passaggio importante, quale l’utilizzo dei metodi di selezione delle variabili. Si No foglia nodo -11- Algoritmo genetico L’algoritmo genetico viene usato per l’ottimizzazione e la selezione delle variabili, invece come meccanismo applicativo è un modello non lineare. La selezione delle variabili viene fatta attraverso una valutazione dei modelli che si basa su una serie di cromosomi, ad esempio: 1 modello = 1 cromosoma in cui si identificano una serie di geni 1 gene = 1 variabile se vale 0 allora non è inclusa nel modello se vale 1 allora è inclusa nel modello Ad ogni cromosoma è associata una risposta y, cioè l’indice della bontà del modello, ha il fine di selezionare gli individui migliori della popolazione evoluta. L’algoritmo genetico è un programma evolutivo in cui una popolazione si evolve secondo dei meccanismi di evoluzione complessi. Ci sono 3 fasi di sviluppo: 1. Definizione della popolazione iniziale 2. Evoluzione di due fasi, accoppiamento e mutazione 3. Fase di arresto Nella fase di accoppiamento i geni di due individui si combinano per produrre figli che ereditano caratteristiche da entrambi i genitori, cioè vengono esplorati modelli diversi, mentre la fase di mutazione avviene quando si vuole un cambiamento importante e ciò viene fatto reintroducendo nella popolazione del materiale genetico perduto, qui vengono esplorate zone completamente nuove. Il meccanismo più importante è quello di bilanciare le due fasi in quanto bisogna trovare un compromesso tra exploitation e exploration. La prima è una ricerca locale del migliore con la popolazione disponibile in quel momento, mentre la seconda è una ricerca globale del migliore. Non bisogna esagerare con entrambe. 1ª fase Popolazione iniziale Vengono scelti i parametri da includere nel modello, maggiore è il numero di parametri maggiore è la varietà dell’informazione. Successivamente si sceglie la dimensionalità della popolazione iniziale e si scelgono gli individui che forniscono un set di risposte migliori. Quest’ultimi si dispongono nella popolazione in ordine di qualità. 2ª fase Fase evolutiva La prima fase è caratterizzata dalla generazione di nuovi individui che non si aggiungono alla popolazione ma sostituiscono quegli individui che nella popolazione danno performance peggiori, mentre la seconda fase prende alcuni individui e li muta. Queste due fasi si susseguono finché il criterio di stop viene soddisfatto, cioè fino a quando si ottiene una popolazione che non varia più a seconda delle iterazioni. Tutto ciò ha lo scopo di favorire la riproduzione degli individui migliori e di preservare la diversità della popolazione. Ad ogni cromosoma è abbinata una cross-over probability, cioè la probabilità che un oggetto venga selezionato, ma non la matematica certezza. Il cross-over può essere fatto mediante il one point cross-over in cui viene selezionato un gene che fa da spartiacque poiché avviene il taglio di un cromosoma in due parti e così ci si trova in un modello completamente nuovo oppure il two points cross-over in cui due geni fanno da spartiacque e quindi vengono generati più individui nuovi. Il one point mescola meno la popolazione di quanto faccia il two points. Terminata la fase di accoppiamento si entra nella fase di mutazione attraverso una probabilità, cioè la mutation probability, e questa si verifica nel momento in cui la cross-over probability è molto maggiore della mutation probability. Il significato di mutare è quello di cambiare il valore di un certo gene da 0 ad 1 all’interno di un cromosoma, quindi significa esplorare nuove zone dei modelli. 3ª fase Fase di arresto La procedura di selezione si interrompe quando si raggiunge un certo numero di iterazioni tra generazione e mutazione oppure quando la qualità della popolazione finale non cambia più in modo significativo. Quando la procedura termina, l’individuo con la qualità migliore rappresenta il miglior risultato. -12- Autenticazione e Data fusion La tracciabilità è il legame tra un prodotto (cibo, per esempio) e il terreno di provenienza di tutti i costituenti del prodotto stesso, mentre l’autenticazione è la distinzione del prodotto per la propria provenienza geografica, per la varietà botanica/animale e per il processo tecnologico di produzione. Essere tracciabile significa anche essere autentico, mentre non è vero il contrario. La tracciabilità è molto importante per la certificazione documentale poiché la misura dei parametri chimico-fisici non deve variare lungo la catena di produzione. Quest’ultima può essere corta, media e lunga: in tutti e 3 i casi l’autenticazione è sempre fattibile, mentre la tracciabilità diventa più complessa e difficile aumentando la lunghezza della catena di produzione. La tracciabilità viene fatta mediante un profilo elementare, invece l’autenticazione sia mediante un profilo elementare sia anche mediante una caratterizzazione chimico-fisica, ad esempio fare un profilo volatile oppure utilizzare tecniche spettroscopiche. Le tecniche di data fusion si dividono in 3 livelli: high-level, intermediate-level e low-level. Il livello simboleggia lo stadio in cui viene fatta la fusione dei dati. Nell’high-level vengono estratte delle caratteristiche da ognuno dei blocchi in modo separato e gli oggetti si classificano sulla base dei quattro blocchi separati, nell’intermediate-level si estraggono delle caratteristiche da ciascun blocco separatamente e queste si fondono, infine nel low-level si fondono direttamente le variabili originali ma ciò è un problema perché nell’analisi finale queste dovrebbero essere pesate diversamente. Impronta del prodotto - profilo elementare - profilo volatile - tecniche ohmiche - tecniche spettroscopiche + Statistica multivariata - PLS-DA - SIMCA - LDA - Ranking-PCA = Metodi di Data fusion n, p1 n, p2 n, p3 n, p4