Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


appunti documentazione digitale, Appunti di Elaborazione digitale delle immagini

appunti lezioni, integrati con altro materiale, per l'esame di documentazione digitale.

Tipologia: Appunti

2021/2022
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 10/05/2023

alex17-10
alex17-10 🇮🇹

4.3

(12)

17 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DEFINIZIONE DOCUMENTAZIONE DIGITALE
insieme delle tecniche che consentono di fare ricorso all’elaborazione elettronica e in generale all’informatica
per la raccolta, classificazione e registrazione di informazioni in una banca dati e per il loro rapido reperimento
mediante l’esplorazione di opportuni indici e cataloghi di parole chiavi.
Disciplina che si occupa di identificare quelle operazioni intellettuali tecniche occorrenti per il trattamento del
documento.
Uno dei punti chiavi per comprendere la capacità di un sistema di fornirci informazioni per il nostro scopo è la
modal
SINTESI: insieme delle tecniche che permettono il trattamento permanente e sistematico dei documenti. Per la
finalità degli utenti.
(terreno fertile in Francia)
Susanne Briet che cos’è la documentazione? 1951 (capitoli testo ancora attuali)
- tecnica di lavoro intellettuae
- professione (documentalista)
- una necessità dei nostri tempi
PAUL OTLET E LA FONTAINE → (politico e scienziato) hanno fondato la disciplina tra l’800/900. Con lo scopo di
superare le limitazioni della biblioteconomia classica (quindi della disciplina identificata per la gestione dei
documenti). Anni 90 nuovi mezzi di comunicazione (telegrafo ecc) quindi fu una necessità politica – necessità di
comunicazione.
Otlet trattato di documentazione = la vecchia biblioteconomia non è in grado di gestire le nuove forme di
informazione come giornali, periodici, riviste, fotografie e bisogna renderle accessibili.
Fonda l’istituto nazionale di bibliografia (vicino Bruxelles) con lo scopo di raccogliere tutte le registrazioni dei
documenti (schede sintetiche) non fattibile all’epoca.
ODU: esempio di tecnica di gestione delle informazioni (Otler inventa un sistema di classificazione) la
classificazione universale per organizzare i documenti. (ragiona non solo sul modo teorico ma anche tecnico)
queste idee saranno efficaci con l’avvento della digitalizzazione.
Elementi di rivoluzione del 20 secolo:
- sviluppo della ricerca scientifica e sperimentale
- sistemi di indicizzazione e abstract per gli articoli scientifici
- mass media
- soggetti istituzionali in ambito documentario (amministrazioni che producono info utili per i cittadini)
(dopo la guerra molti dati da trattare) Vannevan Bush → sviluppa il suo modello di documentazione digitale =
Memex. 1945. sistema basato però ancora sulla logica analogica non su quella digitale, i pc erano in grado di
operare a livello di calcoli ma non di sfruttare le potenze di calcolo per la gestione documentaria. l’idea era di
avere una sorta di dexstop in grado di consentire all’utente di muoversi con dei link (idea di un web)
John Von Neuman inventa uno dei primi calcolatori: Edvac 1949.
2
CHE COS’E’ IL DOCUMENTO?
Michael Backlund nel 98 si chiede quali sono le caratteristiche del documento. Soprattutto nella nostra società
che si basa su flussi di informazione. La nostra società è legata alle informazioni.
Susanne Briet-→ esempio dell’antilope. l’antilope in natura che corre non è un documento, ma l’antilope
catturata e portata nello zoo diventa documento. (i documenti sono prove a supporto dei fatti, nello zoo viene
classificata per il visitatore). I documenti per essere trattati come prove devono portare informazioni, quindi
segni )il segno sta per qualcosa in un certo contesto per un determinato interprete).
Definizione di dato: rappresentazione di un fatto, di un concetto o di un istruzione, formalizzata in modotale da
assere adatta per la comunicazione, interpretazione o elaborazione da parte dell’uomo di strumenti informatici.
Definizione codice: 1) sistema di segni usato affinché il supporto materiale possa essere messo nelle condizioni
di rappresentare un concetto.
2) i codici sono composti da un insieme finito di elementi strutturati e governati da regole combinatorie (U. eco)
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
Discount

In offerta

Anteprima parziale del testo

Scarica appunti documentazione digitale e più Appunti in PDF di Elaborazione digitale delle immagini solo su Docsity!

DEFINIZIONE DOCUMENTAZIONE DIGITALE

insieme delle tecniche che consentono di fare ricorso all’elaborazione elettronica e in generale all’informatica per la raccolta, classificazione e registrazione di informazioni in una banca dati e per il loro rapido reperimento mediante l’esplorazione di opportuni indici e cataloghi di parole chiavi. Disciplina che si occupa di identificare quelle operazioni intellettuali tecniche occorrenti per il trattamento del documento. Uno dei punti chiavi per comprendere la capacità di un sistema di fornirci informazioni per il nostro scopo è la modal SINTESI : insieme delle tecniche che permettono il trattamento permanente e sistematico dei documenti. Per la finalità degli utenti. (terreno fertile in Francia) Susanne Brietche cos’è la documentazione? 1951 (capitoli testo ancora attuali)

  • tecnica di lavoro intellettuae
  • professione (documentalista)
  • una necessità dei nostri tempi PAUL OTLET E LA FONTAINE → (politico e scienziato) hanno fondato la disciplina tra l’800/900. Con lo scopo di superare le limitazioni della biblioteconomia classica (quindi della disciplina identificata per la gestione dei documenti). Anni 90 nuovi mezzi di comunicazione (telegrafo ecc) quindi fu una necessità politica – necessità di comunicazione. Otlettrattato di documentazione = la vecchia biblioteconomia non è in grado di gestire le nuove forme di informazione come giornali, periodici, riviste, fotografie e bisogna renderle accessibili. Fonda l’istituto nazionale di bibliografia (vicino Bruxelles) con lo scopo di raccogliere tutte le registrazioni dei documenti (schede sintetiche) non fattibile all’epoca. ODU: esempio di tecnica di gestione delle informazioni (Otler inventa un sistema di classificazione) la classificazione universale per organizzare i documenti. (ragiona non solo sul modo teorico ma anche tecnico) queste idee saranno efficaci con l’avvento della digitalizzazione. Elementi di rivoluzione del 20 secolo:
  • sviluppo della ricerca scientifica e sperimentale
  • sistemi di indicizzazione e abstract per gli articoli scientifici
  • mass media
  • soggetti istituzionali in ambito documentario (amministrazioni che producono info utili per i cittadini) (dopo la guerra molti dati da trattare) Vannevan Bush → sviluppa il suo modello di documentazione digitale = Memex. 1945. sistema basato però ancora sulla logica analogica non su quella digitale, i pc erano in grado di operare a livello di calcoli ma non di sfruttare le potenze di calcolo per la gestione documentaria. l’idea era di avere una sorta di dexstop in grado di consentire all’utente di muoversi con dei link (idea di un web) John Von Neuman inventa uno dei primi calcolatori: Edvac 1949. 2 CHE COS’E’ IL DOCUMENTO? Michael Backlund nel 98 si chiede quali sono le caratteristiche del documento. Soprattutto nella nostra società che si basa su flussi di informazione. La nostra società è legata alle informazioni. Susanne Briet-→ esempio dell’antilope. l’antilope in natura che corre non è un documento, ma l’antilope catturata e portata nello zoo diventa documento. (i documenti sono prove a supporto dei fatti, nello zoo viene classificata per il visitatore). I documenti per essere trattati come prove devono portare informazioni, quindi segni )il segno sta per qualcosa in un certo contesto per un determinato interprete). Definizione di dato: rappresentazione di un fatto, di un concetto o di un istruzione, formalizzata in modotale da assere adatta per la comunicazione, interpretazione o elaborazione da parte dell’uomo di strumenti informatici. Definizione codice : 1) sistema di segni usato affinché il supporto materiale possa essere messo nelle condizioni di rappresentare un concetto.
  1. i codici sono composti da un insieme finito di elementi strutturati e governati da regole combinatorie (U. eco)

RIASSUMENDO = I documenti portano informazioni/segni, i segni devono essere capiti e codificati- ci deve essere un codice (i codici sono evoluzioni dei segni) Luciano Floridi → (filosofo dell’informazione) – GDI ( General definition of information) -consiste in un numero di dati dove n è maggiore a uno (Non si può avere un informazione con zero dati) -i dati devono essere ben formati

  • devono essere ricchi di informazioni QUINDI = il contenuto informativo non è qualcosa sta dentro i documenti ma è una relazione tra a domanda che pone l’interprete e la cosa. Nessuna cosa è di per se informazione. Documento → cioè che mostra o rappresenta un fatto, oggetto veicolo di informazioni. Due tipi:
  1. documenti deboli = non necessariamente c’è una precisa volontà nella costruzione del documento stesso (es: impronte uccello in spiaggia decifrate da uno zoologo atto involontario)
  2. documenti forti = vengono redatti con lo scopo di fungere da documenti per rappresentare un’attestazione. Con lo scopo di durare nel tempo e essere riconosciuti socialmente (es: i soldi, attestato di laurea, passaporto). Facilmente riconoscibili (bolli, timbri ecc) **elementi significativi per una teoria del documento
  3. grado di scrittura =** sono i tipi di scrittura forte, debole, segni complessi, meno complessi ecc. es: i segni che fanno riconoscere i documenti forti. 2) contestualizzazione = in che ambito il documento viene trattato (per uno storico ha una valenza, per un giurista un’altra) 3) performatività = cioè gli effetti che il documento provoca in relazione all’uso che se ne fa. Es: per ricerca/ testimonianza, passaporto/pratico, soldi/scambio. I DF Redatti in modo da essere indiscutibili e accettati socialmente. Stretta connessione tra documenti e società al mutare delle forme documentarie muta anche il modo in cui la società si organizza (cosa succede quando ci si sposta dal analogico al digitale?) = qualsiasi trasformazione tecnologica comporta una trasformazione sociale. Documenti conformi ai requisiti di legge contengono sia un profilo idiografico (contenuti del documento. es. dati anagrafici carta di identità) sia un profilo nomotetico (la gabbia strutturale, il protocollo e gli elementi) concetto giuridico di documento
  4. documento fa conoscere un fatto. Definizione generale che comprende documenti prodotti con qualunque mezzo di supporto.
  5. il documento giuridicamente rilevante è una cosa “ idonea “a ricevere, conservare, trasmettere, la rappresentazione descrittiva o emblematica o fonetica di un atto giuridicamente rilevato. In entrambi i casi non si legano a una condizione tecnologica. Differenze : la seconda impone alla nozione generale di documento una valenza specifica. Per essere giuridica deve essere redatto in maniera idonea. Nella dottrina giuridica un documento deve presentare alcuni elementi:
  • supporto/mezzo di memorizzazione (per il supporto informativo la diversità consiste nella necessità di usare opposti strumenti di lettura per accedere al contenuto.
  • contenuto stabile
  • provenienza certa allargamento de concetto di documento: documenti non formali (hanno valore informativo, narrativo, non dichiarativo) es: mozzicone di sigaretta come prova. Tipologie documentarie molto differenziate ne sistema amministrativo contemporaneo: includono anche forme atipiche non sufficientemente elaborate e difficili da controllare. Per avere una certezza → firma digitale (soluzione tecnica per far si che un documento forte possa essere riconosciuto e non manipolato) bisogno di garantire ai documenti digitali quelle caratteristiche di stabilità e riconoscibiità in termini di redazione del documento (tipici del cartaceo).

Teoria matematica della comunicazione 1949 shannon albori informatica. quest’equazione è significativa perché in grado di correlare il portato informativo di un simbolo all’interno di un repertorio composto da N simboli, la scelta di un repertorio più o meno ambio si traduce nalla scelta di più o meno simboli, variabili possibili. Al crescere del valore di N (numero di simboli che compongono il codice) cresce inevitabilmente anche il valore del contenuto di informazione di ogni singolo elemento, simbolo, che viene attivato, tutto ciò su base 2. due diventa la base di una potenza che elevata a valore di N, se I è l’incognita ma conosciamo N si può ritrovare I. I = log(2) N I= contenuto di informazione di un simbolo N= numero dei simboli che compongono il codice INFORMAZIONE: è la quantità che definisce l’incertezza tra due poli di comunicazione esempio: 88 tasti pianoforte da 6,5 di informazione. Quantizzazione: Al cresce del numero di elementi che compongono un repertorio crescono le informazioni (quantità di informazioni) che la scelta di ciascun simbolo comportano. Quando il valore di N è uguale a 1 non ci sono possibilità di trasmettere informazioni, ci da 0. perché tutto ciò è importante nell’informatica degli anni 50? ci consente di stabilire un’aspetto molto importante e ciò a cosa servono questi valori, questa quantità di informazioni? Cosa ci consente di dire quest’equazione? Ci consente di stabilire che per tradurre in formato numerico quella che è la posizione di una tasto sulla tastiera del pianoforte, quindi per individuare un preciso tasto su 88 possibilità, abbiamo bisogno di 6,5 bit, è il valore minimo per poter individuare il tasto sulla tastiera del pianoforte. Con una moneta ci sono due possibilità (testa o croce) e ne basta uno solo, un bit. Oggi come oggi in una delle tabelle più famose ASCII (tabelle codifica più note) gli elementi della tastiera le 26 lettere sono rappresentate da una sequenza di 8 bit, ma ne sarebbero sufficienti di meno, come mai se ne usano di più? Perché non ci sono solo le 26 lettere, maiuscole, minuscole, i segni, ecc.. ecc.. e quindi il numero che effettivamente ci servono sono di più. (2 elevato all’ottava). Esempio: libro di 100000 parole = 600000 byte. Quindi → l’equazione di shannon ci consente di calcolare quelle che sono le dimensionalità che occuperanno sulla base del repertorio scelto i nostri file nel momento in cui li andremo a digitalizzare. Ci consente matematicamente di misurare le dimensioni dello spazio disco. Scegliere un repertorio è fondamentale è che valore ha un bit all’interno di quel repertorio? Esempio: alfabeto SIMBOLO A tabella ASCII valore è 1000001. cambiano se cambiano le tabelle, non esiste un valore di per se significativo, assumono valore informativo nel momento in cui queste scelte sono inserite all’’interno di una tabella di codifica. Quantizzazione: capacità di ottenere (grazie all’equazione) come risultato di un processo di digitalizzazione un segnale digitale. Ma in verità la prima cosa da fare per tradurre in formato digitale è la segmentazione degli elementi costitutivi del documento in parti discrete cioè in elementi che possono essere computati in maniera precisa, cioè il campionamento (come aveva ipotizzato Turring ) PROCESSO DI DIGITALIZZAZIONE tramite il quale un segnale analogico viene trasformato in un segnale digitale. In due passaggi: 1) campionamento (sampling): trasformazione del segnale in una serie di valori discreti spazio/temporali (frammentazione del documento) 2) quantizzazione: assegnazione di un valore numerico a ogni elemento della serie. Questo avviene sia che il documento va digitalizzato sia che il documento nasca già in forma digitale (foto della fotocamera). Discreti : significa valori singoli, che possono essere individuati uno per uno. Il modello di turing: prevedeva che i dati da registrare sulla memoria del dispositivo in questione fossero in celle distinte, la separazione tra una cella e l’altra è un assunto fondamentale in ambito digitale. Per tradurre un segnale analogico è necessario che questo segnale venga diviso e incellulato.

Esempio: onda sonora su un piano cartesiano (prima slide movimento continuo che deve essere scomposto in blocchi che possono essere analizzati uno per uno per digitalizzarlo, il risultato è un onda quadra che cerca di simulare il più possibile la vera onda). → Questa cosa viene detta trasduzione. Nel momento in cui si una un dispositivo digitale per realizzare un file digitale abbiamo a che fare con dispositivi che hanno delle caratteristiche che influiranno sul risultato finale. nell’onda sonora quindi potranno esserci delle varianti rispetto all’originale. Passo di campionamento: nel caso della digitalizzazione di un segnale audio è relativo al numero di misurazioni che su questo segnale vengono effettuate nell’unità di tempo di solito il secondo. Un passo di campionamento breve garantirà un numero di misurazioni dell’unità di tempo molto elevato con la possibilità di ricostruire una corretta lunghezza d’onda. Più restringiamo il campo di campionamento più la nostra capacità di interpretare correttamente quella che è la frequenza dell’onda sonora migliora: misurazione più precisa. Stesso discorso per passo di quantizzazione: qui vediamo come siamo in grado di misurare le caratteristiche del campione che abbiamo individuato. Il campione nella fase uno fino a che punto può essere individuato nel dettaglio. Se la nostra unità di misura è molto ampio la risultante è un onda che somiglia a quello che è il segnale logico di partenza senza però riprodurlo in modo esatto. (Conoscendo N (ampiezza della popolazione di riferimento) e stabilito n (ampiezza del campione), è possibile determinare l'intervallo di campionamento k=N/n (il cosiddetto passo di campionamento), cioè il numero di posizioni che vengono calcolate per individuare in successione le unità campionarie che andranno a costituire il campione sistematico.) B è tutto sommato simile come forma ad A. Nell’esempio D abbiamo come risultato un’onda che non segue fedelmente la curvatura dell’onda originaria, ha un passo di campionamento non adeguato, avrà una qualità scarsa sulla timbrica e sui volumi del suono. Quindi a seconda dei difetti che possono presentarsi si possono avere risultati non adeguati. È possibile calcolare a priori qual è il numero di punti di campionamento necessari per riprodurre un’onda sonora fedelmente? Si. Grazie a un teorema di Shannon che hanno stabilito la necessità di individuare due punti di campionamento per ogni ciclo d’onda all’interno di un processo di digitalizzazione del suono. Se aumentiamo il numero di volte in cui campioniamo meglio ci sarà un segnale ancora più preciso rispetto al minimo necessario. Quindiper il teorema di Shannon-Nyquist la frequenza di campionamento di un’onda sonora deve essere almeno doppia rispetto alla massima frequenza da riprodurre abbiamo come risultato ch la qualità audio cd ha una frequenza di campionamento di 44.1 kiloerts (cioè il doppio di 22.05 il massimo che l’orecchio umano riesce a sentire). Se scendiamo sotto i 44 otteniamo una qualità non ottimale, se aumentiamo abbiamo un risultato ancora migliore. Anche in termini di quantizzazione questo si verifica, quanto siamo disposti a ridurre il nostro passo di quantizzazione per aumentare il numero di elementi utili a descrivere il file, impo perché comporta la scelta di un unito di misura adeguata. Se un solo bit daremo un valore di uno e zero a tutte quelle che stanno sotto la linea di base. X quantizzare la voce un passo di quantizzazione accettabile è di 8 bit meglio ancora se possiamo aumentarlo a 16 o 24 bit, perché cosi avremmo più sfumature del suono. Per i cd audio 8 bit non sono sufficienti, il minimo è 16 bit x 44 khz (stabilito dal teorema di Shannon). La scelta di un formato di digitalizzazione determinano le caratteristiche del prodotto finito. Influiscono sul valore di quantizzazione, sono caratterizzati da l’estensione (è l’elemento di identificazione), un altro punto che ci consente di discriminare tra formato o formato è la presenza o meno di algoritmo di compressione (ci permette di diminuire la dimensione del file. Esistono in perdita e fanno si che partendo dal file originale ad alta risoluzione se si effettua una compressione in un formato compresso in perdita gli elementi che saranno tagliati sono perduti per sempre, non si potrà più ricostruire il formato ad alta definizione originario).

Un immagine di 5 pollici per 4 pollici contiene 1800.000 punti. A risoluzione media. Che dovranno essere descritti e quindi che valore attribuire a ogni pixel? 1 solo bit per descrivere l’immagine: immagine in bianco e nero al massimo grigio 8 bit per ciascun punto immagine_ da un bite quindi. 56 sfumature massime. 16 bit immagine molto più ricca e sfumata s intesi addittiva: 3 byte= 16 milioni di colori. Per ottenere questi 16 milioni di possibili varianti si procede individuando miscelando, opportunamente quelle che sono le gradazioni dei tre colori basi della sintesi addittiva (blu rosso verde: RGB). Si intende che questi 3 colori sono stati individuati come maggior mente significativi dove l’immagine risultate sia ottenuta attraverso fasci luminosi che vanno a comporsi uno sull’altro, come quando osserviamo l’immagine attraverso un monitor. Se li saturiamo al massimo otteniamo il massimo che questa sintesi ci può fornire ovvero il bianco. Il contrario se li abbassiamo otteniamo il nero, dove non c’è luce. RGB: standard ampiamente usato ma estremamente dipendente dal dispositivo. Quando il dispositivo viene cambiato cambia anche il colore poiché esso usa i tre colori primari additivi, non è adatto per vernici o per tinte e pigmenti usati nella stampa che adottano un set diverso di colori primari (ciano, magenta, giallo: CMYK la k sta per nero, sintesi sottrattiva 4byte. Non si ottiene però il nero se li saturiamo al massimo ma un marrone scuro, in fase di stampa per ottenere i neri si usa un inchiostro nero) CMYK: usato soprattutto nel settore della stampa tipografica (ma anche casalinga). Le definizioni sono basate sulle proprietà di assorbimento dell’inchiostro poiché gli attuali inchiostri non produrranno colori puri è stato incluso il nero come colore separato. Molto diffuso. FORMATI DI IMMAGINE in base agli usi dell’immagine TIFF → i l massimo. Fino a 6 byte di profondità colore (numero più elevato rispetto ai 4 byte usati) formato usato per l’archiviazione e lo scambio (per la conservazione delle immagini a lungo termine). Formato non distruttivo. Permette la manipolazione dei singoli canali di colore, è un formato che non essendo proprietario non impone l’uso di particolari programmi, è riconosciuto dalla maggioranza dei software. Formato ideale per poter garantire che l’immagine possa essere conservata nelle migliori condizione. Non è l’ideale per inserimento di immagini in pagine web. Con questo formato di solito vengono archiviati le immagini dagliscanner. Da luogo a immagini di grandi dimensioni. Non è visualizzato direttamnte dai browser web. Creato da Aldus (ora adobe). GIF → Gamma cromatica molto ridotta 8bit massimo 256 colori. Introdotto nel 1987 da Compuserve. Formato non distruttivo e compresso. È riconosciuto dalla maggioranza dei software di elaborazione e dai browser. Supporta alcuni effetti (le gif animate) la trasparenza. Leggerezza e facilità d’uso. In ambito fotografico però le scelte rimangono su TIFF. JPEG → formato a 24bit quindi oltre 16 milioni di colori. Opera in termini di riduzione della dimensione del file grazie all’eliminazione di frequenza (un po' come l’mp3) poco significative per l’occhio umano, puntando di più su altri dettagli come la variazione di luminosità. Versine più avanzata JPEG2000 stesse funzioni ma senza perdite di dati pensato proprio per la possibilità di un uso più ampio e articolato ma non ha avuto un grande successo. Proprietario quindi ha anche questo limitato la diffusione. Funziona come una specie di pacchetto con una diversa versione della stessa immagine. DJVU → file compressi ma non in modo distruttivo, file agili ma senza perdere dettagli rispetto al formato di partenza. Fino a 4 byte di profondità colore. Standard aperto (wikisurce: bibliote digitale di wiki ). è un formato ottimo ma non molto usabile, perché difficile da usare i file e questo ne ha limitato l’uso. PNG → ottimo ma non ha avuto successo neanche questo. Fino a 6 byte di profondità di colore. Formato non distruttivo. Riconosciuto dalla maggioranza di software. FITS → sviluppato per la preservazione delle immagini scientifiche. Consente di incorporare più immagini nello stesso file. Quindi un super pacchetto anche questo, con immagini e elementi descrittivi (metadati).

INDICIZZAZIONE

una volta che il doc digi è stato realizzato e inserito all’interno di una base di dati il problema che si pone all’utente, deve affacciarsi nel database per poter recuperare i documenti e questi documenti devono essere sottoposti a un procedimento che ne renda più facile il reperimento. Definizioni: attività di recupero di informazioni precedentemente immagazzinati. O anche: l’insieme dei metodi e tecniche che consentono l’indicizzazione, la ricerca e il recupero dell’informazione da fondi elettroniche. Quali documenti possono essere più adatti a noi? **Due approcci all’IR

  1. String matching (ricerca lineare del documento)** -lenta (in base a quanto è grande il documento)
  • poco flessibile in termini di miglioramento (ricerca per parole in un documento word) 2) indicizzazione
  • veloce
  • molto flessibile in termine di miglioramento query: Quindi è una rappresentazione di quello che è il bisogno informativo attraverso parole chiavi. Il documento per essere trovato con parole chiavi deve essere indicizzato. Cosa succede quando i documenti vengono indicizzati? - Primo passaggio: Tokenization → riduzione delle frasi a elementi singoli. Tipo un campionamento. Le frasi vengono frammentati in elementi singoli e numerati. - Secondo passaggio: di semplificazione e di rimozione delle stop-word removal parole che non contengono informazione. E stemming: eliminazione suffissi e coniugazione, o plurali. - Terzo passaggio: Inverted file → I termini vengono ordinati alfabeticamente all’interno di un indice. Dare un peso alle parole, stabile se una parole ha una rilevanza all’interno di un documento. Come si pesa un lavoro di un termine? I motori di ricerca lavorano cosi. Di solito non troviamo le notizie più recenti, tranne google che è molto potente, proprio perché la query dell’utente va ad essere comparata in termini presenti in un indice invertiti. Il peso: come si possono pesare i termini? Una delle tecniche più diffuse è la TF-IDF → la capacità di individuare il peso di un termine nel documento computando la frequenza del termine rapportandola alla frequenza inversa all’interno del documento. 1) TF: termine che appare più volte in un documento è più rilevante di un documento con una singola occorrenza ( un documento che continiene più volte la stessa parola, una parola più frequente, fa si che quella parola sia più rilevante rispetto a documenti che contengono meno volte questa parola) 2) IDF : poche occorrenze di un termine nell’intera collezione fanno aumentare la rilevanza. Al contrario, un termine che appare frequentemente in molti documenti ha un peso minore. (un termine che compare tante volte ha un peso maggiore rispetto a uno che comprare poche volte, ma se quella frequenza che abbiamo notato non è caratteristica di un solo documento ma di tanti, bisognerà ridurre il peso di quel termine, non rappresenta un elemento di spicco: è un termine comune). Una query rappresenta l’espressione di un bisogno informativo da parte dell’utente che può essere espressa in due modi: -linguaggio naturale -espressione formalizzata in entrambi i casi si deve raggiungere attraverso delle parole chiavi. Ci sono stati dei tentativi di creare motori per comprendere il linguaggio naturale in modo efficace (ask- il prof scriver una frase intere “ qual’è la distanza tra la terra e la luna?” con tante parole in più e un punto interrogativo, la risposta non è precisa compare la distanza tra terra e marte) questa capacità è di google.

Precisione → è quella grandezza che indica il numero di record rilevanti recuperati in fase di ricerca rispetto al totale dei record (rilevanti e non) recuperati durante la ricerca stessa. 8 finora abbiamo parlato di Information retrieval classico basato sul recupero di documenti di natura testuale, questo per due motivi primo perché storicamente gli IR sono sviluppate perché hanno a che fare con documenti testuali e secondo motivo perché ancora oggi gran parte delle ricerche che vengono effettuate sui motori di ricerca sono legati al recupero di documenti testuali, tuttavia limitare le riflessioni solo su documenti testuali è limitativo perché noi viviamo in un mondo di documenti multimediali. (visiva e sonora) uno degli ambiti più interessanti che si è aggiunto negli anni 90 → MIR: COMPLESSO DI TECNNICHE CHE RENDONO POSSIBILE IL RECUPERO DI INFORMAZIONI MULTIMEDIALI PARTENDO DAL CONTENUTO STESSO: multimedia information retrieval. Se nel documento si usa come chiave d’accesso il documento stesso: parole chiave ecc, il mondo degli archivi visivi o sonori questa soluzione può essere imprecisa, un sistema significativo di recupero della documentazione multimediale deve partire dal presupposto che possa essere effettuato un trattamento diretto del contenuto visivo delle risorse. MIR → i sistemi MMIR si pongono l’obiettivo di analizzare e rendere ricercabile il contenuto effettivo dei documenti, non prendendo cioè in esame le parole che li descrivono. Usando chiavi di ricerche come figure, forme, colori linee.. questo significa ragionare in termine di recupero MMIR. Content-based non term-based: tipo ricerca per immagine in flickr non ci da ricerca di immagini similare che però fa google basato sulla ricerca testuale, parti da parole chiave. O si può direttamente caricare un’immagine e effettuare la ricerca per similarità e questa ricerca non va in base alle parole che correlano le immagini, la ricerca va in base al MIR, non condividono elementi testuali, ma sicuramente hanno elementi formali in comune. O Tineye si può fare la stessa cosa, viene effettuata un’analisi dal punto di vista contenutistico come un codice fiscale delle immagini, quindi ancora più preciso. Immagini.. come si effettua una ricerca per contenuto? Il processo di indicizzazione automatica associa le immagini con d escrittori che descrivono le loro caratteristiche fisiche

  • colour
  • tevtures
  • shapes
  • spatial organisation la ricerca è svolta attraverso una comparazione partendo da una libreria di modelli. 1) Colore → il sistema più comune per definire una tavolozza di colori è RGB (red green blue). Ogni colore percepibile all’occhio umano può essere definito come una somma di tre gradazione dei colori base. Istogrammi di colore
  • si divide lo espresso del colore in un certo numero di aree
  • il valore assegnato a ciascuna area è proporzionale all’ammontare di pixel che presentano quella gradazione di colore. Non può essere risolutivo perché: colori vicini nella tavolozza RGB (riconosciuti come simili) possono essere distanti a livello di percezione umana. Ed è per questo che insieme agli istogrammi colori vengono usati anche altri elementi. Per avere ricerche di similarità ancora più precise si prende come esempio le texture delle immagini (parti di immagini che presentano delle campiture omogenee che possono essere ritrovate in più immagini) 2) texture → strutture omogenee. Organizzazione spaziale dei pixel (il colore non è sufficiente per descrivere un’immagine). Le descrizioni delle textures si ottengono attraverso metodi statistici
  • distribuzione spaziale dell’intensità dell’immagine
  • le descrizioni delle textures possono essere rappresentate come vettori

3) forme → riconoscimento delle are, segmentazione. Si può distinguere immagini completamente diversa tra loro e poi avvicinare e rendere possibile il singolo elemento comparandolo con un campionario. Un altro ambito multimediale è quello MUSICALE shazam e soundhound. Query by humming → Per creare una ricerca contenutistica di un brano musicale si deve inserire una sequenza di note, e quindi presupponeva una conoscenza delle note da parte dell’utente e la riduzione delle note riconoscibile in una forma simile a una partitura. Limitante. Più interessante partire dagli elementi caratteristici del brano come è stato registrato. Gli elementi caratteristi, l’impronta del brano per poterlo comprare con altro. O partire da esempi inseriti dall’utente soundhound si è rivelato una tecnologia innovativa per cercare elementi simili in condizioni differenti e permette di cercare brani tramite tre canali

**- query by description

  • query by humming** (identificare un brano dopo averlo canticchiato, fischiettato) -query by similarity migliora man mano che aumentano gli utenti : educare la sua intelligenza (ci chiede se quello che abbiamo fischiettato è corretto o no)

Digi 8

SURROGATI E METADATI

le tecniche di indicizzazione → hanno come scopo il trattamento di un documento al

fine di un suo recupero efficace, indicizzare quindi è un procedimento che aiuta a

rendere reperibile il documento in un insieme molto ampio. Rendere efficace la modalità

di recupero.

Tramite i descrittori o metadati: elementi su cui un sistema di information retrivol opera

ai fini di poter recuperare il documento. Sono informazioni che descrivono altre

informazioni. I raggruppamenti di metadati, per ottenere una carta di identità del

documento si chiama surrogato.

I surrogati si usano per la costruzione di indici:reticoli di accesso ai materiali testuali e

semantici che per la loro complessità sarebbero altrimenti imperscrutabili (senza di

questi l’accesso sarebbe molto complesso).

Esistono metadati di uso generico che possono in gran parte essere usati tipologie

documentarie varie, e metadati specifici per particolari tipi di documenti.

Quindi → metadati (mattoncini con cui si costruiscono le carte di identità dei documenti

i surrogati – più piccolo di un documento- e combinati tra loro creano indici o cataloghi.

Esempi metadati: record bibliografico

campo meta di una pagina web scritta in HTML

ID

- corretta pianificazione del sito web (creare bene il sito se si sposta reindirizzare il sito

al nuovo)

- uso di link simbolici

-http server redirects

URL non sono adeguati alle esigenze di una DL

serve pensare a forme ancora più efficaci nel tempo, e soprattutto che sganci il

documento dalla sua collocazione fisica → si sta sviluppando una modalità di

assegnazione che sono Gli URI. CHE POSSONO assumere diverse forme, sono diverse

tipologie di indirizzamento che hanno lo scopo di rendere il recupero certa e stabile.

(Doi) handle system : sistema generale globale e sicuro per la denominazione delle

risorse presenti in rete (l’utente non va a cercare direttamente il documento va a cercare

il doi, per trovare le locazioni fisiche che contengono il documento che ci interessa) se il

documento dovesse essere spostato, basta aggiornare e si ritrova il documento. Se il

cliente non ha il doi dovrebbe cercare direttamente il documento nel server dove è stato

caricato. Il doi è una soluzione in uso nelle pubblicazioni in formato digitale, basti

pensare a cosa significa citare un documento all’interno della tesi, significa poterlo

descriverlo con la nota a pie di pagina includendo anche dove può essere repito, un

conto è indicare l’url, un conto è invece fornire il Doi:codice che garantisce l’accesso a

quel registro a cui si è fatto riferimento che risolverà la sequenza alfanumerica

dando sempre l’articolo anche se dovesse essere spostato (garantisce la possibilità di

poterlo recuperare anche se l’articolo dovesse essere spostato, il famoso no found)

Lez 10 **TIPOLOGIE DI METADATI i metadati possono essere usati per diverse finalità

  1. amministrativi/gestionali** (usati nella gestione e amministrazion **e delle risorse informative)
  2. descrittivi** (usati per descrivere o identificare risorse informative) 3) Di conservazione o strutturali (riferiti alla gestione della conservazione delle risorse informative 4) tecnici (riferiti al funzionamento di un sistema e al comportamento dei metadati 5) di utilizzo (riferiti al livello e al tipo di utilizzo delle risorse informative) 6) di valutazione (laddove esprimono giudizi sulla qualità e l’utilità della risorsa) I modelli di metadati definiscono (aiuta a metadadizzare un documento, ci fornisce una griglia per poter applicare i metadati in maniera corretta) di solito non vengono sviluppati degli utenti, ma da chi crea archivi di documenti digitali, da chi crea servizi per i documenti digitali e serve quindi uno scherma di documenti digitale che può servire sia agli utenti sia ai gestori, per poter in maniera coerente usare i metadati all’interno della piattaforma → un modo per fare ordine, un modo per guidare i metadati dentro la piattaforma. Quindi i modelli di metadati definiscono:
  • sintassi per la scrittura
  • nomi degli elementi (metatag)
  • eventuali forme di normalizzazione dei valori degli elementi schemi di metadati esempi:

1) Dublin Core → sviluppato nel 1995, uno dei più longevi, quindi valido in contesti molto differenti l’uno dall’altro, è stato distribuito gratuitamente, nasce dall’unione di comunità di informatici NCSA e l’organizzazione di una delle più grandi reti di biblioteche OCLC, quindi connubbio tra componenti informatiche e le caratteristiche descrittive che la tradizione bibliografica sviluppata nel tempo. È costituito da un modello base di 15 elementi (title- metadato essenziale ) anche il format fondamentale normalmente di tipo MIME, molto usato perché ha usato uno schema di facile utilizzo. È stato un modello per altri schemi di metadati, come dicevamo è neutro, si può applicare a tanti campi, quindi magari se ci fosse un campo specifico non è proprio indicato allora alcune comunità partendo da questo hanno creato dei campi di matadati specifici per esempi: DARWIN CORE o ARTSTOR (banca dati di immagini artistici, a pagamento, scherma partito da DC ma adattato alle opere d’arte). Quindi DC è:

**- Schema essenziale

  • flessibilità d’uso
  • Cross domain discovery,** ( rende possibile ricerche trasversali tra diverse dispipline, perché non nasce per una specifica disciplina) che vantaggio ci da a livello di pubblicizzazione dei metadati? Tantissimi, perché sono basati su una strutturazione omogenea che rende possibile esporre in modo trasparente i metadati. - interoperabilità ( differenti dl possono interscambiare dati reciprocamente - implementazioni già operative (OAI- open archive initiative)
  • metadati descrittivi ( dublin core)
  1. metadati amministrativi
    • tecnici ( EXIF (schema diffuso in ambito fotografico, nasce per garantire la possiiblità di inserire metadati ordinati all’interno del file stesso di immagini, MPEG-7 pensato per le caratteristiche dei filmati sviluppato da MPEG,supporta un ampio ventaglio di applicazioni. ) - Strutturali ( MPEG-21 schema di metadati pensato per descrivere i metadati strutturali, quindi quelli che ci consentono di organizzare la struttura di un oggetto complesso in modo da mantenere il digital item (oggetto digitale complesso) uno dei vantaggi è quello di rendere possibile senza particolari accorgimenti tecnici di rendere trasparente la struttura dell’oggetto stesso , MAG: metadati amministrativi gestionali più diffuso a livelllo nazionale perché fondato nell’ICCU- istituto centrale per il catalogo unico. Composto da diverse sezioni: sezioni gen: contiene informazioni generali sul tipo di digitalizzazione effettuata, e una BIB che contiene invece

Il modello RDF è basato su tre concetti, questi 3 concetti combinati tra loro fanno una tripla, il mattone fondamentale su cui si costruisce l’intero apparato del web semantico. 1) risorse: tutto ciò che viene descritto. Ogni risorsa è indentificata da un URI (uniform resource identifier- elementi in grado di indirizzare una risorsa nella rete) 2) proprietà: elemento usato per la descrizione della risorsa 3) Valori (statement): l’associazione di una proprietà ad una risorsa. Esempio: la pagina del professore personale tramite l’autore si può correlare alla pagina unipr del professore. La forma di attribuzione possa essere espressa secondo una serie di Dublin cre rdf/xml QUINDI OGGNI ASSERZIONE IN RDF è COSTITUITA DA UN SOGGETTO, PREDICATO E OGGETTO ma partendo da queste triple si possono creare delle forme di realtà in rete molto complesse. Una struttura semplice che rende possibile formulare asserzioni su qualsiasi cosa. Tipo: autore, testo, personaggio, rappresentazione teatrale, cinematografica ecc.. LEZ 12 LINKED OPEN DATA E WEB SEMANTICO l’ipotesi che avevamo fatto non è campata per aria, cioè l’idea che i vari elementi di wikipedia possano essere correlati non solo attraverso quelli che sono dei link meccanici ma dei link semanticamente connotati è una realtà che ha cm possibilità di fruizione wikidata → è un progetto che consiste nella riduzione in triple di tutti quelli che sono i materiali presenti in wikipedia. Per rendere possibile la ricerca all’interno di wikipedia attraverso le opportune modalità messe a disposizione dall’interfaccia. La macchina deve essere in grado di riconoscere dei rapporti di appartenenza, dei legami di contenuti. Quindi trovare le risorse tra loro collegate es: carlo collode e le sue opere. Collede come autore è espresso con un codice che è il legame semantico, il risultato è l’incognita di partenza. Potenza dello strumento di ricerca → significa cercare di capire che cosa può prefigurare l’idea di un web semanticamente strutturato di dati esposti in un web in una forma usata per costruire delle grandi architettura di triple. Iniziano già a essere offerte delle risposte. Open date → sono dati liberamente accessibili a tutti. Es pubblica amministrazione. Linked open data → sono una modalità di pubblicazione di dati strutturati che consente di collegare i dati tra di loro. Si basa su tecnologie e standard aperti come HTTP, RDF E URI. Con lo scopo di consentire al pc di leggere e interpretare direttamente le info presenti nel web. La presenza di collegamenti consente inoltre di estrarre dati provenienti da varie fonti attraverso interrogazioni semantiche. Quando i linked date collegano dati aperti si parla di linked open date LOD. l’idea del web semantico è un’idea che piano piano inizia a prendere piede in maniera sempre più significativa, risale al 2001 quando Tim berners-lee ha proposto il termine. l’idea di un web nel quale agiscano agenti intelligenti: applicazioni in grado di comprendere il significato dei documenti. Con il termine WEB SEMANTICO si intende la trasformazione del word wide web in una ambiente dove i documenti pubblicati (pagine HTML, file, immagini ecc) siano associati ad altre informazioni e dati (metadati) che ne specificano il contesto semantico in un formato adatto all’interrogazione, all’interpretazione e più in generale all’elaborazione automatica. Il termine semantico assume la valenza di elaborabile dalla macchina. La semantica dei dati consiste nella creazione di informazioni strutturate perché la macchina possa usarle in modo corretto. Le macchine cioè accedono a un insieme strutturato di informazioni e a un insieme di regole da usare per il ragionamento automatico. I linked data sono:

  • una tecnologia e un insieme di buone pratiche per pubblicare dati sul web in una modalità leggibile e utilizzabile da una macchina, il cui significato è esplicitamente definito tramite una stringa costituita da parole marcatori.
  • i dati sono collegati ad altri set di dati esterni, a cui altri set di dati possono a loro volta riferirsi. I LINKED DATE SONO BASATI SU 4 REGOLE

1) Identificazione degli oggetti è realizzata tramite URI che consente di denotare le cose, gli oggetti con nomi in modo inequivocabile. 2) l’identificazione tramite URI consente alle macchine di individuar le cose e interpretarle in un ambito semantico pertinente. 3) gli ggetti devono essere autoesplicativi: quando si individua un URI sono fornite informazioni utili sull’oggetto a cui L’URI si riferisce tramite formati standard (RDF) 4) ogni risorsa include link ad altri URI in modo che a partire da un dato la ricerca sul web porti all’eccesso automatico ad altri dati affini: nella terminologia RDF l’insieme delle triple costituisce la conoscenza, ogni soggetto può essere oggetto nell’ambito di una nuova tripla. Diversi modi Linked open date: una stella → dati disponibili in qualunque oformato ma con una licenza aperta (afferenti al paradigma della trasparenza del dato) due stelle → dati disponibili in un formato leggibile da un agente automatico. Tipicamente rientrano in questo livello formati proprietari (excel). Anche i dati appartenenti a questa categoria afferiscono al paradigma della trasparenza del dato. Tre stelle → dati con caratteristiche del livello precedente ma in un formato non proprietario. Rappresentano il grado più basso di open data. Quattro stelle → dati con caratteristiche del livello precedente ma esposti usando gli standard W3C, RDF, SPARQL (e identificati da URI). Appartengono già al paradigma dei linked open data cinque stelle → dati con caratteristiche del livello precedente ma collegati da dati esposti da altre persone e organizzazioni. Il grado più alto di linked open data. Non è un progetto semplice. Occorre l’impegno di un team non indifferente. LEZ 13 SISTEMI INFORMATIVI cosa sono? Rispondono alla necessità di indicizzare i documenti, gli strumenti tramite cui il documento può essere recuperato sono i sistemi informativi. Ha il compito di gestione. Ci sono diverse tipologie di documenti che rispecchiano categorie di dati differenti.

  1. documenti digitali molto semplici dati non strutturati (es: block note)
  2. livello di strutturazione più elevato: formattati con livello di marcatura (pagina dell’università di parma, caratteri diversi, grandezza ecc)
  3. alto livello di strutturazione, maggior mente entrano a far parte di un sistema informativo. (es: tabella exel dati relativi a studenti: tabella in cui i singoli elementi che compongono il documento sono stati ordinati in modo che la tabella sia coerente per tutte le schede anagrafiche) Un sistema informativo → può essere inteso come una combinazione di risorse, umane e materiali, e di procedure organizzate per la raccolta, archiviazione, elaborazione e scambio dell’informazione necessaria alle attività operative (informazione di servizio), sia alle attività di programmazione, controllo e valutazione (informazione di governo). Quindi è un luogo dove convergono le istanze del mondo reale Cosa consente di fare un sistema operativo?
  • elaborazione
  • archiviazione
  • comunicazione Il sistema informatico è solo una parte di un sistema informativo che si serve di una struttura fisica (hardware) e di codifiche ed organizzazioni dai dati (strutture dati, archivi/database, software) nonché della necessaria organizzazione che li supporti. Il modello logico si traduce in forme che sono informaticamente basate, lo schema più diffuso di un sistema informativo : tra l’utente e i dati contenuti nel database si contrappone un DBMS che consente di lavorare sul database, e attraverso lui che le operazioni dette prima possono essere elaborate dall’utente. L’utente a qualsiasi livello opera a meno che sia un informativo, dialoga con il database di riferimento attraverso degli applicativi che fondamentale hanno alla base della loro finalità la cooperativa sul DBMS un linguaggio che appunto è SQL ( Structured Query Language ) è un

Il modello E-R è un modello concettuale di dati e fornisce una serie di strutture (costrutti) per descrivere il problema di interesse in modo chiaro e semplice. I costrutti vengono usati per definire schemi che descrivono struttura e occorrenze dei dati. Entità-→ r appresentano oggetti cose con proprietà comune es: città dipartimento, docente, studente, corso un’istanza di un entità è un oggetto della classe relativa. Es: storia relazioni: rappresentano relazioni logiche tra entità es: residenza è una relazione tra studente e città. Esistono anche relazioni ricorsive. Es: piano di studi mette in relazione più occorrenze della stessa entità insegnamenti. Ogni entità sarà accompagnata da Attributi che descrivono che caratteristiche avrà quell’entità. Proprietà elementari delle entità:

  • nome
  • formato -dimensione -chiave -opzionalità 14 PRESERVAZIONE DEI DOCUMENTI DIGITALI conservazione dei documenti il termine che viene usato è preservazione. Quindi quelle modalità e tecniche che rendono un doc consultabile anche in un futuro prossimo. Il problema si pone in considerazione del fatto che l’esperienza passata ha dimostrato come in mancanza di una precisa strategia di digitalizzazione il rischio è di perdere i doc, come sottolinea Luciana Duranti, archivista italiana. Si pone anche il problema della validità dei documenti una volta digitalizzati. **Fattori di rischio:
  • supporto materiale** (tutti i doc digitali sono registrati su qualcosa, i supporti materiali hanno una loro vita es: cd) duplicare il documento è l’unico modo per preservarlo. Salvare i documenti in claude rappresenta informaticamente parlando un sistema di server su ampia parte del globo che continuamente duplicano i dati che abbiamo registrato nel claude stresso, al fine di poterli recuperare. - strumenti di lettura (chiavette, cd, ecc non basta un solo supporto, serve anche lo strumento per leggerlo vedi videocassette ormai difficilmente decodificabile)
  • formati di digitalizzazione ( scelta di un buon formato è una scelta strategica per le finalità pratiche ) Per garantire un’efficace conservazione sostitutiva (procedura che consente nel tempo, la permanenza della validità legale di un documento informatico) occorre riferirsi a:
  • accessibilità (possibilità di poter accedere in un tempo futuro al nostro documento, la soluzione privilegiata è quella della copiatura
  • autenticità
  • integrità Modello OAIS → prevede che esista una sorta di pacchetto informatico contenente il testo del documento digitale, garantisce la conservazione a lungo termine. Il contenuto possa essere inserito in questo pacchetto informatizzato contenente anche i relativi metadati sul documento. Dato e matadato stanno insieme in questo pacchetto che viene a sua volta metadatizzato. 23