Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti documentazione digitale, Appunti di Elaborazione digitale delle immagini

Appunti basati sulle lezioni e slide del corso di Documentazione digitale tenuto presso UniPR dal professore Alberto Salarelli durante l'A.A 2025/2026

Tipologia: Appunti

2025/2026

Caricato il 01/06/2026

big-frank-1
big-frank-1 🇮🇹

6 documenti

1 / 10

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DOCUMENTAZIONE DIGITALE
LEZIONE 08/04/2026
Dal 2022 il governo italiano ha messo in atto un piano di digitalizzazione dei documenti
presenti negli archivi fisici delle biblioteche e degli studi in modo da garantire un accesso
aperto a livello nazionale prima e globale poi a documenti che sono rimasti finora riservati a
pochi studiosi.
John Von Neumann, nel 1949, è stato il primo a ideare un computer basato su codice binario
la cui funzione principale fosse esplicitamente di stipare e archiviare digitalmente molteplici
documenti.
A causa dell’impatto delle reti digitali sulla nostra società, si può dire che essa sia diventata
“informazionale”; secondo Castells, “il termine ‘informazionale’ indica l’attributo di una
specifica forma di organizzazione sociale in cui lo sviluppo, l’elaborazione e la trasmissione
delle informazioni diventano fonti basilari di produttività e potere grazie a nuove condizioni
tecnologiche emerse in questo periodo storico”.
Ma esattamente cos’è un documento? Secondo l’articolo del 1998 “What is a document?” di
Michael Buckland, un documento è “un’informazione sotto forma di cosa, di ‘thing’.”
Questo si rifà alla domanda di Susanne Brier, ossia “Un’antilope può essere considerata un
documento?”, secondo la quale l’antilope in sé, nel suo ambiente naturale, NON è un
documento; tuttavia, la rappresentazione fotografica di un’antilope o un’operazione
attraverso la quale l’antilope viene classificata all’interno di un ordine oppure viene
estrapolata dal suo ambiente naturale e posta, per esempio, in uno zoo, possono essere
considerate documenti.
Differenze tra icona, indice e simbolo:
Icona: imita l’oggetto reale (disegno di bici, di cestino)
Indice:
Simbolo:
Soggettività dell’informazione: “L’informatività di qualcosa è sempre relativa ad alcune
possibili domande.” - Hjorland
LEZIONE 09/04/2026
Codice: sistema di segni utilizzato affinché il supporto materiale possa essere messo nelle
condizioni di rappresentare un fatto, un concetto, un’istruzione. I codici sono composti da un
insieme finito di elementi strutturati oppositivamente e governati da regole combinatorie –
cit. Umberto Eco
DOCUMENTO debole: - registrazione di un fatto
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Appunti documentazione digitale e più Appunti in PDF di Elaborazione digitale delle immagini solo su Docsity!

DOCUMENTAZIONE DIGITALE

LEZIONE 08/04/

Dal 2022 il governo italiano ha messo in atto un piano di digitalizzazione dei documenti presenti negli archivi fisici delle biblioteche e degli studi in modo da garantire un accesso aperto a livello nazionale prima e globale poi a documenti che sono rimasti finora riservati a pochi studiosi. John Von Neumann, nel 1949, è stato il primo a ideare un computer basato su codice binario la cui funzione principale fosse esplicitamente di stipare e archiviare digitalmente molteplici documenti. A causa dell’impatto delle reti digitali sulla nostra società, si può dire che essa sia diventata “informazionale”; secondo Castells, “il termine ‘informazionale’ indica l’attributo di una specifica forma di organizzazione sociale in cui lo sviluppo, l’elaborazione e la trasmissione delle informazioni diventano fonti basilari di produttività e potere grazie a nuove condizioni tecnologiche emerse in questo periodo storico”. Ma esattamente cos’è un documento? Secondo l’articolo del 1998 “What is a document?” di Michael Buckland, un documento è “un’informazione sotto forma di cosa, di ‘thing’.” Questo si rifà alla domanda di Susanne Brier, ossia “Un’antilope può essere considerata un documento?”, secondo la quale l’antilope in sé, nel suo ambiente naturale, NON è un documento; tuttavia, la rappresentazione fotografica di un’antilope o un’operazione attraverso la quale l’antilope viene classificata all’interno di un ordine oppure viene estrapolata dal suo ambiente naturale e posta, per esempio, in uno zoo, possono essere considerate documenti. Differenze tra icona, indice e simbolo: Icona: imita l’oggetto reale (disegno di bici, di cestino) Indice: Simbolo: Soggettività dell’informazione: “L’informatività di qualcosa è sempre relativa ad alcune possibili domande.” - Hjorland

LEZIONE 09/04/

Codice: sistema di segni utilizzato affinché il supporto materiale possa essere messo nelle condizioni di rappresentare un fatto, un concetto, un’istruzione. I codici sono composti da un insieme finito di elementi strutturati oppositivamente e governati da regole combinatorie – cit. Umberto Eco DOCUMENTO debole: - registrazione di un fatto

  • può essere preterintenzionale DOCUMENTO forte: - Iscrizione di un atto
  • Una attestazione che permane nel tempo e ha valore sociale Documento – dal latino “documentum” > doceo, ciò che mostra o rappresenta un fatto STORIA: ciò che è utile a ricostruire il passato DIRITTO: ciò che rappresenta valore legale Concetto giuridico del documento: dal documento che ha valore costitutivo e probatorio (cioè documenti dichiarativi) Nella dottrina un documento deve presentare alcuni elementi:
  • supporto/mezzo di memorizzazione (per il supporto informatico la diversità consiste nella necessità di utilizzare appositi strumenti di lettura per accedere al contenuto)
  • contenuto stabile
  • provenienza certa

LEZIONE 15/04/

Passaggi fondamentali nel processo di digitalizzazione del suono: es. Suono (onda di pressione dell’aria) > Microfono (converte il suono in segnale elettrico) > Cavo elettrico 1 (trasporta il segnale in Per evitare distorsioni ci sono due campioni per ogni ciclo completo: un primo stage positivo e un successivo stage negativo. L’orecchio umano riesce a udire suoni da 20 Hz a 20 Khz con una sensibilità maggiore nell’intervallo tra 2 e 4 Khz (la voce umana varia da 500 Hz a 2 Khz) Per il teorema di Shannon-Nyquist la frequenza di campionamento di un’onda sonora deve essere almeno doppia rispetto alla massima frequenza da riprodurre: per questo alla qualità audio CD la frequenza di campionamento è di 44,1 Khz (il doppio di 22,05 Khz) Per la voce una quantizzazione accettabile è di 8 bit a 22 Khz; per i CD audio lo standard è il doppio (16 bit x 44 Khz, equivalente a 1411 kbps > 16 * 44100 * 2). 10 secondi di audio digitale stereo equivalgono a 1,764 milioni di byte (1,68 Megabyte); per questo motivo in un normale CD audio (circa 600 Mb di spazio) trovano posto solo 70 minuti di musica. FORMATI AUDIO:

  • Monitor: 72 / 96 DPI
  • Televisore analogico: 26 / 70 DPI
  • Televisore Full HD: 180> DPI
  • Iphone X: 458 DPI
  • Scanner: 300 / 4800 DPI
  • Laser Printer: 600 / 1200 DPI
  • Ink Jet Printer: 1200 / 5000 DPI
  • Quotidiano:
  • Settimanale: 250 DPI
  • Ripr. D’arte: 400 DPI La quantità di pixel non è determinante in termini assoluti ma è in funzione di 1) distanza d’osservazione, 2) fattore di ingrandimento, 3) qualità del mezzo di output. QUANTIZZAZIONE: a 300 DPI, 1 pollice quadrato contiene 300^2 = 90’000 pixel, il che vuol dire che una cartolina 4’’ x 5’’ = 1’800’000 pixel. Che valore attribuire a ogni pixel? FORMATI DI IMMAGINE:
  • .tiff (Tagged Image File Format): fino a 6 byte di profondità colore – usato per archiviazione e scambio – formato non distruttivo – permette la manipolazione dei singoli canali colore – dà luogo ad immagini di grandi dimensioni – non è visualizzato direttamente dai browser web – creato da Adobe ma con specifiche rilasciate liberamente
  • .jpeg (Joint Photographic Expert Group): blocchi 8x8 pixel – i valori RGB sono trasformati in YUV, in cui i colori sono rappresentati in termini di luminosità - LEZIONE 21/04/ INFORMATION RETRIEVAL Indicizzazione “Trovare la copia di un documento già identificato è un compito pratico e tecnico. Scoprire quali documenti possono essere migliori per noi è una sfida maggiore e difficile.”
  • Michael Buckland L’information retrieval è l’insieme dei metodi e tecniche che consentono l’indicizzazione, la ricerca e il recupero dell’informazione da fonti elettroniche. L’indicizzazione può significare, tra le altre cose, la descrizione sintetica del contenuto di un documento mediante l’attribuzione di segni di riconoscimento (parole chiave, codici alfanumerici) che ne permettano il reperimento all’interno di un catalogo o di un archivio;

si può inoltre definire come azione mirante a rappresentare i risultati dell’analisi di un documento con gli elementi di un linguaggio naturale o di un linguaggio documentario, generalmente per facilitarne il reperimento. Tipologie di indicizz. Indicizz. DERIVATA: si utilizzano gli stessi termini presenti nel documento derivandoli allo stesso. Indicizz. ASSEGNATA: si attribuiscono al documento termini rappresentativi del contenuto in forma controllata o non controllata.

  1. String Matching, ricerca lineare nel documento (lenta e poco flessibile in termini di miglioramento)
  2. Indicizzazione, veloce e molto più flessibile. Rilevanza del documento: TF: Term Frequency, un termine che appare più volte nel documento è più rilevante di un documento con una singola occorrenza. IDF: Inverse Document Frequency, poche occorrenze di un termine nell’intera collezione fanno aumentare la rilevanza. Al contrario, un termine che appare frequentemente in molti documenti ha un peso minore. LEZIONE 22/04/ Componenti chiave dei LLM (Large Language Models)
  • Dataset: raccolgono diversi dati per poter coprire un ampio set di argomenti e comprendere diverse sfumature linguistiche.
  • Reti neurali:
  • Tempo di “allenamento”
  • Fine-tuning (sintonizzazione delle performance): permette un miglioramento nel compiere delle task specifiche
  • Architettura transformer: il vero nucleo dei LLM; si basa su un processo per determinare l’importanza di un termine all’interno di determinati testi LEZIONE 28/04/ Linguaggio naturale: auto, autovettura, automobile, macchina…
  • TL205 : Library of Congress classification

Qual è la migliore rappresentazione di un contenuto? In ordine da meno preciso (richiamo) a più preciso

  • Trigram string: carente in precisione
  • Parola: buona copertura, non precisa
  • Frase: bassa copertura, più precisa
  • Concetto: bassa copertura, molto preciso IR domande principali
  • Indicizzazione dei documenti: Come rappresentare il loro contenuto? Indicizzazione assegnata o derivata?
  • Valutazione di una query: Fino a che punto un documento corrisponde a una query?
  • Valutazione del sistema: I documenti recuperati sono rilevanti (precisione)? Sono stati recuperati tutti i documenti rilevanti (richiamo)? I sistemi MIR si pongono l’obiettivo di analizzare e rendere ricercabile il contenuto effettivo dei documenti, non prendendo cioè in esame le parole che li descrivono (Content-based, non term-based). Il processo di indicizzazione automatica associa le immagini con descrittori che descrivono le loro caratteristiche fisiche: colore, texture, forme e organizzazione spaziale. La ricerca è svolta attraverso una comparazione, partendo da una libreria di modelli (es. Google Lens). LEZIONE 30/04/ SURROGATI E METADATI
  • “Gli indici rappresentano i reticoli di accesso ai materiali testuali e semantici che, per la loro consistenza quantitativa e per la loro elevata pluridimensionalità logica, sarebbero altrimenti imperscrutabili e inattingibili nella loro compiutezza.” cit. Alfredo Serrai DOCUMENTI ELEMENTI DESCRITTIVI Articolo di rivista scientifica Abstract, titolo della rivista, edizione, autore, titolo, data

I surrogati sono costituiti da metadati: metadato è “data about information or data”. Per esempio: record bibliografico, campo “META” di una pagina web o html, I metadati possono essere interni al documento (embedded) o fuori dal documento (external metadata). I surrogati/metadati servono a:

  • Identificare un documento
  • Descrivere il contenuto secondo un vocabolario più o meno controllato
  • Descrivere le caratteristiche fisiche del documento Il metadato deve essere inteso nel significato di “dato strutturato sulle risorse”. Tim Berners- Lee lo definisce “informazione comprensibile alla macchina su risorse web o altri oggetti”.
  • Metadati: informazioni strutturate riguardo i dati
  • Sintassi / schema di riferimento
  • Diverse funzioni
  • Recupero della risorsa desiderata
  • Gestione dei diritti di accesso
  • Valutazione dei contenuti
  • Archival status Generazione manuale: dispendiosa in termini di tempo e di costi, ma risulta particolarmente qualificata se operata da esperti Generazione automatica: veloce ed economica, ma produce molto “rumore”

TIPI DI SURROGATI E METADATI

  • Amministrativi/gestionali: utilizzati nella gestione e amministrazione delle risorse

informative

  • Descrittivi: utilizzati per descrivere o identificare risorse informative
  • Di conservazione: riferiti alla gestione della conservazione delle risorse informative
  • Tecnici: riferiti al funzionamento di un sistema e al comportamento dei metadati
  • Di utilizzo: riferiti al livello e al tipo di utilizzo delle risorse informative
  • Di valutazione: laddove esprimono giudizi sulla qualità e l’utilità della risorsa