Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione a TEI Lite: Manuale per la Codifica di Testi Digitali, Appunti di Fondamenti di informatica

Un'introduzione dettagliata a tei lite, un sottoinsieme di tei (text encoding initiative) utilizzato per la codifica di testi digitali, particolarmente rilevante per gli studi umanistici. Esplora il ruolo del testo nell'era digitale, i problemi di codifica, l'uso di xml e i vantaggi di tei lite rispetto ad altre versioni di tei. Approfondisce la struttura dei testi tei, la codifica del corpo testuale e l'evoluzione di tei, offrendo una guida accessibile sia per esperti che per neofiti. Il documento include anche esempi di applicazione in filologia, come la rappresentazione di varianti testuali e l'uso di marcatori per emendamenti e correzioni, rendendolo una risorsa preziosa per chiunque si avvicini alla digitalizzazione e all'analisi di testi antichi e moderni.

Tipologia: Appunti

2023/2024

In vendita dal 05/11/2025

M21L
M21L 🇮🇹

4.5

(2)

83 documenti

1 / 3

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Il manuale TEI Lite
1. Ruolo del testo tra informatica e umanistica: oggetto primario e spesso anche prodotto finale della
ricerca. Produzione di testi digitali/elettronici aumento accessibilità e pervasività, ma con
attenzione ai rischi.
2. Problemi di codifica: di ordine semiotico (scelta del linguaggio formale -costituito da segni finiti da
un insieme di regole- che meglio risponde alle esigenze del testo e della ricerca), ontologico (cos’è
un testo e quali sono le caratteristiche essenziali? Definizione del testo come gerarchia OHCO.
Digitalizzazione impossibilità di essere oggettiva, testo è composto da pluralità in base all’ambito di
studi dal quale si osserva), scelta del linguaggio più appropriato (rendere testo accessibile e
permanente. Per questo si deve puntare su standardizzazione ruolo ISO- e portabilità. Ma ci si
deve avvalere anche dei metadati contengono informazioni sui dati aumentando le capacità di
identificazione, utilizzazione e preservazione-).
3. Codifica del testo prima passo per la digitalizzazione: uso di tavole come ASCII 7 bit 128 caratteri e
ISO8859 8 bit 256 caratteri, ultimo Unicode 16 bit oltre 20.000. Ma legame forte hardware e
software, necessità di standardizzazione, all’utente i processi di codifica sono nascosti.
Altra tecnica uso di linguaggi di marcatura, uso di tag per identificare elementi testuali. Nome
deriva da correzione di bozze editoriali.
Distinti tra procedurali (processi per raggiungere output) e dichiarativi (descrizione di una
caratteristica del testo); per tipologia di fenomeni testuali: presentazionali (strutture grafiche) e
analitici/descrittivi (strutture logiche).
XML linguaggio di marcatura estensibile. Figlio di SGML (linguaggio di marcatura standard generalizzato),
molto semplificato rispetti a quest’ultimo. Primi usi nel WWW con HTML (linguaggio di marcatura
ipertestuale) per pubblicazione di documenti online.
È un metalinguaggio che permette di definire tag personalizzati per strutturare, archiviare e trasmettere
dati. A differenza di HTML, che ha un set predefinito di tag, XML consente agli utenti di creare i propri tag,
rendendolo flessibile per diversi scopi, come lo scambio di dati tra sistemi, la definizione della struttura di
documenti e altro.
Vantaggi di XML
-linguaggio descrittivo e non procedurale, le istruzioni sono contenute in sezioni distinte dalla marcatura
descrittiva e contenute nei fogli di stile
-permette di riconoscere con un parser il tipo di documento verificando che sia ben formato secondo le
regole di XML e ne estrae le informazioni, rendendole disponibili per altre operazioni
-è indipendente da hardware e software garantendo accessibilità e portabilità.
Il documento XML è composto da:
-elementi (delimitati da tag di apertura e chiusura)
-modelli di contenuto (definiscono la struttura e la gerarchia degli elementi, specificando quali elementi
possono comparire all'interno di altri e in quale ordine).
-Prologo dichiarazione XML e dichiarazione tipo di documento (indica quale DTD segue il documento XML).
-Istanza del documento è il contenuto del documento (testo, marcatori, entità)
pf3

Anteprima parziale del testo

Scarica Introduzione a TEI Lite: Manuale per la Codifica di Testi Digitali e più Appunti in PDF di Fondamenti di informatica solo su Docsity!

Il manuale TEI Lite

  1. Ruolo del testo tra informatica e umanistica: oggetto primario e spesso anche prodotto finale della ricerca. Produzione di testi digitali/elettronici aumento accessibilità e pervasività, ma con attenzione ai rischi.
  2. Problemi di codifica: di ordine semiotico (scelta del linguaggio formale - costituito da segni finiti da un insieme di regole- che meglio risponde alle esigenze del testo e della ricerca), ontologico (cos’è un testo e quali sono le caratteristiche essenziali? Definizione del testo come gerarchia OHCO. Digitalizzazione impossibilità di essere oggettiva, testo è composto da pluralità in base all’ambito di studi dal quale si osserva), scelta del linguaggio più appropriato (rendere testo accessibile e permanente. Per questo si deve puntare su standardizzazione – ruolo ISO- e portabilità. Ma ci si deve avvalere anche dei metadati – contengono informazioni sui dati aumentando le capacità di identificazione, utilizzazione e preservazione-).
  3. Codifica del testo prima passo per la digitalizzazione: uso di tavole come ASCII 7 bit 128 caratteri e ISO8859 8 bit 256 caratteri, ultimo Unicode 16 bit oltre 20.000. Ma legame forte hardware e software, necessità di standardizzazione, all’utente i processi di codifica sono nascosti. Altra tecnica uso di linguaggi di marcatura, uso di tag per identificare elementi testuali. Nome deriva da correzione di bozze editoriali. Distinti tra procedurali (processi per raggiungere output) e dichiarativi (descrizione di una caratteristica del testo); per tipologia di fenomeni testuali: presentazionali (strutture grafiche) e analitici/descrittivi (strutture logiche). XML linguaggio di marcatura estensibile. Figlio di SGML (linguaggio di marcatura standard generalizzato), molto semplificato rispetti a quest’ultimo. Primi usi nel WWW con HTML (linguaggio di marcatura ipertestuale) per pubblicazione di documenti online. È un metalinguaggio che permette di definire tag personalizzati per strutturare, archiviare e trasmettere dati. A differenza di HTML, che ha un set predefinito di tag, XML consente agli utenti di creare i propri tag, rendendolo flessibile per diversi scopi, come lo scambio di dati tra sistemi, la definizione della struttura di documenti e altro. Vantaggi di XML
  • linguaggio descrittivo e non procedurale, le istruzioni sono contenute in sezioni distinte dalla marcatura descrittiva e contenute nei fogli di stile
  • permette di riconoscere con un parser il tipo di documento verificando che sia ben formato secondo le regole di XML e ne estrae le informazioni, rendendole disponibili per altre operazioni
  • è indipendente da hardware e software garantendo accessibilità e portabilità. Il documento XML è composto da:
  • elementi (delimitati da tag di apertura e chiusura)
  • modelli di contenuto (definiscono la struttura e la gerarchia degli elementi, specificando quali elementi possono comparire all'interno di altri e in quale ordine).
  • Prologo dichiarazione XML e dichiarazione tipo di documento (indica quale DTD segue il documento XML).
  • Istanza del documento è il contenuto del documento (testo, marcatori, entità)

DTD acronimo di Document Type Definition, è una definizione del tipo di documento, un insieme di regole che specifica la struttura e la validità di un documento SGML, che include anche XML e HTML. Definisce quali elementi, attributi e relazioni sono ammessi in un documento, fungendo da "schema" o "modello" per la sua struttura e permettendone la validazione (se un documento è conforme alle regole definite nel DTD, garantendo la coerenza e la correttezza del documento). Validazione di un testo:

  • elementi dichiarati attraverso identificatore generico e contenuti (di cui si indica frequenza con +, ?, * e gerarchia con , o I).
  • attributi che possono essere associati a ciascun elemento e i loro tipi di dati. Un attributo è una proprietà di un elemento XML, e viene definito all'interno del tag di apertura dell'elemento stesso. Un attributo è composto da una coppia nome-valore, separata dal segno = e fornisce informazioni aggiuntive sull'elemento
  • entità ovvero una stringa di testo che può essere definita in un DTD e utilizzata nel documento XML per sostituire una sequenza di caratteri più lunga o complessa. Le entità possono essere interne (definite nel DTD), esterne (legate a file esterni), parametriche (presenti solo nel DTD e non visibili all’esterno, consentono di scrivere meno codice nel DTD se questo si ripete), di carattere (usate per caratteri speciali) e sono utili per evitare ripetizioni, gestire caratteri speciali e migliorare la leggibilità dei documenti XML. Le entità sono abbreviazioni che dopo essere lette dal parser vengono sostituite con il contenuto vero e proprio dell’identità.
  • notazioni cioè i tipi di dati non XML che possono essere inclusi nel documento.
  • sezioni marcate che vanno incluse, escluse o considerata come CDATA (testo semplice, senza interpretazione dei tag XML al suo interno). TEI applicazione di XML, uso più specifico nella rappresentazione di testi digitali, particolarmente utile per gli studi umanistici. TEI utilizza le regole di XML per definire un insieme di tag e attributi specifici per la codifica di testi complessi, come manoscritti, libri antichi e altri documenti di interesse storico e letterario. Struttura dei testi TEI:
  • intestazione
  • trascrizione del corpo testuale Codifica del corpo testuale:
  • Elementi testuali: front, group, body, back
  • Elementi per la partizione del testo paragrafo (

    ) o più generico

  • Marcatura dei titoli
  • Marcatura delle sezioni es. opere teatrali (, per la battuta) o poesie ( per riga, per strofa…)
  • Numeri di pagina o di riga
  • Stile con e tipo di stile bold o italic….
  • Citazioni (scritta o pesanta, chi la dice…)
  • Note, riferimenti
  • Interventi editoriali: correzioni, originale, regolarizzata, omissioni, soppressioni, aggiunte
  • Nomi (comuni o propri), date, numeri, abbreviazioni, indirizzi
  • Liste e tabelle (indicare anche righe e colonne e argomento tratto nelle caselle), immagini e altre grafiche
  • Riferimenti bibliografici: citazioni che contengono titolo, autore, dati casa editrice… Ciascuno degli ambiti qui elencati è stato presentato attraverso elementi, ciascuno dei quali può essere specificato con attributi vari in base al tipo di elemento trattato.