Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


La codifica digitale del testo, Dispense di Traduzione

Una panoramica sulla codifica digitale del testo, descrivendo i due livelli di codifica: la codifica di basso livello, che riguarda la rappresentazione binaria della sequenza ordinata dei caratteri, e la codifica di alto livello, che arricchisce il testo codificato al livello zero con informazioni relative alla struttura e all'organizzazione del testo. Vengono inoltre approfonditi i concetti di repertorio di caratteri, set di caratteri e codifica di caratteri, con un focus particolare sul codice ascii. Infine, il documento tratta la codifica di alto livello, che permette di rendere esplicita l'interpretazione del testo, inclusi gli aspetti linguistici, e i formati digitali del testo, come il formato solo testo e i formati proprietari, fino ad arrivare ai linguaggi di marcatura come xml.

Tipologia: Dispense

2021/2022

Caricato il 16/05/2023

simona-piraneo-1
simona-piraneo-1 🇮🇹

2 documenti

1 / 34

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Dipartimento di Scienze Umanistiche
Codifica del testo
LABORATORIO DI TRADUZIONE ASSISTITA APPLICATA
A.A. 2022/2023
Prof. Arianna Pipitone
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22

Anteprima parziale del testo

Scarica La codifica digitale del testo e più Dispense in PDF di Traduzione solo su Docsity!

Dipartimento di Scienze Umanistiche

Codifica del testo

LABORATORIO DI TRADUZIONE ASSISTITA APPLICATA

A.A. 2022 / 2023

Prof. Arianna Pipitone

La codifica digitale del testo

  • I computer memorizzano ed elaborano dati sotto forma di

sequenze di due soli simboli 0 e 1 (cifre binarie)

  • Ogni tipo di informazione deve essere codificata in cifre binarie
    • codificare informazione = associare a ciascuna unità di informazione un codice (sequenza di cifre binarie) che la identifica in maniera univoca
  • I testi per essere elaborati o trasmessi da un programma devono

avere una rappresentazione (codifica) binaria

Rappresentazione del testo su supporto digitale in un formato “leggibile” da un computer

Machine Readable Form (MRF)

La codifica digitale del testo

Il testo e la sua organizzazione 52 titolo sezione, capitolo corpo del testo intestazione

La codifica digitale del testo

Il testo e la sua struttura linguistica frase relativa tutti = soggetto sintagma nominale articolo indefinito femminile singolare stanza come luogo V andare pass. rem. 3 sing.

La codifica digitale del testo

54 Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta...

  • Un re! - diranno subito i miei piccoli lettori.
  • No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura. Il testo come sequenza di caratteri (livello 0 ) Ciascun carattere alfanumerico, di punteggiatura o di controllo che compone il testo viene rappresentato in codice binario

La codifica digitale del testo di livello 0

• “Surrogato” parziale del testo originario

  • completa equivalenza solo dal punto di vista dei caratteri che

lo compongono

  • perdita di informazione
    • l’informazione implicitamente veicolata dalla
formattazione del testo viene persa
  • le coordinate meta-testuali » il nome dell’autore, il titolo, ecc.
  • la struttura e organizzazione testuale » la suddivisione logica in sezioni, capitoli, paragrafi, ecc.
  • nessun guadagno di informazione
  • l’informazione sulla struttura linguistica rimane implicita
e nascosta (come nel testo originale)

55

La codifica di livello 0

caratteri e numeri

58

a carattere

97 codice (decimale) del

carattere 0 1 1 0 0 0 0 1 codifica binaria del codice del carattere I computer elaborano internamente solo sequenze di bits (0,1) Maestro Ciliegia

Come sono rappresentati i caratteri nel

computer?

  • Repertorio di caratteri
    • un insieme di caratteri (es. “A”, “a”, “!”, “à”, “P”, ecc.)
    • i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati graficamente (gliphs) - “ a ”, “ a ”, “a”, “a” sono tutti lo stesso carattere “a” - la stessa realizzazione grafica può corrispondere a caratteri diversi (es. “A” latino e “A” cirillico e “A” greco)

Set di carattere (codice)

  • una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un repertorio di caratteri e un insieme di numeri interi non negativi - a ogni carattere è assegnato un codice numerico (punto di codice o code position)
  • Codifica di carattere
  • algoritmo che determina come i codici dei caratteri sono rappresentati in sequenze di bits (bytes) 60

ASCII Standard

decimale ed esadecimale

ASCII Esteso

La codifica ASCII negli anni è stata estesa per incorporare anche altri simboli, quindi si è passati da una rappresentazione a 7 bit ad una a 8 bit, con la possibilità di rappresentare 256 diversi caratteri I primi 128 caratteri rimangono immutati per consentire la compatibilità con la codifica ASCII a 7 bit. I restanti 128 caratteri permettono di rappresentare i caratteri particolari di altre lingue europee: ad esempio caratteri specifici dell’italiano o del francese, del tedesco, e l’alfabeto greco I diversi schemi estesi di codifica ASCII fanno parte della serie degli standard ISO/IEC 8859 del 1987 (IEC = International Electrotechnical Commission), chiamata anche Extended ASCII

La famiglia di caratteri ISO- 8859

  • 14 set di caratteri standardizzati da ISO (International Standard Organization)
  • Codifica
    • 1 byte = 256 caratteri rappresentati da ciascun set
  • Soprainsiemi dei caratteri ASCII Standard
    • punti di codice 0 - 127 (parte comune) ASCII
    • punti di codice 128 - 159 codici di controllo (non corrispondono a caratteri grafici)
    • punti di codice 160 - 255 (parte variabile) caratteri aggiuntivi per greco, cirillico, lingue slave, arabo, ecc.
  • I set di ISO- 8859 sono tutti reciprocamente incompatibili
    • Punto di codice 232
      • ISO- 8859 - 1 (Latin- 1 ) = “è”
      • ISO- 8859 - 6 (Cyrillic) = “ш”
  • ISO- 8859 non copre lingue come giapponese, cinese, ecc. 64

La famiglia di caratteri ISO- 8859 65 ISO-Latin- 1

DICGIM – Lab. Int. Uomo-Macchina

The Universal Character Set

UNICODE (ISO- 10646 )

  • Molteplici tipi di codifica:
    • UCS-2, UCS-4, UTF-8, UTF-16, ecc.
    • Codifica comune UTF- 8
      • codifica di Unicode a lunghezza variabile che usa da 1 a 4 bytes per ogni carattere
      • UTF-8 usa 1 byte per la codifica dei caratteri corrispondenti al set ASCII (cioè la compatibilità non si estende per i caratteri da 128 a 255)
      • totale compatibilità con la codifica ASCII (…ma non con ISO-latin – 1 !!!) 67

DICGIM – Lab. Int. Uomo-Macchina

The Universal Character Set

UNICODE (ISO-10646) 68