Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Codifica Digitale del Testo: Rappresentazione e Codifica di Basso e Alto Livello, Appunti di Elementi di Informatica

Come i computer memorizzano e elaborano testi digitali attraverso la codifica binaria e la codifica di alto livello. i livelli di codifica, i sistemi binario e esadecimale, la codifica di caratteri come ASCII, ISO-Latin-1 e Unicode, e la codifica di alto livello per rendere esplicita qualsiasi interpretazione del testo.

Tipologia: Appunti

2017/2018

Caricato il 11/12/2018

marina.denaro.771
marina.denaro.771 🇮🇹

5

(3)

11 documenti

1 / 4

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CODIFICA DIGITALE DEL TESTO
Rappresentazione del testo su supporto digitale in un formato “leggibile” da un computer.
I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1
(cifre binarie) ; questo perché i testi per essere elaborati o trasmessi da un programma devono
avere una rappresentazione (codifica) binaria.
- Ogni tipo di informazione (carattere alfanumerico, di punteggiatura o di controllo che
compone
il testo) deve essere codificata in cifre binarie dove per codificare intendiamo l’associazione di
un codice a ciascuna unità di informazione (sequenza di cifre binarie) che la identifica in
maniera univoca.
Il testo codificato diviene un “Surrogato”, parziale del testo originario con completa
equivalenza dal punto di vista dei caratteri che lo compongono; non vi è nessun guadagno di
informazione dato che l’informazione sulla struttura linguistica rimane implicita e nascosta
(come nel testo originale)
Vi sono due livelli di codifica del testo digitale
codifica di basso livello (codifica di livello 0): riguarda la rappresentazione binaria della
sequenza ordinata dei caratteri
codifica di alto livello: arricchisce il testo codificato al livello zero con informazione
relativa a dimensioni strutturali (organizzazione del testo in strutture macrotestuali e
articolazione del testo in strutture linguistiche)
La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo
linguistico, si voglia associare al testo.
Per quanto riguarda i numeri, troviamo il :
1. Sistema binario dove vengono usate due cifre (0 e 1) per rappresentare un numero con
lo svantaggio che i numeri binari sono estremamente lunghi e difficili da ricordare
2. Sistema esadecimale in cui ogni numero è rappresentato con 16 cifre (0-9, A-F), i
numeri sono più corti di quelli binari e vi è un’estrema facilità di conversione tra
binario ed esadecimale
In una sequenza binaria, ogni stringa di 4 bits corrisponde ad una cifra esadecimale
• 0110 1111 0110 numero binario
• (6) (15) (6)
• 6 F 6 numero esadecimale
COME SONO RAPPRESENTATI I CARATTERI NEL COMPUTER?
Repertorio di caratteri
un insieme di caratteri (es. “A”, “a”, “!”, “à”, “P”, ecc.)
pf3
pf4

Anteprima parziale del testo

Scarica Codifica Digitale del Testo: Rappresentazione e Codifica di Basso e Alto Livello e più Appunti in PDF di Elementi di Informatica solo su Docsity!

CODIFICA DIGITALE DEL TESTO

Rappresentazione del testo su supporto digitale in un formato “leggibile” da un computer.

I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1 (cifre binarie) ; questo perché i testi per essere elaborati o trasmessi da un programma devono avere una rappresentazione (codifica) binaria.

  • Ogni tipo di informazione (carattere alfanumerico, di punteggiatura o di controllo che compone il testo) deve essere codificata in cifre binarie dove per codificare intendiamo l’associazione di

un codice a ciascuna unità di informazione (sequenza di cifre binarie) che la identifica in

maniera univoca.

Il testo codificato diviene un “Surrogato”, parziale del testo originario con completa equivalenza dal punto di vista dei caratteri che lo compongono; non vi è nessun guadagno di informazione dato che l’informazione sulla struttura linguistica rimane implicita e nascosta (come nel testo originale)

Vi sono due livelli di codifica del testo digitale

  • codifica di basso livello (codifica di livello 0): riguarda la rappresentazione binaria della sequenza ordinata dei caratteri
  • codifica di alto livello: arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali (o rganizzazione del testo in strutture macrotestuali e a rticolazione del testo in strutture linguistiche)

La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si voglia associare al testo.

Per quanto riguarda i numeri, troviamo il :

  1. Sistema binario dove vengono usate due cifre (0 e 1) per rappresentare un numero con lo svantaggio che i numeri binari sono estremamente lunghi e difficili da ricordare
  2. Sistema esadecimale in cui ogni numero è rappresentato con 16 cifre (0-9, A-F), i numeri sono più corti di quelli binari e vi è un’estrema facilità di conversione tra binario ed esadecimale
  • In una sequenza binaria, ogni stringa di 4 bits corrisponde ad una cifra esadecimale
    • 0110 1111 0110 numero binario
      • (6) (15) (6)
        • 6 F 6 numero esadecimale

COME SONO RAPPRESENTATI I CARATTERI NEL COMPUTER?

Repertorio di caratteri

  • un insieme di caratteri (es. “A”, “a”, “!”, “à”, “P”, ecc.)
  • i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati graficamente (gliphs) :a ”, “ a ”, “a”, “a” sono tutti lo stesso carattere “a” / - la stessa realizzazione grafica può corrispondere a caratteri diversi (es. “A” latino e “A” cirillico e “A” greco) Set di carattere (codice)
    • una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un repertorio di caratteri e un insieme di numeri interi non negativi
    • a ogni carattere è assegnato un codice numerico (punto di codice o code position) Codifica di carattere
  • algoritmo che determina come i codici dei caratteri sono rappresentati in sequenze di bits (bytes)

IL CODICE ASCII è il primo standard per l’assegnazione di codici a caratteri (dal 1963), ha un set di caratteri riconosciuto da tutti i computer. È Sufficiente anche per rappresentare l’inglese Ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bits

  • in realtà 1 byte = 8 bits di cui un bit non è usato per la codifica (bit di parità)
  • 7 bits = 27 punti di codice = 128 caratteri rappresentati
  1. (^) ISO-Latin-1 (ISO-8859-1 o ASCII esteso)
  • unica estensione standard di ASCII
  • 1 byte = 8 bits = 28 punti di codice = 256 caratteri rappresentati
  • sufficiente per lingue europee occidentali (italiano, francese, ecc.)

La famiglia è formata da 14 set di caratteri standardizzati da ISO (International Standard Organization) e non copre lingue come il giapponese e il cinese

  1. UNICODE (ISO--‐10646) è un soprainsieme di ASCII
  • Standard internazionale che permette di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti ( lingue europee, asiatiche, arabo, ebraico, cirillico). È basato su principi di composizione dinamica dei caratteri utile per caratteri complessi, e.g., cinesi latini con segni diacritici, etc
  • Assegna un numero di codice univoco ad ogni carattere. Es: “è” = 232 / “ш” = 1096
  • Risolve i problemi di incompatibilità dei sistemi ISO-
  • estende l’insieme dei caratteri supportati
  • permette la realizzazione di documenti multilingue
  • Codifica comune UTF-8; UTF-8 usa 1 byte per la codifica dei caratteri corrispondenti al set ASCII (cioè la compatibilità non si estende per i caratteri da 128 a 255)
  • Totale compatibilità con la codifica ASCII, ma non con ISO-latin –

CODIFICA DI ALTO LIVELLO:

P rocesso attraverso cui viene resa esplicita un’interpretazione del testo. La codifica permette di rendere machine readable informazioni sul testo e tratti del testo che altrimenti non sarebbero elaborabili dal computer, trasformandolo in una fonte di informazione linguistica.

I dati non hanno un significato intrinseco a meno di non inserirli in uno schema o struttura che li organizza e li trasforma in informazione.

La gerarchia dell’informazione vede una piramide dove in basso troviamo i DATI: contenuto grezzo dell’informazione, poi troviamo

  • Svantaggi
    • (^) formato “chiuso”, con minima portabilità e interscambiabilità
    • codifica non per categorie testuali “astratte”, ma per modalità di visualizzazione
    • le informazioni linguistiche rimangono comunque implicite nel testo

COME CODIFICARE? – LINGUAGGI DI MARCATURA

1. CODIFICA DI ALTO LIVELLO CON LINGUAGGI DI MARK-UP COME

XML

Dal punto di vista del formato digitale un testo codificato in XML è in formato solo testo; l’informazione strutturale è rappresentata attraverso l’aggiunta al testo di etichette (o tag) di marcatura

  • sequenze di caratteri visibili secondo una convenzione standard, intercalati nel testo seguendo precise regole di combinazione
  • “marcano” blocchi di testo a cui viene assegnata una determinata interpretazione

I codici in formato testo vengono usati per specificare informazioni sul testo

  • il testo e i suoi metadati sono entrambi in formato “plain text”

Vantaggi

  • portabilità e interscambiabilità dei testi codificati
  • massimo grado di espressività (è possibile esprimere tutti gli aspetti della codifica di alto livello, compresa l’informazione linguistica)