Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Codifica Digitale del Testo: Rappresentazione e Codifica di Basso e Alto Livello, Appunti di Elementi di Informatica

Università degli Studi di Palermo (UNIPA)Elementi di Informatica

Come i computer memorizzano e elaborano testi digitali attraverso la codifica binaria e la codifica di alto livello. i livelli di codifica, i sistemi binario e esadecimale, la codifica di caratteri come ASCII, ISO-Latin-1 e Unicode, e la codifica di alto livello per rendere esplicita qualsiasi interpretazione del testo.

Tipologia: Appunti

2017/2018

Caricato il 11/12/2018

marina.denaro.771 🇮🇹

5

(3)

11 documenti

1 / 4

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

CODIFICA DIGITALE DEL TESTO

Rappresentazione del testo su supporto digitale in un formato “leggibile” da un computer.

I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1

(cifre binarie) ; questo perché i testi per essere elaborati o trasmessi da un programma devono

avere una rappresentazione (codifica) binaria.

- Ogni tipo di informazione (carattere alfanumerico, di punteggiatura o di controllo che

compone

il testo) deve essere codificata in cifre binarie dove per codificare intendiamo l’associazione di

un codice a ciascuna unità di informazione (sequenza di cifre binarie) che la identifica in

maniera univoca.

Il testo codificato diviene un “Surrogato”, parziale del testo originario con completa

equivalenza dal punto di vista dei caratteri che lo compongono; non vi è nessun guadagno di

informazione dato che l’informazione sulla struttura linguistica rimane implicita e nascosta

(come nel testo originale)

Vi sono due livelli di codifica del testo digitale

•codifica di basso livello (codifica di livello 0): riguarda la rappresentazione binaria della

sequenza ordinata dei caratteri

• codifica di alto livello: arricchisce il testo codificato al livello zero con informazione

relativa a dimensioni strutturali (organizzazione del testo in strutture macrotestuali e

articolazione del testo in strutture linguistiche)

La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo

linguistico, si voglia associare al testo.

Per quanto riguarda i numeri, troviamo il :

1. Sistema binario dove vengono usate due cifre (0 e 1) per rappresentare un numero con

lo svantaggio che i numeri binari sono estremamente lunghi e difficili da ricordare

2. Sistema esadecimale in cui ogni numero è rappresentato con 16 cifre (0-9, A-F), i

numeri sono più corti di quelli binari e vi è un’estrema facilità di conversione tra

binario ed esadecimale

•In una sequenza binaria, ogni stringa di 4 bits corrisponde ad una cifra esadecimale

• 0110 1111 0110 numero binario

• (6) (15) (6)

• 6 F 6 numero esadecimale

COME SONO RAPPRESENTATI I CARATTERI NEL COMPUTER?

Repertorio di caratteri

– un insieme di caratteri (es. “A”, “a”, “!”, “à”, “P”, ecc.)

pf3

pf4

Scopri Appunti di Elementi di Informatica Università degli Studi di Palermo (UNIPA)

Documenti correlati

Codifica dei Numeri e dei Caratteri: Sistemi Numerici e Codifica ASCII

La codifica digitale del testo

Codifica delle informazioni completo

(2)

Codifica alfanumerica

Codifica esadecimale

Codifica Dati: Codifiche Binaria, ASCII, Unicode, Esadecimale e Software

(1)

tpsi - Codifica suoni

la codifica del testo

Codifica dell'informazione.

(1)

Codifica binaria

Codifica dell’informazione

Appunti di informatica - codifica dell'informazione

Anteprima parziale del testo

Scarica Codifica Digitale del Testo: Rappresentazione e Codifica di Basso e Alto Livello e più Appunti in PDF di Elementi di Informatica solo su Docsity!

CODIFICA DIGITALE DEL TESTO

Rappresentazione del testo su supporto digitale in un formato “leggibile” da un computer.

I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1 (cifre binarie) ; questo perché i testi per essere elaborati o trasmessi da un programma devono avere una rappresentazione (codifica) binaria.

Ogni tipo di informazione (carattere alfanumerico, di punteggiatura o di controllo che compone il testo) deve essere codificata in cifre binarie dove per codificare intendiamo l’associazione di

un codice a ciascuna unità di informazione (sequenza di cifre binarie) che la identifica in

maniera univoca.

Il testo codificato diviene un “Surrogato”, parziale del testo originario con completa equivalenza dal punto di vista dei caratteri che lo compongono; non vi è nessun guadagno di informazione dato che l’informazione sulla struttura linguistica rimane implicita e nascosta (come nel testo originale)

Vi sono due livelli di codifica del testo digitale

codifica di basso livello (codifica di livello 0): riguarda la rappresentazione binaria della sequenza ordinata dei caratteri
codifica di alto livello: arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali (o rganizzazione del testo in strutture macrotestuali e a rticolazione del testo in strutture linguistiche)

La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si voglia associare al testo.

Per quanto riguarda i numeri, troviamo il :

Sistema binario dove vengono usate due cifre (0 e 1) per rappresentare un numero con lo svantaggio che i numeri binari sono estremamente lunghi e difficili da ricordare
Sistema esadecimale in cui ogni numero è rappresentato con 16 cifre (0-9, A-F), i numeri sono più corti di quelli binari e vi è un’estrema facilità di conversione tra binario ed esadecimale

In una sequenza binaria, ogni stringa di 4 bits corrisponde ad una cifra esadecimale
- 0110 1111 0110 numero binario
  - (6) (15) (6)
    - 6 F 6 numero esadecimale

COME SONO RAPPRESENTATI I CARATTERI NEL COMPUTER?

Repertorio di caratteri

un insieme di caratteri (es. “A”, “a”, “!”, “à”, “P”, ecc.)

i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati graficamente (gliphs) : “ a ”, “ a ”, “a”, “a” sono tutti lo stesso carattere “a” / - la stessa realizzazione grafica può corrispondere a caratteri diversi (es. “A” latino e “A” cirillico e “A” greco) Set di carattere (codice)
- una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un repertorio di caratteri e un insieme di numeri interi non negativi
- a ogni carattere è assegnato un codice numerico (punto di codice o code position) Codifica di carattere
algoritmo che determina come i codici dei caratteri sono rappresentati in sequenze di bits (bytes)

IL CODICE ASCII è il primo standard per l’assegnazione di codici a caratteri (dal 1963), ha un set di caratteri riconosciuto da tutti i computer. È Sufficiente anche per rappresentare l’inglese Ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bits

in realtà 1 byte = 8 bits di cui un bit non è usato per la codifica (bit di parità)
7 bits = 27 punti di codice = 128 caratteri rappresentati

(^) ISO-Latin-1 (ISO-8859-1 o ASCII esteso)

unica estensione standard di ASCII
1 byte = 8 bits = 28 punti di codice = 256 caratteri rappresentati
sufficiente per lingue europee occidentali (italiano, francese, ecc.)

La famiglia è formata da 14 set di caratteri standardizzati da ISO (International Standard Organization) e non copre lingue come il giapponese e il cinese

UNICODE (ISO--‐10646) è un soprainsieme di ASCII

Standard internazionale che permette di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti ( lingue europee, asiatiche, arabo, ebraico, cirillico). È basato su principi di composizione dinamica dei caratteri utile per caratteri complessi, e.g., cinesi latini con segni diacritici, etc
Assegna un numero di codice univoco ad ogni carattere. Es: “è” = 232 / “ш” = 1096
Risolve i problemi di incompatibilità dei sistemi ISO-
estende l’insieme dei caratteri supportati
permette la realizzazione di documenti multilingue
Codifica comune UTF-8; UTF-8 usa 1 byte per la codifica dei caratteri corrispondenti al set ASCII (cioè la compatibilità non si estende per i caratteri da 128 a 255)
Totale compatibilità con la codifica ASCII, ma non con ISO-latin –

CODIFICA DI ALTO LIVELLO:

P rocesso attraverso cui viene resa esplicita un’interpretazione del testo. La codifica permette di rendere machine readable informazioni sul testo e tratti del testo che altrimenti non sarebbero elaborabili dal computer, trasformandolo in una fonte di informazione linguistica.

I dati non hanno un significato intrinseco a meno di non inserirli in uno schema o struttura che li organizza e li trasforma in informazione.

La gerarchia dell’informazione vede una piramide dove in basso troviamo i DATI: contenuto grezzo dell’informazione, poi troviamo

Svantaggi
- (^) formato “chiuso”, con minima portabilità e interscambiabilità
- codifica non per categorie testuali “astratte”, ma per modalità di visualizzazione
- le informazioni linguistiche rimangono comunque implicite nel testo

COME CODIFICARE? – LINGUAGGI DI MARCATURA

1. CODIFICA DI ALTO LIVELLO CON LINGUAGGI DI MARK-UP COME

XML

Dal punto di vista del formato digitale un testo codificato in XML è in formato solo testo; l’informazione strutturale è rappresentata attraverso l’aggiunta al testo di etichette (o tag) di marcatura

sequenze di caratteri visibili secondo una convenzione standard, intercalati nel testo seguendo precise regole di combinazione
“marcano” blocchi di testo a cui viene assegnata una determinata interpretazione

I codici in formato testo vengono usati per specificare informazioni sul testo

il testo e i suoi metadati sono entrambi in formato “plain text”

Vantaggi

portabilità e interscambiabilità dei testi codificati
massimo grado di espressività (è possibile esprimere tutti gli aspetti della codifica di alto livello, compresa l’informazione linguistica)