Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Codifica informazioni non numeriche, Dispense di Elementi di Informatica

Codifica informazioni non numeriche per teoria informatica , esame del politecnico di torino

Tipologia: Dispense

2019/2020

Caricato il 21/11/2020

marta-lato
marta-lato 🇮🇹

3 documenti

1 / 3

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
2. CODIFICA INFORMAZIONI NON NUMERICHE
2.1 CODIFICA CARATTERI
Una stringa di bit può essere interpretata in diversi modi a seconda della “chiave”
utilizzata, ovvero a seconda della codifica.
Per esempio, 01101110 può essere interpretato come un binario puro, come un
binario in modulo e segno, come un complemento a 2 e come un carattere.
Per la codifica dei caratteri abbiamo due codici maggiormente usati: il codice
ASCII (il più diffuso), e il codice UNICODE.
Il codice ASCII si serve di 8 bit (originariamente, per US-ASCII, 7 bit) per
rappresentare 52 caratteri alfabetici (a…z, A…Z), 10 cifre (0…9), segni di
interpunzione (.,:;!?…) e caratteri di controllo.
Con il codice UNICODE, invece, è possibile rappresentare tutti i caratteri di tutte
le lingue del mondo (più di un milione).
In particolare, l’UTF-8 è la codifica UNICODE più usata. Si serve di 1 byte per i
caratteri US-ASCII (MSB = 0), 2 byte per i caratteri latini e simboli di altri
alfabeti (greco, cirillico, ebraico, arabo,…), 3 byte per le lingue di uso comune e
4 byte per dei caratteri rarissimi.
Per la rappresentazione di testo in codice ASCII, i caratteri saranno, appunto,
codificati in ASCII, ogni riga sarà terminata dal “terminatore di riga” (variabile a
seconda del sistema operativo) e, talvolta, le pagine sono separate tra loro da “FF”.
2.2 CODIFICA TESTO/STAMPA
Per quanto riguarda la codifica di testi, non bisogna confondere il formato di un file
Word con il codice ASCII.
Un testo può essere memorizzato in due formati:
-FORMATTATO: sono memorizzate sequenze di byte che definiscono l’aspetto
del testo (es. spaziatura, font,…) e precedono i byte che definiscono i caratteri;
-NON FORMATTATO: sono memorizzati unicamente i caratteri che compongono
il testo.
Il PDF (Portable Document Format) è un formato open di file che permette di
rappresentare documenti in maniera indipendente dall’hardware e dal software
utilizzati per generarli o per visualizzarli.
2.3 CODIFICA IMMAGINI
Le immagini possono essere rappresentate come una sequenza discreta di
elementi luminosi, disposti secondo una matrice. Ciascun elemento delle matrice
sarà un colore, prende il nome di pixel ed è rappresentato da un certo numero di
bit.
Per le immagini complesse ed irregolari (qualcosa ricavata dalla realtà, come una
fotografia, per esempio), si adotta una codifica raster (detta anche bitmap o
pixmap), che le definisce punto per punto (pixel o dot).
Per le immagini create all’interno del computer (es. cartoni animati o videogiochi),
invece, poiché fanno ricorso a figure geometriche regolari e linee, che vengono
#massicciproprio
pf3

Anteprima parziale del testo

Scarica Codifica informazioni non numeriche e più Dispense in PDF di Elementi di Informatica solo su Docsity!

2. CODIFICA INFORMAZIONI NON NUMERICHE

2.1 CODIFICA CARATTERI

Una stringa di bit può essere interpretata in diversi modi a seconda della “chiave” utilizzata, ovvero a seconda della codifica. Per esempio, 01101110 può essere interpretato come un binario puro, come un binario in modulo e segno, come un complemento a 2 e come un carattere. Per la codifica dei caratteri abbiamo due codici maggiormente usati: il codice ASCII (il più diffuso), e il codice UNICODE. Il codice ASCII si serve di 8 bit (originariamente, per US-ASCII, 7 bit) per rappresentare 52 caratteri alfabetici (a…z, A…Z), 10 cifre (0…9), segni di interpunzione (.,:;!?…) e caratteri di controllo. Con il codice UNICODE, invece, è possibile rappresentare tutti i caratteri di tutte le lingue del mondo (più di un milione). In particolare, l’ UTF-8 è la codifica UNICODE più usata. Si serve di 1 byte per i caratteri US-ASCII ( MSB = 0), 2 byte per i caratteri latini e simboli di altri alfabeti (greco, cirillico, ebraico, arabo,…), 3 byte per le lingue di uso comune e 4 byte per dei caratteri rarissimi. Per la rappresentazione di testo in codice ASCII, i caratteri saranno, appunto, codificati in ASCII, ogni riga sarà terminata dal “ terminatore di riga ” (variabile a seconda del sistema operativo) e, talvolta, le pagine sono separate tra loro da “ FF ”. 2.2 CODIFICA TESTO/STAMPA Per quanto riguarda la codifica di testi, non bisogna confondere il formato di un file Word con il codice ASCII. Un testo può essere memorizzato in due formati:

- FORMATTATO : sono memorizzate sequenze di byte che definiscono l’aspetto

del testo (es. spaziatura , font ,…) e precedono i byte che definiscono i caratteri;

- NON FORMATTATO : sono memorizzati unicamente i caratteri che compongono

il testo. Il PDF ( Portable Document Format ) è un formato open di file che permette di rappresentare documenti in maniera indipendente dall’hardware e dal software utilizzati per generarli o per visualizzarli. 2.3 CODIFICA IMMAGINI Le immagini possono essere rappresentate come una sequenza discreta di elementi luminosi , disposti secondo una matrice. Ciascun elemento delle matrice sarà un colore , prende il nome di pixel ed è rappresentato da un certo numero di bit. Per le immagini complesse ed irregolari (qualcosa ricavata dalla realtà, come una fotografia, per esempio), si adotta una codifica raster (detta anche bitmap o pixmap ), che le definisce punto per punto ( pixel o dot ). Per le immagini create all’interno del computer (es. cartoni animati o videogiochi), invece, poiché fanno ricorso a figure geometriche regolari e linee , che vengono

salvate in un file che prende il nome di “ file vector ” (da questo codifica vettoriale ). I colori vengono rappresentati secondo la teoria additiva della colometria, secondo la quale ogni colore è realizzabile a partire dai tre colori primari, secondo il sistema RGB (red, green, blue). Bisogna quindi associare a ciascun pixel una sequenza di bit, per indicarne il colore, assegnando una quantità di bit per ogni colore primario che compone il colore. La codifica che da una precisione maggiore dell’immagine è detta true color , ed utilizza 3 byte a pixel (1 byte per ciascun colore primario). Essa sarà quindi caratterizzata da 24 bpp ( bit per pixel ). La rappresentazione di un’immagine raster mediante la codifica dei pixel viene chiamata codifica BMP ( bitmap ). Le codifiche GIF ( Graphic Interchange Format ), invece, permettono delle compressioni senza perdita. Altre codifiche possibili sono il PNG e JPEG. Quest’ultima, ottimizzata soprattuto per le macchine fotografiche, ha un grado di compressione variabile (da bmp a jpeg) ed ha, comunque, delle perdite con la compressione. La dimensione , intesa come spazio occupato da ogni immagine, è data dal prodotto tra risoluzione e numero di bit necessari per ogni pixel ( profondità ). Le immagini di tipo raster sfruttano una grande quantità di dati per essere definite. Per ridurre la quantità di dati da memorizzare si può cercare di eliminare delle ripetizioni. Parliamo in questo caso di compressione. Abbiamo, per esempio, la codifica run-lenght (AAAAAAABAAAAAAA -> A7B1A7) e la codifica “con dizionario” , facendo corrispondere ad una serie di lettere ripetute più volte un carattere ( es. azz = ø “un pazzo in piazza” -> “un pøo in piøa”). Si può misurare la compressione o come rapporto di compressione C = dimensione dati/dimensione dati compressi (espresso come N:1 o Nx) o come risparmio di spazio S = 1 - (dimensione dati compressi/dimensione dati) (espresso come % ). Le immagini potranno comprimersi con perdita di dati ( lossy compression ) e senza perdita di dati ( loseless compression ). 2.4 CODIFICA VIDEO Le immagini in movimento, o video, sono costituiti da una sequenza di immagini, dette frame o fotogrammi , le quali vengono proiettate ad una frequenza di almeno 16 fps ( frame per secondo ), ovvero la frequenza minima affinché l’occhio umano non percepisca il passaggio da un fotogramma al successivo. La codifica dei filmati è la mpg : ogni frammento catturato come bitmap viene compresso e trasformato in jpg. Ogni pixel viene confrontato tra le immagini adiacenti, e vengono trasmessi solo i dati che hanno subito una variazione. In particolare, la codifica utilizzata per la televisione è la MPEG-.