la codifica del testo | Appunti di Elementi di Informatica

LA CODIFICA DEL TESTO (modulo 12)

Per codifica si intende la rappresentazione digitale di un testo.

I testi per essere elaborati o trasmessi da un programma devono avere una rappresentazione binaria.

Abbiamo 2 livelli di codifica del testo:

-basso livello (0), viene assegnato ad ogni carattere del testo un codice numerico binario che lo

identifica e per la codifica si usano algoritmi che determinano come i codici sono rappresentati in

sequenze di bit

-alto livello è un processo attraverso cui viene resa esplicita un’interpretazione del

testo(informazioni sulla struttura,contenuto,ecc). Esistono vari livelli e gradi di interpretazione:

tipografica, extratestuale, linguistica, ecc.

Il codice ASCII è il primo standard per l’assegnazione di codici a caratteri. I 128 punti di codice

messi a disposizione dall'ASCII ma diventavano pochi nel caso di una lingua come l'italiano. Per

ovviare a questa limitazione, furono create varie estensioni di ASCII che adoperavano tutti e otto i

bit per la codifica, per un totale di 256 punti di codice disponibili; fra queste, la più celebre è

probabilmente la ISO-Latin-1 appartenente ad una famiglia di codifiche (la ISO-8859) della quale

ogni membro è equivalente ad ASCII per i primi 128 punti di codice, mentre quelli successivi

codificano caratteri differenti a seconda del set.

ISO-LATIN-1 “The universal character set” permette di rappresentare qualsiasi tipo di carattere

appartenente ai sistemi grafici esistenti.

Il testo è un’entità altamente strutturata, nella quale i dati linguistici sono correlati secondo piani di

organizzazione multipli (capitoli, titoli, autore, finalità del testo, informazioni morfologiche,

sintattiche, ecc.) Per codificare bisogna individuare:

1) Individuare il livello di informazione (strutturale, linguistica, ecc.)

2) Definire i tratti rilevanti per la codifica (attributi grammaticale, persona, genere, numero) e

quali valori possono avere i diversi attributi (il numero = singolare, plurale).

Il formato solo testo, è costituito da una sequenza di byte, ognuno dei quali rappresenta un

carattere secondo un particolare codice.

Gli editori di testo sono programmi in grado di leggere e creare file di solo testo ( blocco

note, word pad, ecc.). Tra i vantaggi è un formato aperto, indipendente dal sistema operativo

e dal programma che lo ha creato. Però non può rappresentare aspetti relativi alla codifica di

alto livello. Abbiamo invece anche i formati proprietari (doc, pdf, ecc.) che possono essere

creati, letti e interpretati solo da uno specifico programma (word, adobe). Il file contiene

sequenze binarie che corrispondono a istruzioni di formattazione. Il vantaggio è la massima

capacità espressiva e fruibilità per l’utente umano, però è un formato chiuso e le

informazioni linguistiche rimangono implicite nel testo. La codifica di alto livello inoltre,

può avvenire con linguaggi di mark-up, come ad esempio XML.

Anteprima parziale del testo

Scarica la codifica del testo e più Appunti in PDF di Elementi di Informatica solo su Docsity!

LA CODIFICA DEL TESTO (modulo 12)

Per codifica si intende la rappresentazione digitale di un testo. I testi per essere elaborati o trasmessi da un programma devono avere una rappresentazione binaria. Abbiamo 2 livelli di codifica del testo: -basso livello (0), viene assegnato ad ogni carattere del testo un codice numerico binario che lo identifica e per la codifica si usano algoritmi che determinano come i codici sono rappresentati in sequenze di bit -alto livello è un processo attraverso cui viene resa esplicita un’interpretazione del testo(informazioni sulla struttura,contenuto,ecc). Esistono vari livelli e gradi di interpretazione: tipografica, extratestuale, linguistica, ecc. Il codice ASCII è il primo standard per l’assegnazione di codici a caratteri. I 128 punti di codice messi a disposizione dall'ASCII ma diventavano pochi nel caso di una lingua come l'italiano. Per ovviare a questa limitazione, furono create varie estensioni di ASCII che adoperavano tutti e otto i bit per la codifica, per un totale di 256 punti di codice disponibili; fra queste, la più celebre è probabilmente la ISO-Latin-1 appartenente ad una famiglia di codifiche (la ISO-8859) della quale ogni membro è equivalente ad ASCII per i primi 128 punti di codice, mentre quelli successivi codificano caratteri differenti a seconda del set. ISO-LATIN-1 “The universal character set” permette di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti. Il testo è un’entità altamente strutturata, nella quale i dati linguistici sono correlati secondo piani di organizzazione multipli (capitoli, titoli, autore, finalità del testo, informazioni morfologiche, sintattiche, ecc.) Per codificare bisogna individuare:

Individuare il livello di informazione (strutturale, linguistica, ecc.)
Definire i tratti rilevanti per la codifica (attributi grammaticale, persona, genere, numero) e quali valori possono avere i diversi attributi (il numero = singolare, plurale). Il formato solo testo, è costituito da una sequenza di byte, ognuno dei quali rappresenta un carattere secondo un particolare codice. Gli editori di testo sono programmi in grado di leggere e creare file di solo testo ( blocco note, word pad, ecc.). Tra i vantaggi è un formato aperto, indipendente dal sistema operativo e dal programma che lo ha creato. Però non può rappresentare aspetti relativi alla codifica di alto livello. Abbiamo invece anche i formati proprietari (doc, pdf, ecc.) che possono essere creati, letti e interpretati solo da uno specifico programma (word, adobe). Il file contiene sequenze binarie che corrispondono a istruzioni di formattazione. Il vantaggio è la massima capacità espressiva e fruibilità per l’utente umano, però è un formato chiuso e le informazioni linguistiche rimangono implicite nel testo. La codifica di alto livello inoltre, può avvenire con linguaggi di mark-up, come ad esempio XML.

HTML (modulo 13) È un linguaggio di marcatura (insieme di regole che descrivono i meccanismi di rappresentazione di un testo) nato per formattare testo, inoltre offre un collegamento tra più pagine. Le pagine web sono scritte in HTML. Il principale tag è con un tag di apertura e uno di chiusura in pagina. Struttura essenziale della pagina web:

descrive le caratteristiche generali della pagina, come il titolo

</head> <body> contiene il contenuto della pagina web, inoltre può essere personalizzato con attributo di stile, che permette di scegliere lo sfondo e il colore del testo della pagina <Qui va la parte visualizzata nello schermo> </body> </html> Tutti i tag devono avere anche il corrispondente tag di chiusura. Un attributo descrive le caratteristiche del tag. Esempio: <p> permette l’inserimento di un paragrafo di testo: un suo attributo è style, che consente di modificare l’apparenza del paragrafo secondo la notazione CSS. Il tag <a> (anchor), consente di creare collegamenti a testo e immagini, con il nome del contenuto HTML racchiuso all’interno dei tag. Il tag <img> si usa per l’inserimento di un’immagine e si usa l’attributo src per identificare il file che contiene l’immagine da visualizzare. Abbiamo 2 tipi di collegamento a pagine web con: URL relativo: il file collegato risiede nella stessa cartella della pagina che effettua il riferimento. URL assoluto: è un collegamento con un indirizzo web preciso. HTML e fogli di stile CSS (modulo 14) Un foglio di stile è un insieme di regole di formattazione da applicare. Un foglio di stile CSS è sintatticamente strutturato come una sequenza di regole , che sono coppie costituite da un selettore e un blocco di dichiarazioni , racchiuso tra parentesi graffe. Un selettore è un predicato che individua certi elementi del documento HTML; una dichiarazione è a sua volta costituita da una proprietà , ovvero un tratto di stile (come il colore del testo) e un valore da assegnare a quest'ultimo (per esempio blu) .Diversi tipi di selettori: -Selettori di tipo: si riferiscono all’elemento da formattare, quindi è un tag del documento HTML -Selettori di attributo: si usano per definire classi o identificatori -Selettori identificatori: come le classi sono dei blocchi di stile non possono essere usati più volte in un documento. I vantaggi dei fogli di stile sono:

DOM (Document Object Model) è definito come standard del W3C ( Il World Wide Web Consortium , anche conosciuto come W3C , è un'organizzazione non governativa internazionale che ha come scopo quello di sviluppare tutte le potenzialità del World Wide Web. Al fine di riuscire nel proprio intento, la principale attività svolta dal W3C consiste nello stabilire standard tecnici per il World Wide Web inerenti sia i linguaggi di markup che i protocolli di comunicazione). Secondo il DOM ogni concetto è un nodo: L’intero documento è un nodo radice. Ciascun tag XML è un nodo elemento. I testi contenuti negli elementi XML sono nodi testo. Ogni attributo XML è un nodo attributo. I nodi hanno tra loro una relazione gerarchica che rispetta l’annidamento dei tag. Questi nodi formano l’albero del documento. L’albero comincia con il nodo radice e si inseriscono i nodi elemento, questa configurazione è detta ALBERO STRUTTURA. Se si inseriscono nodi testo è detto ALBERO ISTANZA. Componenti della marcatura XML: Intestazione del documento  tutti i documenti devono contenere una dichiarazione nel primo rigo, detta intestazione, che indica la versione di XML, inoltre indica anche se il documento è da ritenersi come una risorsa a se stante o se è legata ad altre. Contenuto di un elemento  può essere costituito da un testo libero non contenente altri nodi, da un contenuto misto (nodi+testo), o da nessun elemento. Gli attributi  la sintassi è nome_attributo = “valore”. Namespace  chiunque può definire i propri tag. Commenti  questo tipo di note non riguardano direttamente i dati da annotare, inoltre forniscono informazioni riguardo alle intenzioni dell’annotatore, ai suoi eventuali dubbi, promemoria ecc. I commenti inoltre possono apparire in qualunque punto del testo, tranne all’interno di un delimitatore di apertura o di chiusura. È possibile rappresentare qualsiasi carattere Unicode in un file XML con riferimento a carattere: &#. Per determinare la correttezza del documento XML vi è un processo di analisi detto Parsing, che esegue solo il controllo sintattico per verificare se il documento è ben formato. La correttezza del documento riguarda anche l’uso dei corretti nomi di tag e attributi nonché delle corrette relazioni tra i tag e dei valori degli attributi. La specifica di questo tipo di correttezza si ottiene attraverso la DTD (Document Type Definition). Linguaggi di markup personalizzati: MathML (Mathematical Markup Language), sviluppato per descrivere espressioni matematiche usando XML. Poi abbiamo CML (Chemical Markup Language) usato per rappresentare strutture chimiche e molecolari. GML (Geography Markup Language) descrive le informazioni geografiche. COMPRESSIONE DEL TESTO (modulo 16)

La compressione è una tecnica usata in informatica per ridurre le dimensioni di un file e quindi lo spazio necessario per la sua memorizzazione. Funziona attraverso la riduzione della quantità di bit necessari alla rappresentazione digitale di un’informazione, eliminando la parte ridondante (eccessiva) senza precludere la comprensibilità del messaggio. Le tecniche di compressione si dividono in 2 categorie: Compressione dati lossy  comprime i dati attraverso un processo con perdita di informazione Questo comporta grandi risparmi di risorse, ma svantaggi sulla qualità audio-video. Compressione dati lossless  comprime i dati attraverso un processo senza perdita di informazioni, che sfrutta le ridondanze nella codifica del dato. Dunque comporta il risparmio dello spazio quando si memorizzano i file e il risparmio di tempo all’invio del file. Gli svantaggi della compressione sono: -il file compresso non è usabile direttamente, per farlo si deve decomprimere; -il file compresso è più fragile; -il tempo impiegato per comprimere e decomprimere un file. Il file più utilizzato per la compressione e decompressione dei file è WinZip. Il codice di Huffman è un algoritmo usato per la compressione dei dati, basato sul principio di trovare il sistema ottimale per codificare stringhe a seconda della frequenza relativa di ciascun carattere. Applicando l’algoritmo di Huffman si deve costruire un albero in cui le lettere più frequenti siano posizionate più vicino alla radice rispetto a quelle con minore frequenza. L’algoritmo si realizza attraverso l’applicazione di alcuni passi: Conteggio  è necessario contare la frequenza di ogni lettera nella nostra stringa Ordinamento  ordinare le lettere, dalle più frequenti alle meno frequenti Accoppiamento nodi e costruzione dell’albero  si sceglie un nodo dalla lista ordinata e lo si accoppia con un nodo pendente nell’albero o successivo nella lista ordinata. Si deve scegliere un nodo con peso minore. Si continuano ad accoppiare nodi, fino a quando non rimane un unico nodo, che sarà la radice. Una volta creato l’albero bisogna associare ad ogni nodo un bit, associando lo 0 a tutti i nodi di sinistra e uno a tutti quelli di destra. WEB SEMANTICO (modulo 17) Il web è un enorme insieme di risorse (testo e multimedia, programmi, basi di dati, servizi) collegate tra loro. Una peculiarità essenziale è l’universalità dei collegamenti, ovvero qualunque cosa può essere collegata a qualunque altra cosa da chiunque. Usiamo motori di ricerca che consentono di sapere cosa vogliamo trovare nel web. La parola o frase chiave viene ricercata nei titoli o nei contenuti testuali dei siti. Questa tipologia di ricerca è definita sintattica, però questa ha grosse limitazioni: sintatticamente parole uguali o simili possono intendere concetti differenti che vengono inseriti come risultati della ricerca, inoltre parole diverse possono intendere la stessa cosa e non vengono inserite come risultato della ricerca. Tutto questo accade perché:

fonti di informazioni su uno stesso argomento spesso non sono connesse fra loro,
perché lo scambio automatico di contenuti tra applicazioni web è molto difficile
perché il volume delle informazioni disponibili è diventato ingestibile manualmente
perché comunque le informazioni non sono comprensibili dai computer, per questo bisogna creare collegamenti semantici per rappresentare il significato. Così nasce il Web Semantico organizzato in 3 livelli:

L’usabilità inoltre studia meccanismi per valutare e migliorare gli strumenti nella loro interazione con l’utente. Per questo un sito deve poter essere usato senza frustrazione e ricordato facilmente, inoltre usabile, per questo bisogna comprenderne gli scopi, ed efficiente se i suoi contenuti sono consultabili in maniera veloce e proficua. Secondo la strategia della piramide rovesciata, definita da Nielsen, bisogna scrivere i contenuti partendo dalle conclusioni, il resto va aggiunto in seguito. La struttura del sito è strettamente connessa alla navigazione, ogni pagina è composta da: testata, corpo, barra di navigazione e piè di pagina. In base a ciò che vogliamo comunicare, la struttura grafica della pagina web sarà diversa. I link sono la caratteristica principale del web e dovrebbero essere sempre chiaramente riconoscibili. Le HCL sono tecniche basate sullo studio di utenti alle prese con prodotti reali, cioè servono per capire come l’utente ragiona, utilizzando l’interfaccia. Una volta che il sito è online, può essere raggiunto per indicizzazione, ovvero il modo in cui il sito viene interpretato dai motori di ricerca e quindi compare nelle pagine di risposta agli utenti. Il posizionamento invece è un’azione che determina la posizione del sito nelle pagine di risposta dei motori (cioè nelle prime posizioni). Con l’acronimo SEO si intendono tutte le attività finalizzate ad ottenere la migliore rilevazione, analisi e lettura del sito web, da parte dei motori di ricerca, grazie ad un migliore posizionamento e ad una migliore visibilità. In Google dipende da fattori interni (legati alla struttura del sito e delle pagine) o esterni (dipendenti dalla quantità e qualità dei link entranti dal web). USER EXPERIENCE (UX) modulo 19 Come il prodotto si comporta e viene usato nel mondo reale. Gli utenti hanno bisogno di prodotti che funzionino e rispondono alle loro aspettative, si segmentano gli utenti sulla base di caratteristiche condivise. Gli obiettivi dovrebbero essere specifici per ogni sito. Inoltre per quanto riguarda il livello Scope abbiamo: -Functional Specifications, dove le caratteristiche delle applicazioni devono essere incluse nel sito -Content Requirements, dove vi sono gli elementi di contenuto che il sito deve includere. Per quanto riguarda invece il livello Strategy abbiamo: -User Needs, ovvero cosa deve fare il sito per le persone che lo usano -Site Objectives, ovvero cosa deve fare il sito per le persone che lo costruiscono. Poi per quanto riguarda il livello Structure abbiamo: -Interaction Design, ovvero come gli utenti si muovono da uno step del processo al successivo -Information Architecture, ovvero come gli utenti si muovono da un contenuto all’altro. Per il livello Skeleton abbiamo: -Information Design: che facilita la comprensione delle informazioni -Interface Design: che facilita input e output -Navigation Design: che aiuta a spostarsi all’interno del sito

Per il livello Surface abbiamo: -Visual Design: il “look” del “look and feel”, quello che di solito la gente pensa che sia il “Web design” , molto più di sola estetica. SISTEMI INFORMATIVI (modulo 20) Ogni organizzazione ha un sistema operativo per il suo funzionamento, costituito dall’insieme delle informazioni utilizzate, prodotte e trasformate da un’azienda durante l’esecuzione dei suoi processi. Raccoglie informazioni da sorgenti esterne e interne all’impresa, fornisce a ciascun ruolo aziendale le informazioni a lui necessarie, infine memorizza le informazioni relative a decisioni e azioni. Un’organizzazione è caratterizzata da persone, attività produttive e accessorie. Gli elementi tipici di un sistema organizzato (piramide di Anthony) sono: ● Livello operativo: produttività dei beni e servizi per cui l'organizzazione si è costituita; ● Livello di coordinamento: per la pianificazione ed il controllo delle attività del livello operativo; ● Livello dirigenziale: per la supervisione tattica nell'uso delle risorse e dei piani a medio/lungo termine. In ogni livello, le attività svolte utilizzano dati e producono informazioni, i dati possono provenire anche da sorgenti esterne e un’informazione può divenire essa stessa un nuovo dato. Per realizzare gli archivi su file si usa il modello gerarchico dei dati su computer:

La più piccola unità di dati che può essere gestita dal computer è il bit;
Un carattere (lettera o simbolo) è un byte (8 bit);
Un gruppo di byte forma parole;
Un field (campo) è un gruppo di parole (es: nome o cognome di uno studente, nome o anno di un corso, data o denominazione di un appello)
Un record è un gruppo di campi fra loro correlati (campo studente con i corsi seguiti e gli appelli sostenuti). Gli archivi cartacei sono stati sostituiti da file. Un database inoltre è un insieme di file. I DBMS sono programmi che permettono di interagire con una base di dati, estendono le funzionalità dei file system, fornendo più servizi. Inoltre mantengono un livello dei dati logico, separato da quello fisico, tipico dei file system. Tra i vantaggi abbiamo: -dati come risorsa comune -indipendenza dei dati -disponibilità di servizi integrati. Tra gli svantaggi invece abbiamo: -costoso -non scorporabilità delle funzionalità. Il DBMS inoltre non gestisce solo dati, ma definisce il substrato (base tecnologica), su cui i processi possono condividere lo scambio di dati e informazioni. Il modello ERP infine consente l’integrazione di tutti i processi, di condividere attraverso l’intera

la codifica del testo, Appunti di Elementi di Informatica

Documenti correlati

Anteprima parziale del testo

Scarica la codifica del testo e più Appunti in PDF di Elementi di Informatica solo su Docsity!

LA CODIFICA DEL TESTO (modulo 12)

impresa, di produrre e utilizzare l’informazione in tempo reale.