Capitolo 2.
Il corpus, come collezione di dati digitali, rappresenta la principale fonte di dati.
Problemi relativi alla rappresentazione digitale, o codifica, del testo
Testo inteso come qualsiasi collezione di prodotti linguistici; struttura complessa che contiene diverse informazioni ne
sussegue il fatto che il computer non può vedere tutte le informazioni articolate a più livelli e vede solo codici binari.
La codifica digitale del testo: il problema
I computer memorizzano ed elaborano dati sotto forma di sequenza 0 e 1 (due soli simboli) detti bit aggregati in sequenze di 8 cifre
detti byte. I testi come anche i suoni, le immagini, ecc per essere elaborati devono avere quindi una rappresentazione binaria.
Accanto a questa dimensione c’è la necessità di sviluppare livelli di organizzazione del testo e struttura linguistica altrimenti
perdita di informazione.
Questa perdita di informazione, accade perché una parte dell’informazione del testo è implicitamente veicolata attraverso la sua
formattazione (esempio testo Pinocchio) aspetti macrotestuali, coordinate metatestuali,ecc.
Per rendere esplicito questo tipo di informazioni
codificare su intere porzioni di testo e non su singoli caratteri.
Ulteriore livello di informazione testuale struttura linguistica del testo che è fondamentale per il linguista, vista come chiave
primaria per accesso al suo contenuto. (esempio, Mastro Ciliegia)
Spesso, queste strutture linguistiche sono nascoste nel testo, ma devono essere codificate se vogliamo renderle accessibile al
computer ed usate per ulteriori ricerche ed elaborazioni.
Livelli di codifica.
Come abbiamo appena detto non basta eseguire una semplice codifica dei caratteri ma essa si sviluppa su due livelli:
1) Codifica di basso livello o codifica di livello zero: rappresentazione binaria della sequenza dei caratteri del testo
2) Codifica di alto livello: arricchisce il testo codificato al livello zero con informazioni relative alla struttura linguistico-
testuale e con informazioni interpretative. Questa richiede a sua volta:
oSelezione degli aspetti strutturali e funzionali del testo che si considerano rilevanti e quindi che si vogliono
rendere accessibili al calcolatore attraverso rappresentazione esplicita
oScelta del linguaggio di rappresentazione, leggibile e manipolabile dal calcolatore che permetta di codificare
informazioni aggiuntive rispetto a quelle del livello zero.
Codifica di livello ZERO.
Consiste nell’associazione a ciascun carattere del testo un codice numerico binario (ovvero codice binario), composto da sequenze
di 0 e 1, che lo identifica univocamente.
Un carattere
è un’entità astratta che può avere le sue rappresentazioni grafiche(glifi).
Un set di caratteri è una tabella di associazione biunivoca ( 1 a 1 ) tra i caratteri di un dato repertorio e dei codici numerici
rappresentati in forma binaria, detti punti di codice ad ogni carattere è associato un codice numerico = punto codice.
Ciascun punto di codice è rappresentato in forma binaria come una sequenza di bit
questa modalità di rappresentazione viene
chiamata codifica di carattere.
I set di caratteri sono associazioni convenzionali tra caratteri e codici numerici si va verso la definizione di set di carattere
standard come ASCII tendenza verso una standardizzazione.