Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti Linguistica digitale, Appunti di Linguistica

Appunti di linguistica digitale

Tipologia: Appunti

2020/2021
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 09/05/2021

mm0801
mm0801 🇮🇹

5

(1)

1 documento

1 / 23

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Linguistica digitale – Chiara Ghezzi
L'italiano È una pura astrazione perché tutti parliamo in modo diverso, il mio uno di noi
parla un idioletto, nessuno di noi è competente in tutte le varietà di italiano.
Orari: lunedì 9.15-10.45
venerdì 10-10.45
Fine: 10 maggio
2/04, 5/04 e 12/04: no lezione
Linguistica digitale 26/02
Il continuum scritto - parlato
Ripasso di sociolinguistica
Scritto scritto
Parlato scritto: servizi giornalistici (non dei mezzi busti)
Parlato recitato: attori, un copione che si impara più o meno a memoria
Parlato pubblico formale: parlato controllato, basato su appunti e linee guida
Parlato dialogico letto: tipico dei notiziari radiofonici e dei telegiornali
Parlato parlato
Lingua trasmessa: si tratta di un insieme coerente di varietà ibride che stanno tra scritto e
parlato, parla di cinema e mass media, ma anche telefonia fissa e mobile.
parlato radiofonico
parlato cinematografico o filmico, che ci danno anche un'idea dell'epoca presentata
il linguaggio usato durante le conversazioni telefoniche
italiano digitato e scritture brevi (lingua dei social media,delle nuove tecnologie,
sms). Comunicazione mediata dal computer e scritture brevi.
1. Il canale di comunicazione o di trasmissione è il mezzo attraverso il quale il
messaggio si propaga.
2. Modalità di comunicazione: insieme di condizioni semiotiche che sono connesse
all'uso di un determinato canale
La comunicazione multicanale - slide 3
La prima espressione della comunicazione umana è stata visivo-gestuale. Per natura noi
comunichiamo in modo multimediale, gesti e voce. In modo ridondante (citazione di
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
Discount

In offerta

Anteprima parziale del testo

Scarica Appunti Linguistica digitale e più Appunti in PDF di Linguistica solo su Docsity!

Linguistica digitale – Chiara Ghezzi

L'italiano È una pura astrazione perché tutti parliamo in modo diverso, il mio uno di noi parla un idioletto, nessuno di noi è competente in tutte le varietà di italiano. Orari: lunedì 9.15-10. venerdì 10-10. Fine: 10 maggio 2/04, 5/04 e 12/04: no lezione

Linguistica digitale 26/

Il continuum scritto - parlato Ripasso di sociolinguistica  Scritto scritto  Parlato scritto: servizi giornalistici (non dei mezzi busti)  Parlato recitato: attori, un copione che si impara più o meno a memoria  Parlato pubblico formale: parlato controllato, basato su appunti e linee guida  Parlato dialogico letto: tipico dei notiziari radiofonici e dei telegiornali  Parlato parlato Lingua trasmessa: si tratta di un insieme coerente di varietà ibride che stanno tra scritto e parlato, parla di cinema e mass media, ma anche telefonia fissa e mobile.  parlato radiofonico  parlato cinematografico o filmico, che ci danno anche un'idea dell'epoca presentata  il linguaggio usato durante le conversazioni telefoniche  italiano digitato e scritture brevi (lingua dei social media,delle nuove tecnologie, sms). Comunicazione mediata dal computer e scritture brevi.

  1. Il canale di comunicazione o di trasmissione è il mezzo attraverso il quale il messaggio si propaga.
  2. Modalità di comunicazione: insieme di condizioni semiotiche che sono connesse all'uso di un determinato canale La comunicazione multicanale - slide 3 La prima espressione della comunicazione umana è stata visivo-gestuale. Per natura noi comunichiamo in modo multimediale, gesti e voce. In modo ridondante (citazione di

Tomasello). Il fatto che gli umani quando hanno iniziato a comunicare per primo con i gesti, la voce è arrivata dopo, arrivata insieme ai gesti, tanto è vero che noi molto raramente parliamo senza gesticolare, era la voce a supportare i gesti. Noi impariamo il linguaggio naturalmente, attraverso i nostri modelli. Noi ricicliamo costantemente cose per realizzare scopi nuovi. All'inizio venivano utilizzati i pittogrammi, per poi arrivare alle lettere vere e proprie e poi sono nate le emoji e emoticon, nuovi pittogrammi, "icon of emotions". Questi tipi di strumenti di comunicazione sono definiti come veicolatori dello stato d'animo, introdotti nel 1992 da Scott Faltman(?), per rendere la comprensione delle email più semplice, le emoji nascono invece in Giappone (pittogramma) e sono veloci e intuitivi. La radio è stata la pioniera dell'unificazione linguistica italiana (poi anche la TV) fino a farci arrivare a parlare un italiano neo-standard.

Linguistica digitale 1/

In aggiunta ai gesti è arrivata la voce. La voce è sussidiaria ai gesti, la voce è secondario rispetto alla vista. Siamo abituati ad utilizzare più canali insieme. Spesso usiamo cose che conosciamo bene con nuove funzioni, raggiungendo funzioni comunicative nuove. L'uomo usa ciò che gli sta intorno per dare loro nuovi significati, anche molto astratti. La parte del cervello che ci permette di riconoscere i volti indipendentemente dalla loro posizione, ci permette anche di riconoscere le lettere.  Esempio origine della chiocciola: @ È stata attestata la prima volte nel 1998 nel Zanichelli e nel Gradit viene glossata come gergale del linguaggio informatico. "At" in inglese, particellla locativa. Ci sono due tipi di spiegazione dell'origine, una storica, dal latino "ad" secondo il tipo di scrittura degli amanuensi (scrittura onciale dei testi medievali). Questa spiegazione è stata smentita da uno scientifico italiano, Stabile, che afferma che questo simbolo era utilizzato per designare l'anfora, che aveva lo scopo di essere un'unità di misura del mondo mercantile. Se si guarda alla lingua spagnola, la parola deriva dall'arabo, che anche in questo caso è un'unità di misura. Questo simbolo è entrato nell'ambito commerciale come unità di misura, e pian piano l'anfora è stata dimenticata per utilizzare i numeri. Poi è entrata nel mondo contabile inglese. In Italia, con il significato di A, viene tradotta in AD per indicare una data.

La multidimensionalità non è una caratteristica che deriva dallo sviluppo tecnologico. Lo sviluppo delle nuove tecnologie ha permesso di unire parlato e scritto, ci possono essere delle nuove modalità di comunicazione che possono essere discontinue (nel testo e nel processo) o continue nel testo e nel processo. Linguistica digitale 05/  variazione diamesica Più modalità di scambio, le comunicazioni diventano più frammentarie, perché i testi sono sempre più brevi (limite dei caratteri), ma anche come pratica di costruzione di un profilo. Questi sistemi di scambio evolvono continuamente nel tempo, verso delle nuove modalità di scritture che non hanno dei precedenti nel tempo, l'evoluzione è possibile grazie alle molteplici possibilità di scambio. Slide 1. COMUNICAZIONE MEDIATA DAL COMPUTER: ci sono tante varietà di comunicazione mediata dal computer, perché esistono tante situazioni che nascono su internet e ciascuna ha le proprie proprietà, i luoghi digitali sono diverse, i legami tra gli utenti sono diversi, le nature del messaggio sono diverse e sono tutti fattori di cui tenere conto. Importante è il fattore della dialogicità, cioè il dialogo (una mail sarà poco dialogica, un messaggio è molto dialogico). La scrittura collaborativa è la scrittura del WEB 2.0 in cui tutti possiamo interagire, per esempio i commenti Linguistica digitale 08/ Dire che la comunicazione mediata dal computer è una varietà di italiano è riduttivo, perché esistono tanti tipi di lingua e tanti tipi di situazione digitale diverse, in cui, ovviamente, esistono diversi modi di utilizzare il linguaggio. Ci sono tanti tipi di italiano digitato.

Uno è un testo scritto, l'altro è parlato, quindi il testo è stato semplicemente spostato da un mezzo all'altro, è stato digitalizzato, il secondo testo è dialogato, con una parte di monologo. Il primo

capitolo 2 Che cos'è un testo? Un messaggio deve essere compiuto e coerente. Atti linguistici: azioni che noi facciamo con la lingua o con una produzione semiotica, e in ogni atto linguistico si distinguono 3 livelli.  Livello locutivo:  Livello illocutivo: le intenzioni comunicative dell'emittente  Livello perlocutivo: Principi costitutivi del testo  Proprietà strutturali: coerenza e coesione  Rapporto comunicativo: intenzionale (devo voler comunicare), e il ricevente deve poterlo accettare  Rapporto col contesto:  Valore informativo: mi deve dare informazioni nuove  Coerenza e coesione: l'emittente deve voler comunicare e il ricevente deve poterlo accettare Linguistica digitale 12/ I principi costituitivi del testo  Coesione  Coerenza

L'emittente progetta il suo testo sulla base del destinatario. Prepara alla ricezione del testo creando e attivando cornici specifiche. !!!Crearsi aspettative e a fare le cornici giuste è importante per il processo comunicativo. È solo grazie a questo fenomeno che il destinatario/ricevente riesce a colmare lacune, volontarie o meno, lasciate dall'emittente nel testo. Deludere tali aspettative può dare adito a fraintendimenti. Crearsi delle aspettative è molto importante, perché ci permette di capire meglio il testo ed escludere tutto ciò che non potrà far parte di quel testo comunicativo, una delle strategie può essere leggere il titolo. Il contesto è molto importante anche per quanto riguarda i testi scritti. Se manca la cornice non sappiamo a quale contesto dobbiamo riferirci per comprendere appieno il testo. Se viene deluso il ricevente, non possiamo fare delle ipotesi e non possiamo comprendere il testo. Avendo il contesto, ritaglio più facilmente le ipotesi. Un testo deve essere comprensibile a chi legge, quindi si devono dare gli indizi giusti. Anche in assenza di un testo completo, noi andiamo oltre a ciò che vediamo, cercando di dare senso al testo è cercando di creare una cornice. Accettabilità e intenzionalità Esiste un principio che governa la nostra lingua, che è stato elaborato da Grice nel 1975. Dai il tuo contributo alla conversazione nel modo richiesto, allo stadio in cui è richiesto, dallo scopo condiviso o dalla direzione dello scambio comunicativo in cui sei impegnato. Ci sono 4 massime intorno alle quali noi ci collochiamo quando ci troviamo a comunicare. Sono massime della comunicazione, perché quando ci troviamo a comunicare, cooperiamo insieme perché la comunicazione avvenga, sia il mittente che il ricevente.  Quantità : non essere reticente o ridondante, non dire di più di meno di quello che serve, di quanto sufficiente;  Qualità : sii sincero, modulazione epistemica (uso del condizionale);  Relazione : pertinenza all'argomento di cui si sta parlando;  Modo : evita di essere ambiguo.

Testi (tipografici) e ipertesti  I testi tipografici hanno delle precise caratteristiche formali e materiali;  I formati e il tipo di supporto si sono modificati nel tempo;  Nasce un rapporto tra l'autore e l'editore;  Serve a tutelare l'autore, gli interessi giuridico - economici (diritto d'autore);  È chiuso è interpretabile indipendentemente dal sistema di testi che lo hanno preceduto;  È concettualmente lineare Ipertesti  È aperto e sempre integrabile è frutto di una scrittura collaborativa;  È multilineare;  È caratterizzato da più livelli di fluidità;  Viene meno l'autorità, giuridica, culturale o commerciale che decide sulla pubblicabilità dei contenuti. Gradiente di digitalità:

  1. Scarso o nullo
  2. Intermedio
  3. Alto !! Caratteristiche della testualità digitale Perché i contenuti siano recuperabili occorre che siano modellati in modo tale da poter essere trovati dal motore di ricerca, e possibilmente che compaiano ai primi posti nei risultati. Queste norme determinano la struttura profonda di un testo digitale. Seo: search ???

La scrittura digitale non ama la profondità sintattica, cerca la semplicità è non frasi complesse. Cerca la verticalità della codifica di un testo, un profondità di codifica di un testo. ASCII Ci sono degli impulsi binari che ???? Ci sono altri livelli di codifica, per esempio le formattazioni. Un altro livello è quello descrittivo, che corredano il testo di metadati e lo dotano di una semantica secondaria. Il testo diventa un proprio oggetto digitale. In sintesi al testo si sovrappongono delle informazioni di supporto, che ne determinano l'aspetto è servono a rintracciare quel testo nelle informazioni in rete. Il testo digitale è concepito per un doppio destinatario: il lettore umano e il motore di ricerca. Nel web 2.0 il tagging è di fatti diventato social tagging, che ha delle vere e proprie funzioni testuali. L'hashtag viene usato dapprima dal basso, per trovare tutti i contenuti con lo stesso tema, poi ciò viene accettato dai programmatori di Twitter. Il cancelletto # è a tutti gli effetti un marcatore di tema. La sua portata è la stringa di testo che segue, non separata da spazi grafici. Il cancelletto può segnalare il rema dell'enunciato o fare da commento a un messaggio. Può anche fare da segnale metadiscorsivo. Il cancelletto può essere usato anche per le pubblicità. Gli ipertesti dal punto di vista sintagmatico sono brevi e semplici, ma da punto di vista verticale la situazione è più complessa, multilineare.

  1. Email: ho vari campi da compilare e altri dati sono inseriti automaticamente dal database, anche una mail, che noi consideriamo come un testo continuo, in realtà è un testo discontinuo,
  2. Parole chiave a corredo di un saggio scientifico
  3. Recensione online su una struttura turistica ...

Linguistica digitale 19/

Gli ipertesti sono in strutture discontinue o multi lineari, se confrontate con il testo tipo grafico.questa caratteristica è ancor più in vita iniziata da alcuni accorgimenti che finiscono per fare assomigliare le unità informative di cui si compone il testo ai campi di un database.

Con lo sviluppo dei social media, esiste una nuova forma di intertestualità, di rilancio tra vari micro testi. Prada la chiama " intertestualità attiva " è attiva perché per capire un testo, dobbiamo far riferimento ad altri testi che sono brevi. Se abbiamo accesso ai testi che sono da rimando, allora la comprensione sarà più facile. Se non abbiamo il rimando ad altri testi, la comprensione sarà più difficile e la dipendenza da contesto è più o meno spinta. Il contesto sono le coordinate spazio temporali delle conoscenze condivise e delle comunicazioni. I diversi studiosi che si sono occupati delle proprietà riguardanti queste tipologie di scritture digitali.  Antonelli: parla del rapporto tra ipotesto e ipertesto: sono frammenti, più che testi unitari, perché sono brevi e incompleti  Raffaele Simone: si tratta di non testi, perché non hanno un'autonomia di testo I messaggi postati in digitale sono monoproposizionali e molto brevi.  Perché sui social le frasi sono così brevi rispetto ai blog? > perché sui social dobbiamo cercare di attirare l'attenzione e quindi dobbiamo essere brevi, poi perché una delle proprietà dei social è esprimere emozioni, informare su un avvenimento, commentare un avvenimento, con dei rimandi ad altri testi. La sintassi che ci troviamo sui social media è più simile a quella del parlato, anche se non la trasportiamo completamente, si parla di focalizzazione , evidenziamo il tema di cui sto parlando, mediante dislocazioni, frasi scisse, uso del "c'è" presentativo. Verticalità sintattica: un testo scritto è più complesso dal punto di vista sintattico, di un testo orale, perché è più organizzato. Cosa succede quando vengono messi online dei testi, nati per essere su carta. (Per esempio Liber Liber)

Strumenti per la digitalizzazione e l'analisi linguistica

La codifica digitale del testo è la rappresentazione del testo su un supporto digitale in un formato "leggibile" da un computer (MRF). I computer memorizzano ed elaborano dati sottoforma di sequenze di due soli simboli zero e uno, che sono cifre binarie. Ogni tipo di informazione deve essere codificata in cifre binarie.

  1. Testo di Pinocchio > Che tipo di rappresentazione digitale del testo dobbiamo dare?

    devo scomporre in cifre binarie, dando ai tecnici le informazioni che servono per

codificare. Abbiamo bisogno che ci sia un'intestazione , che ci sia un capitolo , che ci sia un titolo e che ci sia un testo (un po' come funziona word). Devo fare un'analisi della struttura linguistica. La codifica informatica dei testi La macchina deve:  Riconoscere i caratteri, maiuscole, segni di punteggiatura,  Separare le parole  Mantenere le partizioni strutturali dei testi (capitoli, paragrafi, battute, turni…)  Eventualmente codificare i contenuti utili per indagine linguistiche (recuperabili attraverso interrogazioni complesse) Si codifica in base agli obiettivi che abbiamo, in modo da tracciare dei sentieri di lettura all’interno del testo. Le interpretazioni di tipo morfo sintattico, fonetico, semantico, pragmatico… QUINDI : annotazione linguistica rende esplicita ed esplorabile la struttura linguistica del testo. È preferibile che la codifica sia standardizzata per facilitare la portabilità (un testo deve essere leggibile e funzionare su più supporti) dei dati. Il testo è una sequenza di caratteri e per questo deve essere surrogato parziale del testo originario.

  1. Completa l’equivalenza solo dal punto di vista dei caratteri che lo compongono
  2. Perdita di informazione
  3. L’informazione implicitamente vincolata dalla formattazione del testo relativa a:  le coordinate meta-testuali  Il nome dell’autore, il titolo, eccetera.  La struttura e organizzazione testuale  La suddivisione logica in sezioni, capitoli, paragrafi, eccetera.
  4. Nessun guadagno di informazione  L’informazione sulla struttura linguistica rimane implicita e nascosta (come nel testo originale). Esistono due livelli di codifica del testo digitale:  Codifica di basso livello (codifica di livello 0): riguarda la rappresentazione binaria della sequenza ordinata dei caratteri. Il testo codificato al livello zero si presenta come manoscritto in scriptio continua, è un blocco indefinito.  Codifica di alto livello: arricchisce il testo codificato a livello zero con informazione relativa a dimensioni strutturali.l’organizzazione del testo è diviso in strutture macro testuali e l’articolazione del testo è caratterizzato da strutture linguistiche. La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si voglia associare al testo.  perché codificare? Un testo come fosse di carattere parole è una fonte di dati linguistici. Il testo È un’entità altamente strutturata, nella quale i dati linguistici sono

Abbiamo due diversi tipi di marcatura  marcatura procedurale o tipografica  marcatura dichiarativa (logica o descrittiva): basata sul ruolo o funzione di un elemento nel testo, dico quale funzione deve svolgere. Un linguaggio di marcatura è un insieme di convenzioni per la marcatura di testi. XML: il formato che interessa di più in questo contesto. Delimitatore di apertura e di chiusura: <, >.

Linguistica digitale 29/

Strumenti per l’analisi - linguistica dei testi digitali Termini che fanno rifermento alla metafora della miniera (mining), ha a che fare con la mole di dati che si trovano online, che si trovano in un contenitore enorme di dati. Fare in grande> grandi dati, ma si deve scegliere quello che possa essere più utile. Processo di kdd: knowledge discovering of data.  DM  TM o KDT CLUSTERING: (vedi libro teorie dei media) si mettono insieme degli elementi simili a seconda del tema.

Linguistica digitale 12/04 - linguistica dei corpora

(primo capitolo del manuale)

La linguistica è basata su dati empirici perché ha le sue generalizzazioni, che traggono il fondamento da dati empirici. Con l'avvento delle nuove tecnologie, si riescono a raccogliere moltissimi dati, creando dei corpora ricchi e in modo veloce e preciso. Chomsky è un autore fondamentale per la linguistica, egli fa una distinzione tra grammaticalità e accettabilità. La prima deriva dall'osservanza delle regole della grammatica, nella costruzione di una frase: "incolori verdi idee dormono furiosamente", è una frase corretta dal punto di vista grammaticale, ma non è accettabile, perché non ha significato.

La seconda deriva dalla capacità dei parlanti di attribuire un senso alle frasi e di utilizzarli in contesti appropriati: "dovremmo riparare la sede infelice" "domani ti messaggio", non hanno senso e sono fuori dal contesto. Egli parla ancora di grammaticalità e probabilità (ha un legame con la statistica, nel senso che poche volte ci capiterà di sentire una frase del genere) La frase: "ho visto un esile balena" per quanto sia improbabile nell'ordinare comunicazione linguistica, è perfettamente grammaticale. La linguistica interna riguarda lo studio della competenza, grammatica generativa, la linguistica esterna riguarda lo studio dell'esecuzione. Dicotomia tra langue e parole.  I tipi di dati linguistici  Dati naturalistici: ha degli aspetti positivi e negativi  Dati controllati sperimentalmente Esistono diverse definizioni di corpus, le prime due definizioni e l'ultima vedono il corpus come un campione estratto da una popolazione più ampia e selezionata per condurvi un qualche tipo di analisi linguistica i cui esiti dovrebbero consentirci di inferire qualcosa anche della popolazione da cui il campione è stato tratto, dovrebbero cioè essere generalizzabili. Scarto esistente tra la concezione attuale di corpus è un'epoca in cui la ricerca linguistica, benché empiricamente fondata e orientata a indagini su esempi di uso naturale, non era ancora supportata dal computer, come affermano le definizioni numero tre e numero quattro; Definizione scherzosa che allude al fatto che corpo ora oggi hanno superato i 500 milioni di parole di testo costituendo veri e propri magazzini testuali, come afferma la definizione numero 5. Un corpus in linguistica È un insieme di testi (scritti orali) che si assume di essere rappresentativa dello Stato di una lingua, o di una parità di essa, al fine di ottenere una descrizione complessiva di quella particolare varietà di lingua o stato di lingua. Problema della mole di dati così ampia: gestire questi immensi dati

  1. Dimensione del campione, in modo che continui ad essere rappresentativo, quindi lo arricchisco continuamente;

 Lemmatizzazione: si fa quando si dà origine ad un vocabolario di lingua Vi sono diversi livelli di annotazione:  POS (Parts of Speech) Tagging  Annotazione sintattica  Annotazione semantica  Annotazione dei fenomeni di coesione testuale  Annotazione pragmatica  Annotazione per categorie di errore (per esempio quando si analizzano parlanti di un'altra lingua) Slide pagina 30 XML è un metalinguaggio, il suo contenuto può essere qualsiasi cosa, la grammatica rimane invariata, in base alle nostre esigenze. Regole di base .XML

  1. Identifica il tipo di documento
  2. Identificare gli altri elementi Una parte importante del XML è il prologo (slide 35) Foglio di stile è di solito il documento DTD ELEMENTI DELLA GRAMMATICA  Sintassi  Informazione testuali Perché sto usando questo corpus? , perché lo sto costruendo? Ci sono due tipi di studi:  Corpus based: basato su corpora, permettono analisi su fenomeni già annotati, uso corporea già creati per altri obiettivi, ma alcuni aspetti che voglio studiare sono stati esclusi da quel corpus, quindi mi indirizzo a creare un nuovo corpus ex novo (corpus-driven)  Corpus-driven: guidato da corpora

Linguistica digitale 19/

Esiste il corpus più adatto a determinati usi e altri meno adatti. Si devono tenere in conto gli obiettivi, mantenendo stabili solo le variabili che ci servono. Distinguendo in corpora grezzi e corpora annotati, si indica la presenza o meno in un corpus di un corpus di un qualche livello di annotazione.

Linguistica digitale 26/

Distribuzione di frequenza: andare a vedere, rispetto ad un fenomeno che sta analizzando, in un corpus, come i termini si comportano. Una delle cose più I calci da fare e vedere con quale frequenza si mostra una parola e con quale frequenza si mostra un'altra parola nello stesso corpus. Quante volte occorre uno e quanto occorre l'altro. La distribuzione di frequenza è il numero grezzo che ci mostra quante volte si mostra una parola in un corpus, posso confrontare i valori. Quando abbiamo due corpus differenti, le cose cambiano in termini di grandezza, allora quello che devo fare è calcolare le frequenze assolute e normalizzare, calcolando la frequenza relativa per avere dei corpus della stessa grandezza: divido la frequenza assoluta per il numero di parola, con questo numero posso fare molte altre cose, ma dipende tutto dalla grandezza del corpus. Se ottengo un numero troppo piccolo (0,0000000..) lo posso normalizzare mediante un moltiplicatore, un numero che scelgo io in base alla grandezza del mio corpus, per ottenere un buon numero (0,3 per esempio). Una delle cose principali quando si parla di confronto è la parola chiave, che sono le parole che rappresentano il corpus, che rispecchiano una deviazione dalla norma che prendiamo come standard.

  1. Verificare se la distanza tra di essi, misurata in differenza tra le frequenze osservate, è significativa oppure no.
  2. Verificare se rappresentano campioni casuali della stessa popolazione o se le differenze osservate ci dicono qualcosa della naturale variazione del linguaggio. Test del chi-quadro: strumento statistico, calcolato da Excel. Uno degli strumenti statistici più diffusi per misurare la variazione linguistica incorpora differenti e valutare la significatività delle differenze numeriche osservate è il test del chi-quadrato o chi-quadro. Devo capire se i risultati che ottengo sono totalmente casuali, o se ci sia una vera ragione del risultato che ho ottenuto. Per capirlo devo usare il test chi quadro, però prima devo fare due ipotesi  Ipotesi nulla H0: questa differenza numerica è totalmente casuale, non è significativa> dopo aver fatto il test del chi quadrato, ottengo dei risultati e poi in base ad essi posso accettare o rifiutare questa ipotesi, fissando un margine di errore, di solito del 5%