Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


linguistica digitale, Appunti di Linguistica

appunti non del tutto completi delle lezioni di linguistica digitale della prof.ssa Ghezzi Chiara integrati con le slide. appunti dell'anno 2022-2023. crediti 5

Tipologia: Appunti

2021/2022

Caricato il 15/01/2025

alessandra-gamba-2
alessandra-gamba-2 🇮🇹

4

(2)

10 documenti

1 / 35

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
2
LINGUISTICA DIGITALE
“La linguistica dei corpora” maria freddi
Lezione 1 – 19 aprile 2023
La linguistica è una disciplina empirica. Le sue generalizzazioni traggono fondamento da dati empirici, i principi
teorici rendono conto dei fatti di lingua.
Chomsky -> padre della grammatica generativa (si occupa di studiare la grammatica delle lingue. Dice che la
grammatica viene generata attraverso parametri e valori, ci sono cose che valgono per tutte le lingue e altre che
valgono solo per una).
Divide la grammaticalità (una frase ben costruita dal punto di vista della grammatica. Deriva dall’osservanza delle
regole della grammatica nella costruzione di una frase -> incolori verdi idee dormono furiosamente: frase
grammaticalmente corretta ma priva di senso) e l’accettabilità (il fatto che qualcuno riconosca quella frase come
portatrice di un senso. Deriva dalla capacità dei parlanti di attribuire un senso alle frasi e di utilizzarle in contesti
appropriati -> dovremmo riparare la sedia infelice / domani ti messaggio).
Grammaticalità e probabilità -> frasi grammaticalmente perfette ma poco probabili da trovare nell’ordinaria
comunicazione linguistica -> ho visto un’esile balena: per quanto sia improbabile nell’ordinaria comunicazione
linguistica vedere un’esile balena, la frase è perfettamente corretta dal punto di vista grammaticale.
I dati linguistici sono soprattutto i giudizi di grammaticalità.
linguistica computazionale: parte di linguistica che a partire dai dati numericamente molto consistenti crea la
grammatica.
Secondo Chomsky la linguistica interna riguarda lo studio della competenza (grammatica generativa), mentre la
linguistica esterna quello dell’esecuzione (il modo in cui i parlanti usano le regole della grammatica).
La grammatica è pertinente fino ad un certo punto, perché a noi interessa più quello che i parlanti fanno con essa.
Herdan reinterpreta la dicotomia langue-parole in termini di popolazione statistica/campione statistico. Vedere
come si configura la popolazione con la statistica da cui togliamo un campione usato come punto di riferimento.
Dati naturalistici: quello che davvero trovo su internet senza chiedere a nessuno
Aspetto positivo: naturalezza del contesto
Aspetto negativo: difficoltà di controllo
Dati controllati sperimentalmente
Aspetto positivo: astrazione e idealizzazione
Aspetto negativo: interferenza dello sperimentatore
la linguistica computazionale ha bisogno di entrambe le procedure di raccolta dei dati.
Corpus (pl. Corpora) = raccolte di dati linguistici di diverso tipo a seconda dell’obiettivo. Collezione di testi raccolti e
organizzati per rispondere alle esigenze dell’analisi linguistica. È un sottoinsieme di tutte le possibili produzioni
linguistiche.
Esistono diverse definizioni di corpus:
1. Testo che raccoglie occorrenze di lingua in uso, scelte per caratterizzare uno stato o una varietà linguistica
(Sinclair 1991: 171)
2. Una raccolta di testi che si assume essere rappresentativa per una determinata lingua, messa insieme per
essere usata ai fini di un’analisi linguistica (Tognini – Bonelli 2001: 2)
3. Una raccolta di esempi di occorrenze di lingua in uso, che consistono di qualsiasi cosa che vada da poche
frasi sino a un insieme di testi scritti o registrazioni, che sono stati raccolti per lo studio linguistico. Più
recentemente, raccolte di testi memorizzati a cui si accede elettronicamente (Hunston 2002: 2)
4. Una raccolta di testi o parti di testi su cui si può condurre una qualche analisi linguistica generale. In tempi
recenti, si è arrivati a considerare un corpus come un insieme di testi reso disponibile in forma
computerizzata per scopi di analisi linguistica (Meyer 2002)
5. Un sacco di testo, memorizzato su un computer (Leech 1992: 106)
6. Una raccolta di parti di lingua selezionate e ordinate secondo espliciti criteri linguistici per essere usate come
campioni della lingua (Eagles 1996)
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23

Anteprima parziale del testo

Scarica linguistica digitale e più Appunti in PDF di Linguistica solo su Docsity!

“La linguistica dei corpora” maria freddi

Lezione 1 – 19 aprile 2023 La linguistica è una disciplina empirica. Le sue generalizzazioni traggono fondamento da dati empirici, i principi teorici rendono conto dei fatti di lingua. Chomsky -> padre della grammatica generativa (si occupa di studiare la grammatica delle lingue. Dice che la grammatica viene generata attraverso parametri e valori, ci sono cose che valgono per tutte le lingue e altre che valgono solo per una). Divide la grammaticalità (una frase ben costruita dal punto di vista della grammatica. Deriva dall’osservanza delle regole della grammatica nella costruzione di una frase -> incolori verdi idee dormono furiosamente : frase grammaticalmente corretta ma priva di senso) e l’accettabilità (il fatto che qualcuno riconosca quella frase come portatrice di un senso. Deriva dalla capacità dei parlanti di attribuire un senso alle frasi e di utilizzarle in contesti appropriati -> dovremmo riparare la sedia infelice / domani ti messaggio ). Grammaticalità e probabilità -> frasi grammaticalmente perfette ma poco probabili da trovare nell’ordinaria comunicazione linguistica -> ho visto un’esile balena : per quanto sia improbabile nell’ordinaria comunicazione linguistica vedere un’esile balena, la frase è perfettamente corretta dal punto di vista grammaticale. I dati linguistici sono soprattutto i giudizi di grammaticalità. linguistica computazionale: parte di linguistica che a partire dai dati numericamente molto consistenti crea la grammatica. Secondo Chomsky la linguistica interna riguarda lo studio della competenza (grammatica generativa), mentre la linguistica esterna quello dell’esecuzione (il modo in cui i parlanti usano le regole della grammatica). La grammatica è pertinente fino ad un certo punto, perché a noi interessa più quello che i parlanti fanno con essa. Herdan reinterpreta la dicotomia langue-parole in termini di popolazione statistica/campione statistico. Vedere come si configura la popolazione con la statistica da cui togliamo un campione usato come punto di riferimento. Dati naturalistici : quello che davvero trovo su internet senza chiedere a nessuno Aspetto positivo: naturalezza del contesto Aspetto negativo: difficoltà di controllo Dati controllati sperimentalmente Aspetto positivo: astrazione e idealizzazione Aspetto negativo: interferenza dello sperimentatore la linguistica computazionale ha bisogno di entrambe le procedure di raccolta dei dati. Corpus (pl. Corpora) = raccolte di dati linguistici di diverso tipo a seconda dell’obiettivo. Collezione di testi raccolti e organizzati per rispondere alle esigenze dell’analisi linguistica. È un sottoinsieme di tutte le possibili produzioni linguistiche. Esistono diverse definizioni di corpus:

  1. Testo che raccoglie occorrenze di lingua in uso, scelte per caratterizzare uno stato o una varietà linguistica (Sinclair 1991: 171)
  2. Una raccolta di testi che si assume essere rappresentativa per una determinata lingua, messa insieme per essere usata ai fini di un’analisi linguistica (Tognini – Bonelli 2001: 2)
  3. Una raccolta di esempi di occorrenze di lingua in uso, che consistono di qualsiasi cosa che vada da poche frasi sino a un insieme di testi scritti o registrazioni, che sono stati raccolti per lo studio linguistico. Più recentemente, raccolte di testi memorizzati a cui si accede elettronicamente (Hunston 2002: 2)
  4. Una raccolta di testi o parti di testi su cui si può condurre una qualche analisi linguistica generale. In tempi recenti, si è arrivati a considerare un corpus come un insieme di testi reso disponibile in forma computerizzata per scopi di analisi linguistica (Meyer 2002)
  5. Un sacco di testo, memorizzato su un computer (Leech 1992: 106)
  6. Una raccolta di parti di lingua selezionate e ordinate secondo espliciti criteri linguistici per essere usate come campioni della lingua (Eagles 1996)

TRATTI DEFINITORI:

Campione estratto da una popolazione più ampia selezionato per condurvi un qualche tipo di analisi linguistica. Il risultato dell’analisi dà informazioni su come quella popolazione usa la lingua, dati generalizzabili. Scarto esistente tra la concezione attuale di corpus e un’epoca in cui la ricerca linguistica non era ancora supportata dal computer Definizione scherzosa che allude al fatto che i corpora oggi hanno superato i 500 milioni di parole di testo costudendo veri e propri magazzini testuali Un corpus in linguistica è Un insieme di testi orali, scritti o mediati che si assume essere rappresentativo dello stato di una lingua o di una varietà di essa, al fine di ottenere una descrizione complessiva. Il luogo naturale dei dati linguistici è costituito dai testi. Una collezione di testi raccolti e organizzati per rispondere alle esigenze dell’analisi linguistica è detta corpus. Esso è un sottoinsieme di tutte le possibili produzioni linguistiche, ossia ne costituisce un campione. PROBLEMA: campionamento da una popolazione infinita o non delimitabile  Dimensione del campione (possibilità offerte dalla tecnologia-corpora dinamici)  Metodo di campionamento (bilanciamento – campioni stratificati) La tipologia di un corpus è determinata da:  Generalità (specialistico/ generale)  Modalità (lingua scritta/ lingua parlata/ misto)  Cronologia (sincronico/ diacronico)  Lingua (monolingue/ multilingue) Lezione 2 – mer. 26 aprile 2023 Corpora paralleli: testi con più traduzioni una accanto all’altra su una schermata unica come nei testi di canzoni o libri. Tratti definitori e problemi:  Autenticità (dati che sono stati prodotti senza avere in mente di crearci un corpus. Quando sono dati di uso reale, chi li ha prodotti non stava pensando a chi li avrebbe analizzati, ma con uno scopo diverso. Lo capisco dalle fonti e dal modo in cui sono stati prodotti. È molto più difficile acquisire dati orali perché deve essere scritto e nel processo di scrittura viene comunque un po’ interpretato; servono dei permessi per lo sfruttamento delle proprietà intellettuali; ci sono dei vincoli imposti dalla tutela della privacy e chi produce il testo deve essere informato ma il testo magari sarebbe stato diverso (le conversazioni sono spontanee?). I dati linguistici sono autentici perché di uso reale, la tecnologia offre grandi quantità di dati linguistici autentici.)  Rappresentatività e campionamento (è fondamentale ma non sufficiente. Devo fare una selezione dei testi, ma questa selezione da includere nel campione deve avvenire secondo criteri adeguati alla popolazione che si intende studiare. per una ricerca linguistica empiricamente orientata, l’ideale sarebbe poter osservare tutte le occorrenze testuali in una data lingua.) Molti criteri da prendere in considerazione anche in base agli obiettivi Rappresentazione sincronica e diacronica  In sincronia: studio di una parola - elementi rilevanti?  Variazione linguistica Diamesica -> asse scritto-parlato  Asse scritto: variazione diafasica – variazione per genere e registro (anche nuove forme di testualità digitale?)  Asse orale: variazione diastratica [variazione sociale] – variazione diatopica [variazione geografica]  Solo testi originali o traduzioni da altre lingue  In diacronia: studio della variazione nell’uso di una parola in un dato periodo di tempo (tipo negli ultimi 40 come è cambiato l’uso della parola “cioè”) Il campionamento è fondamentale: tenere in considerazione questi parametri, esterni all’uso linguistico, permette di fissare le molteplici dimensioni di variabilità intrinseca alla popolazione di cui il corpus intende fornire una rappresentazione.

Per le trascrizioni, è stata adottata una versione semplificata del sistema Jefferson, frequentemente utilizzato nell’analisi della conversazione. CORPUS KIPARLA - LA MODULARITA’ INCREMENTALE Organizzazione interna:  moduli indipendenti che permettono nel tempo l’aggiunta di nuovi moduli  medesimi design e metadati, trascritti da ELAN, e resi disponibili attraverso NoSketch Engine  diverse dimensioni della variazione linguistica e possono raccogliere dati da diverse aree geografiche. KIParla è un potenziale corpus monitor, aperto a integrazioni e aggiornamenti nel tempo. Ad oggi, il corpus KIParla è costituito da due moduli:

  1. Il modulo KIP: registrazioni nelle Università di Torino e Bologna in cinque tipi di situazioni comunicative (lezioni universitarie, 25h : 45m : 12s, esami, 6h : 20m : 22s, ricevimento studenti, 6h : 48m : 19s, interviste semistrutturate a studenti, 14h : 6m : 15s, conversazione libera, 16h : 23m : 33s.
  2. Il modulo ParlaTO: conversazioni di più di un centinaio di parlanti con diversa provenienza geografica e diversa collocazione sociale, raccolte a Torino fra il 2018 e il 2020, prevalentemente attraverso interviste individuali e discussioni di gruppo su vari temi (studio, lavoro, attività nel tempo libero o in pensione, ricordi del passato, vita in città, ecc.). Le ore di registrazione sono ripartite in modo pressoché paritario fra parlanti giovani, adulti e anziani.  Come sono informatizzati e come sono stati rappresentati i dati linguistici  problemi di rappresentazione dei dati testuali su supporto digitale [codifica informatica dei testi]  contenuti determinano analisi interpretative di tipo morfosintattico, fonetico, semantico e pragmatico che lo studioso associa ai dati testuali grezzi per poterli interrogare in maniera più raffinata [annotazione linguistica per esplorare la struttura linguistica]  importanza di una codifica standardizzata [portabilità di una codifica standardizzata] informatizzazione si arricchiscono i dati grezzi (testi) con metadati mark-up -> codifica dei metadati contestuali e oggettivi relativi ai testi da includere nel corpus [titolo, autore, anno di pubblicazione] annotazione (tagging) -> informazioni di tipo interpretativo più soggettive e opinabili etichettatura grammaticale (POS tagging) -> primo livello di annotazione necessariamente preceduta dalla segmentazione del testo in parole o token (tokenizzazione: divisione di un testo in parti fatte di parole) lemmatizzazione -> codifica grazie alla quale si associano varianti morfologiche di una parola e le sue forme flesse come un unico lessema [flessione verbale do, did, does, doing, done come forme varianti riconducibili ad un unico lemma DO] livelli di annotazione: POS tagging – etichettatura grammaticale Annotazione sintattica Annotazione semantica Annotazione dei fenomeni di coesione testuale Annotazione pragmatica Annotazione per categorie di errore

Diverse modalità con cui le informazioni linguistiche vengono codificate a livello informatico. Obiettivo: formato (idealmente) leggibile e condivisibile dall’intera comunità scientifica (ad es. TEI). Standard deve essere estensibile. 3 livelli di standardizzazione: Formato dei file con cui i testi sono codificati: .txt, unicode Modalità con cui avviene l’annotazione: standard, .xml Contenuti dell’annotazione: .xml e grammatiche DDT – elenco dei tag, struttura, caratteristiche I criteri che guidano la creazione di corpora rispondono a domande/obiettivi diversi -> classificazione in tipologie a scopo orientativo.  Generici vs specialistici  Parlato vs scritto  Testi prodotti da parlanti nativi vs non nativi  Monolingue vs bilingue  Comparabili (vedere come sono le commedie in Italia o in Francia. Comparabili ma non uguali) vs paralleli (vado a prendere in considerazione di un testo in tutte le lingue in cui è stato tradotto, tipo Harry Potter)  Annotati (in cui ho aggiunto delle etichette) vs non annotati (in cui non ho aggiunto nessun’etichetta) Distinguendo in corpora grezzi e corpora annotati si indica la presenza o meno in un corpus di un qualche livello di annotazione linguistica. BNC, ad esempio, contiene annotazione POS. Corpora annotati grammaticalmente (POS) prendono il nome dal modello di grammatica su cui è basata l’annotazione. Due modelli sintattici:  Analisi dei costituenti di frase: segmentano la fase in gruppi di parole in relazione logica tra loro [PENN TREEBANK]  Relazioni di dipendenza: specificano le relazioni gerarchiche tra il verbo e i suoi argomenti [PDT – PRAGUE DEPENDENCY TREEBANK] Lezione 3 – gio. 27 aprile 2023 Un caso speciale di annotazione del parlato -> PCFD: parlato filmico in due lingue, inglese e italiano. Rappresentazione del parlato attraverso trascrizione ortografica o prosodica, scelte con rilevanza teorica. Scelta consona al tipo di analisi che si condurrà sul corpus parallelo. Allineamento: corpora paralleli e comparabili. L’individuazione e la marcatura delle corrispondenze tra porzioni di testo equivalenti o confrontabili in due o più lingue -> in PCFD corrisponde alla battuta. Corpus di riferimento: testi di tutte le varietà diafasiche, diastratiche, diatopiche e diamesiche considerando le caratteristiche di una lingua nel suo insieme. Lo uso come riferimento se ho dei dubbi su come si usa la lingua. È molto grande perché comprende tutte le varianti e sfaccettature della lingua in campo di varietà. Grandi quantità di parole in una gamma di testi il più possibile varia e completa; etichettate grammaticalmente e copre un enorme quantità di testi scritti e orali. Usati anche per gli studi di genere perché mettono in rilievo distribuzioni di frequenza diversamente associati al sesso, all’età o alla condizione sociale del parlante. Sono l’ampiezza e la gamma di tipologie testuali che determinano il criterio dominante di selezione dei testi.  Corpus statico: fornisce un quadro di una lingua attraverso un numero di parole prefissato e raccolte in un arco temporale preciso che poi non possono essere più cambiate o aggiunte. (BNC)

Corpora e WWW: lo creo dal web. Il world wide web è oggi la più grande banca dati di testi esistenti facilmente accessibile. È molto semplice crearli e posso creare anche corpora molto grandi MA  non contiene testi selezionati secondo criteri espliciti legati ad una ricerca linguistica  l’origine dei documenti non è sempre verificabile  ha aspetti legati alla volatilità dei testi sul web e alla loro qualità. L’analisi si compone di due momenti distinti  procedure di compilazione del corpus -> dipendono dagli obiettivi dell’analisi, dalle ipotesi e dai vincoli esterni  sviluppo di strumenti informatici per l’interrogazione e l’utilizzo del corpus il campionamento degli usi linguistici in corpora informatizzati quantifica i fenomeni osservati -> ex: calcolo del numero di volte con cui un fenomeno linguistico si presenta in un campione scelto (se cerco “stanca” esce il numero 11.000 circa che è il numero totale di volte in cui trovo effettivamente la parola “stanca” nel corpus che sto analizzando -> frequenza assoluta. Frequenza di parole che compongono un corpus contando il numero di occorrenze di ciascuna parola. In generale, il conteggio aritmetico del numero di elementi linguistici (tokens = tutte le parole del testo) che appartengono ad ogni classificazione (type). Per ogni parola diversa o nuova è indicato il numero di occorrenze in valore assoluto. La frequenza assoluta ( = conteggio EFFETTIVO di occorrenze) è utile quando si usa UN o corpus o sottocorpus MA si devono confrontare corpora diversi, o segmenti di uno stesso corpus, con grandezze diverse. La frequenza assolta deve essere normalizzata. Il 7,65 è il la frequenza relativa che dice che troverei la parola “stanca” 7,65 volte se avessi un corpus composto da milioni di parole; è quello che mi permette di confrontare tra loro corpora di dimensioni diverse. Permette di confrontare delle frequenze di parole tra loro o dati tra campioni diversi => Numero di occorrenze di una parola / diviso / numero totale delle parole del corpus. Ma cosa succede in corpora di maggiori dimensioni? 6.000.000 -> 2/6.000.000 = 0,0000003 -> 0,0000003x1.000.000 = 0,33 per milione Normalizzazione: frequenza riferita a un numero fisso di parole. Il moltiplicatore -> base comune: 1.000.0000, ovvero la frequenza che la parola avrebbe avuto se il corpus fosse stato composto da un numero totale di parole pari alla base comune (1.000.0000) La grandezza del corpus influisce sul significato statistico quindi la base comune per la normalizzazione deve essere comparabile alla grandezza del corpus. Se confrontiamo la sezione orale del BNC (10 milioni di parole) e quella scritta (90 milioni di parole) la normalizzazione a 1000 parole è inappropriata. I risultati ottenuti su basi comuni troppo grandi o troppo piccole sono distorti. BNC quasi 100.000.000 parole

DISTRIBUZIONI DI FREQUENZA E APPROCCIO PROBABILISTICO

TABELLA

Le righe indicano i tipi di parole presenti nel corpus. Tipicamente disposte in ordine decrescente rispetto alla base comune, con in alto valori di frequenza più alti e in basso le parole con frequenza 1 dette hapax legomena che ricorrono una sola volta. Le colonne indicano il numero di occorrenze di ciascun tipo espresse in valore assoluto o riferite alla base comune. A parità di frequenza relativa -> ordinamento alfabetico. A seconda dello scopo le parole grammaticali che compaiono in cima si possono escludere dal computo compilando una stoplist, in modo da vedere subito le parole lessicali più frequenti. La stoplist serve per escludere tutte le parole che indico dal corpus e che non voglio analizzare. Fasce di frequenza:  fascia alta: poche parole a frequenza massima  fascia media: a partire dalla prima coppia di parole con la stessa frequenza  fascia bassa: le parole a frequenza bassa e gli hapax Liste di frequenza lemmatizzate in cui vengono ridotte le forme flesse di una parola in un unico lemma. Liste di frequenza per qualsiasi altro aspetto linguistico, ad esempio per POS. EQUAZIONE DI ZIPF George Zipf è stato tra i primi a lavorare sulle distribuzioni di frequenza, a partire dall’Ulisse di James Joyce. In particolare osserva il rapporto tra:

  1. la frequenza di una parola
  2. la sua posizione in un ordinamento decrescente di frequenze. Rapporto tra la frequenza di una parola e la sua posizione in un ordinamento decrescente di frequenze = > Equilibrio tra parole nuove, tipi e le loro ripetizioni, token r è il rango, la posizione r X f = C f è la frequenza C è il loro prodotto

DIVERSITA’ DI STRATEGIE TRA

SCRITTO E PARLATO

(focus). All'intersezione tra scritto e parlato si collocano tutta una serie di varietà intermedie (ibride), che formano un continuum ininterrotto disposto tra i due poli dello scritto-scritto e del parlato-parlato. Il parlato può essere in diverse declinazioni, abbiamo. parlato-scritto (relazione/ esposizione di un argomento); parlato recitato, parlato pubblico formale (es. la prof), parlato letto (announcers sul tg: parlano ma leggono un copione). lingua trasmessa: consiste nell’insieme coerente di varietà ibride, specifico delle moderne forme di comunicazione linguistica a distanza (radio, televisione, cinema, telefonia fissa e mobile, pc)  Parlato radiofonico e televisivo  Parlato cinematografico o filmico  Linguaggio usato durante le conversazioni telefoniche  Italiano digitato e scritture brevi REPERTORIO LINGUISTICO ITALIANO

  1. CANALE⇒ via fisica di trasmissione o propagazione di un segnale (fonico-uditivo, gestuale-visivo, grafico-visivo)
  2. MODALITA’⇒ modo in cui utilizzo quella via fisica del comunicare (condizioni semiotiche della comunicazione). Insieme delle condizioni semiotiche che sono o possono essere connesse all’uso di un determinato canale Si intaccano diversi ambiti: semiologico, testuale, sociologico. Il grado di rilevanza e pertinenza delle proprietà del canale usato può variare a seconda che si consideri  Livello generale della comunicazione o della significazione  Quello del singolo messaggio o testo  Il ruolo che le diverse modalità di trasmissione svolgono nei rapporti sociali e culturali di una comunità La prima forma di espressione della comunicazione umana è stata quella visivo-gestuale, in seguito è arrivata la comunicazione vocale (l’uso di segni vocali è stato inizialmente sussidiario a quello gestuale). Di conseguenza, si è arrivati al concetto di espressione attraverso una serie di canali contemporaneamente,

in modo da non perdere informazioni durante la comunicazione orale, ecco perché la comunicazione orale è detta ridondante. È un fattore antropologico, lo faccio per natura. La multicanalità è il sistema di modellizzazione primario della comunicazione umana. La comunicazione vocale si è sviluppata. La multicanalità (sia quando è associata all’uso di altri codici sia quando prevede la trasmissione dello stesso codice su più canali) ha una ragione di tipo informativo: permette una minore perdita di informazione. La capacità simbolica degli esseri umani non è legata all’uso di uno specifico canale (nella storia si sono usati segni gestuali, fonici, grafici, ecc.). Gli esseri umani, sia nello sviluppo filogenetico sia ontogenetico, sanno naturalmente produrre e interpretare significati attraverso materialità diverse senza insegnamento formale. L’evoluzione semiologica non potrebbe essere compresa senza prendere in considerazione come la specie ha (ri)funzionalizzato alla trasmissione di significati (a) il proprio corpo e (b) l’ambiente circostante (Deacon 1997). Il linguaggio umano può essere descritto come “a new machine made out of old parts”. ESEMPIO RIFUNZIONALIZZAZIONE DEL CORPO essere alti- sua altezza (ha potere, dato che è in alto) intimo è vicino, estraneo è distante; il sistema dei pronomi nostri è basato sulla vicinanza a una determinata persona. LE VARIABILI DEL SISTEMA ALLOCUTIVO RIFUNZIONALIZZAZIONE DELL’AMBIENTE CIRCOSTANTE: mouse del computer, somiglianza all’animale. Questo avviene anche nei segni grafici, avviene un percorso RIFUNZIONALIZZAZIONE DELL’AMBIENTE CIRCOSTANTE E PRODUZIONE DI SEGNI GRAFICI

Video YouTube (vedi slide) sullo stesso argomento -> multicanale: video, scritto, musicale, visivo Voghera (2014: 23): È evidente, infatti, che interpretare le nuove modalità di comunicazione come forme più o meno vicine al parlato o allo scritto fa perdere di vista la loro specificità e innovatività che non è necessariamente legata al canale in senso stretto, ma ai nuovi usi semiotici del canale. Lo stadio attuale ci ha permesso di coniugare proprietà che sembravano incompatibili: discontinuità di produzione e ricezione e discontinuità del testo. Ovvero ci ha permesso di produrre video a distanza che non contengono traccie della redazione del testo e della sua esecuzione, ma che possono mantenere la quasi sincronia. La collocazione delle scritture digitali nell’architettura dell’italiano contemporaneo coinvolge anche la lettura diafasica e diastratica della CMC. Gli aspetti non-standard delle scritture digitali sono ricondotti alle convenzioni scrittorie, allo scarso dominio dell’italiano da parte degli utenti. Troviamo riferimenti all’italiano neopopolare, a quello dei semicolti, alla lingua selvaggia -> per sottolineare come internet abbia fatto emergere le ridotte competenze scrittorie di molti italiani. «Pd, Martina: “Impossibile guidare partito in queste condizioni”. Franceschini: “Renzi irrispettoso, ora chiarezza» ( aprile 2018). (1) Con Renzi pd aveva avuto il picco di consensi degli ultimi anni...peccato poi sia stato demolito anche dal suo stesso partito...che diciamolo a sgovernato x anni solo e essere stato graziato da mani pulite (2) Qui si parla del futuro dell’Italia, chissene frega degli insulti, anche con la lega e B se ne sono detti di ogni eppure l’avrebbe fatto [il governo] subito Salvini e pure Berlusconi! (3) Ottima analisi. Il renzismo non è compatibile con alcuna dissidenza, per questo si appella, ogni volta, al “centralismo democratico”. Ma non siamo più ai tempi di Stalin e della guerra fredda. La DC ha governato 40 anni perché riconosceva alle minoranze il diritto di partecipare ai governi con i loro rappresentanti e sapeva mediare invece di imporre la legge del più forte. institutional literacy: forme di composizione tradizionali, praticate a scuola e nelle professioni, con rispetto dello standard 3 gradi diversi di padronanza della lingua. Scrivono come parlano Primi due messaggi sono informali Sono commenti fatti in anonimo e spesso sono commenti ad altri commenti, quindi a testi creati nel mentre. Digital vernacular literacy: scritture informali, spontanee e prive di un riferimento codificato, risultato di una pratica quotidiana, le cui norme dipendono dalla negoziazione interna delle diverse comunità (implicite o esplicite). Approccio generale: due proprietà per comprendere i nuovi usi semiotici del canale senza ricadere nelle dicotomie e irriducibilità di scritto e parlato  Continuità di produzione  Continuità del testo I social media hanno prodotto un rapido invecchiamento dei modelli interpretativi. Processo comunicativo: trasferimento di informazione da un emittente ad un ricevente attraverso almeno un segno caratterizzato dalla biplanarità (ha una forma e un significato associato ad essa) 6 fattori costitutivi: Il mittente invia un messaggio al destinatario

Il messaggio richiede il riferimento ad un contesto per essere operante Contesto che deve essere afferrato dal destinatario Deve essere verbale o suscettibile di verbalizzazione (il contesto) Il messaggio deve avere un codice interamente o parzialmente comune al mittente e al destinatario Richiede un contatto o canale fisico e una connessione psicologica tra mittente e destinatario che consenta di stabilire e mantenere la comunicazione Messaggio: la risultante della variazione di tutti gli altri fattori della comunicazione. In base alle caratteristiche può cambiare radicalmente. Il modo in cui una persona comunica dipende dalla sua posizione nella rete sociale. Più una persona sarà al centro della rete sociale e più essa userà un italiano originale, più discostante da quello standard. Caratteristiche del parlante (età, sesso, dove abita, quanto conosce e quanto sa del contenuto di cui si sta trattando – chi è, posizione sociale, conoscenza del contenuto del messaggio, quanto sono titolati nel parlare di un contesto in una determinata situazione…) Caratteristiche delle relazioni tra parlanti (se si conoscono o no, se hanno la stessa età o no…) Numero di parlanti (comunicazione uno a uno o molti a molti) Presa di parola (regolata perché sono in un’intervista e devo rispondere dopo le domande, sono in un monologo e parlo solo io sempre…) Contesto (privato, pubblico - in cui anche persone estranee possono partecipare o la vedono ma non possono intervenire, sono in un contesto formale o molto formale - istituzionale - come in una conferenza o simili…) La pratica discorsiva costituisce un insieme dei processi di produzione, distribuzione e fruizione di un determinato discorso. Un processo comunicativo produce un messaggio nell’ambito di una pratica discorsiva e di una pratica sociale che ne condizionano la forma, la funzione e l’efficacia. Il modo in cui veicolo i messaggi e parlo cambia se sono a casa con la famiglia scuola durante una lezione. Usassi un italiano precisissimo non sarebbe efficace. XX sec. -> il dibattito pubblico veniva reso pubblico attraverso i mass media ma era anche molto regolamentato. Si propaga in modo verticale. Avveniva attraverso pratiche discorsive istituzionalizzate (mozioni, domande, lettere aperte, delibere, ordinanze, leggi) rese pubbliche dai mass media. XXI sec. -> dibattito pubblico su social media nell’immediatezza e spontaneità. Si entra in spazi ne privati ne interamente istituzionalizzati, spazi ibridi. Si rinuncia un po’ alla privacy. Chiunque può avere accesso alle informazioni in qualunque momento, anche dopo anni. Partecipazione solo illusoria. È uno spazio pubblico anche se noi pensiamo si informale. Spesso si fraintende la possibilità di scambiare informazioni, interagire, con quella di partecipare. PERO’ i social media sono un ottimo veicolo di organizzazione dell’azione politica e di esperimenti di costruzioni di arene pubbliche digitali come reddit o wikipedia. Se nelle interazioni faccia a faccia siamo consapevoli della correlazione tra variazione sociolinguistica, semiotica dei processi comunicativi e la loro variazione linguistica e discorsiva; nessuno ci ha insegnato ad orientarci nella complessità semiotica e sociolinguistica dei processi comunicativi online. Tendiamo a trasportare il modo di relazionarsi faccia a faccia anche online. Il web 2.0 ha fatto collassare parte della sfera pubblica tradizionale su un’unica piattaforma. I social media sono LA forma di veicolazione e produzione di informazione. I social media hanno soppiantati le forme di informazione tradizionali come i giornali come mezzo per trovare informazioni.  Orizzontale  digitale  commerciale: si trovano pubblicità pensate AD OC per ogni persona. L’organizzazione della rete è passata da una forma con un centro ad una forma di rete senza più un centro comune. Lezione 8 – lun. 8 maggio 2023 Esame => Domanda su descrivere una funzione o spiegare qualcosa su skatchengine. Lezione 9 – mar. 9 maggio 2023 Lezione 10 – mer. 10 maggio 2023 La brevità è un tratto costitutivo della scrittura digitale, è limitata da vincoli come un numero massimo di caratteri (massimo di 140 caratteri su Twitter fino a poco tempo fa). Serve per far passare

Dati e testi che richiedono interventi computazionali perché si possa recuperare un senso. Ho dei dati o testi che possono essere elaborati attraverso programmi da cui posso recuperare un significato. Non necessariamente macro (ho tanti dati ma resto in superficie) vs micro (andare in profondità di un testo avendo pochi dati). Usare tecniche, set di dati metodologie nuove non significa fare in grande, andare in profondità. Obiettivo : estrazione di informazione in un insieme di documenti e la visualizzazione di grossi set di testi. Analogia tra estrazione mineraria e reperimento informazioni in Internet -> Così come è necessario rimuovere un’enorme quantità di roccia prima che i diamanti o l’oro possano essere trovati, allo stesso modo con il computer e gli strumenti di data mining, possiamo trovare l’unica informazione-diamante tra le tonnellate di dati-roccia nel database. “saper come non leggere è importante come sapere come leggere” => senza aver letto il testo posso applicare strategie che mi permettono di arrivare a conoscere quel testo. Così come ci sono strategie per leggere, devo essere consapevole di come non leggere per arrivare al significato. molti dati in poco tempo a fondo. “la lettura distante o il non leggere sono la ricerca automatizzata dei modelli attraverso un corpus molto più ampio di quanto potrebbe essere letto e assimilato via tradizionale”. Processo del text mining:

  1. Recupero delle informazioni Localizzazione e recupero documenti che possono essere rilevanti alla luce degli obiettivi prefissati. Raccolta di testi tra quelli che ipotizziamo trattare lo stesso argomento. Obiettivo: selezione di un sottoinsieme rilevante di documenti da un insieme più grande. Il termine IR fa riferimento all’attività di ricerca di documenti attraverso delle parole chiavi (query), le quali a loro volta sono utilizzate per indicizzare i documenti.
  2. Selezione delle informazioni Tolgo tutto quello che non mi interessa e trovo gli elementi rilevanti. Estrazione di informazioni dai documenti selezionati. Di solito si tratta di riempire specifici template di informazioni, ma in questa fase stanno anche tutte le tecniche di pruning (= significa “potatura”. Si tratta di un’applicazione di una serie di tecniche atte a pulire i dati da elementi non interessanti per alleggerirne il trattamento. Si tratta di un’attività di supporto al RI, questo perché fa riferimento all’attività di ricerca di documenti attraverso delle parole chiave, ma spesso non porta al recupero di documenti realmente interessanti per il nostro scopo perché le chiavi sono scelte da terzi (nella maggior parte dei casi dall’autore del testo). Invece SI cerca di superare questa differenza in modo da avere un meccanismo di ricerca che sia basato su una rappresentazione oggettiva della conoscenza) di estrazione di conoscenza generica.
  3. Estrazione dell’informazione Cerco di individuare i diamanti. Si cerca se esistono dei patterns o delle relazioni fra i dati. Nel caso di analisi di un testo unico, questa fase corrisponde alle tecniche di analisi della conoscenza estratta, comprendenti metodi statistici e metodi simbolici.
  4. Interpretazione Cerco di analizzare e interpretare i dati. Analisi dei risultati e interpretazione di pattern scoperti durante la fase di mining. Le tecniche di text mining si possono applicare in qualsiasi ambito di indagine; trovano applicazione tutte le volte che siamo davanti a grandi quantità di dati e abbiamo l’esigenza di conoscerne il contenuto. Come recuperare informazioni da testi: Metodo in contesto tradizionale: lettura analitica (close reading) -> l‘analisi e l‘interpretazione di un testo per comprensione profonda. Enfasi sul particolare, singole parole, sintassi, ordine delle frasi e delle idee. Metodo in contesto digitale: lettura globale applicata al web (distant reading) "understanding not by studying particular texts, but by aggregating and analyzing massive amounts of data” = “capire non studiando testi particolari ma aggregando e analizzando grandi quantità di dati”. Lettura molto veloce, superficiale. Se la lettura tradizionale ha la struttura come punto importante per la sua comprensione, la lettura globale è il contrario. Mentre la lettura ravvicinata conserva la capacità di leggere il testo di partenza senza dissolverne la

struttura, la lettura a distanza fa l'esatto contrario. Una sorta di patto col diavolo, sappiamo come leggere i testi, impariamo come non leggerli. Immagine sottospecie di fiore colorato: La struttura ad albero rispecchia i capitoli del libro e ciascun fiore ha foglie di colori diversi che rappresentano i temi di quel capitolo. Applicazione del distant reading -> applicazione di quantità enorme di dati in maniera diversa. Posavec’s Literary Organism un esempio di distant reading di On the Road di Jack Kerouac in forma di albero. Illustra perfettamente l’idea che sta dietro al distant reading: visione astratta di un testo letterario. La struttura ad albero rappresenta la gerarchia dei contenuti dei capitoli, fino alle parole e i diversi temi sono trattati con colori diversi. Esempio di distant reading: “la locandiera” Tecniche:  Le nuvole di parole/word clouds: le parole più frequenti. Sono visualizzazioni intuitive per codificare la frequenza di parole in un determinato testo con carattere di grandezza variabile. Indicano la frequenza di parole di un determinato testo che sono spesso anche i temi e possono riferirsi a temi in un corpus. la lettura veloce con i word clouds: voyant de la locandiera   Clustering: trovare testi, simili. Esempio da Google news Lezione 11 – lun. 22 maggio 2023 Lezione 12 – mar. 23 maggio 2023  Coreferenza  Vaghezza e ambiguità  Ambiguità e plasticità  Vaghezza a scopi manipolatori  Il riferimento è un’operazione sociale  Parzialità a scopi manipolatori  Uso di metafore a scopi manipolatori  Categorie ad hoc

I SOCIAL MEDIA sono dei buoni contenitori per questi processi. Hanno il potenziale di rendere più vago il senso delle parole che si usano: falsa percezione di prossimità tra parlanti e quindi la falsa illusione di condividere un contesto capace di guidare l’interpretazione. Chi scrive tende a dare per scontato più di quanto sia opportuno. -> livello semiotico scrittura e lettura avvengono rapidamente: scarso tempo di pianificazione e ricezione distratta. L’utente legge tante cose in poco tempo e quindi tende ad essere “distratto”. Chi scrive non ha bisogno di pianificare. Le condizioni di trasmissione e ricezione sono rapide e superficiali: manca il tempo necessario per formulare un messaggio che non sia troppo vago e al ricevente per trovare nel contesto situazionale condiviso elementi capaci di ridurre la vaghezza di quanto legge e guidare l'interpretazione. comunità sociolinguistiche non di lunga data -> terreno comune fragile ed esposto a rischi. Livello sociolinguistico: la creazione di comunità virtuali non necessariamente fondata su una condivisione di lunga data di esperienze varie fa sì che troppo spesso il terreno comune sia fragile, precario e sovrastimato. I social amplificano la capacità di alcune caratterizzazioni e connotazioni parziali di diventare dominanti nel discorso pubblico per almeno tre ragioni. (1) Vengono fruiti distrattamente e quindi è meno probabile che il ricevente in grado di resistere a una certa rappresentazione imposta in modo manipolatorio. (2) La viralità della diffusione rende l'abilità di imposizione di un certo punto di vista più potente. Essendo i social poi un campo di battaglia tra diverse propagande un numero di utenti umani e bots può amplificare artificialmente la diffusione di una certa rappresentazione dei referenti e spacciarla per egemone. (3) Le metafore abusive che hanno spesso un potere evocativo costituiscono un materiale linguistico che ben si presta alla viralità Predicazione: dire qualcosa a proposito dei referenti che introduciamo nel discorso. Quello che dico rispetto ad un referente. Mario e Giovanni stanno per partire. La predicazione designa proprietà e relazioni: stati (1), eventi (2), caratteristiche (3), ma anche può predicare proprietà di predicazioni (4-6). (1) Il libro è sul tavolo. (4) Per fortuna il libro è sul tavolo (2) La penna è caduta. (5) Con mia grande sorpresa la penna è caduta. (3) Mario è insonne. (6) Probabilmente Mario è insonne. I primi due (4 e 5) ci dicono come ha preso quella cosa e un giudizio. L’ultimo (6) ci dà una possibilità. Spesso le predicazioni sono incassate sintatticamente le une nelle altre. Il parlante distingue tra predicazioni asserite (ex: questa scoperta mi ha reso felice) e predicazioni presupposte (qualcosa che viene dato come parte del bagaglio di conoscenze dei due interlocutori), ovvero predicazioni presentate come già presenti nel common ground che possono perciò essere date per scontate (ex: tu sei tornato, l’ho scoperto). La scoperta del tuo ritorno mi ha reso felice L’informazione più importante che vuole far trasparire è l’essere stato reso felice. Quando parliamo facciamo sempre questa selezione su ciò che vogliamo mettere a fuoco perché importante e cosa no. Quindi le predicazioni asserite sono le più importanti. La predicazione presupposta fa parte del terreno condiviso e di solito è facilmente ricavabile dal contesto. Normalmente la predicazione presupposta è meno preminente, quindi non è necessario che l'interlocutore debba decidere se accettarla o meno. Questo è accettabile se

  • la predicazione presupposta appartiene al common ground condiviso dai parlanti
  • la predicazione è marginale o facilmente ricavabile dal contesto Quanti animali di ogni specie ha portato Mosè sull’Arca? È Noè e non Mosè Di che paese è stata presidente Margaret Thatcher? Non è stata presidente ma primo ministro

Come si chiama il lungo sonno che alcuni animali fanno durante l’estate? Si va in inverno e non in estate Chi ha trovato la scarpetta di cristallo che Biancaneve ha perso al ballo? È cenerentola e non Biancaneve In domande così diamo per scontato che tutte le informazioni secondarie siano vere perché siamo focalizzati a rispondere. Focus. Strategia molto diffusa. In generale i problemi sono connessi al fatto che il destinatario tende a non attivare il suo giudizio critico: non è necessario verificare ciò su cui ci siamo già accordati. Leggi farse su Mosé e altri. Domande WH presuppongono che Mosè abbia messo animali sull’arca, come punto di partenza assodato della domanda. Testi persuasivi fanno ampio uso di questa strategia. A volte la presupposizione viene usata per introdurre informazioni nel common ground, oltrepassando la vigilanza epistemica. Ex 1 : Noi italiani patrioti sappiamo della corruzione sulle elezioni. Sosteniamo la causa contro le frodi del Deep State. Presidente Trump preghiamo per lei e tutto il popolo americano. Ho visto la sua lacrima oggi. Lei è molto amato dal suo popolo, felicità e amore. Namasté. => Viene dato per scontato che il deep state abbia fatto delle frodi. Viene dato per presupposto che il Deep State americano abbia commesso frodi durante le elezioni presidenziali del 2020. Questa predicazione è inserita surrettiziamente nel common ground, come se fosse possibile darla per scontata, quando essa è in realtà non provata. Ex 2 : Siccome a perdere tempo non sono bastati la commissione Colao, gli Stati generali e neppure una cabina di regia guidata dal ministro Enzo Amendola, Giuseppe Conte pretende un'altra task force, questa volta composta da 300 persone. => Si dà per presupposto che la commissione, gli stati generali e la cabina di regia siano stato una perdita di tempo, sono solo dei pensieri personali. Belpietro usa una predicazione presupposta: la commissione Colao, gli Stati generali, la cabina di regia guidata dal ministro Enzo Amendola sono stati una perdita di tempo (inserisce nel common ground come se fosse presupposta e condivisa una valutazione che è invece una sua valutazione personale). I testi persuasivi sfruttano ampiamente questo dispositivo retorico. Pubblicità freccia rossa: afferma incontrovertibilmente che i treni freccia rossa siano ad alta velocità, sfrutta il presupposto che non esistano concorrenti dei treni ad alta velocità. Questo presupposto ci fa pensare che sia davvero la firma dell’alta velocità. Sottolinea l’unico elemento che fa sembrare italo inferiore, ovvero quello del tempo (freccia rossa esiste da più tempo). La pubblicità di Trenitalia del 2019, pur affermando apparentemente il fatto incontrovertibile che i treni Frecciarossa rappresentano l'alta velocità in Italia, sfrutta più utilmente il presupposto di esistenza e unicità associato alla descrizione definita "la firma dell'alta velocità italiana" per far credere che Trenitalia sia l'unico rappresentante dei treni ad alta velocità in Italia; il che oscura implicitamente l'esistenza dell'antagonista di Trenitalia, Italo. Anche se un'affermazione come "Italo non conta davvero come treni ad alta velocità" sarebbe riconosciuta come falsa da qualsiasi italiano se affermata direttamente, il presupposto può fare qualcosa per creare questa stessa impressione nella mente del target. Il fatto che l'annuncio sia rivolto contro Italo, almeno quanto a favore di Trenitalia, è confermato dalla successiva precisazione contenuta nella pagina: "scegli lo stile e l'esperienza di chi muove l’Italia da sempre", che di fatto sottolinea l'unico elemento (l'anteriorità temporale) che rende Trenitalia indiscutibilmente superiore al suo concorrente. come introdurre informazioni senza richiamare l’attenzione su di esse Focus sull’aggettivo “prima” / ”first”. Se c’è un primo vuol dire che poi c’è anche un secondo, terzo ecc… -> il fatto che sia dato per presupposto che ce ne siano altre fa vedere come pensino siano le migliori marche (se prendi la prima è così bella che poi la prenderai sempre). I presupposti, in qualche misura inavvertitamente, ci spingono a ricostruire e ad accettare come esistenti situazioni non rientrano nella nostra conoscenza del mondo. Per questo motivo, presupposizione: