















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti di linguistica digitale
Tipologia: Appunti
1 / 23
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
















In offerta
L'italiano È una pura astrazione perché tutti parliamo in modo diverso, il mio uno di noi parla un idioletto, nessuno di noi è competente in tutte le varietà di italiano. Orari: lunedì 9.15-10. venerdì 10-10. Fine: 10 maggio 2/04, 5/04 e 12/04: no lezione
Il continuum scritto - parlato Ripasso di sociolinguistica Scritto scritto Parlato scritto: servizi giornalistici (non dei mezzi busti) Parlato recitato: attori, un copione che si impara più o meno a memoria Parlato pubblico formale: parlato controllato, basato su appunti e linee guida Parlato dialogico letto: tipico dei notiziari radiofonici e dei telegiornali Parlato parlato Lingua trasmessa: si tratta di un insieme coerente di varietà ibride che stanno tra scritto e parlato, parla di cinema e mass media, ma anche telefonia fissa e mobile. parlato radiofonico parlato cinematografico o filmico, che ci danno anche un'idea dell'epoca presentata il linguaggio usato durante le conversazioni telefoniche italiano digitato e scritture brevi (lingua dei social media,delle nuove tecnologie, sms). Comunicazione mediata dal computer e scritture brevi.
Tomasello). Il fatto che gli umani quando hanno iniziato a comunicare per primo con i gesti, la voce è arrivata dopo, arrivata insieme ai gesti, tanto è vero che noi molto raramente parliamo senza gesticolare, era la voce a supportare i gesti. Noi impariamo il linguaggio naturalmente, attraverso i nostri modelli. Noi ricicliamo costantemente cose per realizzare scopi nuovi. All'inizio venivano utilizzati i pittogrammi, per poi arrivare alle lettere vere e proprie e poi sono nate le emoji e emoticon, nuovi pittogrammi, "icon of emotions". Questi tipi di strumenti di comunicazione sono definiti come veicolatori dello stato d'animo, introdotti nel 1992 da Scott Faltman(?), per rendere la comprensione delle email più semplice, le emoji nascono invece in Giappone (pittogramma) e sono veloci e intuitivi. La radio è stata la pioniera dell'unificazione linguistica italiana (poi anche la TV) fino a farci arrivare a parlare un italiano neo-standard.
In aggiunta ai gesti è arrivata la voce. La voce è sussidiaria ai gesti, la voce è secondario rispetto alla vista. Siamo abituati ad utilizzare più canali insieme. Spesso usiamo cose che conosciamo bene con nuove funzioni, raggiungendo funzioni comunicative nuove. L'uomo usa ciò che gli sta intorno per dare loro nuovi significati, anche molto astratti. La parte del cervello che ci permette di riconoscere i volti indipendentemente dalla loro posizione, ci permette anche di riconoscere le lettere. Esempio origine della chiocciola: @ È stata attestata la prima volte nel 1998 nel Zanichelli e nel Gradit viene glossata come gergale del linguaggio informatico. "At" in inglese, particellla locativa. Ci sono due tipi di spiegazione dell'origine, una storica, dal latino "ad" secondo il tipo di scrittura degli amanuensi (scrittura onciale dei testi medievali). Questa spiegazione è stata smentita da uno scientifico italiano, Stabile, che afferma che questo simbolo era utilizzato per designare l'anfora, che aveva lo scopo di essere un'unità di misura del mondo mercantile. Se si guarda alla lingua spagnola, la parola deriva dall'arabo, che anche in questo caso è un'unità di misura. Questo simbolo è entrato nell'ambito commerciale come unità di misura, e pian piano l'anfora è stata dimenticata per utilizzare i numeri. Poi è entrata nel mondo contabile inglese. In Italia, con il significato di A, viene tradotta in AD per indicare una data.
La multidimensionalità non è una caratteristica che deriva dallo sviluppo tecnologico. Lo sviluppo delle nuove tecnologie ha permesso di unire parlato e scritto, ci possono essere delle nuove modalità di comunicazione che possono essere discontinue (nel testo e nel processo) o continue nel testo e nel processo. Linguistica digitale 05/ variazione diamesica Più modalità di scambio, le comunicazioni diventano più frammentarie, perché i testi sono sempre più brevi (limite dei caratteri), ma anche come pratica di costruzione di un profilo. Questi sistemi di scambio evolvono continuamente nel tempo, verso delle nuove modalità di scritture che non hanno dei precedenti nel tempo, l'evoluzione è possibile grazie alle molteplici possibilità di scambio. Slide 1. COMUNICAZIONE MEDIATA DAL COMPUTER: ci sono tante varietà di comunicazione mediata dal computer, perché esistono tante situazioni che nascono su internet e ciascuna ha le proprie proprietà, i luoghi digitali sono diverse, i legami tra gli utenti sono diversi, le nature del messaggio sono diverse e sono tutti fattori di cui tenere conto. Importante è il fattore della dialogicità, cioè il dialogo (una mail sarà poco dialogica, un messaggio è molto dialogico). La scrittura collaborativa è la scrittura del WEB 2.0 in cui tutti possiamo interagire, per esempio i commenti Linguistica digitale 08/ Dire che la comunicazione mediata dal computer è una varietà di italiano è riduttivo, perché esistono tanti tipi di lingua e tanti tipi di situazione digitale diverse, in cui, ovviamente, esistono diversi modi di utilizzare il linguaggio. Ci sono tanti tipi di italiano digitato.
Uno è un testo scritto, l'altro è parlato, quindi il testo è stato semplicemente spostato da un mezzo all'altro, è stato digitalizzato, il secondo testo è dialogato, con una parte di monologo. Il primo
capitolo 2 Che cos'è un testo? Un messaggio deve essere compiuto e coerente. Atti linguistici: azioni che noi facciamo con la lingua o con una produzione semiotica, e in ogni atto linguistico si distinguono 3 livelli. Livello locutivo: Livello illocutivo: le intenzioni comunicative dell'emittente Livello perlocutivo: Principi costitutivi del testo Proprietà strutturali: coerenza e coesione Rapporto comunicativo: intenzionale (devo voler comunicare), e il ricevente deve poterlo accettare Rapporto col contesto: Valore informativo: mi deve dare informazioni nuove Coerenza e coesione: l'emittente deve voler comunicare e il ricevente deve poterlo accettare Linguistica digitale 12/ I principi costituitivi del testo Coesione Coerenza
L'emittente progetta il suo testo sulla base del destinatario. Prepara alla ricezione del testo creando e attivando cornici specifiche. !!!Crearsi aspettative e a fare le cornici giuste è importante per il processo comunicativo. È solo grazie a questo fenomeno che il destinatario/ricevente riesce a colmare lacune, volontarie o meno, lasciate dall'emittente nel testo. Deludere tali aspettative può dare adito a fraintendimenti. Crearsi delle aspettative è molto importante, perché ci permette di capire meglio il testo ed escludere tutto ciò che non potrà far parte di quel testo comunicativo, una delle strategie può essere leggere il titolo. Il contesto è molto importante anche per quanto riguarda i testi scritti. Se manca la cornice non sappiamo a quale contesto dobbiamo riferirci per comprendere appieno il testo. Se viene deluso il ricevente, non possiamo fare delle ipotesi e non possiamo comprendere il testo. Avendo il contesto, ritaglio più facilmente le ipotesi. Un testo deve essere comprensibile a chi legge, quindi si devono dare gli indizi giusti. Anche in assenza di un testo completo, noi andiamo oltre a ciò che vediamo, cercando di dare senso al testo è cercando di creare una cornice. Accettabilità e intenzionalità Esiste un principio che governa la nostra lingua, che è stato elaborato da Grice nel 1975. Dai il tuo contributo alla conversazione nel modo richiesto, allo stadio in cui è richiesto, dallo scopo condiviso o dalla direzione dello scambio comunicativo in cui sei impegnato. Ci sono 4 massime intorno alle quali noi ci collochiamo quando ci troviamo a comunicare. Sono massime della comunicazione, perché quando ci troviamo a comunicare, cooperiamo insieme perché la comunicazione avvenga, sia il mittente che il ricevente. Quantità : non essere reticente o ridondante, non dire di più di meno di quello che serve, di quanto sufficiente; Qualità : sii sincero, modulazione epistemica (uso del condizionale); Relazione : pertinenza all'argomento di cui si sta parlando; Modo : evita di essere ambiguo.
Testi (tipografici) e ipertesti I testi tipografici hanno delle precise caratteristiche formali e materiali; I formati e il tipo di supporto si sono modificati nel tempo; Nasce un rapporto tra l'autore e l'editore; Serve a tutelare l'autore, gli interessi giuridico - economici (diritto d'autore); È chiuso è interpretabile indipendentemente dal sistema di testi che lo hanno preceduto; È concettualmente lineare Ipertesti È aperto e sempre integrabile è frutto di una scrittura collaborativa; È multilineare; È caratterizzato da più livelli di fluidità; Viene meno l'autorità, giuridica, culturale o commerciale che decide sulla pubblicabilità dei contenuti. Gradiente di digitalità:
La scrittura digitale non ama la profondità sintattica, cerca la semplicità è non frasi complesse. Cerca la verticalità della codifica di un testo, un profondità di codifica di un testo. ASCII Ci sono degli impulsi binari che ???? Ci sono altri livelli di codifica, per esempio le formattazioni. Un altro livello è quello descrittivo, che corredano il testo di metadati e lo dotano di una semantica secondaria. Il testo diventa un proprio oggetto digitale. In sintesi al testo si sovrappongono delle informazioni di supporto, che ne determinano l'aspetto è servono a rintracciare quel testo nelle informazioni in rete. Il testo digitale è concepito per un doppio destinatario: il lettore umano e il motore di ricerca. Nel web 2.0 il tagging è di fatti diventato social tagging, che ha delle vere e proprie funzioni testuali. L'hashtag viene usato dapprima dal basso, per trovare tutti i contenuti con lo stesso tema, poi ciò viene accettato dai programmatori di Twitter. Il cancelletto # è a tutti gli effetti un marcatore di tema. La sua portata è la stringa di testo che segue, non separata da spazi grafici. Il cancelletto può segnalare il rema dell'enunciato o fare da commento a un messaggio. Può anche fare da segnale metadiscorsivo. Il cancelletto può essere usato anche per le pubblicità. Gli ipertesti dal punto di vista sintagmatico sono brevi e semplici, ma da punto di vista verticale la situazione è più complessa, multilineare.
Gli ipertesti sono in strutture discontinue o multi lineari, se confrontate con il testo tipo grafico.questa caratteristica è ancor più in vita iniziata da alcuni accorgimenti che finiscono per fare assomigliare le unità informative di cui si compone il testo ai campi di un database.
Con lo sviluppo dei social media, esiste una nuova forma di intertestualità, di rilancio tra vari micro testi. Prada la chiama " intertestualità attiva " è attiva perché per capire un testo, dobbiamo far riferimento ad altri testi che sono brevi. Se abbiamo accesso ai testi che sono da rimando, allora la comprensione sarà più facile. Se non abbiamo il rimando ad altri testi, la comprensione sarà più difficile e la dipendenza da contesto è più o meno spinta. Il contesto sono le coordinate spazio temporali delle conoscenze condivise e delle comunicazioni. I diversi studiosi che si sono occupati delle proprietà riguardanti queste tipologie di scritture digitali. Antonelli: parla del rapporto tra ipotesto e ipertesto: sono frammenti, più che testi unitari, perché sono brevi e incompleti Raffaele Simone: si tratta di non testi, perché non hanno un'autonomia di testo I messaggi postati in digitale sono monoproposizionali e molto brevi. Perché sui social le frasi sono così brevi rispetto ai blog? > perché sui social dobbiamo cercare di attirare l'attenzione e quindi dobbiamo essere brevi, poi perché una delle proprietà dei social è esprimere emozioni, informare su un avvenimento, commentare un avvenimento, con dei rimandi ad altri testi. La sintassi che ci troviamo sui social media è più simile a quella del parlato, anche se non la trasportiamo completamente, si parla di focalizzazione , evidenziamo il tema di cui sto parlando, mediante dislocazioni, frasi scisse, uso del "c'è" presentativo. Verticalità sintattica: un testo scritto è più complesso dal punto di vista sintattico, di un testo orale, perché è più organizzato. Cosa succede quando vengono messi online dei testi, nati per essere su carta. (Per esempio Liber Liber)
La codifica digitale del testo è la rappresentazione del testo su un supporto digitale in un formato "leggibile" da un computer (MRF). I computer memorizzano ed elaborano dati sottoforma di sequenze di due soli simboli zero e uno, che sono cifre binarie. Ogni tipo di informazione deve essere codificata in cifre binarie.
devo scomporre in cifre binarie, dando ai tecnici le informazioni che servono per
codificare. Abbiamo bisogno che ci sia un'intestazione , che ci sia un capitolo , che ci sia un titolo e che ci sia un testo (un po' come funziona word). Devo fare un'analisi della struttura linguistica. La codifica informatica dei testi La macchina deve: Riconoscere i caratteri, maiuscole, segni di punteggiatura, Separare le parole Mantenere le partizioni strutturali dei testi (capitoli, paragrafi, battute, turni…) Eventualmente codificare i contenuti utili per indagine linguistiche (recuperabili attraverso interrogazioni complesse) Si codifica in base agli obiettivi che abbiamo, in modo da tracciare dei sentieri di lettura all’interno del testo. Le interpretazioni di tipo morfo sintattico, fonetico, semantico, pragmatico… QUINDI : annotazione linguistica rende esplicita ed esplorabile la struttura linguistica del testo. È preferibile che la codifica sia standardizzata per facilitare la portabilità (un testo deve essere leggibile e funzionare su più supporti) dei dati. Il testo è una sequenza di caratteri e per questo deve essere surrogato parziale del testo originario.
Abbiamo due diversi tipi di marcatura marcatura procedurale o tipografica marcatura dichiarativa (logica o descrittiva): basata sul ruolo o funzione di un elemento nel testo, dico quale funzione deve svolgere. Un linguaggio di marcatura è un insieme di convenzioni per la marcatura di testi. XML: il formato che interessa di più in questo contesto. Delimitatore di apertura e di chiusura: <, >.
Strumenti per l’analisi - linguistica dei testi digitali Termini che fanno rifermento alla metafora della miniera (mining), ha a che fare con la mole di dati che si trovano online, che si trovano in un contenitore enorme di dati. Fare in grande> grandi dati, ma si deve scegliere quello che possa essere più utile. Processo di kdd: knowledge discovering of data. DM TM o KDT CLUSTERING: (vedi libro teorie dei media) si mettono insieme degli elementi simili a seconda del tema.
La linguistica è basata su dati empirici perché ha le sue generalizzazioni, che traggono il fondamento da dati empirici. Con l'avvento delle nuove tecnologie, si riescono a raccogliere moltissimi dati, creando dei corpora ricchi e in modo veloce e preciso. Chomsky è un autore fondamentale per la linguistica, egli fa una distinzione tra grammaticalità e accettabilità. La prima deriva dall'osservanza delle regole della grammatica, nella costruzione di una frase: "incolori verdi idee dormono furiosamente", è una frase corretta dal punto di vista grammaticale, ma non è accettabile, perché non ha significato.
La seconda deriva dalla capacità dei parlanti di attribuire un senso alle frasi e di utilizzarli in contesti appropriati: "dovremmo riparare la sede infelice" "domani ti messaggio", non hanno senso e sono fuori dal contesto. Egli parla ancora di grammaticalità e probabilità (ha un legame con la statistica, nel senso che poche volte ci capiterà di sentire una frase del genere) La frase: "ho visto un esile balena" per quanto sia improbabile nell'ordinare comunicazione linguistica, è perfettamente grammaticale. La linguistica interna riguarda lo studio della competenza, grammatica generativa, la linguistica esterna riguarda lo studio dell'esecuzione. Dicotomia tra langue e parole. I tipi di dati linguistici Dati naturalistici: ha degli aspetti positivi e negativi Dati controllati sperimentalmente Esistono diverse definizioni di corpus, le prime due definizioni e l'ultima vedono il corpus come un campione estratto da una popolazione più ampia e selezionata per condurvi un qualche tipo di analisi linguistica i cui esiti dovrebbero consentirci di inferire qualcosa anche della popolazione da cui il campione è stato tratto, dovrebbero cioè essere generalizzabili. Scarto esistente tra la concezione attuale di corpus è un'epoca in cui la ricerca linguistica, benché empiricamente fondata e orientata a indagini su esempi di uso naturale, non era ancora supportata dal computer, come affermano le definizioni numero tre e numero quattro; Definizione scherzosa che allude al fatto che corpo ora oggi hanno superato i 500 milioni di parole di testo costituendo veri e propri magazzini testuali, come afferma la definizione numero 5. Un corpus in linguistica È un insieme di testi (scritti orali) che si assume di essere rappresentativa dello Stato di una lingua, o di una parità di essa, al fine di ottenere una descrizione complessiva di quella particolare varietà di lingua o stato di lingua. Problema della mole di dati così ampia: gestire questi immensi dati
Lemmatizzazione: si fa quando si dà origine ad un vocabolario di lingua Vi sono diversi livelli di annotazione: POS (Parts of Speech) Tagging Annotazione sintattica Annotazione semantica Annotazione dei fenomeni di coesione testuale Annotazione pragmatica Annotazione per categorie di errore (per esempio quando si analizzano parlanti di un'altra lingua) Slide pagina 30 XML è un metalinguaggio, il suo contenuto può essere qualsiasi cosa, la grammatica rimane invariata, in base alle nostre esigenze. Regole di base .XML
Esiste il corpus più adatto a determinati usi e altri meno adatti. Si devono tenere in conto gli obiettivi, mantenendo stabili solo le variabili che ci servono. Distinguendo in corpora grezzi e corpora annotati, si indica la presenza o meno in un corpus di un corpus di un qualche livello di annotazione.
Distribuzione di frequenza: andare a vedere, rispetto ad un fenomeno che sta analizzando, in un corpus, come i termini si comportano. Una delle cose più I calci da fare e vedere con quale frequenza si mostra una parola e con quale frequenza si mostra un'altra parola nello stesso corpus. Quante volte occorre uno e quanto occorre l'altro. La distribuzione di frequenza è il numero grezzo che ci mostra quante volte si mostra una parola in un corpus, posso confrontare i valori. Quando abbiamo due corpus differenti, le cose cambiano in termini di grandezza, allora quello che devo fare è calcolare le frequenze assolute e normalizzare, calcolando la frequenza relativa per avere dei corpus della stessa grandezza: divido la frequenza assoluta per il numero di parola, con questo numero posso fare molte altre cose, ma dipende tutto dalla grandezza del corpus. Se ottengo un numero troppo piccolo (0,0000000..) lo posso normalizzare mediante un moltiplicatore, un numero che scelgo io in base alla grandezza del mio corpus, per ottenere un buon numero (0,3 per esempio). Una delle cose principali quando si parla di confronto è la parola chiave, che sono le parole che rappresentano il corpus, che rispecchiano una deviazione dalla norma che prendiamo come standard.