

































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Big data , strutture , linguaggio
Tipologia: Appunti
1 / 41
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


































t lui r APPORTI fra l InguIstIc r isorse e K nowl- bordo m estione S ystems
. 1 Ben strutturato risorse linguistiche per una efficace conoscenza Man-Sistemi agement Prima di entrare nei dettagli e di esplorare il rapporto positivo che può essere stabilita tra LR ben strutturati e KMSS, faremo una breve introduzione sul KM. Successivamente, esamineremo le ragioni per cui le prestazioni di un KMS può essere migliorata se in base alla incorporamento dei dati logico- formalizied e risorse linguistiche. Il termine KM è stato originariamente nato con senso connotazioni legate al mondo delle imprese, in primo luogo come un insieme di capacità di gestione orientato al trasferimento di conoscenze all'interno delle aziende, vale a dire che il trasferimento di capacità e competenze, che nasce dalla esperienza di una società e la sua dipendenti, e che rende tale società competitiva sul mercato. E 'l'esplicitazione di know-how aziendale, quando si trasforma in procedure ben riassunte-che devono essere trasmessi e la diffusione in una società e nelle sue componenti per garantire che rimanga attiva e competitiva.
In termini più generali, KM comprende una gamma di strategie e pratiche utilizzate in un'organizzazione di identificare, creare, rappresentare, distribuire, e consentire l'adozione di intuizioni e di esperienze. Tali intuizioni ed esperienze comprendono la conoscenza, sia incarnata in individui o incorporati nelle organizzazioni come processi o pratiche. Ma dal nostro punto
Oggi ci sono molte tecnologie altamente correlati alla KM, e coprono tutte le fasi del suo ciclo di vita. La conoscenza è acquisita o catturato utilizzando tecnologie come intranet, extranet, groupware, Web conferencing e sistemi di gestione dei documenti. Successivamente, un modello di organizzazione 28
t lui r APPORTI tra l InguIstIc r isorse e K ONOSCENZA m estione S ystems memoria è formata da raffinazione, organizzazione e conoscenza memorizzazione utilizzando repository strutturati come ad esempio data warehouse. Poi la conoscenza è distribuito attraverso diversi strumenti di educazione, programmi di formazione, i sistemi basati sulla conoscenza automatici, reti di esperti. La conoscenza è applicata o sfruttato per l'ulteriore apprendimento e l'innovazione tramite l'estrazione memoria organizzativa e l'applicazione dei sistemi esperti, come ad esempio DSS. Ogni segmento di queste fasi si arricchisce di flusso di lavoro efficace e la gestione dei progetti. Il futuro del KM è costituito da un software ad hoc in grado di sviluppare sistemi di gestione aziendale basate sulla conoscenza. portali di collaborazione Conoscenza saranno creati in un modo per trasferire in modo efficiente la conoscenza in un ambiente funzionale interdisciplinare e trasversale. I sistemi informativi si evolveranno in sistemi di intelligenza artificiale che usano agenti intelligenti per personalizzare e filtrare le informazioni rilevanti. Nuovi metodi e strumenti saranno sviluppati per km percorso e- intelligenza e innovazione. Pertanto, possiamo immaginare che più database aziendali si fonderanno in grandi basi di conoscenza, multidimensionali integrate progettate per supportare KMSS in termini di intelligenza competitiva e memoria organizzativa. Questi depositi di conoscenza centralizzati ottimizzeranno la raccolta di informazioni, l'organizzazione e il recupero. Essi offrono caratteristiche conoscenze arricchenti che supportano l'interoperabilità e il flusso di informazioni e conoscenze. Queste caratteristiche possono includere: l'incorporazione di clip video e audio, collegamenti a fonti autorevoli esterne, qualificazioni
e xplorIng f ormal m odelli di l InguIstIc d ata S tructurIng Questa breve introduzione sul KM ci aiuta ad approfondire la nostra ipotesi iniziale, vale a dire il fatto che se l'architettura delle informazioni di un KMS si basa sulla formalizzazione dei dati linguistici, allora il sistema funziona meglio ed è più coerente. Ci sono almeno due ragioni per giustificare questa ipotesi. Il primo si spiega con il fatto che una delle chiavi sviluppato a partire dalle risorse linguistiche si basa e può contare su dati formalizzabili concreti e tangibili, come lessico, morfologia, sintassi e semantica formale. Il secondo è spiegata per mezzo di tutte quelle proprietà logiche e principi che sono specifici al linguaggio naturale, come ad esempio i ruoli semantici 8 e operatori linguistici logici 9. Un esame attento di tutti gli elementi appena citati possono aiutarci a dare sostanza al legame esistente tra le risorse linguistiche e KMS. Quando si afferma che un KMS è più efficace se sviluppata sulla base dei dati linguistica stato abbiamo che tali dati, essendo presente e tangibile, possono minimizzare i margini di potenziali errori in- 8 In linguistica, ruoli semantici vengono usati per descrivere significati connessi ai complementi sulla base del processo espressa da predicati all'interno frasi, o ad adottare una terminologia Harrisian, da parte degli operatori con riferimento agli argomenti che selezionano (Harris 1976). La nozione di “ruolo semantico” è stato sviluppato come parte di teorie linguistiche che tentano di interconnettere i componenti sintattiche e semantiche del linguaggio. Esso è collegato al concetto di “funzione sintattica” e “caso”, ma non può essere confuso con loro: mentre le funzioni e casi sono definite dalla sintassi, ruoli semantici sono in linea di principio indipendente. Nel contesto della linguistica generativa, ruoli semantici sono all'interno della struttura profonda di una lingua, vale a dire all'interno dell'organizzazione di concetti e relazioni, mentre le funzioni e la struttura dei casi sono
all'interno della struttura superficiale, vale a dire entro la rappresentazione di questa organizzazione nelle forme grammaticali di una lingua specifica. Per una configurazione basata lessico-grammaticale dei ruoli semantici, vedere (Gross 1981). 9 Gli operatori booleani sono i maggior parte degli operatori logici linguistici noti e utilizzati. Prendono il loro nome da George Boole, un matematico inglese della prima metà del 19 esimo secolo, che ha formalizzato la logica binaria che è alla base dei computer moderni. Per quanto riguarda gli strumenti di ricerca sono interessati, le principali e più comunemente utilizzati operatori booleani sono AND, OR, NOT, NEAR e. 30
classificazione adottata e delle informazioni ha bisogno di esprimere in linguaggio naturale. In situazioni analoghe, elementi quali lessico, morfologia, sintassi e semantica formale potrebbero venire in aiuto. Ad esempio, un'ontologia lessicale connesso al database sarebbe ci permettono di trovare i concetti di energia pulita o energia rinnovabile, mentre la parola chiave voce è stata focalizzata sul concetto di bioetanolo. Ciò sarebbe possibile in quanto, all'interno di un'ontologia, i concetti di energia pulita e energia rinnovabile sarebbe sinonimi, ed entrambi i iperonimi del termine bioetanolo. Questo esempio mostra come la semantica formale che emergono dalle relazioni logico-semantica fra concetti possono diventare un elemento distintivo e un forte strumento di disambiguazione. Un altro elemento innovativo potrebbe essere attuata partendo dal concetto di dati collegati. Se sono stati collegati tutti gli archivi di informazione in materia di energia per in- 31
e xplorIng f ormal m odelli di l InguIstIc d ata S tructurIng presa di posizione non solo alla banca dati del nostro esempio precedente, ma anche ad altri database, come le enciclopedie on-line in materia di energia, FAQ repertori sullo stesso argomento, e così via, quindi crawler potrebbe contemporaneamente esaminare molteplici risorse lessicali e restituire le informazioni rilevanti. È inoltre possibile prevedere la costituzione di query più complesse, in cui le parole chiave corrispondono a parole composte e non a semplici parole o gruppi di parole liberi. V'è una netta differenza tra questi tipi di espressioni. Come una differenziazione tipica fatta in linguistica computazionale, nonché una configurazione tipica di software NLP, da un punto di vista formale si può osservare che:
t lui r APPORTI tra l InguIstIc r isorse e K ONOSCENZA m estione S ystems Ci sono molti problemi legati alla precisione che deve essere utilizzato in questo tipo di distinzione (Downing, 1977; Silberztein, 1993;. Sag et al, 2001; Girju, 2005; Laporte et al, 2008;. De Bueriis G. Elia A., eds. 2008); questa è la ragione principale per cui uno dei problemi più rilevanti con sistemi software IR è la corretta elaborazione di parole composte, o meglio UTH, noto anche come unità lessicali complesse 10. Le carenze sono dovuti principalmente al fatto che tali unità sono spesso considerati come combinazioni di parole estemporanee recuperati tramite routine statistiche. Al contrario, diversi studi linguistici, risalente anche indietro agli anni '60, dimostrano che UTH, e principalmente composto sostantivi, come già detto sono quasi sempre fisso unità che significa, con specifiche caratteristiche formali, morfologiche, grammaticali e semantiche. Inoltre, queste unità possono essere trattati come voci del dizionario, diventando così strumenti concreti lingware utili per raggiungere IR semantica efficiente. Un altro problema importante è dovuto al fatto che fino ad oggi non esiste una definizione ancora universalmente concordato o termine per il concetto di ULU. In letteratura troviamo spesso termini concomitanti come “gruppi di parole”, “espressione di gruppi di parole”, “espressione fisso”, “linguaggio”, “parola composta”, e “collocazione” utilizzato da molti autori di differenti scuole teoriche o seguente NLP distinti avvicina, ma tutti questi termini, anche se ambiguo in sé, si riferiscono tutti allo stesso concetto di “stringa di parole in cui tutti gli elementi sono uno collegato all'altro ”. Ad esempio, collocazioni sono definite come espressioni costituiti da due o più parole che corrispondono ad un modo convenzionale di dire cose (Manning e Schütze 1999), che hanno le caratteristiche delle unità sintattiche e semantiche, con precise e non ambigue significati o connotazioni
10 Per indagare adeguatamente questo tema, nella sezione 5 proporremo alcuni lavori di ricerca sperimentale sul trattamento UTH. 33
distribuzione interna ristretta; 3. con nessuna o quasi nessuna parola co-occorrenza variabilità, cioè con un alto grado di word co-occorrenza variabilità, cioè con distribuzione interna libera, compositiva e significato denotativo; 2. con un grado limitato di parola co-occorrenza variabilità, cioè combinazioni con distribuzione interna ristretta; 3. con nessuna o quasi nessuna parola co- occorrenza variabilità, cioè 11 Una rassegna brevemente su LG sarà presentato nella sezione 2.2, per ulteriori specifiche vedi anche http://en.wikipedia.org/wiki/Operator_Grammar; http://en.wikipedia.org/ wiki / Zellig_Harris; http://fr.wikipedia.org/wiki/Lexique-grammaire; http: // infolingu. univ-mlv.fr/ (cliccare su “Bibliographie”); http://it.wikipedia.org/wiki/Lessico- grammatica. 34
t lui r APPORTI tra l InguIstIc r isorse e K ONOSCENZA m estione S ystems combinazioni con distribuzione interna fissa; 4. senza alcuna variabilità parola cooccurrence. I rapporti tra queste classi menzionate possono essere interpretati non solo le relazioni tra classi distinte, ma anche le relazioni tra i poli del continuum. Diamo qui alcuni esempi di queste classi di combinazione: (per le combinazioni al punto 1.) verbali strutture: ( Max, Ugo, suo nipote, ...) guarda (un libro, il fiume, Eva, ...); Strutture nominali: ( pulito, sporco, ...) acqua; strutture avverbiali: con (eleganza, l'amore, la devozione, ...) ( per le combinazioni al punto 2.) verbali strutture: ( Max, Ugo, suo nipote, ...) si asciuga (i vestiti, la lavanderia, ...); Strutture nominali: ( minerale, frizzante, naturale, ...) acqua; strutture avverbiali: da una ( momento, giorno, anno,...) all'altro; ( per la combinazione al punto 3.): strutture verbali: ( Max, Ugo, tuo nipote,...) piega il gomito; Strutture nominali: Acqua pesante, acqua arsenico; strutture avverbiali: senza mezzi termini; ( per combinazione al punto 4.) proverbi: i muri hanno le orecchie. Da un punto di vista semantico, e con riferimento ai processi di comunicazione, si osserva che i tipi (c) e (d) possono anche avere interpretazioni “idiomatica”, ovvero interpretazioni non semanticamente composizionale (cioè non proveniente da un calcolo compositivo i significati di ciascun elemento lessicale). Probabilmente, alcune di queste combinazioni fisse e idiomatiche sono il risultato di derive metaforici e metonimiche che sono stati lessicalizzati. Partendo da questi presupposti, si può dedurre che l'uso dei quattro menzionati tipi di combinazione ha origine dalla necessità di una comunicazione incisiva e immediata processi, piuttosto che per quelle ordinarie. Mentre metafora
e xplorIng f ormal m odelli di l InguIstIc d ata S tructurIng trasmessa da. Ma è importante sottolineare che, in LG, tutti questi tipi di voci lessicali possono essere formalizzati, coerentemente inserita all'interno di basi di dati linguistici (ad esempio dizionari elettronici), e utilizzato all'interno di routine di PNL, come ad esempio IR e analisi. Ogni tipo di ULU potrebbe dover seguire un metodo formalizzazione differente. C'è l'aspetto morfologico di UTH (cioè, la morfologia della composizione) che pesi considerevoli per le lingue morfologicamente ricchi e resti un compito molto impegnativo. Da un punto di vista lessicografico, UTH con una specifica funzione grammaticale e un bisogno significato autonomo da registrare nei dizionari in modo sistematico (Laporte & Voyatzi, 2008), vale a dire come lemmi autonomi e non, come spesso è il caso nei dizionari tradizionali, come esempi di uso di sostantivi o aggettivi testa. Per quanto lemmatizzazione elettronico-dizionario è interessato, una chiara distinzione tra UTH con un alto grado di variabilità di co-occorrenza tra parole e quelli con una limitata o nessuna variabilità di co-occorrenza tra parole (parole composte, espressioni idiomatiche e proverbi ) dovrebbe essere fatto. Questo è uno dei maggior parte dei problemi critici nella descrizione delle lingue naturali. Per esempio, c'è una differenza rilevante tra italiani colletto bianco e colletto celeste ( che ha solo il significato di collare blu). La prima deve essere lemmatizzato dal momento che ha anche lo specifico significato di impiegato, e ha proprietà formali, morphogrammatical e lessicali distintivi, cioè: a) essere invariabile, poiché non accetta inserimento o aggiunta, ad esempio * colletto bianco molto (* Colletto lavoratore molto bianca); b) è un composto maschile singolare s solo riferendosi ad un “essere umano”, con bianchi Colletti
come forma plurale maschile. Anzi, colletto celeste non possiede queste caratteristiche, essendo un gruppo nominale libera, quindi non necessariamente lemmatizable. Questo è piuttosto semplice esempio della differenza tra i poli opposti nel continuo. A volte, tuttavia, 36