
























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti presi a lezione con slide e integrazione dal libro
Tipologia: Appunti
1 / 32
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

























esprimendo con esattezza ogni concetto composto perché per brevità o per mancanza di garanzie bibliografica non gli assegnano una posizione B- Le classificazioni ANALITICO SINTETICHE o a FACCETTE non elencano a priori tutte le possibili combinazioni sintattiche di concetti che possono costruire un soggetto, cioè individuano le classi principali e i fenomeni che afferiscono a esse suddividendoli in categorie o faccette. Le faccette sono le caratteristiche del soggetto. L’ordine nel quale vengono disposte le faccette è chiamato ordine di citazione.
In base alla copertura disciplinare le classificazioni bibliografiche si distinguono in GENERALE e SPECIALISTICHE le prime aspirano a coprire nella stessa misura tutti i soggetti che appartengono all’universo della conoscenza. Le classificazioni specialistiche invece sono limitate al trattamento di uno specifico ambito disciplinare e vengono utilizzate principalmente raccolte specializzate come la classificazione per le carte geografiche e gli atlanti
È un sistema di simboli adoperati da un particolare schema di classificazione per rappresentare le divisioni principali e subordinate.
Le classificazioni gerarchiche procedono dal generale al particolare , mentre le seconde sono caratterizzate da schemi che hanno la facoltà di crescere su sé stessi in modo da mantenere invariato l’impianto classificatorio e disporre di sviluppi articolazioni capaci di ospitare e specificare adeguatamente raccolta è via via più estese I PRINCIPALI SISTEMI DI CLASSIFICAZIONE : tra i sistemi di classificazione che hanno conosciuto non maggiore diffusione nel corso del tempo ci sono la DDC Dewey Fa. LA CLASSIFICAZIONE DECIMALE DEWEY La classificazione decimale Dewey costituisce un sistema di utilizzazione semantica di classificazione bibliografica tra i più usati al mondo ha l’obiettivo di fornire a ciascuna risorsa una collocazione specifica in una bibliografia o in un catalogo o per ordinare fisicamente le collezioni di una biblioteca. SOGGETTIVAZIONE E CLASSIFICAZIONE La soggettivazione e classificazione si pongono l’obiettivo di informare gli utenti sulla presenza di risorse relative a soggetti affin.i Sia la soggettivazione che la classificazione si basano sull’analisi concettuale della risorsa, infatti la definizione del tema o dell’argomento è un’operazione fondamentale in entrambe le materie, inoltre entrambe mirano a creare una struttura sintetica tra soggetti correlati. Le differenze tra le due tecniche riguardano le fasi successive all’analisi concettuale della risorsa in particolare le modalità di formulazione dell’enunciato di soggetto di ordinamento e di presentazione. Mentre la soggettivazione utilizza un’espressione verbale per indicare il soggetto specifico e sintetico dell’opera la classificazione utilizza una notazione che colloca l’opera in una struttura sistematica. Il catalogo si presenta come un unico strumento integrato che consente di accedere alle risorse tramite diverse modalità di interrogazione =l’interrogazione per soggetto restituisce le informazioni tramite il soggetto specifico mentre l’interrogazione per classe restituisce le informazioni per disciplina
-Lo STANDARD UNI ISO 15489 del 2006 si occupa di definire delle procedure che devono essere standardizzate per determinati processi e in determinati ambiti. -Lo STANDARD cerca di eliminare gli elementi di soggettività nell’applicazione di un processo e nel trovare le parole chiave. Inoltre, indica quale siano le migliori procedure in assoluto da seguire per la gestione dell’archivio. Utilizzare delle procedure standard serve a favorire anche L’INTEROPERABILITÀ , cioè lo scambio di dati e documenti tra un’organizzazione e un’altra.
La documentazione si occupa di: A - ARCHIVISTICA : fonti scritte intenzionali NECESSARIE ; SAN ; B - BIBLIOTECONOMIA : fonti scritte intenzionali VOLONTARIE ; SBN (International standard book number);
La gestione della conoscenza è importante perché questa possa essere condivisa, aiutare nella ricerca delle informazioni attraverso un canale formativo strutturato. A seconda dell’utente che bisogna raggiungere, il processo di gestione della conoscenza verrà modificato in relazione all’utenza. L’utenza finale è importante per capire come gestire la conoscenza.
La conoscenza viene rappresentata mediante:
-L’indicizzazione è quell’attività che deve seguire delle procedure ben precise, ci aiuta ad analizzare i documenti, esaminare i concetti principali e TRADURLI IN VOCE INDICE O PAROLE CHIAVE. Le PAROLE CHIAVE sono quei termini che messi insieme danno il contenuto di quel documento. Bisogna avere CONOSCENZA DEGLI ELEMENTI attraverso l’indicizzazione rispetto al contenuto e al soggetto di quegli elementi per riuscire a riordinare, ad immagazzinare e ad analizzare. Nell’ INDICIZZAZIONE MANUALE c’è sempre un minimo di soggettività. Ad esempio un libro può essere descritto dal punto di vista strutturale (autore libro, anno di pubblicazione, casa editrice) e dal punto di vista contenutistico (indicizzazione). Lo scopo dell’indicizzazione è che partendo da una risorsa si individuano e creano delle CHIAVI D’ACCESSO DEL CONTENUTO SEMANTICO che insieme definiscono il soggetto della risorsa : prendere una risorsa, analizzarla, trovare dei termini che combinati insieme danno l’indicazione della risorsa stessa attraverso un linguaggio di indicizzazione. -L’indicizzazione è regolata da una NORMA ISO ( International Standard Organization -ente che emana standard su varie attività della vita quotidiana), ovvero la 5963 pubblicata nel 1885 nella versione inglese e poi tradotta in italiano nel 1889. Questa norma prevede metodi per l’analisi dei documenti, la determinazione del loro soggetto e la selezione dei termini di indicizzazione. -La norma cerca di ridurre al minimo la soggettività nel processo di indicizzazione per riuscire ad indicizzare i documenti anche senza conoscere l’argomento. -La norma ci dice che dobbiamo ottenere quanti più termini necessari per far sì da raggiungere il significato concettuale di un documento che solitamente sono intorno a 5 termini , ma non dà un minimo o un massimo di termini. -Il termine indicizzazione indica la valutazione del contenuto concettuale di un testo e la successiva formulazione e stringhe di soggetto del tema di base caratterizzante una monografia un documento d’archivio o un’altra risorsa bibliografica. In altre parole l’indicizzazione e il processo di individuazione dei concetti chiave di un’opera e della loro enunciazione tramite l’impiego di un linguaggio documentario. -L’indicizzazione può essere indicata anche come la descrizione sintetica del contenuto di un documento mediante l’attribuzione di riconoscimento, ovvero parole chiave codici alfanumerici ecc. che ne permettano il reperimento all’interno di un catalogo o di un archivio -La definizione di indicizzazione cambia in base al contesto.In ambito biblioteconomico indicizzazione sta a significare l’intero processo di descrizione di una risorsa e attribuzione di punti di accesso nominali e semantici al record o dataset ottenuto. -L’indicizzazione coincide con la metadatazione, ovvero la creazione di uno strumento di discovery, di scoperta delle informazioni relative a una risorsa. -L’indicizzazione fa riferimento sia all’indicizzazione semiotica che semantica, la prima mira a costruire degli indici in base ai segni che una risorsa presenta su sé stessa , ovvero in base agli attributi, alle formulazioni, alle dichiarazioni che una risorsa comunemente presenta in luoghi precisi, dette fonti d’informazione, per farsi identificare. GLI INDICES La descrizione dei documenti archivistici o delle risorse bibliografiche mediante i loro attributi le caratteristiche essenziali, ovvero l’uso di dati desunti dai documenti allo scopo di permettere agli studiosi il reperimento delle opere in essi contenu te. L’indicizzazione alla sua radice etimologica negli indices usati nel periodo medievale, cioè quegli strumenti concepiti e redatti da archivisti e bibliotecari per favorire lo studioso nell’individuazione di un testo conservato in un archivio in una biblioteca. I METADATI Gli indici di epoca antica sono oggi chiamati metadati, ossia dati su altri dati selezionati assegnati consapevolmente da un catalogatore a un documento o a una risorsa. Essi svolgono una funzione essenziale per favorire la circolazione dell’informazione e della conoscenza. I metadati descrittivi consentono di registrare informazioni funzionali all’identificazione e al reperimento delle risorse, come il
-L’identificazione dei concetti dovrebbe avvenire seguendo un approccio sistematico , con l’ausilio di liste di controllo dei fattori riconosciuti importanti del campo disciplinare coperto dall’indice.
eliminare la soggettività nell’attività dell’indicizzazione. 1- L’attività trattata dal documento è esercitata su di un soggetto particolare? 2- Il soggetto contiene un concetto che indica attività (es. azione, operazione, processo)? 3- L’oggetto subisce l’attività identificata? 4- Il documento tratta dell’agente di questa azione? 5- Si riferisce a mezzi particolari per compiere l’azione (es.strumenti, tecniche o metodi speciali)? 6- Il soggetto è stato considerato da un particolare punto di vista normalmente non associato a quel campo di studio? 7- nel soggetto è segnalata una particolare forma bibliografica?
Il linguaggio d’indicizzazione è o documentale è un CODICE attraverso il quale si rappresenta e trasmette il contenuto informativo del documento, allo scopo di renderne possibile il recupero. Il codice VIENE UTILIZZATO COME STRUMENTO per veicolare le informazioni e rappresentare in maniera coerente per la rappresentazione coerente, formalizzata e sintetica del contenuto concettuale dei documenti, funzionale alla segnalazione e al reperimento dei documenti stessi.
-Il LINGUAGGIO NATURALE , è molto più ricco rispetto al linguaggio documentale. Nel passaggio da linguaggio naturale a linguaggio documentale nell’indicizzazione: -Un termine estratto dal documento può figurare, tale e quale, nel linguaggio documentale o di indicizzazione. -Un termine estratto dal documento può figurare come rinvio ad un altro termine individuato come descrittore. -Un termine può non comparire nel linguaggio documentale.
A- Il LESSICO è il vocabolario controllato in cui tutti i termini devono essere controllati, per poter garantire l’uniformità (un concetto deve essere sempre rappresentato dallo stesso termine) e l’univocità (ogni termine deve sempre indicare un solo concetto). Lessico controllato significa che non tutti i termini che possono indicare un certo concetto sono accettati. B- La SEMANTICA stabilisce le relazioni a priori fra i termini scelti per indicare i concetti in modo da costruire una rete di relazioni per favorire sia l’indicizzatore nella scelta del termine più opportuno, sia l’utente che può recuperare sia il soggetto desiderato, ma anche altri soggetti che possono essergli utili in quanto affini o correlati. -Al fine di ottenere: -il massimo grado di specificità , per via della coerenza e attribuire i termini ai testi che siano rappresentativi di quel significativo e non di altri; -un basso richiamo , quindi un numero contenuto di documenti indicizzati sotto il termine usato come chiave di ricerca; -un’ alta precisione dei risultati , quindi basso numero di documenti trovati. Molto spesso non è sufficiente esprimere un concetto con un solo termine, ma esso deve essere ulteriormente specificato e delimitato con l’aggiunta di altre espressioni. -I PRINCIPALI PARAMETRI DI VALUTAZIONE dei risultati di una ricerca in cataloghi e altri strumenti di recupero dell’informazione sono il richiamo e la precisione. A-RICHIAMO , ovvero numero di risorse pertinenti e rilevanti recuperate sul totale delle risorse pertinenti e rilevanti disponibili), in base a una richiesta su un determinato soggetto o classe ;
B-PRECISIONE , ovvero il numero di risorse pertinenti e rilevanti sul totale delle risorse recuperate, in base a una richiesta su un determinato soggetto o classe ; C-RUMORE INFORMATIVO , ovvero documenti non pertinenti recuperati.
La sintassi gestisce le relazioni a posteriori, determinando l’ordine dei concetti e i termini che li esprimono, le combinazioni dei termini, in particolare nei soggetti complessi. Il PRINCIPIO DELLA COSTRUZIONE PASSIVA (non obbligatoria) prevede una stringa in cui: 1- al primo posto sia posto l’OGGETTO ; 2- poi l’ ENUNCIAZIONE DELL’AZIONE ; 3- infine CHI compie l’azione. ES. lettura-diffusione-ruolo delle biblioteche pubbliche.
-La costruzione delle stringhe di soggetto consiste in 3 operazioni che nella pratica tendono a sovrapporsi: analisi dell’enunciato di soggetto nei suoi elementi costituenti: i singoli concetti e le loro relazioni sintattiche; identificazione del ruolo di ciascun concetto presente nel soggetto; ordinamento dei termini nella stringa secondo l’ordine di citazione assegnato a ciascun ruolo. -L’analisi dell’enunciato di soggetto prevede l’identificazione dei ruoli. Il RUOLO è la singola componente della struttura sintattica della stringa e la posizione assegnata ad un termine nella stringa di soggetto , espressiva della funzione logica del corrispondente concetto nella definizione del soggetto per fornire un supporto metodologico all’identificazione delle relazioni di ruolo. Il GRIS suggerisce 2 modalità d’analisi dell’enunciato di soggetto: A- la prima individua le COMPONENTI STRUTTURALI. Un enunciato di soggetto ha la forma di un sintagma nominale e può essere analizzato nelle sue componenti: la testa e i modificatori. La testa è l’elemento principale, i modificatori fungono da complementi o qualificazioni del nome di testa B- la seconda stabilisce a QUALI TIPI CONCETTUALI APPARTENGONO I CONCETTI CHE NE FANNO PARTE. Consiste nel riferire un concetto alla categoria semantica generale d’appartenenza. Il GRIS identifica 2 categorie fondamentali: entità e attività
-Un concetto può svolgere più ruoli, tuttavia la funzione di azione, che rappresenta il perno intorno al quale si dispongono gli altri concetti e che costituisce il punto di partenza dell’analisi dell’enunciato è normalmente svolta da nomi deverbali, cioè derivanti da verbi -L’Identificazione dei ruoli svolti dai singoli concetti nella stringa si basa sullo schema del GRIS in cui i ruoli sono raggruppati in classi e sottoclassi: 1-RUOLI PRIMARI , che identificano propriamente funzioni sintattiche: A-elementi nucleari , che costituiscono il nucleo del soggetto e ne rappresentano i concetti essenziali. Essi comprendono: concetto chiave (prima posizione nella stringa), azione, beneficiario, agente B-elementi extra nucleari , ovvero i concetti che interessano il nucleo del soggetto nel suo insieme e che ampliando le informazioni date dal nucleo, svolgono una funzione completiva (luogo, tempo, caso) 2-RUOLI SECONDARI , che esprimono relazioni di dipendenza o coordinazione tra concetti che svolgono la medesima funzione A-elementi dipendenti , che rappresentano nozioni come parte e proprietà , membro di una classe generica B-elementi coordinati , che ricorrono quando 2 o più concetti svolgono indipendentemente lo stesso ruolo nella definizione del soggetto , essi sono uniti dalla congiunzione e o sono separati dalla virgola
L’ordine di citazione prescrive la sequenza in cui disporre i termini nella stringa di soggetto in base ai ruoli che rappresentano allo scopo di garantire la loro intellegibilità e una loro formulazione coerente. Il GRIS definisce il seguente ordine. 1 -Gli elementi nucleari ordinati secondo i seguenti principi: A-PRINCIPIO DELLA RELAZIONE UNO-A-UNO secondo cui i concetti legati da un più stretto nesso logico debbono essere citati in successione immediata
Nell’indicizzazione con termini assegnati i termini possono essere attribuiti in forma non controllata o controllata. 1- in base al contenuto dell’opera ma senza che sia compiuto un controllo sull’uso dei termini dell’indice. 2- i termini assegnati sono controllati. Queste relazioni si definiscono relazioni semantiche e servono a favorire la navigazione tra i termini di un linguaggio di indicizzazione.
A- l’ ENUNCIATO DI SOGGETTO , il quale parte da una composizione di una o più frasi che racchiudono il soggetto di quel documento. Nell’enunciato di soggetto vengono rappresentati i concetti attraverso termini. Per creare un enunciato di soggetto bisogna estrapolare solo i concetti principali del documento Una frase o più frasi contengono: -numero elevatissimo di termini; -costruzioni della frase che producono stringhe difficili da elaborare; -polisemia (ha più significati), sinonimia B- la STRINGA DI SOGGETTO , la quale è il prodotto finale della nostra attività. Il PASSAGGIO DALL’ENUNCIATO DI SOGGETTO ALLA STRINGA DI SOGGETTO è L’ELIMINAZIONE di connettivi logici, congiunzioni, articoli ma solo il singolo termine rappresentativo di quel documento\risorsa. -condensato “semplificato” del linguaggio naturale; -termini scelti da linguaggi controllati (es. sistemi di classificazione, nei thesauri non ci sono verbi all’infinito ma sostantivati…). -regole di combinazione dei termini.
-Nell’indicizzazione derivata si utilizzano: i termini direttamente dal testo ; utilizzo delle descrizioni fornite dall’autore ; individuazione e combinazione di descrizioni in fase di ricerca ; economica in input, impegnativa in output: non bisogna riformulare i termini perché si ricavano direttamente dal testo. è più impegnativa dopo perché il termine usato dall’autore potrebbe non essere nella forma standardizzata e quindi il documento potrebbe non essere raggiunto dagli utenti. I vantaggi sono : rispetta la terminologia scelta dall’autore; riduce il rischio di interpretazione errata; maggiore precisione. Lo svantaggio è la poca coerenza a livello semantico-concettuale, a causa dell’utilizzo di tanti termini per rappresentare lo stesso.
L’indicizzazione con termini derivati è la più semplice da realizzare essa non richiede l’analisi concettuale della risorsa poiché utilizza come termini di indice le stringhe presenti nell’opera stessa.
-Secondo la norma UNI ISO 5963\1989 , L’INDICIZZAZIONE PER SOGGETTO è l’azione di descrivere o identificare un documento nei termini del suo contenuto concettuale. I LINGUAGGI D’INDICIZZAZIONE PER SOGGETTO possono distinguersi in base alle modalità con cui compiono tre operazioni fondamentali: l’analisi concettuale della risorsa ; la costruzione delle stringhe di soggetto ; il controllo terminologico. La prima è finalizzata alla determinazione del soggetto dell’opera, le altre due alla sua traduzione nel linguaggio d’indicizzazione.
L’indicizzazione per soggetto si basa sul rispetto di alcuni principi: 1- Il PRINCIPIO DELL’INTESTAZIONE UNIFORME : per facilitare il controllo dei sinonimi, per raggruppare i soggetti nella visualizzazione delle registrazioni bibliografiche. Ogni concetto entità nominata è indicizzato da un linguaggio di indicizzazione rappresentata da un solo accesso autorizzato ovvero sottoposto al processo di Authority control impiegando la medesima forma del nome per ogni entità; 2- Il PRINCIPIO DI SINONIMIA : per raccogliere insieme tutte le opere su un soggetto e per aumentare il richiamo di un linguaggio i sinonimi devono essere controllati; 3- Il PRINCIPIO SEMANTICO o della CORRELAZIONE SEMANTICA : per esprimere la struttura semantica di un linguaggio. Le voci di soggetto devono essere collegate mediante relazioni di equivalenza gerarchiche e coordinat;e 4- Il PRINCIPIO SINTATTICO o della CORRELAZIONE SINTATTICA : per esprimere soggetti composti. La sintassi di un linguaggio deve collegare le parti componenti di un soggetto correlazioni sintattiche piuttosto che semantiche; 5 -Il PRINCIPIO DI COERENZA : per mantenere la coerenza. Ogni nuova voce di soggetto incluso in un linguaggio deve essere simile performer struttura alle voci analoghe già presenti; 6- Il PRINCIPIO DI DESIGNAZIONE : per consentire il reperimento integrato: i nomi di persona, di luogo, di famiglia, di enti e di opere utilizzati nel linguaggio di indicizzazione per soggetto di un catalogo una bibliografia ho un indice devono essere stabiliti secondo le regole utilizzate nel medesimo catalogo; 7- Il PRINCIPIO DELLA GARANZIA LETTERARIA : al fine di rispecchiare il contenuto delle opere. Il vocabolario del linguaggio deve essere sviluppato in modo dinamico sulla base della garanzia più biografica è integrato sistematicamente nel vocabolario esistente ; 8- Il PRINCIPIO DELL’UTENTE : per rispondere alla necessità dell’utente. Il vocabolario di un linguaggio è scelto in modo da favorire il suo uso da parte del pubblico a cui il catalogo si rivolge.
-Una volta individuato il soggetto, è opportuno verificare se siano stati selezionati tutti i concetti necessari a descriverlo in maniera chiara ed esaustiva. La verifica può essere compiuta con l'aiuto di una lista di controllo volta a stabilire se:
Sono quelli nei quali i termini che esprimono i concetti (A, B, C) vengono coordinati (cioè combinati secondo regole sintattiche che ne determinano l'ordine di citazione) prima , cioè al momento dell'indicizzazione -La combinazione dei termini associati al documento viene fatta al momento dell’indicizzazione; -La stringa dà l’immagine complessiva del contenuto del documento.
Sono quelli in cui all'atto dell'indicizzazione i termini vengono collegati direttamente al documento e non fra di loro. Ogni termine dà accesso al documento ma non ne descrive il contenuto complessivo. -I termini sono collegati direttamente al documento; -Non c’è la stringa di termini per il soggetto, ma la combinazione è ad opera degli utenti e viene fatta al momento della ricerca.
-Il thesaurus è un vocabolario controllato (dal punto di vista morfologico e semantico) e strutturato i cui concetti sono rappresentati da termini organizzati, quindi quelle relazioni (sul piano semantico) tra concetti sono esplicite e i termini preferiti sono accompagnati da termini non preferiti che sono sinonimi o quasi sinonimi. -Il thesaurus dà una guida alla comprensione di una determinata conoscenza o a determinati domini settoriali che sono caratterizzati da una terminologia specifica, che deve essere caratterizzata da tratti di: univocità , specificità ed esaustività. -Un thesaurus è una MEDIAZIONE TRA UTENTE E BASI DI DATI , non avrà mai dei verbi all’infinito, ma una forma sostantivata di un determinato verbo. Il thesaurus è lo strumento che tiene supporto all’indicizzazione di tipo assegnata. -La provenienza dei termini è dipendente dalla tipologia di thesaurus che si costruisce. Ad esempio, i termini del Nuovo soggettario provengono da libri contenuti nel catalogo nazionale delle biblioteche. È necessario verificare se la copertura terminologica è sufficiente a rappresentare quel dominio (es.thesaurus sul turismo UMT). -Un AMPIO APPARATO DI NOTE contribuisce a specificare e a chiarire il significato della terminologia e guida l'indicizzatore a scegliere il termine più specifico , fornendo, inoltre, suggerimenti sulla costruzione delle stringhe di soggetto. In fase d'indicizzazione ciascun termine può essere usato da solo o in combinazione con altri per formare le stringhe di soggetto da associare a ciascuna opera. Essi contengono indicazioni sulle categorie di termini e sulle relazioni di equivalenza , gerarchiche e associative che intercorrono tra essi. -La prima NORMA sui thesauri risale al 1985 , ovvero la 2788 , superata da una nuova norma anch’essa emanata dall’ International Stand Organisation , ovvero la 25964 che si divide in due parti: una parte è stata emanata nel 2011 e la seconda parte nel 2013. C’è stato un aggiornamento a questo standard perché i thesauri sono stati molto utilizzati nell’ambito del web semantico. -Uno dei thesauri più conosciuti in Italia è il nuovo soggettario curato dalla BNCF , il quale nasce a seguito dell’aggiornamento del Soggettario, ovvero un testo che contiene la lista di tutti i soggetti delle risorse catalogate nella biblioteca. Rispetto al Soggettario, il Nuovo soggettario si modifica nella struttura ed è utilizzato per l’indicizzazione delle risorse che vengono catalogate in biblioteca. Il gruppo di ricerca che sviluppa e aggiorna costantemente il thesaurus (BNCF) provvede a strutturare i termini necessari per poter indicizzare il testo. -Sistemi come OPAC consentono di accedere ad un repertorio di informazione sottoforma di risorse bibliografiche che vengono indicizzate attraverso i termini d’indicizzazione. Essi sono i termini che l’indicizzatore seleziona sulla base del risultato dell’analisi concettuale tradotta nei termini d’indicizzazione della stringa. -I thesauri specialistici consentono di individuare l’equivalente che può essere adatto al contesto di destinazione. -I thesauri hanno diverse funzioni: 1-L’INDICIZZAZIONE Supporto per l’ indicizzazione di tipo manuale ; di tipo automatica (algoritmi per indicizzare una grandissima quantità di risorse); supporto della definizione di metadati , quindi il metadato che viene valorizzato attraverso un thesaurus rispetto ad una risorsa è il soggetto. 2- Ha una funzione di CONTROLLO TERMINOLOGICO , perché siccome il thesaurus tiene supporto all’indicizzazione di tipo assegnata, i termini devono essere controllati attraverso quest’ultimo. Il controllo può avvenire dal punto di vista: A- della strutturazione dei concetti (es. singolare, plurale, generalizzare concetti= possono essere mantenuti nella forma composta o essere scomposti): mira a garantire l’omogeneità del linguaggio dal punto di vista formale; Il trattamento dei casi di omografia facendo attenzione a disambiguare i termini a cui nel linguaggio naturale sono associati più significati
crea da un’analisi di documenti dal punto di vista terminologico, quindi dalla rappresentatività dei termini rispetto al dominio d’appartenenza. -L’organizzazione dei termini si basa sulla scelta della forma dei termini (categoria grammaticale, termini composti\scomposizione, singolare\plurale, ecc; -La definizione delle relazioni semantiche termine per termine ;
1- Esamina il documento e identifica i concetti significativi. 2 -il thesaurus contiene il termine del concetto. 3- è un termine preferito? I termini non preferiti non possono essere utilizzati per l’indicizzazione. 4- considerare per il termine se il suo BT, cioè il termine gerarchicamente superiore (più generico) che può essere d’aiuto per le operazioni di generalizzazione. 5- controllare le relazioni per essere sicuro che non ci sia un altro termine meglio rappresenti il concetto. È possibile che il termine utilizzato come voce indice dell’indicizzazione non sia presente all’interno del thesaurus. 6- se il concetto può essere espresso in modo non ambiguo da una combinazione di altri termini preferiti, bisogna considerare ciascuno di questi termini e le relazioni. Se il concetto non può essere espresso in modo non ambiguo da una combinazione di altri termini preferiti, bisogna individuare il termine che indica il concetto. Nuovo soggettario parentesi quadre-->etichette di nodo ( es. professione=architetto, avvocato,…)
Utilizzando termini presi dal thesaurus vi danno una GARANZIA DI COERENZA , cioè tutti i concetti che vengono individuati nelle risorse vengono associati allo stesso concetto. soggettività della pratica di indicizzazione ; incoerenza nell’attribuzione dei termini da parte di più indicizzatori ; scarsa coincidenza tra i termini utilizzati dagli indicizzatori e quelli utilizzati dagli utenti.
-I documenti sono dei testi da cui si estraggono i termini che andranno a posizionarsi all’interno del thesaurus attraverso tecniche di calcoli statistici e di frequenza. Per arrivare alla costruzione del corpus documentale di partenza che rappresenterà la base di partenza per la costruzione del thesaurus perché lì sono presenti i termini interessati, quest’ultimi li si ricerca con ulteriori termini che sono quelli d’indicizzazione: indicizzano i documenti sia perché servono queste attività nei momenti in cui si inseriscono i documenti sia perché sono termini che l’utente utilizzerà per trovare la risorsa. Il risultato di queste azioni combinate rappresenta il raggruppamento documentale che serve per la creazione di un thesaurus. Per ricercare i documenti che comporranno la base di partenza per la costruzione del thesaurus si utilizzeranno dei termini d’indicizzazione.
Il rapporto che c’è all’interno del thesaurus di un termine che rappresenta un concetto la sua collocazione dal punto di vista semantico viene fatto attraverso delle relazioni, quindi indicando il termine più generale e il termine più associato. Nel momento in cui si costruisce un thesaurus bisogna verificare il significato di un termine per recuperare nella sua definizione tutti i termini utili a descrivere dal punto di vista del significato attraverso le relazioni paradigmatiche o a priori che sono: 1-RELAZIONI DI EQUIVALENZA USE\UF; 2-RELAZIONE GERARCHICA: BT\NT ; 3-RELAZIONE ASSOCIATIVA: RT related term “vedi anche”; -Si possono avere ulteriori elementi che possono aiutarci a descrivere un determinato termine: A-SCOPE NOTES o NOTA D’AMBITO , si utilizza la definizione del termine del contesto specifico che si sta utilizzando (vale soprattutto per i termini polisemici). La nota d’ambito in caso di termini polisemici rende i termini disambigui e definisce il campo d’azione (ci dice che cosa significa quel termine). Ci sono alcuni thesauri che utilizzano le scope notes per tutti i termini (es. thesaurus di bioetica); B-DEF , HN , ovvero Historical note, la quale è la forma in cui quel termine era presente nella vecchia risorsa (es.Nuovo soggettario che parte dal Soggettario); C-QUALIFICATORI , i quali sono un ulteriore supporto alle scope notes perché qualificano esattamente quel termine. Es. organo (strumento musicale); organo (corpo umano); D-POLIGERARCHIA VS MONOGERARCHIA, le quali sono ulteriori sfaccettature rispetto alle relazioni gerarchiche. Es. Biochimica BTP Chimica Biologia BTP è una relazione di tipo gerarchico partitiva,ovvero un termine che riprende il significato da 2 discipline (la biochimica fa parte della chimica e della biologia); -Esistono delle indicazioni rispetto a quando si devono stabilire le relazioni e come convenzione la sigla precede sempre il termine. La relazione si intende, quando si hanno due termini, dal secondo verso il primo. E- Le RELAZIONI SINTATTICHE O A POSTERIORI sono quelle che un termine intrattiene con gli altri termini della stessa stringa in virtù dei rapporti determinati dal soggetto del documento cui è assegnata la stringa, e sono valide solo nel contesto di quella stringa. Sono le relazioni esplicitate dalle stringhe di soggetto.
Le relazioni di equivalenza collegano due termini considerati SINONIMI (si possono avere più termini interessati) di cui solo uno è considerato come termine preferito. Il termine non preferito è incluso nel vocabolario, ma solo come possibile chiave d’accesso al termine principale. USE\UF : USE identifica il termine preferito ; UF ”used for” identifica il termine non preferito ; I termini non preferiti non possono essere usati nell’indicizzazione, ma possono essere usati come chiavi di accesso per arrivare al documento -Relazioni: A-SINONIMIA , che si possono avere tra termini specialistici\comuni. -Se si utilizza un sinonimo di un termine nella ricerca e si ha alla base un thesaurus che ci guida si ottiene lo stesso risultato e non cambia, perché il thesaurus comunica al catalogo che se l’utente ricerca un determinato termine e se quest’ultimo è sinonimo del preferito riporta allo stesso documento perché entrambi rimandano allo stesso concetto. Quindi, se si ha un termine preferito e uno non preferito non
Per scrivere la relazione bisogna ragionare dal secondo termine al primo 1-EQUIVALENTE: termine non preferito USE termine preferito;termine preferito UF termine non preferito gerarchico 2-termine generico NT termine specifico (es. stoviglie NT cucchiai) 3-termine specifico BT termine generico (es. cucchiai BT stoviglie) 4-ASSOCIATA : termine RT termine associato NELLA NORMA ISO 5963 I TERMINI NUMERABILI DEVONO ESSERE INSERITI AL PLURALE MENTRE QUELLI CHE INDICANO ELEMENTI DI MASSA VANNO AL SINGOLARE In presenza di acronimi l’acronimo può essere usato come termine preferito solo se è universalmente riconosciuto Etichetta di nodo= […] sono impiegate per dare un ordine più chiaro e leggibile alla struttura alla struttura gerarchica, mostrando la caratteristica di divisione del termine sovraordinato. Al suo interno racchiude più elementi Esempio: Insegnamento BT [attività educative e formative]
-vediamo se i concetti sono nel thesaurus inserendoli cosi come sono -vediamo se è un termine preferito (se non lo è lo cambiamo con quello preferito) -vediamo se possiamo usare i termini con relazione BT o RT se sono più corretti rispetto a quello trovato nella stringa -controllo di tipo morfologico (singolare, plurale, maschile, femminile ecc.)
-Lo strumento di indicizzazione alfabetica più utilizzato in Italia è costituito dal nuovo soggettario curato dalla Biblioteca Nazionale centrale di Firenze. Esso è lo strumento impiegabile nell’indicizzazione soggetto di risorse di varia natura ed è aderente ai principi stabiliti dal ifla e alle indicazioni degli standard internazionali. Esso è ispirato ai principi di specificità costituzione ed esaustività eseguo un modello analitico sintetico e consente di analizzare qualsiasi concetto nei suoi elementi costitutivi e fornisce la possibilità di organizzare concetti e termini su due piani distinti e complementari quello della semantica dove sono legati tra dà relazioni paradigmatiche è quello della sintassi ovvero le stringhe di soggetto. Esso si avvale per il controllo terminologico di un thesaurus e ciò comporta delle differenze all’interno della struttura del linguaggio di indicizzazione riconducibili sostanzialmente a tre aree distinte: Il tipo di termini adottati. Il tipo di relazioni espresse ;Il modo in cui vengono espresse queste relazioni
Adotta il modello tre relazioni equivalenza gerarchica e associativa- I-l thesaurus del nuovo soggettario è il vocabolario interdisciplinare organizzato in ordine alfabetico ma che presenta anche una struttura classificatoria per raggruppare i termini in base al loro significato tramite relazioni semantiche per facilitare la ricerca e il reperimento dell’informazione La macro struttura del vocabolario è costituita dalle macro categorie dalle categorie dalle faccette che hanno lo scopo di raggruppare i termini del linguaggio in un’unità più piccole rispetto all’universo terminologico di partenza al fine di rendere le operazioni successive più semplici e di favorire l’individuazione delle classi fondamentali nelle quali articolato il vocabolario su basi strettamente definitorie. Le macro categorie che costituiscono il vocabolario sono quattro e sono articolate in 13 categorie: agenti che raggruppa tutti i concetti che possono essere agenti di azioni Azioni che comprende tutti i concetti che rappresentano tipologie dell’agire Cose che comprende i concetti che si riferiscono sia a cose concrete e tangibili sia a cose astratte Tempo
La diversità delle finalità di ogni singola amministrazione rende impossibile la costruzione di strutture classificatore universalmente valide mentre è possibile definire delle regole di indicizzazione omogenee e condivise. indicizzazione dei documenti d’archivio alla norma ISO 59 63 ci dice che l’analisi dei documenti e la selezione dei termini di indicizzazione può trarre giovamento dall’utilizzazione di vocabolari controllati contenenti la terminologia specifica nel soggetto produttore Un qualificatore serve a individuare il corretto significato di un termine polisemico in uno specifico contesto d’uso Un attributo indica una o più proprietà posseduta da un oggetto e può avere funzione di qualificatore I termini di indicizzazione sono in genere sostantivi o frasi nominali al singolare tranne nel caso in cui al plurale abbiano un significato diverso. In caso di polisemia bisogna aggiungere dei qualificatori che ne precisano il significato del contesto d’uso. Il termine di indicizzazione quindi è un termine derivato dal linguaggio naturale preferibilmente un sostantivo ho un’espressione con funzioni di sostantivo o un simbolo di classificazione. È opportuno usare termini composti quando il termine candidato ha un significato ambiguo o troppo generico Le linee generale il concetto non coperto da un descrittore all’interno di un vocabolario controllato si presume non sia un elemento chiave del patrimonio informativo del dominio cui esso si riferisce
La quantità di dati e documenti digitali e la motivazione alla base della necessità dell’indicizzazione automatica perché un documento può essere recuperato e quindi utilizzato solo se indicizzato correttamente. Le attività di indicizzazione automatica si riferiscono ai documenti informatici contenuti nei sistemi di gestione documentale. L’indicizzazione è in gran parte un’attività concettuale fortemente dipendente dalle competenze e dalle conoscenze dell’indicizzazione che nella scelta dei termini da utilizzare proietta anche le sue personali visioni del mondo e della realtà per tale motivo l’automazione del processo non può ad oggi essere completa ma è quasi sempre preceduta da una o più fasi nelle quali è necessario l’intervento la supervisione umana quando si cerca un documento in un sistema informativo ciò avviene in relazione ad un bisogno di conoscenza del richiedente ed è perciò impossibile riuscire ad individuare le competenze e le conoscenze dell’utente che proverà a formulare la richiesta il linguaggio naturale Si definisce strutturato un testo redatto e organizzato a seconda delle regole invece un testo non strutturato e scritto in linguaggio naturale secondo le personali disposizioni dell’autore o senza il necessario rispetto di alcuna convenzione condivisa. Il primo ha il vantaggio di rendere più semplici le ricerche contestualizzando semanticamente l’informazione contenuta a prescindere dal redattore. Il secondo ha una maggiore flessibilità nella descrizione e nelle interpretazioni del reale ma presenta una variabilità è una disomogeneità non determinabili. In genere per indicizzare si tende a trasformare un documento non strutturato in uno strutturato