Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

fdi-reperimento, Appunti di Elementi di Informatica

Università degli Studi di Padova (UNIPD)Elementi di Informatica

Prof. Nicola Orio

Reperimento

Tipologia: Appunti

2012/2013

Caricato il 20/01/2013

tortelliniebasta1 🇮🇹

5

(1)

8 documenti

1 / 19

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

1

Fondamenti di Informatica

Il reperimento dell’informazione

• Motori di ricerca

• Localizzazione di pagine Web

• Indicizzazione: analisi, stop-words, stemming e pesatura

• Il ruolo dell’utente, ciclo valutazione/presentazione

• Il modello booleano: esempi di interrogazioni

• Il problema della rilevanza: valutazione, richiamo e precisione

• Altri approcci alla ricerca di informazioni nel Web

Parte di queste trasparenze è basata sul lavoro della Prof. Maristella Agosti

Nicola Orio

Facoltà di Lettere e Filosofia

Università degli Studi di Padova

FdI © Nicola Orio 2

Reperimento dell’informazione - 1

“Information is the currency of democracy” - T. Jefferson

La disponibilità di informazioni, anche in formato digitale, non

implica che gli utenti possano averne accesso

• Gli utenti devono poter sapere

– Quali informazioni sono disponibili, ovvero se sono presenti

informazioni utili

– Come raggiungere queste informazioni

Il problema di come reperire informazione aumenta con la mole dei

dati messi a disposizione

• Ad esempio, nelle biblioteche esiste un indice catalografico ed

un ordinamento per argomento, autore e così via

– La catalogazione viene di solito svolta manualmente ed è quindi

molto lunga e passibile di errori

Scopri Appunti di Elementi di Informatica Università degli Studi di Padova (UNIPD)

Documenti correlati

metodologie informatiche per i servizi turistici

(3)

fdi-introduzione

Esercizi di Informatica: Formattazione di Testo - Prof. Orio

(1)

Appunti Software e Hardware- Unipd STBAM prof. Nicola Orio

Primo esercizio dell'esercitazione

2char01. Primo esercizio

Metodologie Informatiche Per l' organizzazione dei servizi turistici

(2)

Appunti di Metodologie informatiche per l'organizzazione dei servizi turistici.

Fondamenti di informatica, per studenti di materie umanistiche

Fondamenti di informatica unipd: Codifica

Introduzione all'informatica: dai bit ai sistemi informativi - Prof. Orio

Multipli bit-byte ecc... Fondamenti di informatica unipd

Anteprima parziale del testo

Scarica fdi-reperimento e più Appunti in PDF di Elementi di Informatica solo su Docsity!

Fondamenti di Informatica

Il reperimento dell’informazione

Motori di ricerca
Localizzazione di pagine Web
Indicizzazione: analisi, stop-words, stemming e pesatura
Il ruolo dell’utente, ciclo valutazione/presentazione
Il modello booleano: esempi di interrogazioni
Il problema della rilevanza: valutazione, richiamo e precisione
Altri approcci alla ricerca di informazioni nel Web Parte di queste trasparenze è basata sul lavoro della Prof. Maristella Agosti

Nicola Orio

Facoltà di Lettere e Filosofia Università degli Studi di Padova FdI © Nicola Orio 2

Reperimento dell’informazione - 1

“Information is the currency of democracy” - T. Jefferson

La disponibilità di informazioni, anche in formato digitale, non

implica che gli utenti possano averne accesso

Gli utenti devono poter sapere
- Quali informazioni sono disponibili, ovvero se sono presenti informazioni utili
- Come raggiungere queste informazioni

Il problema di come reperire informazione aumenta con la mole dei

dati messi a disposizione

Ad esempio, nelle biblioteche esiste un indice catalografico ed

un ordinamento per argomento, autore e così via

La catalogazione viene di solito svolta manualmente ed è quindi molto lunga e passibile di errori

FdI © Nicola Orio 3

Reperimento dell’informazione - 2

La catalogazione descrive , in maniera sintetica e di rapido accesso,

il contenuto informativo dei documenti

E’ possibile automatizzare l’estrazione del contenuto informativo,

operazione che viene definita indicizzazione

E’ necessario creare un modello che consenta di estrarre

l’ informazione rilevante in modo automatico

Nei documenti testuali l’informazione è contenuta nella semantica delle parole che compongono i documenti
E’ più difficile definire il contenuto semantico di documenti in formati non testuali , ad esempio musica o immagini

Una volta indicizzati i documenti è possibile effettuare delle

ricerche nei soli indici dei documenti

La ricerca negli indici è meno onerosa computazionalmente FdI © Nicola Orio 4

Reperimento dell’informazione - 3

L’utente ha un ruolo cruciale nel reperimento dell’informazione

tramite mezzi informatici

Una ricerca viene svolta più efficacemente se l’utente:
- Sa cosa sta cercando e può indicare chiaramente la propria esigenza informativa
- Conosce il funzionamento del sistema e la sintassi del linguaggio di interrogazione
- Sa valutare le risposte del sistema e, in base a queste, formulare eventualmente una nuova richiesta più precisa

La ricerca è un processo iterativo e interattivo

Una sola ricerca non è di norma sufficiente ad ottenere le

informazioni desiderate

L’utente deve interagire con il sistema, valutandone le risposte, e iterare la propria richiesta variandone il contenuto

FdI © Nicola Orio 7

I motori di ricerca - 2

Un motore di ricerca, d’ora in poi SE (da Search Engine), opera in

tre fasi distinte

Localizzazione delle pagine Web (semiautomatica)
- Il Web si modifica continuamente e vengono continuamente create nuove pagine, il SE deve trovarle
Indicizzazione delle pagine localizzate (automatica)
- Il SE estrae per ogni pagina le informazioni e le organizza in modo da riaccedervi rapidamente
Ricerca (interattiva)
- Quando un utente formula una richiesta al SE, questo recupera le pagine Web che ritiene più rilevanti per le esigenze informative espresse dall’utente
- Il risultato della fase di ricerca è una nuova pagina Web , o una serie di pagine, contenenti i link ai documenti rilevanti FdI © Nicola Orio 8

Localizzazione delle pagine Web - 1

La componente dei SE demandata alla localizzazione delle pagine

Web è denominata Web Search Agent (WSA)

I WSA sono anche denominati alternativamente: spider ,

crawler , wanderer e raramente anche worm

Il WSA localizza le pagine Web, e in generale i documenti in

formati diversi dall’HTML, lavorando ricorsivamente

Parte da una lista di URL noti , forniti dai gestori del SE
Analizza i documenti per vedere se questi contengono link a

nuovi URL al di fuori della lista

Aggiorna la propria lista di URL e visita i documenti agli URL

aggiunti al fine di trovare ancora nuovi link

Ad ogni iterazione aggiunge nuovi URL e visita i documenti

associati per identificare ancora nuovi URL

FdI © Nicola Orio 9

Localizzazione delle pagine Web - 2

Il WSA può localizzare solamente i documenti e le pagine Web che

sono raggiungibili a partire dalla lista iniziale di URL

La porzione di Web localizzata da un WSA è molto piccola

rispetto al Web intero

Non è possibile sapere con precisione quanta sia la parte del Web “sommersa”, ovvero invisibile ai motori di ricerca
Le pagine che non sono puntate da nessun’altra, non potranno

mai essere localizzate

I SE consentono ai creatori di pagine Web di pubblicizzarle , ovvero che i loro URL siano inseriti nella lista iniziale di URL
Le pagine protette da password sono irraggiungibili dai WSA
Il processo di localizzazione richiede diversi giorni
I SE hanno una visione del Web che è già vecchia , per questo molte volte forniscono dead-link FdI © Nicola Orio 10

Indicizzazione

L’indicizzazione consente di rappresentare il contenuto semantico

di un documento

Il documento viene rappresentato da descrittori , chiamati

appunto indici

Un caso molto importante è l’indicizzazione dei documenti testuali , tramite l’estrazione di parole chiave o keywords

L’indicizzazione può essere svolta

Manualmente o in modo automatico o semiautomatico
Estraendo l’informazione direttamente dal documento o utilizzando altre fonti , come dizionari o metainformazioni

L’indicizzazione fornisce una rappresentazione più compatta del

contenuto informativo del documento

Gli indici sono utilizzati come surrogati del contenuto informativo del documento durante la fase di ricerca

FdI © Nicola Orio 13

Indicizzazione automatica di testi - 3

L’indicizzazione automatica di documenti testuali viene eseguita in

più fasi , che devono essere attuate in sequenza

Analisi lessicale e selezione delle parole
Rimozione delle parole molto comuni, o stop-words
Riduzione delle parole originali alle rispettive radici semantiche
Creazione dell’ indice
Eventuale pesatura degli elementi dell’indice

I SE disponibili in rete, e i sistemi commerciali in genere, non

implementano necessariamente tutte queste funzionalità

Ogni funzionalità necessita di calcoli aggiuntivi , il cui costo può non essere compensato da un effettivo miglioramento
La ricerca nel settore del reperimento dell’informazione ( information retrieval ) si occupa anche di trovare nuove metodologie per l’indicizzazione automatica FdI © Nicola Orio 14

Esempio di collezione di documenti

L’enorme quantità di informazioni presenti

nelle pagine Web rende necessario l'uso di strumenti

automatici per il recupero di informazioni...

I presenti hanno descritto le fasi del recupero

dell’enorme relitto ma le informazioni non

concordano su tipo e quantità di strumenti in uso...

E' stato presentato nel Web un documento che

informa sulle enormi difficoltà che incontra chi usa

uno strumento informativo automatico...

D

FdI © Nicola Orio 15

Analisi lessicale e selezione delle parole

Un testo è rappresentato da una successione di simboli

L’analisi lessicale è il processo di trasformazione del flusso di

simboli in un flusso di parole (dette tokens )

Le parole vengono facilmente identificate grazie alla presenza di spazi, a capo e segni di interpunzione
Le parole hanno un significato a prescindere dal loro ordine
Nell’esempio, l’analisi lessicale porterebbe:
D1 : automatici di di di enorme il informazioni informazioni l' l' necessario nelle pagine per presenti quantità recupero rende strumenti uso web
D2 : concordano del dell' descritto di e enorme fasi hanno i in informazioni le le ma non presenti quantità recupero relitto strumenti su tipo uso
D3 : automatico che che chi difficoltà documento è enormi informa informativo incontra nel presentato sulle stato strumento un uno usa web FdI © Nicola Orio 16

Rimozione delle stop-words - 1

Le parole molto frequenti nell’insieme di tutti i documenti portano

poca informazione sul contenuto dei singoli documenti

In una collezione di documenti sull’informatica, la parola “computer” non serve a discriminare i diversi documenti
Alcune parole, oltre ad essere molto frequenti, non hanno un proprio significato semantico Articoli, preposizioni, verbi ausiliari sono un esempio

Tali parole, denominate stop-words , possono essere eliminate dalla

lista dei token

Le stop-words non sono utilizzate per indicizzare i documenti

Nel Web, che contiene documenti su qualsiasi argomento , le stop-

words sono le parole molto frequenti nelle lingua in cui i documenti

sono scritti

Riduzione alle radici semantiche - 2

L’operazione di stemming non viene sempre effettuata

Le sole radici semantiche possono non essere dei buoni indici

per un documento

“dentellato” e “dentifricio” hanno la stessa radice “dent-”, ma significati e contesti molto diversi
Lo stemming risulta comunque utile nelle lingue molto inflesse

come l’italiano o il francese; è meno utile per l’inglese

Nell’esempio, le radici potrebbero essere:

D1 : autom enorm inform inform necessar pagin present quantità recuper rend strument us web
D2 : concord descr enorm fas ha inform no present quantit recuper relitt strument tip us

Pesatura dei termini indice

Non tutte le parole di un documento ne descrivono il contenuto

semantico con la stessa precisione

Si può associare un peso ai termini indice
- Il peso indica l’ importanza di un indice per ciascun documento

L’associazione di un peso ai termini di un documento viene

effettuata utilizzando una funzione di pesatura

La pesatura tiene normalmente conto della frequenza del

termine nel documento e nella collezione

Sono possibili diversi sistemi di pesatura

Binaria : il termine ha peso = 1 se presente e peso = 0 se assente
- Non si tiene conto della frequenza ma della sola presenza
In base alla frequenza relativa : si divide l’occorrenza del

termine nel documento e per la sua occorrenza nella collezione

Pesatura in base alla frequenza relativa

D 1 D 2 D 3 autom concord descr diffic document è enorm fas ha incontr inform necessar no pagin present quantit recuper .... documenti parole 1/2 0 1/ 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 1/3 1/3 1/ 1/2 0 1/ 0 1 0 0 0 1 2/5 1/5 2/ 1 0 0 0 1 0 1 0 0 1/3 1/3 1/ 1/2 1/2 0 1/2 1/2 0 ... FdI © Nicola Orio 22

Il processo completo di indicizzazione

Base dati documenti Documenti testuali Estrazione singole parole Eliminazione parole non significative (stop-words) Estrazione radici (stemming) Assegnazione pesi Assegnazione codice e nome identificativo Documento in formato digitale Base dati indici Software di gestione: Sistema di reperimento informazione o Information Retrieval System (IRS)

Il ciclo presentazione/valutazione - 1

Ci si riferisce al modo in cui utente e sistema interagiscono con il

termine di ciclo presentazione/valutazione ; ad ogni iterazione:

L’utente interroga il sistema formulando una query
- L’utente deve utilizzare il linguaggio fornito dal sistema
Il sistema presenta all’utente alcuni documenti ritenuti rilevanti
- Exact match : solo i documenti che soddisfano esattamente la query vengono presentati all’utente
- Best match : i documenti sono presentati all’utente in base ad una misura di similarità con la query (omettendo quelli troppo lontani)
L’utente valuta i documenti presentati dal sistema
- Uno dei maggiori problemi, specie nel Web, è l’ altissimo numero di documenti normalmente reperiti
- Se questi non soddisfano la sua esigenza informativa l’utente deve formulare una nuova query FdI © Nicola Orio 26

Il ciclo presentazione/valutazione - 2

formulazione della richiesta da parte dell’utente

il sistema reperisce un insieme

di documenti potenzialmente rilevanti

l’utente analizza i documenti

reperiti dal sistema di IR

l’utente formula una nuova richiesta o riformula la

precedente in base ai documenti reperiti

Non rispondenti alle esigenze informative FINE CICLO DI INTERAZIONE CONTINUA Rilevanti: l’utente termina la ricerca

Il reperimento dell’informazione testuale

La fase di indicizzazione, eseguita off-line prima dell’interazione

con l’utente, estrae degli indici dai documenti testuali

Gli indici sono delle parole , che esprimono in modo sintetico il contenuto informativo dei documenti

La fase di ricerca, eseguita on-line interagendo con l’utente, si basa

anch’essa sull’uso di parole che sintetizzano l’esigenza informativa

L’utente formula la sua query utilizzando alcune parole, spesso

indicate con il termine di parole chiave o key-words

Il sistema indicizza la query, così come ha fatto per i documenti, e calcola la potenziale pertinenza dei documenti in base al confronto tra gli indici della query e gli indici dei documenti
Sono possibili diverse strategie per il calcolo della pertinenza , la ricerca si occupa di trovare nuove soluzioni FdI © Nicola Orio 28

Il processo completo di reperimento

Base dati dei documenti Utente Analisi e traduzione della frase di ricerca:

Estrazione singole parole
Eliminazione stop-words
Estrazione radici (stemming)
Assegnazione pesi Interfaccia Base dati degli indici Software di gestione: Sistema di reperimento informazioni o Information Retrieval System (IRS) Frase di ricerca dell’utente Motore di ricerca informazioni soluzione frase di ricerca e individuazione indici e documenti Operazioni booleane Presentazione documenti rilevanti Documenti rilevanti

Esempi di interrogazioni booleane

D 1 = L’enorme quantità di informazioni presenti nelle pagine Web rende necessario l'uso di strumenti automatici per il recupero di informazioni D 2 = I presenti hanno descritto le fasi del recupero dell’enorme relitto ma le informazioni non concordano su tipo e quantità di strumenti in uso D 3 = E' stato presentato nel Web un documento che informa sulle enormi difficoltà che incontra chi usa uno strumento informativo automatico

recupero AND Web → D 1

recupero OR Web → D1 , D2 , D 3

recupero AND NOT relitto → D 1

(Web OR uso) AND strumenti → D1 , D 2

(Web OR uso) AND NOT strumenti → D 3

informazioni AND relitto AND studente → Ø

informazioni OR relitto OR Internet → D1, D 2

bologna OR NOT padova → D1, D2 , D 3

Il problema della rilevanza

La bontà di un sistema di reperimento dipende da quanti documenti

reperiti sono effettivamente rilevanti per le esigenze informative

Le prestazioni di un sistema di information retrieval possono essere

calcolate , per confrontare diversi sistemi

Si deve conoscere a priori l’insieme dei documenti che

rispondono alle esigenze informative dell’utente

E’ praticamente impossibile conoscere la rilevanza di milioni di documenti , o miliardi se ci si riferisce al Web
La rilevanza è soggettiva e può variare nel tempo
Il giudizio sulla rilevanza di un documento influisce sul giudizio dei successivi

Sono state sviluppate delle metodologie di sperimentazione

Utenti con banche dati reali , collezioni sperimentali in laboratorio

Valutazione - 1

E’ auspicabile che un sistema per il reperimento dell’informazione

presenti tutti e soli i documenti rilevanti per l’utente

Se così fosse, l’utente non avrebbe bisogno di valutare i documenti, e la ricerca si esaurirebbe in un unico ciclo

Vi sono due possibili comportamenti negativi , che rendono difficile

la valutazione e onerosa la fase di ricerca

Effetto rumore
- Il sistema reperisce anche documenti non rilevanti ; la valutazione e la consultazione sono più onerose perché i documenti rilevanti sono diluiti
Effetto silenzio
- Il sistema non reperisce alcuni documenti che sarebbero invece rilevanti ; l’utente non può accedere ad una parte dell’informazione FdI © Nicola Orio 34

Valutazione - 2

Si definiscono alcune misure per valutare le prestazioni di un

sistema di information retrieval

Dato un insieme di documenti e un’interrogazione, è possibile

individuare quattro sotto-insiemi:

A : documenti correttamente reperiti in quanto rilevanti
B : documenti erronamente reperiti anche se non rilevanti (effetto rumore)
C : documenti correttamente omessi in quanto non rilevanti
D : documenti erroneamente omessi anche se rilevanti (effetto silenzio)

Questi sottoinsiemi possono essere indivuati solo se si conosce a

priori l’insieme dei documenti rilevanti

La rilevanza viene di solito stabilita da un gruppo di esperti

Caratteristiche dei motori di ricerca

I motori di ricerca disponibili nel Web hanno alcune caratteristiche

Ricerca semplice , per gli utenti inesperti, nella quale inserire

semplicemente delle parole chiave

Il motore di ricerca combina opportunamente le parole chiave, il modo in cui questo viene fatto dipende dal SE
L’utente può comunque utilizzare il linguaggio booleano all’interno della ricerca semplice
Ricerca avanzata , con delle funzionalità aggiuntive
La ricerca avanzata fornisce un’ interfaccia grafica per aiutare l’utente a creare la query usando il linguaggio booleano e ad accedere ad alcune funzionalità aggiuntive
Molti SE consentono anche di cercare intere frasi
Il testo cercato va normalmente messo tra doppi apici Ad esempio “information retrieval” cerca la frase intera, ed è diverso da information AND retrieval FdI © Nicola Orio 38

Altri approcci alla ricerca nel Web

L’utilizzo dei SE non è intuitivo per gli utenti inesperti, perciò sono

disponibili altri modi per reperire informazioni nel Web

Directory
- Gestisce solo pagine che sono state scelte attraverso un processo di selezione/catalogazione editoriale o sottoposte dagli stessi utenti http://www.yahoo.com
Meta Search Engine
- Uno strumento che interroga contemporaneamente diversi SE e/o directory e riassume i risultati all’utente http://www.metacrawler.com
Portali
- Non sono dei reali sistemi per il reperimento dell’informazione, ma si presentano come punti di partenza per la navigazione http://www.virgilio.it