Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


fdi-reperimento, Appunti di Elementi di Informatica

Reperimento

Tipologia: Appunti

2012/2013

Caricato il 20/01/2013

tortelliniebasta1
tortelliniebasta1 🇮🇹

5

(1)

8 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
Fondamenti di Informatica
Il reperimento dell’informazione
Motori di ricerca
Localizzazione di pagine Web
Indicizzazione: analisi, stop-words, stemming e pesatura
Il ruolo dell’utente, ciclo valutazione/presentazione
Il modello booleano: esempi di interrogazioni
Il problema della rilevanza: valutazione, richiamo e precisione
Altri approcci alla ricerca di informazioni nel Web
Parte di queste trasparenze è basata sul lavoro della Prof. Maristella Agosti
Nicola Orio
Facoltà di Lettere e Filosofia
Università degli Studi di Padova
FdI © Nicola Orio 2
Reperimento dell’informazione - 1
“Information is the currency of democracy” - T. Jefferson
La disponibilità di informazioni, anche in formato digitale, non
implica che gli utenti possano averne accesso
Gli utenti devono poter sapere
Quali informazioni sono disponibili, ovvero se sono presenti
informazioni utili
Come raggiungere queste informazioni
Il problema di come reperire informazione aumenta con la mole dei
dati messi a disposizione
Ad esempio, nelle biblioteche esiste un indice catalografico ed
un ordinamento per argomento, autore e così via
La catalogazione viene di solito svolta manualmente ed è quindi
molto lunga e passibile di errori
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica fdi-reperimento e più Appunti in PDF di Elementi di Informatica solo su Docsity!

Fondamenti di Informatica

Il reperimento dell’informazione

  • Motori di ricerca
  • Localizzazione di pagine Web
  • Indicizzazione: analisi, stop-words, stemming e pesatura
  • Il ruolo dell’utente, ciclo valutazione/presentazione
  • Il modello booleano: esempi di interrogazioni
  • Il problema della rilevanza: valutazione, richiamo e precisione
  • Altri approcci alla ricerca di informazioni nel Web Parte di queste trasparenze è basata sul lavoro della Prof. Maristella Agosti

Nicola Orio

Facoltà di Lettere e Filosofia Università degli Studi di Padova FdI © Nicola Orio 2

Reperimento dell’informazione - 1

“Information is the currency of democracy” - T. Jefferson

La disponibilità di informazioni, anche in formato digitale, non

implica che gli utenti possano averne accesso

  • Gli utenti devono poter sapere
    • Quali informazioni sono disponibili, ovvero se sono presenti informazioni utili
    • Come raggiungere queste informazioni

Il problema di come reperire informazione aumenta con la mole dei

dati messi a disposizione

  • Ad esempio, nelle biblioteche esiste un indice catalografico ed

un ordinamento per argomento, autore e così via

  • La catalogazione viene di solito svolta manualmente ed è quindi molto lunga e passibile di errori

FdI © Nicola Orio 3

Reperimento dell’informazione - 2

La catalogazione descrive , in maniera sintetica e di rapido accesso,

il contenuto informativo dei documenti

E’ possibile automatizzare l’estrazione del contenuto informativo,

operazione che viene definita indicizzazione

  • E’ necessario creare un modello che consenta di estrarre

l’ informazione rilevante in modo automatico

  • Nei documenti testuali l’informazione è contenuta nella semantica delle parole che compongono i documenti
  • E’ più difficile definire il contenuto semantico di documenti in formati non testuali , ad esempio musica o immagini

Una volta indicizzati i documenti è possibile effettuare delle

ricerche nei soli indici dei documenti

  • La ricerca negli indici è meno onerosa computazionalmente FdI © Nicola Orio 4

Reperimento dell’informazione - 3

L’utente ha un ruolo cruciale nel reperimento dell’informazione

tramite mezzi informatici

  • Una ricerca viene svolta più efficacemente se l’utente:
    • Sa cosa sta cercando e può indicare chiaramente la propria esigenza informativa
    • Conosce il funzionamento del sistema e la sintassi del linguaggio di interrogazione
    • Sa valutare le risposte del sistema e, in base a queste, formulare eventualmente una nuova richiesta più precisa

La ricerca è un processo iterativo e interattivo

  • Una sola ricerca non è di norma sufficiente ad ottenere le

informazioni desiderate

  • L’utente deve interagire con il sistema, valutandone le risposte, e iterare la propria richiesta variandone il contenuto

FdI © Nicola Orio 7

I motori di ricerca - 2

Un motore di ricerca, d’ora in poi SE (da Search Engine), opera in

tre fasi distinte

  • Localizzazione delle pagine Web (semiautomatica)
    • Il Web si modifica continuamente e vengono continuamente create nuove pagine, il SE deve trovarle
  • Indicizzazione delle pagine localizzate (automatica)
    • Il SE estrae per ogni pagina le informazioni e le organizza in modo da riaccedervi rapidamente
  • Ricerca (interattiva)
    • Quando un utente formula una richiesta al SE, questo recupera le pagine Web che ritiene più rilevanti per le esigenze informative espresse dall’utente
    • Il risultato della fase di ricerca è una nuova pagina Web , o una serie di pagine, contenenti i link ai documenti rilevanti FdI © Nicola Orio 8

Localizzazione delle pagine Web - 1

La componente dei SE demandata alla localizzazione delle pagine

Web è denominata Web Search Agent (WSA)

  • I WSA sono anche denominati alternativamente: spider ,

crawler , wanderer e raramente anche worm

Il WSA localizza le pagine Web, e in generale i documenti in

formati diversi dall’HTML, lavorando ricorsivamente

  • Parte da una lista di URL noti , forniti dai gestori del SE
  • Analizza i documenti per vedere se questi contengono link a

nuovi URL al di fuori della lista

  • Aggiorna la propria lista di URL e visita i documenti agli URL

aggiunti al fine di trovare ancora nuovi link

  • Ad ogni iterazione aggiunge nuovi URL e visita i documenti

associati per identificare ancora nuovi URL

FdI © Nicola Orio 9

Localizzazione delle pagine Web - 2

Il WSA può localizzare solamente i documenti e le pagine Web che

sono raggiungibili a partire dalla lista iniziale di URL

  • La porzione di Web localizzata da un WSA è molto piccola

rispetto al Web intero

  • Non è possibile sapere con precisione quanta sia la parte del Web “sommersa”, ovvero invisibile ai motori di ricerca
  • Le pagine che non sono puntate da nessun’altra, non potranno

mai essere localizzate

  • I SE consentono ai creatori di pagine Web di pubblicizzarle , ovvero che i loro URL siano inseriti nella lista iniziale di URL
  • Le pagine protette da password sono irraggiungibili dai WSA
  • Il processo di localizzazione richiede diversi giorni
  • I SE hanno una visione del Web che è già vecchia , per questo molte volte forniscono dead-link FdI © Nicola Orio 10

Indicizzazione

L’indicizzazione consente di rappresentare il contenuto semantico

di un documento

  • Il documento viene rappresentato da descrittori , chiamati

appunto indici

  • Un caso molto importante è l’indicizzazione dei documenti testuali , tramite l’estrazione di parole chiave o keywords

L’indicizzazione può essere svolta

  • Manualmente o in modo automatico o semiautomatico
  • Estraendo l’informazione direttamente dal documento o utilizzando altre fonti , come dizionari o metainformazioni

L’indicizzazione fornisce una rappresentazione più compatta del

contenuto informativo del documento

  • Gli indici sono utilizzati come surrogati del contenuto informativo del documento durante la fase di ricerca

FdI © Nicola Orio 13

Indicizzazione automatica di testi - 3

L’indicizzazione automatica di documenti testuali viene eseguita in

più fasi , che devono essere attuate in sequenza

  • Analisi lessicale e selezione delle parole
  • Rimozione delle parole molto comuni, o stop-words
  • Riduzione delle parole originali alle rispettive radici semantiche
  • Creazione dell’ indice
  • Eventuale pesatura degli elementi dell’indice

I SE disponibili in rete, e i sistemi commerciali in genere, non

implementano necessariamente tutte queste funzionalità

  • Ogni funzionalità necessita di calcoli aggiuntivi , il cui costo può non essere compensato da un effettivo miglioramento
  • La ricerca nel settore del reperimento dell’informazione ( information retrieval ) si occupa anche di trovare nuove metodologie per l’indicizzazione automatica FdI © Nicola Orio 14

Esempio di collezione di documenti

L’enorme quantità di informazioni presenti

nelle pagine Web rende necessario l'uso di strumenti

automatici per il recupero di informazioni...

I presenti hanno descritto le fasi del recupero

dell’enorme relitto ma le informazioni non

concordano su tipo e quantità di strumenti in uso...

E' stato presentato nel Web un documento che

informa sulle enormi difficoltà che incontra chi usa

uno strumento informativo automatico...

D

D

D

FdI © Nicola Orio 15

Analisi lessicale e selezione delle parole

Un testo è rappresentato da una successione di simboli

  • L’analisi lessicale è il processo di trasformazione del flusso di

simboli in un flusso di parole (dette tokens )

  • Le parole vengono facilmente identificate grazie alla presenza di spazi, a capo e segni di interpunzione
  • Le parole hanno un significato a prescindere dal loro ordine
  • Nell’esempio, l’analisi lessicale porterebbe:
  • D1 : automatici di di di enorme il informazioni informazioni l' l' necessario nelle pagine per presenti quantità recupero rende strumenti uso web
  • D2 : concordano del dell' descritto di e enorme fasi hanno i in informazioni le le ma non presenti quantità recupero relitto strumenti su tipo uso
  • D3 : automatico che che chi difficoltà documento è enormi informa informativo incontra nel presentato sulle stato strumento un uno usa web FdI © Nicola Orio 16

Rimozione delle stop-words - 1

Le parole molto frequenti nell’insieme di tutti i documenti portano

poca informazione sul contenuto dei singoli documenti

  • In una collezione di documenti sull’informatica, la parola “computer” non serve a discriminare i diversi documenti
  • Alcune parole, oltre ad essere molto frequenti, non hanno un proprio significato semantico Articoli, preposizioni, verbi ausiliari sono un esempio

Tali parole, denominate stop-words , possono essere eliminate dalla

lista dei token

  • Le stop-words non sono utilizzate per indicizzare i documenti

Nel Web, che contiene documenti su qualsiasi argomento , le stop-

words sono le parole molto frequenti nelle lingua in cui i documenti

sono scritti

FdI © Nicola Orio 19

Riduzione alle radici semantiche - 2

L’operazione di stemming non viene sempre effettuata

  • Le sole radici semantiche possono non essere dei buoni indici

per un documento

  • “dentellato” e “dentifricio” hanno la stessa radice “dent-”, ma significati e contesti molto diversi
  • Lo stemming risulta comunque utile nelle lingue molto inflesse

come l’italiano o il francese; è meno utile per l’inglese

Nell’esempio, le radici potrebbero essere:

  • D1 : autom enorm inform inform necessar pagin present quantità recuper rend strument us web
  • D2 : concord descr enorm fas ha inform no present quantit recuper relitt strument tip us
  • D3 : autom diffic document è enorm incontr inform inform present stat strument us web FdI © Nicola Orio 20

Pesatura dei termini indice

Non tutte le parole di un documento ne descrivono il contenuto

semantico con la stessa precisione

  • Si può associare un peso ai termini indice
    • Il peso indica l’ importanza di un indice per ciascun documento

L’associazione di un peso ai termini di un documento viene

effettuata utilizzando una funzione di pesatura

  • La pesatura tiene normalmente conto della frequenza del

termine nel documento e nella collezione

Sono possibili diversi sistemi di pesatura

  • Binaria : il termine ha peso = 1 se presente e peso = 0 se assente
    • Non si tiene conto della frequenza ma della sola presenza
  • In base alla frequenza relativa : si divide l’occorrenza del

termine nel documento e per la sua occorrenza nella collezione

FdI © Nicola Orio 21

Pesatura in base alla frequenza relativa

D 1 D 2 D 3 autom concord descr diffic document è enorm fas ha incontr inform necessar no pagin present quantit recuper .... documenti parole 1/2 0 1/ 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 1/3 1/3 1/ 1/2 0 1/ 0 1 0 0 0 1 2/5 1/5 2/ 1 0 0 0 1 0 1 0 0 1/3 1/3 1/ 1/2 1/2 0 1/2 1/2 0 ... FdI © Nicola Orio 22

Il processo completo di indicizzazione

Base dati documenti Documenti testuali Estrazione singole parole Eliminazione parole non significative (stop-words) Estrazione radici (stemming) Assegnazione pesi Assegnazione codice e nome identificativo Documento in formato digitale Base dati indici Software di gestione: Sistema di reperimento informazione o Information Retrieval System (IRS)

FdI © Nicola Orio 25

Il ciclo presentazione/valutazione - 1

Ci si riferisce al modo in cui utente e sistema interagiscono con il

termine di ciclo presentazione/valutazione ; ad ogni iterazione:

  • L’utente interroga il sistema formulando una query
    • L’utente deve utilizzare il linguaggio fornito dal sistema
  • Il sistema presenta all’utente alcuni documenti ritenuti rilevanti
    • Exact match : solo i documenti che soddisfano esattamente la query vengono presentati all’utente
    • Best match : i documenti sono presentati all’utente in base ad una misura di similarità con la query (omettendo quelli troppo lontani)
  • L’utente valuta i documenti presentati dal sistema
    • Uno dei maggiori problemi, specie nel Web, è l’ altissimo numero di documenti normalmente reperiti
    • Se questi non soddisfano la sua esigenza informativa l’utente deve formulare una nuova query FdI © Nicola Orio 26

Il ciclo presentazione/valutazione - 2

formulazione della richiesta da parte dell’utente

il sistema reperisce un insieme

di documenti potenzialmente rilevanti

l’utente analizza i documenti

reperiti dal sistema di IR

l’utente formula una nuova richiesta o riformula la

precedente in base ai documenti reperiti

Non rispondenti alle esigenze informative FINE CICLO DI INTERAZIONE CONTINUA Rilevanti: l’utente termina la ricerca

FdI © Nicola Orio 27

Il reperimento dell’informazione testuale

La fase di indicizzazione, eseguita off-line prima dell’interazione

con l’utente, estrae degli indici dai documenti testuali

  • Gli indici sono delle parole , che esprimono in modo sintetico il contenuto informativo dei documenti

La fase di ricerca, eseguita on-line interagendo con l’utente, si basa

anch’essa sull’uso di parole che sintetizzano l’esigenza informativa

  • L’utente formula la sua query utilizzando alcune parole, spesso

indicate con il termine di parole chiave o key-words

  • Il sistema indicizza la query, così come ha fatto per i documenti, e calcola la potenziale pertinenza dei documenti in base al confronto tra gli indici della query e gli indici dei documenti
  • Sono possibili diverse strategie per il calcolo della pertinenza , la ricerca si occupa di trovare nuove soluzioni FdI © Nicola Orio 28

Il processo completo di reperimento

Base dati dei documenti Utente Analisi e traduzione della frase di ricerca:

  • Estrazione singole parole
  • Eliminazione stop-words
  • Estrazione radici (stemming)
  • Assegnazione pesi Interfaccia Base dati degli indici Software di gestione: Sistema di reperimento informazioni o Information Retrieval System (IRS) Frase di ricerca dell’utente Motore di ricerca informazioni soluzione frase di ricerca e individuazione indici e documenti Operazioni booleane Presentazione documenti rilevanti Documenti rilevanti

FdI © Nicola Orio 31

Esempi di interrogazioni booleane

D 1 = L’enorme quantità di informazioni presenti nelle pagine Web rende necessario l'uso di strumenti automatici per il recupero di informazioni D 2 = I presenti hanno descritto le fasi del recupero dell’enorme relitto ma le informazioni non concordano su tipo e quantità di strumenti in uso D 3 = E' stato presentato nel Web un documento che informa sulle enormi difficoltà che incontra chi usa uno strumento informativo automatico

recupero AND Web → D 1

recupero OR Web → D1 , D2 , D 3

recupero AND NOT relitto → D 1

(Web OR uso) AND strumenti → D1 , D 2

(Web OR uso) AND NOT strumenti → D 3

informazioni AND relitto AND studente → Ø

informazioni OR relitto OR Internet → D1, D 2

bologna OR NOT padova → D1, D2 , D 3

FdI © Nicola Orio 32

Il problema della rilevanza

La bontà di un sistema di reperimento dipende da quanti documenti

reperiti sono effettivamente rilevanti per le esigenze informative

Le prestazioni di un sistema di information retrieval possono essere

calcolate , per confrontare diversi sistemi

  • Si deve conoscere a priori l’insieme dei documenti che

rispondono alle esigenze informative dell’utente

  • E’ praticamente impossibile conoscere la rilevanza di milioni di documenti , o miliardi se ci si riferisce al Web
  • La rilevanza è soggettiva e può variare nel tempo
  • Il giudizio sulla rilevanza di un documento influisce sul giudizio dei successivi

Sono state sviluppate delle metodologie di sperimentazione

  • Utenti con banche dati reali , collezioni sperimentali in laboratorio

FdI © Nicola Orio 33

Valutazione - 1

E’ auspicabile che un sistema per il reperimento dell’informazione

presenti tutti e soli i documenti rilevanti per l’utente

  • Se così fosse, l’utente non avrebbe bisogno di valutare i documenti, e la ricerca si esaurirebbe in un unico ciclo

Vi sono due possibili comportamenti negativi , che rendono difficile

la valutazione e onerosa la fase di ricerca

  • Effetto rumore
    • Il sistema reperisce anche documenti non rilevanti ; la valutazione e la consultazione sono più onerose perché i documenti rilevanti sono diluiti
  • Effetto silenzio
    • Il sistema non reperisce alcuni documenti che sarebbero invece rilevanti ; l’utente non può accedere ad una parte dell’informazione FdI © Nicola Orio 34

Valutazione - 2

Si definiscono alcune misure per valutare le prestazioni di un

sistema di information retrieval

Dato un insieme di documenti e un’interrogazione, è possibile

individuare quattro sotto-insiemi:

  • A : documenti correttamente reperiti in quanto rilevanti
  • B : documenti erronamente reperiti anche se non rilevanti (effetto rumore)
  • C : documenti correttamente omessi in quanto non rilevanti
  • D : documenti erroneamente omessi anche se rilevanti (effetto silenzio)

Questi sottoinsiemi possono essere indivuati solo se si conosce a

priori l’insieme dei documenti rilevanti

  • La rilevanza viene di solito stabilita da un gruppo di esperti

FdI © Nicola Orio 37

Caratteristiche dei motori di ricerca

I motori di ricerca disponibili nel Web hanno alcune caratteristiche

  • Ricerca semplice , per gli utenti inesperti, nella quale inserire

semplicemente delle parole chiave

  • Il motore di ricerca combina opportunamente le parole chiave, il modo in cui questo viene fatto dipende dal SE
  • L’utente può comunque utilizzare il linguaggio booleano all’interno della ricerca semplice
  • Ricerca avanzata , con delle funzionalità aggiuntive
  • La ricerca avanzata fornisce un’ interfaccia grafica per aiutare l’utente a creare la query usando il linguaggio booleano e ad accedere ad alcune funzionalità aggiuntive
  • Molti SE consentono anche di cercare intere frasi
  • Il testo cercato va normalmente messo tra doppi apici Ad esempio “information retrieval” cerca la frase intera, ed è diverso da information AND retrieval FdI © Nicola Orio 38

Altri approcci alla ricerca nel Web

L’utilizzo dei SE non è intuitivo per gli utenti inesperti, perciò sono

disponibili altri modi per reperire informazioni nel Web

  • Directory
    • Gestisce solo pagine che sono state scelte attraverso un processo di selezione/catalogazione editoriale o sottoposte dagli stessi utenti http://www.yahoo.com
  • Meta Search Engine
    • Uno strumento che interroga contemporaneamente diversi SE e/o directory e riassume i risultati all’utente http://www.metacrawler.com
  • Portali
    • Non sono dei reali sistemi per il reperimento dell’informazione, ma si presentano come punti di partenza per la navigazione http://www.virgilio.it