CAPITOLO 4

IL PARADOSSO DELLA RICERCA

Il problema della ricerca è un fattore più antico del web stesso. Diversi sono i filosofi

che hanno provato ad analizzare le difficoltà nell’organizzare e accedere alle

informazioni, al fine di creare una conoscenza; Platone afferma che interpretiamo i

dati con un modello di riferimento pregiudiziale per dare un senso all’esperienza del

fenomeno che vogliamo conoscere, non ci accingiamo in nuove conoscenze

partendo dal nulla, Socrate propone una soluzione al dilemma, in cui si ipotizza una

precomprensione rispetto alla nostra futura scoperta. Cartesio invece con la sua

regola tredicesima, afferma che quando cerchiamo una nuova conoscenza lo

facciamo sempre a partire da un’idea chiara di cosa dobbiamo trovare, e il prodotto

sarà quello che già sappiamo, più le nostre ipotesi su quello che ancora ignoriamo.

I NODI

(La creazione di Arpanet fu inizialmente per evitare l’isolamento degli scienziati e

favorire gli scambi e la condivisione di risorse in termini di tecnologia e sapere, e

successivamente usato anche per aumentare le possibilità di interazione tra uomo e

macchina)

Con un esperimento per la mappatura del web condotto da Barabàsi, si ebbe come

risultato la misurazione di gradi di separazione della rete, stabilendo che c’erano di

media 19 passaggi tra due pagine web scelte a caso. Come risultato si venne a

conoscenza anche della totale assenza, nel web, di democrazia, equità e valori

egualitari. IL WEB SI COMPORTA COME UN ECOSISTEMA DINAMICO,

seguendo una distribuzione che segue delle leggi non scritte, e lo dimostra che la

distribuzione dei nodi è “ a invarianza di scala”, nella quale pochi nodi hanno

tantissimi collegamenti e la maggior parte dei nodi è solo poco connessa con il resto

del web. Se la rete web fosse costruita casualmente avremmo una dfitribuzione “a

campana”. L’informazione comunque non è accessibile paritariamente a causa della

topologia tipica di un grafo orientato, che produce una struttura “ a papillon” dei nodi :

alcuni continenti sono facili da navigare, mentre la maggior parte dei nodi rimangono

nascosti per gli utenti. LE RETI SOCIALI SONO DOMINATE DA ALCUNI NODI

IPERCONNESSI detti “hubs”.

IL RUOLO RUOLO DEI SEARCH ENGINES

I motori di ricerca hanno una centralità notevole nell’ambito delle tecnologie della

comunicazione, rappresentano la lente di ingrandimento del materiale presente sul

web, inoltre sono considerati assolutamente efficienti per i risultati, anche dai

ricercatori stessi. Ma il risultato di un esperimento condotto da Lee Giles e Steve

Laurence, spiegò che ogni motore poteva garantire una copertura solo parziale delle

pagine del web. Questi motori di ricerca svolgono un delicato ruolo di mediazione tra

la massa di informazione disponibile, e le risposte alle domande degli umani

espresse in forma di “query”. E’ tuttavia impossibile misurare l’efficenza dei motori di

ricerca, una risorsa non menzionata tra le pagine dei risultati di una certa ricerca, è

destinata a rimanere per sempre ignota così come quei documenti che seppure

presenti si trovano nelle pagine successive alla terza o la quarta.

Anteprima parziale del testo

Scarica Il Paradosso della Ricerca: Motori di Ricerca e l'Evoluzione del Web e più Appunti in PDF di Epistemologia solo su Docsity!

CAPITOLO 4

IL PARADOSSO DELLA RICERCA

Il problema della ricerca è un fattore più antico del web stesso. Diversi sono i filosofi che hanno provato ad analizzare le difficoltà nell’organizzare e accedere alle informazioni, al fine di creare una conoscenza; Platone afferma che interpretiamo i dati con un modello di riferimento pregiudiziale per dare un senso all’esperienza del fenomeno che vogliamo conoscere, non ci accingiamo in nuove conoscenze partendo dal nulla, Socrate propone una soluzione al dilemma, in cui si ipotizza una precomprensione rispetto alla nostra futura scoperta. Cartesio invece con la sua regola tredicesima, afferma che quando cerchiamo una nuova conoscenza lo facciamo sempre a partire da un’idea chiara di cosa dobbiamo trovare, e il prodotto sarà quello che già sappiamo, più le nostre ipotesi su quello che ancora ignoriamo.

I NODI (La creazione di Arpanet fu inizialmente per evitare l’isolamento degli scienziati e favorire gli scambi e la condivisione di risorse in termini di tecnologia e sapere, e successivamente usato anche per aumentare le possibilità di interazione tra uomo e macchina) Con un esperimento per la mappatura del web condotto da Barabàsi, si ebbe come risultato la misurazione di gradi di separazione della rete, stabilendo che c’erano di media 19 passaggi tra due pagine web scelte a caso. Come risultato si venne a conoscenza anche della totale assenza, nel web, di democrazia, equità e valori egualitari. IL WEB SI COMPORTA COME UN ECOSISTEMA DINAMICO , seguendo una distribuzione che segue delle leggi non scritte, e lo dimostra che la distribuzione dei nodi è “ a invarianza di scala”, nella quale pochi nodi hanno tantissimi collegamenti e la maggior parte dei nodi è solo poco connessa con il resto del web. Se la rete web fosse costruita casualmente avremmo una dfitribuzione “a campana”. L’informazione comunque non è accessibile paritariamente a causa della topologia tipica di un grafo orientato, che produce una struttura “ a papillon” dei nodi : alcuni continenti sono facili da navigare, mentre la maggior parte dei nodi rimangono nascosti per gli utenti. LE RETI SOCIALI SONO DOMINATE DA ALCUNI NODI IPERCONNESSI detti “hubs”.

IL RUOLO RUOLO DEI SEARCH ENGINES I motori di ricerca hanno una centralità notevole nell’ambito delle tecnologie della comunicazione, rappresentano la lente di ingrandimento del materiale presente sul web, inoltre sono considerati assolutamente efficienti per i risultati, anche dai ricercatori stessi. Ma il risultato di un esperimento condotto da Lee Giles e Steve Laurence, spiegò che ogni motore poteva garantire una copertura solo parziale delle pagine del web. Questi motori di ricerca svolgono un delicato ruolo di mediazione tra la massa di informazione disponibile, e le risposte alle domande degli umani espresse in forma di “query”. E’ tuttavia impossibile misurare l’efficenza dei motori di ricerca, una risorsa non menzionata tra le pagine dei risultati di una certa ricerca, è destinata a rimanere per sempre ignota così come quei documenti che seppure presenti si trovano nelle pagine successive alla terza o la quarta.

FUNZIONAMENTO DEI MOTORI DI RICERCA

Componenti tipici di un search engine generalista:

- crawlers (o spiders): sono agenti software che vengono inviati dai motori di ricerca ad esplorare il web, il loro funzionamento consiste nel visitare le pagine di cui possiedono l’Url e spostarsi da una pagina all’altra seguendo i link che trovano sulla loro strada. possono entrare nelle pagine solo usando l’accesso fornitogli da altre pagine attraverso gli “inbound links” , quindi frequentano le porzioni di web meglio connesse tra di loro. - page repository (o sistema di indicizzazione): una volta acquisiti i contenuti, i crawlers le riversano nel repository, il deposito delle informazioni dei motori di ricerca, dove sono contenuti tutti i dati delle pagine indicizzate (grazie alla copia cache che i crawlers deposita) che possono poi essere associate alle parole chiavi dell’utente. Si genera così l’indice inverso: l’indice costruito inizialmente viene invertito (per essere utile agli utenti) associando ad ogni parola la lista delle url nella quale essa è contenuta. Negli ultimi anni i principali motori di ricerca hanno iniziato ad utilizzare le “query suggestions”, ovvero il suggerimento della prosecuzione di una query (sequenza di parole che l’utente usa per interrogare il motore, generalmente due o tre parole chiavi che concettualizzano la ricerca). Questo fenomeno è il tentativo di riorganizzare la ricerca dell’utente sulla base dell’esperienza del motore. Inoltre il motore orienta anche il modo in cui sono formulate le domande, decidendo quindi quale sarà la nostra comprensione sull’argomento ricercato. - algoritmo di ranking (o sistema di risposta): L’idea alla base di questo algoritmo per l’attribuzione del rango è lo sfruttamento delle interconnessioni tra pagine web, dove l’autorevolezza di una pagina si costruisce in relazione ai link che puntano a quella pagina; più una pagina riceve link da altre pagine, più essa sarà autorevole, per questo la nozione di autorevolezza è definita come una nozione ricorsiva: più una pagina riceve link da pagine autorevoli, più sarà autorevole. Il successo degli algoritmi avviene dopo che si è ampliata la rete negli anni ’90 del 900, avendo influenza sull’organizzazione del web per raggiungere la visibilità sugli strumenti diffusi per la ricerca. Page Rank è l’algoritmo di ranking appartenente a Google ed è efficace per la ricerca di qualcosa di accessibile online, mentre insoddisfacente se non si è sicuri di cosa si è in cerca. Esiste un sistema per la ridondanza dei dati che consente di avere diverse copie degli stessi sparse nei diversi siti dove risiedono i centri di calcolo del motore. Vale la pena notare che le tecniche di information retrieval sono derivate dall’ambito di ricerca dei database (archivio di dati strutturato in modo da razionalizzare la gestione e l'aggiornamento delle informazioni ).

PROBLEMI DEI MOTORI DI RICERCA Se l’informazione che cerchiamo è poco nota, è molto più difficile ottenere il risultato desiderato. Non è possibile sapere il grado di rilevanza di quello che abbiamo trovato rispetto ai nostri desideri. Esistono delle tecniche per scalare le prime posizioni nei risultati degli algoritmi di ranking, inoltre vi sono delle agenzie che reclamano il miglioramento della visibilità delle pagine web : search engine optimizers (SEO). L’attività di promozione delle informazioni sul web si muove in due grandi aree di intervento: TECNICHE DI HIDING che si limitano a nascondere dall’occhio dell’utente le tecniche adottate per migliorare la rilevanza di un certo oggetto web, si

diffuso per i calcoli matematici, risolve ogni tipo di equazione e organizza tutte le informazioni accessibili tramite fonti ufficiali in fisica, chimica e matematica. Diversamente da altri prodotti simili, non condivide i dati con la collettività, né chiede aiuto agli utenti. Un’altra area interessante è quella del cosiddetto “invisibile web”, in relazione al fatto che i motori possono entrare solo in una parte delle pagine presente del web, esistono strumenti che si propongono di superare questa difficoltà:

Deepdyve: Si autodefinisce un motore per la ricerca. Combina un accesso alle banche dati di riviste scientifiche sia collettive che private, con l’organizzazione di altre fonti più comuni. Adottando la tecnologia della mappatura del genoma, le sue ricerche vengono fatte archiviando parole e addirittura frasi complete, o parti di esse e pesandone l’importanza nel discorso. Si aggiunge a questi strumenti anche quelli che rispondono a domande attraverso una comunità di esperti tra i quali
Yahoo! con il maggiore successo
Chacha costituito da un gruppo di esperti che rispondono via sms alle richieste degli utenti
Aardwark che offre di contattare in pochi minuti almeno 6 esperti che forniscono al minimo 2 risposte al quesito Un discoro a parte và per lo strumento di archiviazione del web che si propone come vera e propria biblioteca del web, in grado di archiviare tutte le pagine che sono state attive in passato. La Wayback Machine consente di inserire Url attualmente non più accessibili ed essere rimandati alla pagina che prima corrispondeva a quell’indirizzo. Questo consente di sottolineare il problema del passato nel web: la rete sembra vivere in un eterno presente bruciante che sminuzza ogni riferimento temporale appiattendo come se in quel contesto non esistesse la dimensione della temporalità.
Librarians’ Internet Index: dove è possibile esplorare per categorie le risorse più qualificate e affidabili presenti in rete
Infomine: biblioteca virtuale di risorse digitali
The Internet Movie Database: per un’approfondita descrizione di tutti i dettagli di un film e fiction televisive Non ultimo, oltre a quelli connessi al web vi sono alcuni meccanismi di ricerca molto diversi: quelli impiegati nelle Peer2Peer per il diffuso servizio di filesharing, cioè la condivisione collettiva e gratuita di contenuti anche protetti da copyright.

RUOLO SOCIALE DEI MOTORI DI RICERCA Quattro sono le sfide cruciali dell’età di informazione identificati da Richard Mason in un articolo del 1986, al cuore delle quali ci sono i motori di ricerca:

Privacy: riguarda quali informazioni le persone sono disposte o costrette a divulgare al proprio riguardo e quali vogliono e possono conservare per sé.
Accuratezza: implica la valutazione delle risorse e la determinazione delle responsabilità nel caso dell’errore.
Proprietà: riguarda chi detiene il diritto sulle informazioni, chi può rivendicarne l’autorialità e come e in che misura esse si possano diffondere gratuitamente o a pagamento.

Accessibilità: non solo nel senso del digital divide, ma più in generale come la determinazione delle condizioni e dei soggetti che sono in grado di acquisire le informazioni ed eventualmente servirsene. La protezione della privacy in rete è un tema difficilmente sottovalutabile, il rapporto tra privacy e controllo pubblico dei comportamenti pericolosi socialmente è complicato da sempre. I motori di ricerca non sono l’unico strumento che permette di controllare le attività degli utenti, lo possono fare anche i PROVIDER e molti altri agenti web. Si tratta di tenere traccia dei comportamenti dei loro utenti, registrando il “clickstream” (scia di informazioni che lasciamo navigando). Google protegge con una coltre di segretezza maniacale tutti gli eventi significativi che avvengono all’interno dei propri server. Un problema di privacy legato direttamente ai motori è rappresentato dalla pratica di cercare attraverso di loro informazioni sulle persone, per questo sono nati i Reputation Defender che si preoccupano di eliminare o surclassare le informazioni negative sui motori facendo comparire solo quelle che non danneggiano le immagini dei clienti.

Appare quindi, che l’obbiettivo più ambizioso dei motori di ricerca, sia quello di trasformarsi nell’archivio del web, chi costruisce l’archivio determina l’interpretazione delle informazioni e stabilisce quello che si può trovare e quello che resta nascosto e sepolto. Rappresenta l’orizzonte di senso che determina la possibilità della conoscenza di eventi, idee o persone.

Il Paradosso della Ricerca: Motori di Ricerca e l'Evoluzione del Web, Appunti di Epistemologia

Documenti correlati

Anteprima parziale del testo

Scarica Il Paradosso della Ricerca: Motori di Ricerca e l'Evoluzione del Web e più Appunti in PDF di Epistemologia solo su Docsity!

CAPITOLO 4

IL PARADOSSO DELLA RICERCA

FUNZIONAMENTO DEI MOTORI DI RICERCA