Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Motores de Búsqueda: Estructura de Datos y Funcionamiento - Prof. Cifuentes, Apuntes de Cálculo

Estructuras de datos, trabajo final

Tipo: Apuntes

2022/2023

Subido el 26/09/2023

cristian-rojas-39
cristian-rojas-39 🇨🇴

1 documento

1 / 6

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
MOTORES DE BUSQUEDA
POLITECNICO GRANCOLOMBIANO
ESTRUCTURA DE DATOS
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga Motores de Búsqueda: Estructura de Datos y Funcionamiento - Prof. Cifuentes y más Apuntes en PDF de Cálculo solo en Docsity!

MOTORES DE BUSQUEDA

POLITECNICO GRANCOLOMBIANO

ESTRUCTURA DE DATOS

RESUMEN

El objetivo de estudio es conocer un poco mas acerca de los motores de búsqueda y las diferentes estructuras de datos que usan estos, para su funcionalidad. INTRODUCCION En la actualidad cada vez se hace más presente la internet en nuestra vida cotidiana, todo esto debido a que en cierta forma buscamos interactuar en esta, para obtener información, obtener servicios o incluso obtener ingresos a través de esta, todo esto con una rapidez y una facilidad que nos des complica la vida en diversas situaciones. pero se han puesto alguna vez a pensar ¿cómo es que funciona un buscador como GOOGLE o YAHOO, para ofrecernos servicios de manera tan amplia de una forma tan ágil? En esta investigación se hablará un poco acerca de los conceptos de motor de búsqueda y su funcionamiento. METODOLOGIA A través de la recopilación de información de diversas fuentes obtener una información mas concreta y acertada acerca de un tema en especifico como lo son los motores de búsqueda. ¿Qué es un motor de búsqueda? Los motores de búsqueda nacen después de varios años y de varios intentos por organizar la información existente en lo que hoy conocemos como internet. en los inicios de la internet eran muy pocos los usuarios que tenían la oportunidad de publicar o acceder a información en la red, debido a que se necesitaban conocimientos muy técnicos para acceder a dicha información guardada en archivos que se encontraban a su vez guardados en diferentes servidores que no tenían ningún tipo de relación entre si ósea que los archivos se encontraban de una forma desorganizada por así decirlo, lo que llevaba a los usuarios de la red a tener que hacer un trabajo arduo para encontrar la información que buscaban. Todo esto conllevo a que aparecieran servidores más grandes y con más capacidad de información, aunque cuando alguien publicaba nueva información nadie era notificado de esta nueva información existente. esta era una metodología de guardar información prácticamente igual a la que había, y aun seguían existiendo servidores con pequeños repositorios de información aislados, por lo cual tampoco fue muy eficiente a la hora de facilitar el acceso a la información. Archie considerado el primer motor de búsqueda llega en los años 80 con una nueva metodología basada en la indexación de información. Esta funcionaba almacenando información de diferentes archivos que se encontraban en los distintos servidores para luego asignarles un índice. todo esto dependía de las coincidencias encontradas entre las palabras que buscaba el usuario y los nombres de los archivos encontrados en los servidores. Esta metodología mejoro mucho el proceso de búsqueda de información de los usuarios. En 1991 llega la world wide web (www) inicialmente era una metodología usada entre científicos para compartir información por medio de una tecnología llamada hipertexto que funcionaba bajo dos conceptos. El de http (hyper text

  • Zona de introducción de palabras de búsqueda: como su nombre lo dice, es el lugar en el cual el usuario introduce las palabras clave de su búsqueda.
  • Zona de presentación de resultados: como su nombre lo dice, es el sitio donde se van a encontrar todos los resultados de la búsqueda además de una pequeña descripción de la página y su naturaleza, ya sea imagen, texto o video.
  • Zona CPC: es la zona utilizada por los buscadores para obtener ingresos también conocida como la zona de enlaces patrocinados.
  • Zona de filtrado: este contiene diferentes herramientas para que el usuario pueda depurar sus resultados añadiendo condiciones para el filtrado.
  • Zona de navegación vertical: es la zona que permite filtrar la búsqueda por tipo de contenido. Autoridad en internet: es uno de los factores en los que se basan los buscadores para clasificar los resultados y a su vez este está basado en otros factores como el número de enlaces que direccionan hacia un sitio en internet determinado, la autoridad de esos enlaces entrantes, velocidad de carga del sitio web y varios más. En internet se tiene dos tipos de autoridad:
  • Autoridad de página: es una medida que se le da a un sitio en específico por su fiabilidad popularidad como también su calidad.
  • Autoridad de dominio: es un valor único que posee el sitio web por completo. Como nos podemos dar cuenta para que un sitio web este bien posicionado en los diferentes motores de búsqueda es muy importante tener el sitio web actualizado con una buena cantidad de contenido de calidad y la forma en que está redactado, como también el acogimiento de los diferentes usuarios hacia la página web. Es por ello por lo que existe un método llamado SEO, que es el método o abreviatura inglesa (search engine optimization) optimización de motores de búsqueda en español, el cual es un proceso de optimización de información y contenido en el sitio web deseado para aumentar sus visitas y encontrarse en el top de los resultados en las búsquedas, los motores como Google entenderán mas acerca del contenido del sitio web y le darán más visibilidad. ( NIETO y JORDÁN, 2015 ). Este proceso de optimización tiene que ir orientado tanto para los buscadores como para las personas que buscan la información y demás contenido.
  • Optimizar contenido: mejorar experiencias para el usuario y para el motor de búsqueda.
  • Atraer el tráfico orgánico a un sitio web: esto significa atraer visitas que posteriormente depende de lo que se busque puede ser un potencial cliente o un visitante frecuente.
  • Ganar autoridad: al ganar autoridad se puede tener un mejor posicionamiento en resultados de búsquedas.

¿Qué estructura de datos se

usan?

A lo largo de la historia se han

estudiado estructuras de datos para

para motores de búsqueda. La

estructura más relevante es el índice

invertido(index-based) ha sido el

método más eficiente debido a su

velocidad para la evaluación rápida

de consultas.

Algoritmos básicos de ingeniería de

un motor de búsqueda de texto en

memoria.

La figura muestra un posible

esquema para el proceso de

indexación de un motor de

búsqueda de texto basado en índice

invertido. Cada documento

(etiquetado con un identificador de

documento entero) es analizado

primero por el preprocesador. el

preprocesador normaliza el

documento. Elimina todos los

separadores de términos (espacios,

comas, ...), reemplaza los símbolos

no alfanuméricos y unifica los

caracteres en mayúsculas y

minúsculas. El preprocesador

también puede utilizar otros análisis

como, por ejemplo, análisis

lingüístico, extracción. Pero, en

cualquier caso, devuelve una lista

de términos individuales que están

en el documento. Luego, el

diccionario asigna un identificador

entero único a cada uno de ellos. En

el índice invertido, hay para cada

Id. in término y una lista invertida

de Id. de documentos que muestra

en qué documentos aparece el

término. Cuando una consulta tiene

que ser resuelta, se procesa de la

misma manera, lo que da como

resultado una secuencia de consulta

de identificadores de términos.

Dichos índices a nivel de

documento pueden responder

consultas de términos desacoplados.

Pero localizar frases en uno o más

documentos necesita información

posicional adicional. Más

precisamente, se requiere conocer

las posiciones donde cada término

está en cada documento. Estas

posiciones generalmente se

almacenan en el lugar después de

cada ID de documento en una lista

invertida, o en una estructura

separada.

Almacenamiento de índice

invertido. Como se mencionó