Búsqueda y Gestión de la Información por Jorge Mateo: abril 2013

En la entrada anterior hablamos de los búsqueda de información y en esta entrada profundizaremos más hablando de la recuperación de la información.

Como nos define la wikipedia, la Búsqueda y Recuperación de Información, es la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan documentos, o también la búsqueda en bases de datos relacionales, ya sea a través de internet, intranet, y su objetivo es realizar la recuperación en textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante.

La recuperación de información cubre tantas disciplinas que eso ocasiona generalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las disciplinas que se ocupan de estos estudios son la psicología cognitiva, la arquitectura de la información, diseño de la información, inteligencia artificial, biblioteconomía,...

Para alcanzar su objetivo de recuperación se sustenta en los sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos para determinar criterio de búsqueda, la relevancia y pertinencia de los términos, en conjunto con la informática.

Cuando un usuario precisa una información, recurre a un buscador y se formula una consulta aproximada en lenguaje natural en la interfaz del buscador, el buscador procesa esta consulta en varios pasos.

En primer lugar realiza una recuperación y tratamiento de los contenidos, extrae el código fuente completo y descompone todas las estructuras HTML, de cada texto. Después procede a la eliminación del código HTML residual dentro del texto, una vez que el texto queda limpio, se procede a la tokenización y depuración del mismo, este proceso es conocido como normalización y consiste en eliminar caracteres de acentuación sustitución de caracteres especiales, transliteraciones, hasta su transcripción básica normalizada. Dentro de esta depuración se procede a la eliminación de palabras vacías esto consiste en eliminar palabras que su aparición en texto es tan elevada que su significación es casi nula, cada idioma tiene unas palabras vacías determinadas. Otras eliminaciones es la de verbos y adverbios comunes y la reducción morfológica de las palabras.

Una vez pasado el proceso de reducción, se realiza un análisis de frecuencia, ley de zipf, se agrupan términos.

Se aplica seguidamente la técnica de cortes de Luhn, que consiste en la quita de términos con frecuencias muy altas y muy bajas y se calcula el punto de transición para el corte, dividiendo los términos en dos, los términos con frecuencias de aparición altas(Cut-On), las cuales tienen un menor poder resolutivo y de recuperación y los términos con frecuencias de aparición bajas (Cut-Off), con un mayor poder resolutivo y de recuperación, extrayendo los términos con frecuencias medias.

Una vez llevada a cabo la técnica de cortes de Luhn, se pondera los términos del texto, mediante el cálculo de la representatividad de un término respecto al documento (TF) y el cálculo de la capacidad discriminatoria del término para identificar el documento (IDF). El peso del termino se determina calculando TF por IDF.

Cuando tenemos calculado el peso de los términos, se elabora un fichero con los términos y sus pesos calculados en cada documento o página web analizada, conocido este proceso como vectorización. Y se comprueba la similaridad documental, para comprobar la similaridad disponemos de varias fórmulas, como son el producto escalar, coeficiente de Dice, coeficiente del coseno o correlación de Pearson,... Con esto calculamos un valor discriminatorio, de lo cual obtenemos una clasificación automática, la cual puede ser supervisada o no supervisada.

Después del tratamiento de recuperación y tratamiento de los contenidos, llegamos al almacenamiento, una vez que el texto ha sido depurado lo almacenamos en bases de datos, las cuales general un fichero inverso, los cuales son unas tablas con campos de indexación, las consultas son realizadas a texto completo.

Cuando se procesa la consulta, se le aplica un modelo de recuperación determinado, estos modelos se buscan en los ficheros invertidos, las técnicas de búsqueda son muy variadas, las más interesantes en mi opinión son las que utilizan inteligencia artificial como es el caso de las redes neuronales o lógica difusa, de esta forma extraen la información que más se asemeja a la búsqueda que el usuario nos ha pedido.

Una vez que tenemos la información el siguiente paso es como representar la información puede ser mostrada mediante una lista de resultados, la cual puede ser un ranking o una ordenación alfabética, temática,..., por otro lado tendremos que tener en cuenta cantidad de documentos que mostraremos y la visualización de los campos, la forma en la que agruparemos los resultados y exportación de resultados.

Estos resultados son mostrados al usuario y este puede aportar a este proceso una evaluación comprobando la página que ha consultado, cuales ha consultado durante más tiempo, si las ha calificado,... Con esto creamos un nuevo estado de la cuestión en el conocimiento del usuario.

A lo largo de este Blog, hemos creado entradas relacionadas con la información como la definición de que es la información, los lenguajes de programación y como gestionamos y guardamos todo esta información. Pues esta entrada la vamos a dedicar a la búsqueda de la información y más en concreto a los buscadores de Internet.

La definición de buscador es sencilla, es un sistema software que busca en servidores web, y estas búsquedas son realizadas a partir de palabras claves que los usuarios indican.

En Internet encontramos una gran gama de buscadores, algunos de los más conocidos, son Google, Yahoo y Bing entre los 3 engloban aproximadamente el 95% de las búsquedas que se hacen a través de Internet, otros buscadores como Terra, Altavista, Ask, MSN , entre otros, comparten tecnología bases de datos y resultados en general con Google,Yahoo y Bing.

Google, es un Buscador con robot que indexa páginas en todo Internet, trabaja en multitud de idiomas y abarca todas las temáticas. El algoritmo de búsqueda de Google ha sido siempre un misterio, pero hace poco más de un mes ofreció este vídeo donde explica como funciona.

Nos muestran el camino desde que se introduce una consulta hasta el resultado de esa consulta, indicando la indexación, incluso como se elimina el spam, todo esto de forma automática.

El motor de búsqueda recoge más de 30 millones de millones de páginas, maneja alrededor de 100 millones de Gb, recibe unos 100.000 millones de búsquedas mensuales y aumentando. Calcular y colocar este material se produce a través del "crawling", que recorre las distintas páginas. Los propietarios de las paginas deciden si su contenido puede ser rastreado o no.

Ordenan las páginas en función del contenido y otros factores mediante un conjunto de fórmulas matemáticas que muestran el mejor resultado posible, o eso es lo que intentan.

Yahoo, es el segundo buscador más usado, a bastante distancia de Google, pero se mantiene en el mercado luchando con las nuevas empresas que aparecen, el tercer buscador es Bing, propiedad de Microsoft, Yahoo y Bing se unieron en 2009 para luchar contra Google, aunque de momento no han conseguido hacerle frente.

Os quiero hablar de un buscador poco conocido pero que encontramos cuarto en las calificaciones de los buscadores de 2013,su nombre es Baidu, es de origen chino y se llegó a pensar que podría desbancar a Google, y aún hoy lo sigo creyendo, es considerado el "Google chino", y es que la llegada de este buscador a Europa abre la puerta de muchas empresas europeas a anunciarse y llegar a ojos de más de 1000 millones de chinos los cuales usan este buscador, y no Google el cual solo tienen un porcentaje del 17%.

Para finalizar la entrada decir que los metabuscadores son sistema que localiza información en los motores de búsqueda más usados y no poseen bases de datos propia y, en su lugar, usa las de otros buscadores y muestra una combinación de las mejores páginas que ha devuelto cada uno.

Cierro esta entrada, comentando que una gran parte del éxito de Google no erradica en sus algoritmos, ni en su resultados, aunque claro esta que de no tener unos resultados adecuados la gente no lo usaría, mi opinión es que Google es muy usado debido a su sencilla interfaz gráfica.

¿Que opináis vosotros a cerca del aplastante uso de Google frente a cualquier otro buscador?

Búsqueda y Gestión de la Información por Jorge Mateo

viernes, 26 de abril de 2013

Acceso a la información. La recuperación

martes, 16 de abril de 2013

Los buscadores

Datos personales