viernes, 26 de abril de 2013

Acceso a la información. La recuperación

En la entrada anterior hablamos de los búsqueda de información y en esta entrada profundizaremos más hablando de la recuperación de la información.

Como nos define la wikipedia, la Búsqueda y Recuperación de Información, es la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan documentos, o también la búsqueda en bases de datos relacionales, ya sea a través de internet, intranet, y su  objetivo es realizar la recuperación en textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante.

La recuperación de información cubre tantas disciplinas que eso ocasiona generalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las disciplinas que se ocupan de estos estudios son la psicología cognitiva, la arquitectura de la información, diseño de la información, inteligencia artificial, biblioteconomía,...

Para alcanzar su objetivo de recuperación se sustenta en los sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos para determinar criterio de búsqueda, la relevancia y pertinencia de los términos, en conjunto con la informática.

Cuando un usuario precisa una información, recurre a un buscador y se formula una consulta aproximada en lenguaje natural en la interfaz del buscador, el buscador procesa esta consulta en varios pasos.

En primer lugar realiza una recuperación y tratamiento de los contenidos, extrae el código fuente completo y descompone todas las estructuras HTML, de cada texto. Después procede a la eliminación del código HTML residual dentro del texto, una vez que el texto queda limpio, se procede a la tokenización y depuración del mismo, este proceso es conocido como normalización y consiste en eliminar caracteres de acentuación  sustitución de caracteres especiales, transliteraciones, hasta su transcripción básica normalizada. Dentro de esta depuración se procede a la eliminación de palabras vacías  esto consiste en eliminar palabras que su aparición en texto es tan elevada que su significación es casi nula, cada idioma tiene unas palabras vacías determinadas. Otras eliminaciones es la de verbos y adverbios comunes y la reducción morfológica de las palabras. 

Una vez pasado el proceso de reducción, se realiza un análisis de frecuencia, ley de zipf, se agrupan términos.

Se aplica seguidamente la técnica de cortes de Luhn, que consiste en la quita de términos con frecuencias muy altas y muy bajas y se calcula el punto de transición para el corte, dividiendo los términos en dos, los términos con frecuencias de aparición altas(Cut-On), las cuales tienen un menor poder resolutivo y de recuperación y los términos con frecuencias de aparición bajas (Cut-Off), con un mayor poder resolutivo y de recuperación, extrayendo los términos con frecuencias medias.

Una vez llevada a cabo la técnica de cortes de Luhn, se pondera los términos del texto, mediante el cálculo de la representatividad de un término respecto al documento (TF) y el cálculo de la capacidad discriminatoria del término para identificar el documento (IDF). El peso del termino se determina calculando TF por IDF.

Cuando tenemos calculado el peso de los términos, se elabora un fichero con los términos y sus pesos calculados en cada documento o página web analizada, conocido este proceso como vectorización. Y se comprueba la similaridad documental, para comprobar la similaridad disponemos de varias fórmulas, como son el producto escalar, coeficiente de Dice, coeficiente del coseno o correlación de Pearson,... Con esto calculamos un valor discriminatorio, de lo cual obtenemos una clasificación automática, la cual puede ser supervisada o no supervisada.

Después del tratamiento de recuperación y tratamiento de los contenidos, llegamos al almacenamiento, una vez que el texto ha sido depurado lo almacenamos en bases de datos, las cuales general un fichero inverso, los cuales son unas tablas con campos de indexación, las consultas son realizadas a texto completo.

Cuando se procesa la consulta, se le aplica un modelo de recuperación determinado, estos modelos se buscan en los ficheros invertidos, las técnicas de búsqueda son muy variadas, las más interesantes en mi opinión son las que utilizan inteligencia artificial como es el caso de las redes neuronales o lógica difusa, de esta forma extraen la información que más se asemeja a la búsqueda que el usuario nos ha pedido.

Una vez que tenemos la información  el siguiente paso es como representar la información puede ser mostrada mediante una lista de resultados, la cual puede ser un ranking o una ordenación alfabética, temática,..., por otro lado tendremos que tener en cuenta cantidad de documentos que mostraremos y la visualización de los campos, la forma en la que agruparemos los resultados y exportación de resultados.

Estos resultados son mostrados al usuario y este puede aportar a este proceso una evaluación  comprobando la página que ha consultado, cuales ha consultado durante más tiempo, si las ha calificado,... Con esto creamos un nuevo estado de la cuestión en el conocimiento del usuario.

No hay comentarios:

Publicar un comentario