Como nos define la wikipedia, la Búsqueda y Recuperación de Información, es la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan documentos, o también la búsqueda en bases de datos relacionales, ya sea a través de internet, intranet, y su objetivo es realizar la recuperación en textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante.

Para alcanzar su objetivo de recuperación se sustenta en los sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos para determinar criterio de búsqueda, la relevancia y pertinencia de los términos, en conjunto con la informática.
Cuando un usuario precisa una información, recurre a un buscador y se formula una consulta aproximada en lenguaje natural en la interfaz del buscador, el buscador procesa esta consulta en varios pasos.

Una vez pasado el proceso de reducción, se realiza un análisis de frecuencia, ley de zipf, se agrupan términos.
Se aplica seguidamente la técnica de cortes de Luhn, que consiste en la quita de términos con frecuencias muy altas y muy bajas y se calcula el punto de transición para el corte, dividiendo los términos en dos, los términos con frecuencias de aparición altas(Cut-On), las cuales tienen un menor poder resolutivo y de recuperación y los términos con frecuencias de aparición bajas (Cut-Off), con un mayor poder resolutivo y de recuperación, extrayendo los términos con frecuencias medias.
Una vez llevada a cabo la técnica de cortes de Luhn, se pondera los términos del texto, mediante el cálculo de la representatividad de un término respecto al documento (TF) y el cálculo de la capacidad discriminatoria del término para identificar el documento (IDF). El peso del termino se determina calculando TF por IDF.
Cuando tenemos calculado el peso de los términos, se elabora un fichero con los términos y sus pesos calculados en cada documento o página web analizada, conocido este proceso como vectorización. Y se comprueba la similaridad documental, para comprobar la similaridad disponemos de varias fórmulas, como son el producto escalar, coeficiente de Dice, coeficiente del coseno o correlación de Pearson,... Con esto calculamos un valor discriminatorio, de lo cual obtenemos una clasificación automática, la cual puede ser supervisada o no supervisada.
Después del tratamiento de recuperación y tratamiento de los contenidos, llegamos al almacenamiento, una vez que el texto ha sido depurado lo almacenamos en bases de datos, las cuales general un fichero inverso, los cuales son unas tablas con campos de indexación, las consultas son realizadas a texto completo.

Una vez que tenemos la información el siguiente paso es como representar la información puede ser mostrada mediante una lista de resultados, la cual puede ser un ranking o una ordenación alfabética, temática,..., por otro lado tendremos que tener en cuenta cantidad de documentos que mostraremos y la visualización de los campos, la forma en la que agruparemos los resultados y exportación de resultados.
Estos resultados son mostrados al usuario y este puede aportar a este proceso una evaluación comprobando la página que ha consultado, cuales ha consultado durante más tiempo, si las ha calificado,... Con esto creamos un nuevo estado de la cuestión en el conocimiento del usuario.
No hay comentarios:
Publicar un comentario