Búsqueda y Gestión de la Información por Jorge Mateo: 2013

sábado, 11 de mayo de 2013

Organización de la Información: Sistemas de Información

La información ha sido el tema principal de todas las entradas de este Blog, desde su significado a como almacenarla, pasando por cómo recuperar la información o buscarla. Esta entrada es la última que haremos de la información y quizás sea la entrada más importante, porque para que queremos toda esta información sino es para tomar decisiones con ellas, por eso, en esta entrada vamos a hablar de las tomas de decisiones.

Encontramos herramientas de software dedicadas a ayudar en la toma de decisiones se desarrollan bajo la denominación global de Sistemas para la ayuda a la decisión, dentro del ámbito conocido como Toma de Decisiones.

Toma decisiones lo definiremos como el proceso en el cual una persona o grupo de persona tiene que elegir entre dos o más opciones, la toma de decisiones se divide en cinco etapas, ilustradas en la imagen de la derecha.

Cuando hablamos de toma de decisiones en una empresa encontraremos por lo general una jerarquía que determina el tipo de decisiones que se van a tomar. Una jerarquía muy común es la siguiente:

Nivel estratégico: Planificación general de la empresa.
Nivel táctico.- Planificación de los subsistemas empresariales.
Nivel operativo.- Desarrollo de operaciones rutinarias.

Es reseñable decir que la toma de decisiones en empresas deben tener ciertas características como son: ser rápida, oportuna, basada en información concreta, que permita tomar decisiones eficientes, efectivas y con un bajo costo para la empresa; pues de ello dependerá el éxito o fracaso de una organización.

La dificultades y la gran cantidad de información que tenían que manejar los ejecutivos para tomar decisiones, hizo necesario crear unas herramientas software destinado para esto, como es el caso de los DSS (decision support systems), aparecieron distintos sistemas basados en DSS, pero que tenían alguna característica como era es el caso De los GDSS, para toma de decisiones en grupo o los EIS, para ejecutivos y los EDSS, sistemas expertos en la toma de decisiones.

Pero quizás el concepto más importante de esta entrada sea el Business Intelligence, este concepto aparece en las grandes empresas debido a que las herramientas de toma de decisiones no daban ese matiz humano a los datos a la hora de interpretarlos, y por eso las empresas deciden contratar personal, incluso crear departamentos dentro de la empresa dedicados al tratamiento de la información, tanto de manejara como de la seguridad.

Los principales componentes de orígenes de datos en el Business Intelligence que existen en la actualidad son:

Datamart
Datawarehouse

Cuando tenemos las fuentes de datos de la organización, el ETL se encarga de la extracción, la transformación y carga de datos unificando los datos, dándolos un formato único y aparecen las bases datos datawarehouse, que es formado por el conjunto de datamart, que son bases de datos departamentales especializadas, y de aquí surgen los distintos informes, los datos del data warehouse son leídos por algún DSS que trasmite la información, esta información es mostrada en

los cuadros de mandos, los cuales son usados por los encargados de tomar las decisiones, para que la toma de decisión sea apropiada y lo más rápida posible, ya que como hemos dicho anteriormente de esto depende el éxito o fracaso de una organización.

En la actualidad, las funciones de Business Intelligence estan creciendo, y se van añadiendo nuevas funcionalidades o mejorando otras, como es el caso de la empresa Dell con la herramienta Toad Business Intelligence Suite, la cual permite a las empresas acceder fácilmente y extraer información importante de las fuentes de datos tradicionales y no tradicionales, esta disponibles desde principios de mayo con un precio base de 9,995 dólares para cinco usuarios. Una empresa conocida que ofrece servicios de BI, es Oracle.

viernes, 26 de abril de 2013

Acceso a la información. La recuperación

En la entrada anterior hablamos de los búsqueda de información y en esta entrada profundizaremos más hablando de la recuperación de la información.

Como nos define la wikipedia, la Búsqueda y Recuperación de Información, es la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan documentos, o también la búsqueda en bases de datos relacionales, ya sea a través de internet, intranet, y su objetivo es realizar la recuperación en textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante.

La recuperación de información cubre tantas disciplinas que eso ocasiona generalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las disciplinas que se ocupan de estos estudios son la psicología cognitiva, la arquitectura de la información, diseño de la información, inteligencia artificial, biblioteconomía,...

Para alcanzar su objetivo de recuperación se sustenta en los sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos para determinar criterio de búsqueda, la relevancia y pertinencia de los términos, en conjunto con la informática.

Cuando un usuario precisa una información, recurre a un buscador y se formula una consulta aproximada en lenguaje natural en la interfaz del buscador, el buscador procesa esta consulta en varios pasos.

En primer lugar realiza una recuperación y tratamiento de los contenidos, extrae el código fuente completo y descompone todas las estructuras HTML, de cada texto. Después procede a la eliminación del código HTML residual dentro del texto, una vez que el texto queda limpio, se procede a la tokenización y depuración del mismo, este proceso es conocido como normalización y consiste en eliminar caracteres de acentuación sustitución de caracteres especiales, transliteraciones, hasta su transcripción básica normalizada. Dentro de esta depuración se procede a la eliminación de palabras vacías esto consiste en eliminar palabras que su aparición en texto es tan elevada que su significación es casi nula, cada idioma tiene unas palabras vacías determinadas. Otras eliminaciones es la de verbos y adverbios comunes y la reducción morfológica de las palabras.

Una vez pasado el proceso de reducción, se realiza un análisis de frecuencia, ley de zipf, se agrupan términos.

Se aplica seguidamente la técnica de cortes de Luhn, que consiste en la quita de términos con frecuencias muy altas y muy bajas y se calcula el punto de transición para el corte, dividiendo los términos en dos, los términos con frecuencias de aparición altas(Cut-On), las cuales tienen un menor poder resolutivo y de recuperación y los términos con frecuencias de aparición bajas (Cut-Off), con un mayor poder resolutivo y de recuperación, extrayendo los términos con frecuencias medias.

Una vez llevada a cabo la técnica de cortes de Luhn, se pondera los términos del texto, mediante el cálculo de la representatividad de un término respecto al documento (TF) y el cálculo de la capacidad discriminatoria del término para identificar el documento (IDF). El peso del termino se determina calculando TF por IDF.

Cuando tenemos calculado el peso de los términos, se elabora un fichero con los términos y sus pesos calculados en cada documento o página web analizada, conocido este proceso como vectorización. Y se comprueba la similaridad documental, para comprobar la similaridad disponemos de varias fórmulas, como son el producto escalar, coeficiente de Dice, coeficiente del coseno o correlación de Pearson,... Con esto calculamos un valor discriminatorio, de lo cual obtenemos una clasificación automática, la cual puede ser supervisada o no supervisada.

Después del tratamiento de recuperación y tratamiento de los contenidos, llegamos al almacenamiento, una vez que el texto ha sido depurado lo almacenamos en bases de datos, las cuales general un fichero inverso, los cuales son unas tablas con campos de indexación, las consultas son realizadas a texto completo.

Cuando se procesa la consulta, se le aplica un modelo de recuperación determinado, estos modelos se buscan en los ficheros invertidos, las técnicas de búsqueda son muy variadas, las más interesantes en mi opinión son las que utilizan inteligencia artificial como es el caso de las redes neuronales o lógica difusa, de esta forma extraen la información que más se asemeja a la búsqueda que el usuario nos ha pedido.

Una vez que tenemos la información el siguiente paso es como representar la información puede ser mostrada mediante una lista de resultados, la cual puede ser un ranking o una ordenación alfabética, temática,..., por otro lado tendremos que tener en cuenta cantidad de documentos que mostraremos y la visualización de los campos, la forma en la que agruparemos los resultados y exportación de resultados.

Estos resultados son mostrados al usuario y este puede aportar a este proceso una evaluación comprobando la página que ha consultado, cuales ha consultado durante más tiempo, si las ha calificado,... Con esto creamos un nuevo estado de la cuestión en el conocimiento del usuario.

martes, 16 de abril de 2013

Los buscadores

A lo largo de este Blog, hemos creado entradas relacionadas con la información como la definición de que es la información, los lenguajes de programación y como gestionamos y guardamos todo esta información. Pues esta entrada la vamos a dedicar a la búsqueda de la información y más en concreto a los buscadores de Internet.

La definición de buscador es sencilla, es un sistema software que busca en servidores web, y estas búsquedas son realizadas a partir de palabras claves que los usuarios indican.

En Internet encontramos una gran gama de buscadores, algunos de los más conocidos, son Google, Yahoo y Bing entre los 3 engloban aproximadamente el 95% de las búsquedas que se hacen a través de Internet, otros buscadores como Terra, Altavista, Ask, MSN , entre otros, comparten tecnología bases de datos y resultados en general con Google,Yahoo y Bing.

Google, es un Buscador con robot que indexa páginas en todo Internet, trabaja en multitud de idiomas y abarca todas las temáticas. El algoritmo de búsqueda de Google ha sido siempre un misterio, pero hace poco más de un mes ofreció este vídeo donde explica como funciona.

Nos muestran el camino desde que se introduce una consulta hasta el resultado de esa consulta, indicando la indexación, incluso como se elimina el spam, todo esto de forma automática.

El motor de búsqueda recoge más de 30 millones de millones de páginas, maneja alrededor de 100 millones de Gb, recibe unos 100.000 millones de búsquedas mensuales y aumentando. Calcular y colocar este material se produce a través del "crawling", que recorre las distintas páginas. Los propietarios de las paginas deciden si su contenido puede ser rastreado o no.

Ordenan las páginas en función del contenido y otros factores mediante un conjunto de fórmulas matemáticas que muestran el mejor resultado posible, o eso es lo que intentan.

Yahoo, es el segundo buscador más usado, a bastante distancia de Google, pero se mantiene en el mercado luchando con las nuevas empresas que aparecen, el tercer buscador es Bing, propiedad de Microsoft, Yahoo y Bing se unieron en 2009 para luchar contra Google, aunque de momento no han conseguido hacerle frente.

Os quiero hablar de un buscador poco conocido pero que encontramos cuarto en las calificaciones de los buscadores de 2013,su nombre es Baidu, es de origen chino y se llegó a pensar que podría desbancar a Google, y aún hoy lo sigo creyendo, es considerado el "Google chino", y es que la llegada de este buscador a Europa abre la puerta de muchas empresas europeas a anunciarse y llegar a ojos de más de 1000 millones de chinos los cuales usan este buscador, y no Google el cual solo tienen un porcentaje del 17%.

Para finalizar la entrada decir que los metabuscadores son sistema que localiza información en los motores de búsqueda más usados y no poseen bases de datos propia y, en su lugar, usa las de otros buscadores y muestra una combinación de las mejores páginas que ha devuelto cada uno.

Cierro esta entrada, comentando que una gran parte del éxito de Google no erradica en sus algoritmos, ni en su resultados, aunque claro esta que de no tener unos resultados adecuados la gente no lo usaría, mi opinión es que Google es muy usado debido a su sencilla interfaz gráfica.

¿Que opináis vosotros a cerca del aplastante uso de Google frente a cualquier otro buscador?

jueves, 21 de marzo de 2013

Los sistemas de almacenamiento

En esta entrada hablaremos de los sistemas de almacenamiento, ya hemos hablado de la información ahora veremos cómo almacenarla.

Algunos de los sistemas de almacenamiento más destacados son los discos duros, son sistemas que almacenan información y aunque el sistema se apague esos datos no se pierden, tienen gran capacidad. Al contrario que las memorias RAM que tienen una mayor velocidad pero son volátiles, una vez que apagamos el equipo perdemos esa información. Ambos sistemas de almacenamiento han aumentado sus capacidades los discos duros, actualmente los más comunes son los de 500 Gb y 1 Tb, mientras que las memorias RAM suelen ser de 4Gb. Entorno al año 2005 sus capacidades eran de 80 Gb y 512 Mb. La necesidad de crear sistemas con más capacidad, no es debido a un aumento de la información solamente, sino también a una mejor resolución de fotos, vídeos,...

Otros sistemas de almacenamiento son las memorias USB, estas memorias son muy útiles debido a su tamaño reducido y a que pueden ser grabadas y leídas tantas veces como deseemos.

Los sistemas de almacenamiento de los que he hablado hasta ahora son físicos pero en la actualidad lo físico está dando paso a lo virtual, y es un claro ejemplo el tema de los SSD, discos duros de estado sólido, es decir, discos duros muy rápido en cuanto a velocidad de escritura y sobre todo de lectura, pero de capacidades cada vez más pequeña y esto es debido a la aparición de Internet, o mejor dicho a la nube en Internet conocido en inglés como Cloud, cada vez tenemos almacenada más información en Internet y menos en un dispositivo físico, esto nos facilita el acceso a nuestros archivos desde cualquier equipo, y nos ahorra costes en memorias físicas ni la necesidad de tener que portar un dispositivo, el cual puede extraviarse o estropearse, además de tener un precio mayor.

Algunos empresas que ofrecen este servicio, su capacidad y características según la página soxialmedia.com en Mayo de 2012 son las siguientes:

Pero esto también tiene algunos inconvenientes como es la necesidad de tener acceso a Internet para poder ver los datos o un problema de seguridad, a la hora de saber que pueden hacer con esos datos. Una empresa alguno de sus informes no se atreverán a colgarlos en la nube ya que el ataque a ese servidor pondría en manos no autorizadas dichos archivos. En el acceso a Internet es un inconveniente menor ya que cada vez contamos con una mayor cobertura de Internet, pero la velocidad es importante considerarlo a la hora de tener que subir o descargar ficheros.

Los ataque a través de Internet es un tema serio a tratar, ya que a medida de que la seguridad avanza, vemos cómo avanza también el poder de los ataques, Opina ¿Algún día Internet será seguro al 100%, y los usuarios podrán utilizarlo como un sistema de almacenamiento fiable?

¿Y cómo organizamos toda esta información que generamos y que queremos tener acceso? Pues para ordenar estas grandes cantidades de información se crean las bases de datos, esto nos sirve para tener acceso a los datos de una forma organizada y rápida y que lleva sirviendo a las corporaciones muchos años para tener una organización dentro de ella.

Las bases de datos de la actualidad son complejas, pero con interfaces muy sencillas para los usuarios.

En una base de datos almacenamos información muy importante, por tanto el impedir acceso no autorizados, es algo imprescindible, tanto para impedir acceso de fuera de una corporación como internamente, para mejor esto y hacer más robustas, fiables y tener menos redundancia se crea los SGBD (Sistemas Gestores de Bases de Datos). Entre las grandes distribuidores de SGBD encontramos a Oracle y SQL, software propietario y libre respectivamente.

viernes, 8 de marzo de 2013

Los 5 lenguajes más actuales

Desde que a finales de la década de los 40 a Von Neumman se le ocurrió la idea de crear una máquina que solo entendía 0 y 1, como las actuales, los humanos hemos tratado de comunicarnos con ellas, primero creando el lenguaje máquina, en 0 y 1, y después cada vez buscando un lenguaje más parecido al nuestro, lo que llamamos lenguajes de alto nivel. La máquina los entiende porque son traducidos mediante intérpretes o compiladores.

Se siguen creando lenguajes nuevos que tienen como objetivo comunicarse cada vez de forma más sencilla con la máquina, esto se está consiguiendo, pero cada vez los pasos son mas pequeños, porque mientras más nos alejamos del lenguaje máquina, osea de los 0 y 1 (que no olvidemos nunca que es lo único que entiende el ordenador), los programas serán menos eficientes y necesitaremos máquinas más potentes.

Pero dejemos el futuro, en la actualidad son muchos los lenguajes de programación usados, dependiendo del propósito para el que vaya destinado deberemos estudiar el mercado buscando el más recomendable.

Para facilitar el trabajo, hoy hablaré de 5 lenguajes de los más utilizados por la familia informática. Entre ellos encontramos varios consolidados como números uno desde varias décadas, otros que llevan menos en el mercado pero ya son conocidos por todos, como es Java, y os hablaré de uno que según algunos ranking ha ascendido desde la posición 24 a la 12 en tan solo meses, y por ese gran boom me parece interesante comentarles ¿Sabéis ya de cual habló?.

Empezaré hablando por el líder del sector durante dos décadas, el Lenguaje C. Es un lenguaje de programación estructurado de propósito general, es considerado de medio nivel; se caracteriza por su velocidad de ejecución y robustez. El llevar tantos años en uso, conlleva a que haya gran cantidad de programas ya realizados en C, de esta forma podemos encontrar gran cantidad de librerías contrastadas.

Tras la creación del lenguaje C, y viendo la fama cosechada, se crea el lenguaje C++, este lenguaje se considera un lenguaje multiparadigma (programación estructurada y programación orientada a objetos).

C++ no es considerado el mejor lenguaje para programación orientada a objetos, pero es muy usado por permitir objetos y además programación estructurada.

Java, a diferencia de C++ si es un lenguaje puramente orientado a objetos. Se fijó mucho en otros lenguajes como C++ para hacerlo más fácil de usar y coger lo mejor de otros lenguajes. Su principal característica es ser multiplataforma, es decir, compatible para una gran cantidad de sistemas operativos, gracias a su máquina virtual Java. Esta máquina también sirve para hacer restricciones a las ejecuciones de programas para que tengan mayor seguridad que otros lenguajes.

El permitir crear applets hace a Java muy útil para páginas web dinámicas.

La gran cantidad de librerías que Sun ofrece al usuario hace que podemos crear una mayor variedad de cosas con este lenguaje.

No puedo dejar de mencionar un lenguaje que fué diseñado para desarrollar páginas web dinámicas como es PHP, es un lenguaje de programación de uso general de código del lado del servidor, que permite el acceso a base de datos. Es un lenguaje muy fácil de aprender para programadores que hayan trabajado con C o algún lenguaje derivado de él, pero uno de sus problemas es ser un lenguaje interpretado y eso lo hace más lento que algunos de sus competidores de bajo nivel, aunque con las máquinas que encontramos en el mercado la diferencia es inapreciable.

Hago un inciso antes de hablar de el ultimo lenguaje. Cuando hablamos de lenguajes más eficientes a otros, muchas veces la diferencia entre uno y otros, son segundo o milisegundos en una aplicación cotidiana, pero que se puede convertir en períodos más largos de tiempo en programas mas robustos.

Para ir acabando la entrada al blog, hablaré de un quinto lenguaje de programación que como ya he dicho no se encuentra actualmente entre los 5 más usados, pero para su corta vida en el mercado, se está abriendo un hueco importante, y este lenguaje es VisualBasic.net. Es un lenguaje de programación orientado a objetos, considerado como una evolución de Visual Basic creado en la plataforma de Microsoft.net. Los programadores que utilizan este lenguaje suelen trabajar sobre el entorno de desarrollo integrado de Microsoft Visual Studio; estos entornos permiten a los programadores crear aplicaciones y aplicaciones web en un entorno que soporte la plataforma .NET. Así se pueden crear aplicaciones que se comunican entre estaciones de trabajo, páginas web y dispositivos móviles.

Opina, ¿Qué lenguaje consideras más actual?

viernes, 15 de febrero de 2013

Información y Documentación

La información es algo que ha acompañado desde el principio de los tiempos al hombre. Desde las pinturas en Atapuerca, los humanos hemos convivido con la información y la hemos transmitido al resto, pero quizás la información tiene tres puntos claves, como fue la aparición del papel, y posiblemente, aun más importante, la aparición de la imprenta, aumentando la difusión de la información considerablemente.

Durante siglos estas han sido las herramientas para transmitir información y crear documentación ,el papel y la imprenta, pero es con la aparición de Internet, el tercer punto clave, cuando todo da un cambio y la información es mas accesible, rápida y globalizada.

Para definir la información debemos primero hablar del concepto de dato, decimos que el dato es una representación simbólica de un atributo o característica de entidad. El dato o la colección de datos será quien nos aporte información, lo mas común es buscar la información, y no los datos.

Cuando alguien entra en una biblioteca y observa las salas y estanterías de libros que existen, puede hacerse la idea de cuánta información alberga ese lugar, pero cuando hablamos de la información que encontramos en la red, es muy difícil por no decir imposible saberlo.
Un estudio determinó que si un hombre dedicara 24 horas diarias a buscar información sobre un campo conseguiría asimilar aprox. un 3%.

La gran cantidad de información que está en Internet no significa que toda esta en la web, todavía tenemos mucha información que no la podemos encontrar en la red.

En países desarrollados la información no digitalizada es cada vez menor. Pero todavía podemos encontrar empresas que no lanzan su información a Internet por considerarlo inseguro y/o por miedo a la piratería.

Cuando hablamos de información no podemos dejar de nombrar al conocimiento, ya que de la información obtenemos conocimiento.

Para poder almacenar y clasificar todo esta información aparecen las Ciencias de la Documentación que incorporan técnicas que permiten el acceso de los usuarios a la información en modo de fuentes de información, en las que la Bibliografía aparece incorporada como factor primordial.

Las fuentes de información son todos los recursos que contienen datos formales, informales, escritos, orales o multimedia. Pero las fuentes de información se clasifican según sean primarias, secundarias o terciarias.

Una fuente primaria es definida como aquella que contienen información original, que ha sido publicada por primera vez y que no ha sido filtrada, interpretada o evaluada por nadie más. Son producto de una investigación o de una actividad eminentemente creativa.

Por ejemplo, una fuente primaria sería cuando un grupo de investigadores lanzan un artículo sobre el estudio del alzheimer, pero ¿y si un médico que ha estudiado ese articulo lo cita en uno de sus tratados?. Diremos que ese nuevo documento será de fuente secundaria.

Por otro lado las fuentes de información terciarias son aquellas donde encontramos información sobre otras fuentes ya sean primarias o secundarias, como es el caso de los buscadores de Internet.

Para analizar la información se acude a las fuentes primarias para contrastar todas las informaciones, ya que a veces puede haber opiniones objetivas o mal interpretadas.

Un punto también muy importante en la información es la tipología de los documentos, tener en cuenta el volumen de documentos a tratar, la naturaleza del documento, el periodo de validez,... es algo importante a considerar para seleccionar en que soporte físico debemos almacenarlo.

Toda esta documentación debe cumplir unos requisito y es necesario que reúna unas funciones documentales determinadas. Es necesario que estos archivos pasen una selección, una vez que el texto es seleccionado debemos hacer un análisis para resumirlo y buscar palabras claves, para que el siguiente paso, que es la búsqueda, sea mas eficiente. Y por ultimo la difusión, difundir la información que responde a las preocupaciones informativas mediante una serie de servicios específicos. La difusión es algo muy importante, ya que un articulo científico,por ejemplo, tendrá mayor o menor relevancia dependiendo de las veces que sean mencionados en otros artículos.

Para concluir decir que Las Tecnologías de la Información y las Comunicaciones (TIC), nos proporcionan un conjunto de avances tecnológicos como la informática, las telecomunicaciones y las tecnologías audiovisuales. Estas tecnologías proporcionan información, herramientas para su proceso y canales de comunicación.

El crecimiento de las consultas de la información por Internet crece a pasos agigantados ¿ Las nuevas generaciones buscaran información más halla de Internet?.