miércoles, 23 de octubre de 2013

La visualización en la recuperación de información: estándares, tendencias y limitaciones

http://www.thinkepi.net/la-visualizacion-en-la-recuperacion-de-informacion-estandares-tendencias-y-limitaciones

Inicio » Notas ThinkEPI 2014 » La visualización en la recuperación de información: estándares, tendencias y limitaciones

La visualización en la recuperación de información: estándares, tendencias y limitaciones
23 octubre, 2013 Por Mario Pérez-Montoro

1. Introducción

En términos generales, la recuperación de información es una estrategia, basada en la interrogación, para la rápida localización de documentos de un fondo que puedan satisfacer las necesidades informativas de un usuario.

Según el modelo clásico, el proceso de la recuperación de información mediado por un sistema se estructura sobre tres pilares básicos (Bates, 1989). Por un lado, la necesidad de información de usuario (un estado mental); que es representada en el sistema mediante una ecuación de búsqueda perteneciente a un lenguaje de interrogación. Por otro, el documento; que se somete a un proceso de representación de su contenido semántico. Y por último, el mapeo o comparación entre la representación de la información contenida en el documento y la ecuación de búsqueda para identificar qué documentos pueden satisfacer la necesidad informativa del usuario. Los documentos seleccionados tras el mapeo entre las dos representaciones (documentos-necesidad) son ofrecidos al usuario a través de una página de resultados que permite acceder a los mismos.

Tradicionalmente, dentro de la disciplina de la recuperación, el grueso de los esfuerzos económicos e intelectuales han sido principalmente invertidos en el desarrollo y mejora de algoritmos cada vez más eficaces para la representación documental y el mapeo (Baeza-Yates y Ribeiro-Neto, 2011), descuidándose, en muchas de las ocasiones, la investigación en la presentación visual de los resultados de la recuperación.

La evolución de la disciplina no ha sido sensible al desarrollo de la visualización de resultados ignorando que, en muchas ocasiones, la presentación de esos resultados juega un papel tan importante en la satisfacción de la necesidad de información del usuario como una buena selección de documentos del fondo. Una mala o no adecuada presentación puede dificultar la satisfacción de la necesidad de información aunque la recuperación de los documentos relevantes del fondo haya sido eficaz (Shneiderman, 1992; Baeza-Yates, 2011; Hearts, 2009; Baeza-Yates,Broder y Maarek, 2011).

De todas formas, aunque el desarrollo científico de la visualización no haya corrido de la mano de otros aspectos incluidos en la recuperación, es posible identificar una serie de modelos estándar y ciertas tendencias en la presentación de resultados fruto de la interrogación de un sistema.

2. Modelos estándar de presentación de resultados

En la mayoría de las ocasiones, los sistemas de recuperación acostumbran a presentar los resultados de una consulta en forma de listado plano unidimensional. Los usuarios, para refinar esos resultados obtenidos, suelen interaccionar con los mismos a partir de operaciones de filtrado.

Habitualmente los principales criterios más utilizados en la organización de esa lista de resultados son el orden, la relevancia, la recomendación y el clustering (Morville y Rosenfeld, 2006; Pérez-Montoro, 2010). El orden organiza la lista de resultados utilizando como criterio la dimensión alfabética o numérica de alguna de las características (nombre del autor o fecha de creación, por ejemplo) del documento recuperado. La relevancia permite organizar en forma de ranking los documentos recuperados utilizando como criterio la adecuación de la consulta del usuario con el contenido del documento. La recomendación permite ordenar los resultados utilizando el número de recomendaciones sugeridas por otros usuarios que han consumido previamente ese resultado. El clustering, en cambio, presenta los resultados agrupados en diferentes subconjuntos formados por documentos que versan sobre un mismo tema y que lo abordan con un enfoque similar (Larson, 1991; Tryon, 1939).

Todas estas formas de organizar los resultados, aunque utilizadas por una parte importante de los sistemas de recuperación, presentan importantes limitaciones. La lista de resultados organizada mediante el criterio de un orden alfabético o numérico no ofrece información extra para que el usuario pueda decidir qué documentos de la lista pueden satisfacer de forma adecuada su necesidad de información temática.

En el caso de la relevancia, el sistema ofrece un ranking colocando en las primeras posiciones aquellos documentos que podrían satisfacer la necesidad temática de un usuario pero no ofrece información extra sobre el enfoque o la estructura interna del contenido del documento.

En el caso de la recomendación, el listado ofrece en las primeras posiciones los documentos recomendados por otros usuarios, pero tampoco ofrece información extra sobre el enfoque o la estructura interna del contenido del documento.

Por último, el clustering ofrece información extra sobre el enfoque del contenido del documento recuperado, pero no orienta al usuario sobre la distribución y estructura temática del documento.

3. Tendencias en la visualización de resultados

En los últimos años, al margen de este tipo más estándar de presentación de resultados, y para superar algunas de sus limitaciones, se han desarrollado diferentes propuestas visuales para mejorar la interacción de los usuarios con esos resultados recuperados. La mayoría de esas propuestas pueden articularse en tres grandes grupos: las visualizaciones de clustering, las basadas en la visualización de los términos de la consulta y las que utilizan thumbnail images (imágenes miniaturizadas) de los documentos.

Las visualizaciones de clusterings intentan representar las categorías y las relaciones entre éstas bajo las que pueden agruparse los documentos recuperados. Las principales tendencias en este tipo de visualizaciones se basan en la utilización de, entre otros, treemaps, tag clouds o network graphs.

Los treemaps representan las relaciones jerárquicas de un conjunto de categorías mediante la utilización de rectángulos anidados (nested) optimizando el espacio utilizado para la presentación (Shneiderman, 1992; Shneiderman y Plaisant, 2009). Cada rectángulo tiene unas dimensiones proporcionales a la cantidad de documentos recuperados bajo esa categoría (figura 1). Normalmente los rectángulos están coloreados para favorecer su lectura por parte de los usuarios.

Las tag clouds (nubes de etiquetas) representan las categorías en forma de nube de palabras, donde el color y el tamaño de la palabra codifican si hay o no muchos documentos recuperados bajo esa categoría (Begelman, Keller y Smadja, 2006). Normalmente, las etiquetas que aparecen en la nube suelen ser hipervínculos que llevan al listado de los documentos que han sido recuperados bajo esa etiqueta (figura 2).

Los network graphs (gráficos de red) representan cada categoría como un objeto y las relaciones entre las categorías mediante líneas o curvas (figura 3). Según la interacción más habitual, si se clica en un objeto o categoría obtendremos el listado de documentos recuperados clasificados bajo esa categoría. Existen muchos ejemplos en los que se ha aplicado este tipo de visualización (Moya-Anegón et al., 2004; Granitzer et al., 2004, Brandes et al., 2006).

Las visualizaciones basadas en la representación de los términos de la consulta (query terms) propuestos por el usuario acostumbran a utilizar dos posibles estrategias: la visualización de los términos en el propio documento recuperado o en la página de resultados (Hearst, 2009).

En el primer caso, nos presenta el documento recuperando resaltando en el mismo aquellas palabras del texto que coincidan literalmente con los términos de la consulta realizada (Egan et al., 1989). Algunos estudios señalan que los usuarios prefieren ver implementada esta técnica mediante el uso de color en el resaltado de las palabras del texto que coinciden con los términos de la consulta (Hornbæk y Frøkjær, 2001). En el segundo caso, en la página de resultados, cada documento es representado como una barra horizontal proporcional a su extensión donde se ubican pequeños cuadrados con los términos de la consulta que aparecen en el texto (Hoeber y Yang, 2006). Igual que en el caso anterior, algunos estudios señalan que estas visualizaciones mejoran para los usuarios cuando se complementan introduciendo una escala de color en los cuadrados que represente la frecuencia de los términos de la consulta en el texto del documento (Anderson et al., 2002).

Por último, otra de las tendencias más implementadas consiste en completar la lista de resultados con thumbnail images de los documentos recuperados. Esta técnica se fundamenta en el hecho de que el sistema visual humano permite capturar los rasgos esenciales de una imagen completa en 110 milisegundos o menos, justo lo que se tarda en leer sólo una o dos palabras (Woodruff et al., 2001). Algunos estudios defienden que introducir estas imágenes en los resultados de búsqueda puede funcionar como resúmenes visuales de los documentos para los usuarios (Jhaveri y Raiha, 2005).

4. Limitaciones en las propuestas de visuales

Frente a las organizaciones de listas de resultados más estándares, las nuevas propuestas de visualización descritas pueden mejorar la experiencia de búsqueda de los usuarios en un sistema de recuperación. Sin embargo, presentan también importantes limitaciones.

Respecto a las visualizaciones de clusterings, los treemaps ofrecen información extra sobre el enfoque temático del contenido del documento recuperado y las posibles relaciones semánticas que pueden mantener con otros documentos recuperados, pero no orienta al usuario sobre la distribución y estructura temática de cada uno de esos documentos.

En el caso de los tag clouds, éstas ofrecen información extra sobre el enfoque temático del contenido del documento recuperado pero no sobre las posibles relaciones semánticas que pueden mantener con otros documentos recuperados ni tampoco orientan al usuario sobre la distribución y estructura temática de cada uno de esos documentos.

Por último, los network graphs ofrecen información extra sobre el enfoque temático del contenido del documento recuperado y las posibles relaciones semánticas que pueden mantener con otros documentos recuperados, pero no orientan al usuario sobre la distribución y estructura temática de cada uno de esos documentos. En este caso se une también el problema de que cuando el network graph incluye muchos objetos y relaciones, el usuario no puede explorarlo de una forma cómoda, viéndose obligado a utilizar el zoom para tener una visión global del network o de explorar parcialmente las áreas de éste que le interesen (Vie?gas y Donath, 2004). Algunos autores defienden estrategias parciales para mejorar esta última forma de visualización focalizando la visualización sobre el nodo que le interesa al usuario (Yee et al., 2001) o eliminando de la visualización aquellos nodos que no han sido clicados por el usuario (Fellbaum, 1998).

Las visualizaciones basadas en la representación de los términos de la consulta (query terms) presentan también importantes limitaciones. Por un lado, sólo ofrecen documentos en los que aparezcan los términos de consulta. En este sentido, no ofrecen información extra sobre el enfoque temático del contenido del documento recuperado y las posibles relaciones semánticas que pueden mantener con otros documentos recuperados. Y, por otro lado, tampoco orientan al usuario sobre la distribución y estructura temática no relacionada con esos términos en cada uno de esos documentos recuperados.

En el caso de la estrategia de completar la lista de resultados con thumbnail images de los documentos recuperados, también presenta importantes limitaciones. Estas visualizaciones, aunque complementarias, no ofrecen información extra sobre el enfoque temático del contenido del documento recuperado, ni sobre las posibles relaciones semánticas que pueden mantener con otros documentos recuperados, ni orienta al usuario sobre la distribución y estructura temática de cada uno de esos documentos. En esta línea, existen estudios que muestran que esta estrategia no mejora significativamente la experiencia de búsqueda de los usuarios (Czerwinski et al., 1999; Dziadosz y Chandrasekar, 2002), aunque pueden servir de ayuda en parte si se agrandan las imágenes (Kaasten et al., 2002)

4. Conclusiones

Como se desprende de este análisis, tanto las propuestas estándar de presentación de resultados como las tendencias visuales en la recuperación ofrecen limitaciones importantes que pueden dificultar la correcta satisfacción de las necesidades informativas por parte de los usuarios.

Sin embargo, es posible establecer una serie de requisitos que sirvan de guía para la mejora de la funcionalidad de las herramientas de visualización en el proceso de la recuperación. Esos requisitos pueden clasificarse en dos grandes grupos: los relacionados con los aspectos arquitectónicos del sistema y los emparentados con las características semánticas de los documentos.

Respecto al primer grupo, los relacionados con los aspectos arquitectónicos del sistema, una buena herramienta de visualización debe ofrecer al usuario básicamente tres funcionalidades: el control sobre el proceso de recuperación, la posibilidad de la agregación o desagregación de los documentos recuperados (estrechamiento y ampliación de los resultados de búsqueda) y la navegabilidad de la página de resultados (para facilitar su exploración).

Por otro lado, respecto a los aspectos relacionados con las características semánticas de los documentos, una buena herramienta debe comenzar representando cada uno de los documentos recuperados con una adecuada densidad de información asociada. Esa densidad de información debe mantener el equilibrio entre la cantidad mínima de información necesaria para que el usuario pueda identificar y discriminar el contenido del documento y la cantidad de información máxima para que el sistema pueda presentar de forma visual la totalidad del conjunto de documentos recuperados.

Por otro lado, manteniendo ese equilibro en la densidad de información ofrecida por documento, el sistema debe también suministrar información sobre el enfoque temático del contenido del documento recuperado, debe mostrar las posibles relaciones semánticas que éste puede mantener con otros documentos recuperados, y debe también poder orientar al usuario sobre la distribución y estructura temática de cada uno de esos documentos recuperados.

5. Bibliografía

Anderson, T. J.; Hussam, A.; Plummer, B.; Jacobs, N. (2002). “Pie charts for visualizing query term frequency in search results”. En Proceedings of the 5th International Conference on Asian Digital Libraries: Digital Libraries: People, Knowledge, and Technology (pp. 440–451). London: Springer-Verlag.

Baeza-Yates Ricardo A. y Ribeiro-Neto, B. (2011). Modern information retrieval. Boston, MA: Addison-Wesley Longman.

Baeza-Yates, Ricardo (2011). Tendencias en recuperación de información en la web. BiD: textos universitaris de biblioteconomia i documentació, n 27.
http://www.ub.edu/bid/27/baeza2.htm

Baeza-Yates, R.; Broder, A.; Maarek, Y. (2011). “The new frontier of Web search technology: seven challenges”. En S. Ceri & M. Brambilla (Eds.). Search Computing (v. 6585, pp. 3–9). Berlin & Heidelberg: Springer Verlag.

Bates, Marcia J. (1989). “The Design of Browsing and Berrypicking Techniques for the Online Search Interface”. Online review, n. 13, pp. 407-424.

Brandes, U.; Hoefer, M.; Lerner, J. (2006). “WordSpace: visual summary of text corpora”. En Robert F. Erbacher, Jonathan C. Roberts, Matti T. Gröhn & Katy Börner (Eds.). Visualization and data analysis 2006 (pp. 212-223). Bellingham, WA: SPIE-the International Society for Optics and Photonics. (Proceedings of SPIE, Volume 6060).
http://www.mpi-inf.mpg.de/~mhoefer/05-07/Brandes06Wordspace.pdf

Czerwinski, M.; Van Dantzich, M.; Robertson, G.; Hoffman, H. (1999). “The contribution of thumbnail image, mouse-over text and spatial location memory to web page retrieval in 3D”. En Proceedings of the INTERACT’99 conference, (pp. 163-170). Dordrecht, Kluwer.
http://research.microsoft.com/en-us/um/people/marycz/interact99.pdf

Dziadosz, S.; Chandrasekar, R. (2002, August). “Do thumbnail previews help users make better relevance decisions about web search results?”. En: Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, (pp. 365-366). New York, NY: ACM Press.

Egan, D.E.; Remde, J. R.; Gomez, L.M.; Landauer, T.K.; Eberhardt, J.; Lochbaum, C.C. (1989). “Formative design evaluation of superbook”. ACM Transactions on Information Systems (TOIS), v, 7, n. 1, pp. 30–57.

Fellbaum, C. (2010). “WordNet”. En: Roberto Poli, Michael Healy & Achilles Kameas, (Eds.).Theory and applications of ontology: computer applications, (pp. 231-243). Berlin & Heidleberg: Springer.

Granitzer, M.; Kienreich, W.; Sabol, V.; Andrews, K.; Klieber, W. (2004). “Evaluating a system for interactive exploration of large, hierarchically structured document repositories”. En: IEEE Symposium on Information Visualization, 2004. INFOVIS 2004. on (pp. 127-134). Los Alamitos, CA: IEEE Computer Society Press.

Hearts, M. (2009). Search user interfaces. Cambridge: Cambridge University Press.

Hoeber, O.; Yang, X. D. (2006). “A comparative user study of web search interfaces: HotMap, Concept Highlighter, and Google”. En: WI ’06: Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence, (pp. 866-874). Washington, DC: IEEE Computer Society.

Hornbæk, K.; Frøkjaer, E. (2001). “Reading of electronic documents: the usability of linear, fisheye, and overview+ detail interfaces”. En: CHI ’01 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, (pp. 293-300). New York, NY: ACM Press.

Jhaveri, N.; Räihä , K. J. (2005). “The advantages of a cross-session web workspace”. En: CHI EA ’05 CHI ’05 Extended Abstracts on Human Factors in Computing Systems, (pp. 1949-1952). New York, NY: ACM Press.

Kaasten, S.; Greenberg, S.; Edwards, C. (2002). “How people recognise previously seen Web pages from titles, URLs and thumbnails”. En: Xristine Faulkner, Janet Finlay & Françoise Détienne People and Computers XVI – Memorable Yet Invisible: Proceedings of HCI 2002(pp. 247–266). Berlin/Heidelberg: Springer.

Larson, R. R. (1991). “Classification clustering, probabilistic information retrieval, and the online catalog”. The library quarterly, v. 61, n. 2, pp. 133–173.

Morville, P.; Rosenfeld, L. (2006). Information architecture for the world wide web: designing large-scale web sites. Sebastopol, CA: O’Reilly Media.

Moya-Anegón, F.; Vargas-Quesada, B.; Herrero-Solana, V.; Chinchilla-Rodríguez, Z.; Corera-Álvarez, E.; Munoz-Fernández, F. J. (2004). “A new technique for building maps of large scientific domains based on the cocitation of classes and categories”. Scientometrics, v. 61, n. 1, pp.129–145.

Pérez-Montoro, M. (2010). “Arquitectura de la información en entornos web”. El profesional de la información, v. 19, n. 4, pp. 333-338.

Shneiderman, B. (1992). Designing the user interface: strategies for effective human-computer interaction. (2nd ed.) Boston, MA: Addison-Wesley Longman Publishing Co., Inc.

Shneiderman, B. (1992). “Tree visualization with tree-maps: 2-d space-filling approach”. ACM Transactions on Graphics, v. 11, n. 1, pp. 92–99.

Shneiderman, B.; Plaisant, C. (2009). Treemaps for space-constrained visualization of hierarchies.
http://www.cs.umd.edu/hcil/treemap-history

Tryon, R. (1939). Cluster analysis. New York, NY: McGraw-Hill.

Viégas, F. B.; Wattenberg, M.; Van Ham, F.; Kriss, J.; McKeon, M. (2007). “Manyeyes: a site for visualization at internet scale. Visualization and Computer Graphics”. IEEE Transactions, v. 13, n. 6, pp. 1121–1128.

Woodruff, A.; Faulring, A.; Rosenholtz, R.; Morrsion, J.; Pirolli, P. (2001). “Using thumbnails to search the Web”. En: Proceedings of the SIGCHI conference on Human factors in computing systems (pp. 198–205). New York, NY: ACM Press.

Yee, K. P.; Fisher, D.; Dhamija, R.; Hearst, M. (2001). “Animated exploration of dynamic graphs with radial layout”. En: INFOVIS ’01 Proceedings of the IEEE Symposium on Information Visualization 2001, (p. 43). Washington, DC: IEEE Computer Society.

- See more at: http://www.thinkepi.net/la-visualizacion-en-la-recuperacion-de-informacion-estandares-tendencias-y-limitaciones?utm_source=feedburner&utm_medium=email&utm_campaign=Feed%3A+thinkepi+%28ThinkEPI%29&utm_content=Yahoo%21+Mail#sthash.u38UBCVA.dpuf
Publicar un comentario