Revisiones_bibliográficas TyO_Web: Search analytics: cómo y qué buscan los lectores y no-usuarios

viernes, 29 de abril de 2011

Search analytics: cómo y qué buscan los lectores y no-usuarios

8 noviembre, 2010

Por Jorge Serrano-Cobos
en Notas ThinkEPI 2011

LAS QUEJAS SOBRE las carencias de los sistemas de búsqueda de los Opacs son algo casi tradicional en nuestro entorno profesional¹; si bien, además de trabajar en mejorar los algoritmos de recuperación y la presentación de los mismos a los usuarios, podrían mejorarse los contenidos a recuperar².

Cómo hacerlo es otra cuestión. Las iniciativas se multiplican en los últimos años³, y podemos ver desde el uso de tags para implementar la recuperación por hojeo o browsingen Librarything⁴ o Goodreads⁵, cómo Google Books añade “Rich results”⁶ a sus resultados de la búsqueda de libros (snippets), infiriendo qué buscas en concreto⁷mediante minería de uso (web user mining) con tendencia a mostrarte la última edición (probablemente para promover la compra online) hasta por ejemplo el uso de linked data(dentro del movimiento de la web semántica) en RDF para enriquecer los contenidos de los libros, por ejemplo permitiendo recuperar libros de poemas por tipo de métrica⁸ o por caracteres de ficción¹⁰ e incluso por libros que hablan en algún momento de un país o una ciudad10, lo que también se puede hacer mediante mashups con mapas¹¹.

Pero a la hora de enriquecer los resultados de una búsqueda, es importante entender cómo y para qué buscan nuestros usuarios. Así, sabemos que de los 3 tipos de intencionalidad en la búsqueda más conocidos¹², el 75% de las búsquedas en la Web son informacionales, el 13% navegacional, y un 12% transaccional, aproximadamente¹³. Y también que en general, la mayoría de los usuarios reformula sus búsquedas infructuosas mediante cambios en el contenido de las mismas¹⁴, aunque harían falta estudios más actuales, una vez popularizados los últimos cambios en la presentación/facetación de resultados de los grandes buscadores de internet.

Otra cosa es que nuestros usuarios de las bibliotecas y no-usuarios actúen igual. En cuanto a los no-usuarios que buscan en español en España, mediante search analytics¹⁵, podremos destacar algunos detalles curiosos de algunas de sus cadenas de búsqueda, en este caso simplemente analizando Google Keywords (Adwords) Tool¹⁶:

- Las búsquedas con errores gramaticales son muy comunes, tanto que en ocasiones se busca más por la suma de los posibles errores que por la palabra clave correcta. PeroGoogle hoy día casi elimina ese problema de las búsquedas en internet al corregir esos errores, y ciertos Sigb proporcionan software del tipo “quiso decir”.

- En otras ocasiones, el usuario conoce la enorme variedad de contenidos que se puede encontrar, y con su lenguaje natural intenta contextualizar y desambiguar el resultado que busca. Por ejemplo, en búsquedas como “el caballero de la armadura oxidada libros”, “cien años de soledad libro”, o “don quijote de la mancha libro”. Es decir, el usuario faceta o filtra su búsqueda por formato, pero usando su lenguaje.

- Generalizando, se usan más los verbos en infinitivo que en otras formas verbales (“comprar libros” más que “compra libros” o “compro libros”) pero hay que tener en cuenta que el español es un idioma que usa la forma activa, y al parecer, más aún en España.

- Depende de lo que se busca, hay más búsquedas que usan el plural que el singular, o viceversa. Por ejemplo, a la hora de recuperar información general o listas de elementos, se busca más en plural (12.100 veces al mes de media “lecturas para niños“, frente a 8.100 veces “lectura para niños”). Sin embargo, si se buscan bibliotecas, para ahí comenzar la búsqueda de los ítems que interesan, se usa más el singular, habitualmente acompañado de una localización para desambiguar (2.740.000 veces “biblioteca” frente a 450.000 búsquedas mensuales de media para “bibliotecas”).

- Los sinónimos también deben ser tenidos en cuenta en nuestra búsqueda de la excelencia catalogadora: hemos de preguntarnos, por ejemplo, si los usuarios buscan lo mismo en el caso de “aprendizaje lectura” (2.900 búsquedas de media) que en “enseñanza lectura” ( 1.600).

- También deberíamos ser capaces de jugar con las cartas que da el desconocimiento de los usuarios de lo que buscan, que intentan dar un rodeo usando los datos que sí conocen. Así, podemos encontrar a usuarios que buscan “hogar del libro” en lugar de “casa del libro”, pero más interesantes por el problema que pueden acarrear en la recuperación en un motor de búsqueda del catálogo búsqueda como “autora harry potter” (1.900 búsquedas), “romeo y julieta autor” (1.600) o “autor de la eneida” (590).Si el usuario en estos casos lo que busca es una lista de libros de ese autor, o información biográfica del mismo, en el Opac puede que como mucho les aporte el título buscado; o ni eso si el sistema quiere encontrar todos los términos de la búsqueda.

- Por último, es interesante contrastar la polisemia existente entre la intención dada al usar nuestros encabezamientos de materia con el que tiene quien realiza las búsquedas. Por ejemplo, cabe preguntarse cuántas de las 12.100 veces que se busca la expresión “escritores mexicanos” o de las 2.400 al mes que se busca “escritores hispanoamericanos” se hacen con la intención de encontrar uno o más libros que estudien a los escritores hispanoamericanos o mexicanos, o con la de encontrarse con listas de autores con sus obras asociadas.

Al parecer, según Google y su uso extenso e intensivo del crowdsourcing¹⁷, pareciera que lo más probable, es lo segundo¹⁸.

Referencias bibliográficas

1. Schneider, Karen G. “How OPAC suck, Part 2: the checklist of shame”. ALA TechSource.
2. Castillo-Vidal, Jesús. “Descenso del número de visitas a las webs de bibliotecas y OPACS”. Iwetel, 29 septiembre 2010.
3. Serrano-Cobos, Jorge; Sellés, Alicia. “Catálogos online y portales bibliotecarios: ¿un reto para la integración?”. Mi biblioteca, n. 19, 2009, pp. 70-75.
4. LibraryThing.
5. Goodreads.
6. Catacchio, Chad. “Google books to get ‘rich results’ starting today”. The Next Web (TNW).
7. Madrigal, Alexis. “Inside the Google Book Algorithm”. The Atlantic, 1 noviembre, 2010.
8. Freebase. Poetic verse form.
9. Freebase. Book character.
10. Open Library.
11. Biblioteca Municipal de Muskiz.
12. Broder, Andrei. “A taxonomy of web search”. IBM Research.
13. Jansen, Jim. “Classifying the user content of web queries using k-means clustering“.Web search, 1 noviembre, 2010.
14. Young Rieh, Soo; Hong (Iris) Xie. “Patterns and sequences of multiple query reformulations in Web searching: A preliminary study (2001)”. En: Proceedings of ASIS&T Annual Meeting, Washington DC, noviembre 2001.
15. Serrano-Cobos, Jorge. “Search Analytics”. [Presentación].
16. Google Adwords.
17. Google. define:crowdsourcing.
18. Google escritores hispanoamericanos.

Cómo citar este artículo:

Serrano-Cobos, Jorge. “Search analytics: cómo y qué buscan los lectores y no-usuarios”.Anuario ThinkEPI, 2011, v. 5, pp. ¿¿-??.