Revisiones_bibliográficas TyO_Web: La necesaria evolución de la cibermetría

viernes, 26 de agosto de 2011

La necesaria evolución de la cibermetría

12 mayo, 2011

Por Isidro F. Aguillo
en Notas ThinkEPI 2012

La cibermetría, que incluye a la webometría (término perfectamente correcto que, aunque malsonante, es preferible a webmetría, puesto que éste define internacionalmente a otra área diferente), es una especialidad emergente dentro del grupo de las llamadas ciencias cuantitativas que ahora globalmente se definen como informetría.

En este contexto, la cibermetría se dedica al análisis de los procesos de creación y comunicación de conocimiento académico y científico, tanto formal (revistas electrónicas) como informal, lo que proporciona un nuevo punto de vista en el estudio y evaluación de universidades y organizaciones dedicadas a la investigación, pero también de grupos y científicos y profesores individuales. Aunque hay algunos precedentes, la disciplina nace a mediados de los años 90 gracias a los trabajos de un grupo de investigadores que incluye -entre otros- a Ingwersen (1997, 1998), Rousseau (1997),Aguillo (1998), Bar-Illan (1999), Smith (1999) y Thelwall (2002, 2009).

Una de las causas de su éxito radica en la sencillez de sus métodos. De forma sucinta los datos se recogen de la llamada web pública, es decir sólo se consideran aquellos contenidos que son abiertamente accesibles desde las sedes web. Entre esos datos podemos incluir, por ejemplo, páginas web, enlaces (hipervínculos), ficheros ricos o multimedia o entradas en redes sociales y otros servicios de la Web 2.0.

La recogida de datos se puede hacer bien directamente a través de robots especialmente diseñados para dicha tarea, o bien indirectamente extrayendo la información de las bases de datos de los motores de búsqueda comerciales (Google, Yahoo! o Bing). Mientras que la programación de los robots puede ser penosa y requerir para su funcionamiento importantes recursos humanos y de cómputo, los buscadores disponen de sus propios robots, que son más potentes y ofrecen una cobertura mucho más amplia. Aunque la opacidad del funcionamiento de los buscadores (funcionan con algoritmos que son secretos comerciales) y su comportamiento irregular o impredecible han sido objeto de crítica por parte de los expertos, su papel en los procesos de comunicación es fundamental. Efectivamente, no se trata de meros intermediarios sino que son, hoy por hoy, el principal mecanismo de visibilidad de los contenidos web. Como se ha comentado alguna vez, lo que no está en Google es que no existe.

Hasta la fecha, la herramienta más poderosa de la cibermetría era el análisis de enlaces que, dada la naturaleza hipertextual de la Web, era una forma práctica para descubrir patrones entre sedes web, interconexiones entre instituciones o relaciones entre temas. Para entender la importancia del análisis de enlaces hay que poner en contexto este método con los otros habituales en informetría. Aunque la definición de calidad es compleja y suscita mucho debate, la informetría ha utilizado una aproximación transaccional: se estima que una actividad o resultado es de calidad o tiene impacto o alcanza gran visibilidad cuando medido en términos cuantitativos existe un cierto consenso al respecto en una comunidad. En términos prácticos hay tres grandes métodos:

-Encuesta. Se solicita a un grupo de pares que valoren, por ejemplo, las publicaciones de una institución, una revista o un científico. El número de opiniones recogidas es muy pequeño, pero provienen de un grupo de expertos de reconocido prestigio. Este método es práctico para microanálisis, pero está sujeto a sesgos fruto de incompatibilidades no confesadas, y es inválido para evaluar universos muy amplios donde difícilmente se encontraría una persona con el conocimiento global requerido (producción editorial mundial, ranking de universidades).

-Bibliometría. Al igual que en el caso anterior, se recaba la opinión de pares, pero mediante un método indirecto: el análisis de citas. Las citas bibliográficas entre trabajos científicos se utilizan como indicador de calidad y han resultado especialmente prácticas a nivel meso (evaluación de revistas e instituciones) o macro (políticas nacionales o regionales), pero dado los bajos números involucrados (unas pocas docenas) y su baja capacidad de segregación (índice h) resultan inapropiadas para evaluaciones individuales generalizadas. Pero quizá su limitación más importante es que trabajan sobre un universo cerrado, el de los trabajos formalmente publicados en revistas científicas, lo que en términos prácticos sólo representa una pequeña parte de la actividad de científicos o profesores (especialmente cierto en muchas disciplinas).

-Cibermetría. El análisis de enlaces se realiza sobre el Webespacio, por definición un universo mucho más abierto y menos estructurado, aunque también sorprendentemente muy auto-organizado. Las motivaciones para enlazar son mucho más diversas y aunque se incluyen auténticas citas (“sitations”) también hay razones espurias detrás de ciertas ligas. Sin embargo, las cifras involucradas son enormes, a menudo del orden de millones, y la ley de los grandes números nos informa de la capacidad discriminante de las mismas y de las posibilidades estadísticas de extraer patrones significativos a pesar del enorme ruido existente. Este referéndum virtual incluye a “terceras partes”, actores relevantes para cualquier sistema científico que no son académicos, pero que forman parte de una comunidad diferenciada. En este sentido hay que diferenciar enlaces (visibilidad hipertextual) de visitas (popularidad), ya que sólo los editores web pueden enlazar, mientras que cualquier internauta puede realizar una visita.

El análisis de enlaces está detrás del éxito de Google ya que su algoritmo PageRankorganiza las páginas web según un indicador ponderado de los enlaces que reciben. Esto es también relevante para el desarrollo de la cibermetría pues Google, posiblemente el mayor y más importante motor de búsqueda, utiliza como unidad la página y sólo ofrece información de enlaces recibidos página a página. Dado el crecimiento explosivo de la Web dicha limitación hacía inviable los estudios de enlaces, interenlaces y coenlaces con dicho motor de búsqueda.

Hasta el presente año 2011, esto no era un problema pues varios buscadores ofrecían la posibilidad de recolectar los enlaces a dominios o subdominios completos. En los 90 el favorito era Altavista, y ya en el siglo XXI Yahoo! (que había comprado Altavista), Bing(la última encarnación de los buscadores de Microsoft) y Exalead (un pequeño buscador francés con notables sesgos) ofrecían estos servicios.

Esta información era valiosa también para el posicionamiento de páginas web (SEO) en los resultados de los motores, y posiblemente haya sido el abuso de ciertos SEO lo que llevo aBing a suspender esta opción. En 2010, Bing llega a un acuerdo con Yahoo! por el cual la base de datos de Microsoft sustituirá a la propia de Yahoo! en este último, perdiendo así sus operadores específicos. Durante un cierto tiempo Yahoo! mantendrá Site Explorer, pero este servicio tiene también fecha de caducidad.

La pérdida de esta herramienta obliga a una evolución tanto teórica como metodológica de la cibermetría. El papel del análisis de citas debe ser ahora asumido por el análisis de menciones, una prometedora técnica que ya había sido señalada por varios autores (Aguillo, 2009; Thelwall, 2009) aunque Blaise Cronin ya la describía como “invocación” hace más de una década.

Sin abandonar los motores de búsqueda, el objetivo consiste ahora en extraer no enlaces sino términos o frases y evaluar su presencia de forma cuantitativa.

Así se puede inquirir por un autor, el nombre de una institución, el título de un trabajo, un código o directamente una URL. Esto plantea nuevos problemas, aunque algunos como la homonimia es vieja conocida de los bibliómetras. El nombre “José Gómez” es difícilmente útil en este contexto, incluso filtrando por dominio institucional, pero “Universidad Complutense” tampoco es unívoco pues a menudo la encontraremos como “Complutense University”. Los acentos y otros caracteres no convencionales pueden generar también problemas, aunque se puede comprobar que los motores ofrecen respuestas para todas las variantes.

En el marco del desarrollo del proyecto europeo OpenAIREse están desarrollando indicadores web para medir el impacto de los trabajos depositados en repositorios. Presentamos algunos resultados preliminares de los métodos:

a) Títulos. Los títulos de la mayoría de los trabajos científicos suelen tener una gran longitud, lo que reduce las probabilidades de generar ruido. El título ha de ir siempre entre comillas (operador de adyacencia estricta). Cuando el número de términos es bajo, se puede añadir el apellido del primer autor. Es interesante destacar que se puede buscar tanto en el cuerpo de la página web como en el título (<TITLE>) con operadores específicos. Si hay dos versiones del título (original y traducido), se pueden combinar utilizando el operador OR, aunque hay que tener en cuenta las limitaciones de los buscadores cuando se emplea más de un “booleano”.

b) URLs. En el caso de los repositorios se da la circunstancia de que hasta tres tipos de direcciones pueden referirse al mismo documento. La URL de la página del registro, la URL del fichero con el documento a texto completo (pdf o similar) y la URL del redireccionador o handle.

c) DOIs. El DOI se va imponiendo poco a poco, pero puesto que sólo se utiliza cuando el trabajo ha sido formalmente publicado en una revista. También se puede utilizar para todos los registros, especialmente para los preprints que no hayan sido aceptados todavía para publicación. El DOI no aparece en los títulos de las páginas web.

Una precaución al utilizar estas técnicas es la de excluir siempre las automenciones, utilizando expresiones del tipo “–site:urlrepositorio”.

El análisis de menciones se puede generalizar a otras fuentes de información tales como las noticias, los blogs, los wikis, las redes sociales, etc. Las precauciones descritas son igualmente aplicables.

En resumen, la cibermetría es una disciplina científica que evoluciona, que frente a los problemas desarrolla estrategias viables y cuyo impacto en nuestra actividad no ha hecho más que empezar.

Referencias bibliográficas

Aguillo, Isidro F. “STM information on the Web and the development of new Internet R & D databases and indicators”. En: D. Raitt, (Ed.). Proceedings, Online Information 98. London: Learned Information, 1998, pp. 239-243.

Aguillo, Isidro F. “Measuring the institution’s footprint in the web”. Library Hi Tech, 2009, v. 27, 4, pp. 540-556.

Almind, Tomas C.; Ingwersen, Peter. “Informetric analyses on the World Wide Web. Methodological approaches to ‘webometrics’”. Journal of Documentation, 1997, v. 53, n.4, pp. 404-426.

Bar-Ilan, Judith. “Search engine results over time – a case study on search engine stability”. Cybermetrics, 1999, v.2, n. 1, paper 1.
http://www.cindoc.csic.es/cybermetrics/articles/v2i1p1.html

Ingwersen, Peter. “The calculation of Web Impact Factors”. Journal of Documentation, 1998, v. 54, n. 2, pp. 236-243.

Rousseau, Ronald. “Sitations: an exploratory study”. Cybermetrics, 1997, v. 1, n. 1, paper 1.
http://www.cindoc.csic.es/cybermetrics/articles/v1i1p1.html

Smith, Alastair G. “A tale of two Web spaces; comparing sites using Web Impact Factors”. Journal of Documentation, 1999, v. 55, n.5, pp. 577-592.

Thelwall, Mike. “An initial exploration of the link relationship between UK university Web sites”. ASLIB Proceedings, 2002, v. 54, n. 2, pp. 118-126.

Thelwall, Mike. Introduction to webometrics: Quantitative Web research for the social sciences. New York, NY: Morgan & Claypool, 2009.

Cómo citar este artículo:
Aguillo, Isidro F. . “La necesaria evolución de la cibermetría”. Anuario ThinkEPI, 2012, v. 6, pp. ¿¿-??.