Revisiones_bibliográficas TyO_Web: Google Scholar: no es oro todo lo que reluce

miércoles, 26 de enero de 2011

Google Scholar: no es oro todo lo que reluce

11 enero, 2011

Por Isidro F. Aguillo
en Notas ThinkEPI 2011

Introducción

EL FACTOR LIMITANTE en los estudios de la actividad científica, especialmente los que utilizan técnicas cuantitativas, ha sido la disponibilidad de bases de datos. Así, la bibliometría de las últimas décadas no hubiera sido posible sin las bases de ISI/Thomson (citation indexes).

La explosión de la patentometría coincide con el acceso en abierto de los servicios web de las organizaciones de patentes europeas, estadounidenses y japonesas y, en fin, la cibermetría existe en buena medida por las bondades de los motores de búsqueda comerciales.

En muchos casos dichas bases de datos no habían sido diseñadas específicamente para la actividad bibliométrica y fue necesario (y todavía lo es) realizar un importante esfuerzo de selección, limpieza, organización y normalización de los resultados, antes de comenzar cualquier análisis.

Los costes eran enormes (acceso vía Dialog, adquisición de versiones en cd-rom) y lo siguen siendo (licencia nacional WoK), y, además de ciertas limitaciones legales, estaban las de carácter técnico. Éstas son relevantes para entender la tipología y profundidad de los trabajos bibliométricos realizados en los 80 y los 90. Era difícil exportar grandes cantidades de registros, ciertos campos tenían múltiples valores (autores, direcciones, citas) difíciles de segregar, había que repasar errores y normalizar entradas, era complejo hacer correspondencias entre autores y sus direcciones cuando varios de los primeros tenían la misma afiliación institucional.

La imposibilidad práctica de corresponder referencias con artículos generalizó el uso de las citas “esperadas” (el infame factor de impacto) en vez de utilizar las “observadas”. Otras interesantes consecuencias fueron el desprecio hacia los recuentos fraccionados de los cada día más frecuentes trabajos multiautorados o el insólito filtrado temático por categorías disciplinares de revistas o por selección de palabras clave (¡en bases de datos sin auténtica indización!). Todo ello motivado por las limitaciones de contenido y estructura de las bases de datos, pero también por un sistema de gestión intencionadamente capado que impedía una adecuada automatización de ciertos procesos.

La consecuencia directa es que el usuario final del trabajo del bibliómetra (otros colegas, fundamentalmente aquellos objeto de análisis, y los gestores de instituciones y de políticas científicas) apenas se reconociera en los resultados, que podían pecar tanto de excesiva sencillez (plenos de errores) como de inaguantable profundidad (tablas densísimas, sin ninguna utilidad práctica).

Hubo, y los sigue habiendo (cada vez menos, eso sí) trabajos mediocres, pero quizá la principal carencia es la ausencia de escenarios generales, con históricos de datos correctamente organizados y que evitara la continua re-invención de la rueda a la que nos tiene acostumbrada esta disciplina en nuestro país (aunque en este caso la culpa es compartida por la inaudita ausencia de un manual de calidad, actualizado en castellano, del conjunto de las disciplinas cuantitativas).

Obviamente esta nota no es la primera que llama la atención sobre el cuidado extremo que se ha de tener tanto a la hora de seleccionar las fuentes bibliográficas como en el diseño de la extracción y utilización de los datos correspondientes. Y es posible que esta admonición vuelva a caer en saco roto.

Google Scholar

Para los afortunados que trabajan en instituciones que se pueden permitir el indecente dispendio de tener contratadas las dos grandes bases de datos de citas (WoK y Scopus), la labor bibliométrica se hizo un poco más difícil con la aparición del nuevo producto deElsevier. No sólo las bases de datos de ambos productos eran diferentes (Scopus es ligeramente mayor y con menor sesgo anglosajón), sino que las herramientas de consulta y extracción y los indicadores (externos en el caso de Scopus) eran también distintos.

A medio plazo, sin embargo, las ventajas se impusieron, ya que la competencia mejoró las prestaciones de la WoK (ventanas de citación más amplias, nuevos indicadores) y su cobertura geográfica (con cierto número de revistas no anglosajonas, sobre todo de ciencias sociales y humanas, que al parecer tienen un significativo menor impacto). A medio plazo, los trabajos de fusión de ambas bases de datos proporcionarán una mejor idea de las bondades y limitaciones de cada una de ellas, pero mientras tanto cabe esperar la multiplicación de estudios disciplinares y/o temporales que remeden los ya realizados previamente con ayuda de la Wok.

En ese contexto aparece un nuevo e interesante actor, Google Scholar, la base de datos académica del famoso buscador.

Dentro de la estrategia global de Google de recolectar toda la información posible, la dificultad de indizar la llamada internet invisible motivó el desarrollo de un producto que no dependiera de los robots automáticos.

La base de datos académica se nutre de una serie de acuerdos con productores y distribuidores de bases de datos académicas y científicas de todo el mundo, que ceden bajo distintas condiciones (tanto la lista de suministradores como los detalles de los contratos son secretos comerciales de Google) sus registros para la construcción deScholar.

Google proporciona ciertos valores añadidos (citas, enlaces, etiquetas) además de añadir la gigantesca sección académica de la Web visible, que sí aparece en el buscador general.

El resultado es una gran base de datos bibliográfica multidisciplinar que incluye citas a los diferentes artículos (fundamentalmente como ayuda a la recuperación). Es decir, es el tercer gran sistema de citas junto con la WoK y Scopus, con la ventaja de su mayor tamaño y el hecho fundamental de ser de acceso gratuito. Se trata de un producto todavía en versión beta (¡desde 2004!), cuyo futuro no está garantizado y que al parecer es mantenido por un equipo muy reducido. Todo ello podría explicar la falta de normalización documental que sería muy necesaria en un producto multifuente tan heterogéneo formal y sustantivamente.

A pesar de los distintos problemas documentales de Google Scholar, la reciente aparición de un software gratuito (Publish or Perish), que permite la captura directa de los registros y calcula automáticamente diversos indicadores (incluyendo distintas variantes del índice h), ha renovado y generalizado el interés por Scholar en la comunidad bibliométrica.

En la bibliografía de esta nota figura una selección de artículos que tratan fundamentalmente dos áreas: la comparación directa de Google Scholar con las otras grandes bases de datos de citas (Wok y Scopus), y la utilización de registros de Scholarpara la realización de estudios bibliométricos.

Los árboles no dejan ver el bosque

La opacidad de Google respecto a las fuentes que utiliza (y la evolución temporal de dicha cobertura, que parece se incrementó significativamente en los últimos años) ha dificultado el análisis global del buscador académico. De hecho, el diseño de muchos estudios comparativos implicaba utilizar básicamente instituciones y autores de reconocido prestigio, para los que se obtenía una cierta equivalencia con los resultados obtenidos en los productos de “calidad contrastada” (basados más o menos en núcleos deBradford). Las diferencias en los estudios disciplinares se atribuían a diferencias de cobertura y, en fin, otras discrepancias se atribuían a problemas y limitaciones técnicas que se trataban de describir y evaluar o simplemente se citaban sin más, como pretexto.

En el curso de un estudio cibermétrico sobre la distribución institucional de los contenidos recogidos en Google Scholar, descubrimos que las discrepancias son mayores de lo que se estimaba y que, de hecho, esta base no es comparable a WoK o Scopus, y su uso bibliométrico puede estar desaconsejado como norma general.

Se recogieron los registros totales (al menos con resumen) que aparecen en Scholar para dos grupos de dominios internet: 225 top level domains (incluyendo dominios nacionales como .es, .fr o .it, y los genéricos tales como .com, .org o .net) y 10.442 dominios universitarios (por ejemplo: ucm.es, harvard.edu u ox.ac.uk).

De la primera población se obtuvo un total de 86 millones de registros, de los que 55 millones (el 64%) correspondían a dominios genéricos, lo que cabría esperar de productores y distribuidores comerciales (.com) u organizaciones sin ánimo de lucro fuertemente presentes en este “mercado” (.org). Hay que tener en cuenta que Google Scholar muestra registros únicos, que “unifican” duplicados, es decir registros que pueden aparecer en repositorios institucionales o páginas personales pero que están también recogidos en distribuidores comerciales.

El segundo grupo (universidades) proporcionó 9 millones de registros, que supone un 10,6% del total obtenido en la estimación global, lo que implica que hay alrededor de un cuarto de los contenidos que bajo bandera nacional (dominio propio) son provistos desde instituciones no universitarias (productores locales, centros de investigación, portales, bibliotecas y repositorios digitales). La muestra universitaria puede utilizarse para un análisis en más profundidad, aunque hay que advertir que en muchos casos se trata de producción hospedada, es decir, además de trabajos publicados por personal de la institución se pueden encontrar contribuciones de terceros, tales como presentaciones en congresos celebrados en la universidad hospedadora o material didáctico producido por otros autores pero puesto a disposición (posiblemente sin cobertura contractual) por el profesorado propio.

En dicho análisis aparecen las sorpresas ya que, tras los EE.UU., los siguientes países mejor representados son respectivamente España, Brasil y Taiwán (por delante de Japón, Alemania. Canadá y Reino Unido). Entre los veinte primeros aparecen también Costa Rica, México o Indonesia.

Descendiendo a nivel institucional, tras Harvard (base de datos de astronomía) se encuentran Pennsylvania State University (CiteSeerX), la Universidad de La Rioja(Dialnet), Johns Hopkins University (Muse), Catie en Costa Rica (base de datos de agronomía), Universidad Complutense de Madrid (CompluDoc) o la Universidad Autónoma del Estado de México (Redalyc).

Es decir, de acuerdo con las actuales políticas institucionales, sus páginas web buscan reflejar no sólo la producción de “excelencia” de la universidad, sino todos los resultados independientemente de su calidad y tipo e incluso hospedando producción de terceros, ya puntualmente o exhaustivamente como parte de consorcios amplios. Y Google Scholarestá recogiendo y reflejando todo ello (y cada vez más, a medida que las iniciativas open access vayan triunfando, aunque sea lentamente).

En resumen, Google Scholar es una interesante herramienta de recuperación de información, con limitaciones derivadas de su falta de control documental, que se pueden soslayar dado su tamaño y el hecho de ser gratuita. La oferta de citas bibliográficas claramente incrementa su valor, pero la evolución reciente la aleja cada día más de aquellas que filtran contenidos de acuerdo con criterios de calidad (¿impacto?). Este ruido extra desaconseja un uso liberal en los estudios bibliométricos, especialmente aquellos que tengan fines evaluativos.

Referencias bibliográficas

Bar-Ilan, Judit. “Which h-index? A comparison of WoS, Scopus and Google Scholar”.Scientometrics, 2007, v. 74, n. 2, pp. 257–271.

Bar-Ilan, Judit. “A Closer Look at the Sources of Informetric Research”. Cybermetrics, 2009, v. 13, paper 4.

Bar-Ilan, Judit. “Citations to the ‘Introduction to informetrics’ indexed by WOS, Scopus and Google Scholar”. Scientometrics, 2010, v. 82, n. 3, pp. 495-506.

Beel, Joeran; Gipp, Bela. “Academic search engine spam and Google Scholar’s resilience against it”. Journal of electronic publishing, 2010, v. 13, n. 3.

García-Pérez, M. A. “Accuracy and completeness of publication and citation records in the Web of Science, PsycINFO, and Google scholar: A case study for the computation of h indices in psychology”. Journal of the american society for information science and technology, 2010, v 61, n. 10, pp. 2070-2085.

Harzing, A.; Van der Wal, R. “Google Scholar as a new source for citation analysis”.Ethics in science and environmental politics, 2008, v. 8, n. 1, pp. 61–73.

Harzing, A.; Van der Wal, R. “A Google Scholar h-index for journals: An alternative metric to measure journal impact in economics and business”. Journal of the american society for information science, 2008, v. 60, n. 1, pp. 41–46.

Jacsó, Peter. “Google Scholar revisited”. Online information review, 2008, v. 32, n. 1, pp. 102-114.

Jacsó, Peter. “Savvy searching pragmatic issues in calculating and comparing the quantity and quality of research through rating and ranking of researchers based on peer reviews and bibliometric indicators from Web of science, Scopus and Google Scholar”.Online information review, 2010, v. 34, n. 6, pp. 972-982.

Kousha, Keyvan; Thelwall, Mike. “Sources of Google Scholar citations outside the Science Citation Index: A comparison between four science disciplines”. Scientometrics, 2008, v. 74, n. 2, pp. 273–294.

Li, J.; Burnham, J.F.; Lemley, T.; Britton, R.M. “Citation analysis: Comparison of web of science, scopus, scifinder, and google scholar”. Journal of electronic resources in medical libraries, 2010, v. 7, n. 3, pp. 196-217.

Mayr, Phillip; Walter, Anne-Kathrin. “An exploratory study of Google Scholar”.Online information review, 2007, v. 31, n. 6, pp. 814-830.

Meho, L.; Yang, K. “Impact of data sources on citation counts and rankings of LIS faculty: Web of Science vs. Scopus and Google Scholar”. Journal of the american society for information science and technology, 2007, v. 58, pp. 2105–25.

Mikki, S. “Comparing Google Scholar and ISI Web of Science for earth sciences”.Scientometrics, 2010, v. 82, n. 2, pp. 321-331.

Torres-Salinas, Daniel; Ruiz-Pérez, Rafael; Delgado-López-Cózar, Emilio. “Google Scholar como herramienta para la evaluación científica”. El profesional de la información, 2008, v. 18, n.5, pp. 501-510.

White, Bruce. “Examining the claims of Google Scholar as a serious Information Source”. New zealand library & information management journal, 2006, v. 50, 1, pp. 11-24.

Cómo citar este artículo:

Aguillo, Isidro F. “Google Scholar: no es oro todo lo que reluce”. Anuario ThinkEPI, 2011, v. 5, pp. ¿¿-??.