miércoles, 26 de enero de 2011

Google Scholar: no es oro todo lo que reluce

11 enero, 2011

Por Isidro F. Aguillo
en Notas ThinkEPI 2011

Introducción

EL FACTOR LIMITANTE en los estudios de la actividad científica, especialmente los que utilizan técnicas cuantitativas, ha sido la disponibilidad de bases de datos. Así, la bibliometría de las últimas décadas no hubiera sido posible sin las bases de ISI/Thomson (citation indexes).

La explosión de la patentometría coincide con el acceso en abierto de los servicios web de las organizaciones de patentes europeas, estadounidenses y japonesas y, en fin, la cibermetría existe en buena medida por las bondades de los motores de búsqueda comerciales.

En muchos casos dichas bases de datos no habían sido diseñadas específicamente para la actividad bibliométrica y fue necesario (y todavía lo es) realizar un importante esfuerzo de selección, limpieza, organización y normalización de los resultados, antes de comenzar cualquier análisis.

Los costes eran enormes (acceso vía Dialog, adquisición de versiones en cd-rom) y lo siguen siendo (licencia nacional WoK), y, además de ciertas limitaciones legales, estaban las de carácter técnico. Éstas son relevantes para entender la tipología y profundidad de los trabajos bibliométricos realizados en los 80 y los 90. Era difícil exportar grandes cantidades de registros, ciertos campos tenían múltiples valores (autores, direcciones, citas) difíciles de segregar, había que repasar errores y normalizar entradas, era complejo hacer correspondencias entre autores y sus direcciones cuando varios de los primeros tenían la misma afiliación institucional.

La imposibilidad práctica de corresponder referencias con artículos generalizó el uso de las citas “esperadas” (el infame factor de impacto) en vez de utilizar las “observadas”. Otras interesantes consecuencias fueron el desprecio hacia los recuentos fraccionados de los cada día más frecuentes trabajos multiautorados o el insólito filtrado temático por categorías disciplinares de revistas o por selección de palabras clave (¡en bases de datos sin auténtica indización!). Todo ello motivado por las limitaciones de contenido y estructura de las bases de datos, pero también por un sistema de gestión intencionadamente capado que impedía una adecuada automatización de ciertos procesos.

La consecuencia directa es que el usuario final del trabajo del bibliómetra (otros colegas, fundamentalmente aquellos objeto de análisis, y los gestores de instituciones y de políticas científicas) apenas se reconociera en los resultados, que podían pecar tanto de excesiva sencillez (plenos de errores) como de inaguantable profundidad (tablas densísimas, sin ninguna utilidad práctica).

Hubo, y los sigue habiendo (cada vez menos, eso sí) trabajos mediocres, pero quizá la principal carencia es la ausencia de escenarios generales, con históricos de datos correctamente organizados y que evitara la continua re-invención de la rueda a la que nos tiene acostumbrada esta disciplina en nuestro país (aunque en este caso la culpa es compartida por la inaudita ausencia de un manual de calidad, actualizado en castellano, del conjunto de las disciplinas cuantitativas).

Obviamente esta nota no es la primera que llama la atención sobre el cuidado extremo que se ha de tener tanto a la hora de seleccionar las fuentes bibliográficas como en el diseño de la extracción y utilización de los datos correspondientes. Y es posible que esta admonición vuelva a caer en saco roto.

Google Scholar

Para los afortunados que trabajan en instituciones que se pueden permitir el indecente dispendio de tener contratadas las dos grandes bases de datos de citas (WoK y Scopus), la labor bibliométrica se hizo un poco más difícil con la aparición del nuevo producto deElsevier. No sólo las bases de datos de ambos productos eran diferentes (Scopus es ligeramente mayor y con menor sesgo anglosajón), sino que las herramientas de consulta y extracción y los indicadores (externos en el caso de Scopus) eran también distintos.

A medio plazo, sin embargo, las ventajas se impusieron, ya que la competencia mejoró las prestaciones de la WoK (ventanas de citación más amplias, nuevos indicadores) y su cobertura geográfica (con cierto número de revistas no anglosajonas, sobre todo de ciencias sociales y humanas, que al parecer tienen un significativo menor impacto). A medio plazo, los trabajos de fusión de ambas bases de datos proporcionarán una mejor idea de las bondades y limitaciones de cada una de ellas, pero mientras tanto cabe esperar la multiplicación de estudios disciplinares y/o temporales que remeden los ya realizados previamente con ayuda de la Wok.

En ese contexto aparece un nuevo e interesante actor, Google Scholar, la base de datos académica del famoso buscador.

Dentro de la estrategia global de Google de recolectar toda la información posible, la dificultad de indizar la llamada internet invisible motivó el desarrollo de un producto que no dependiera de los robots automáticos.

La base de datos académica se nutre de una serie de acuerdos con productores y distribuidores de bases de datos académicas y científicas de todo el mundo, que ceden bajo distintas condiciones (tanto la lista de suministradores como los detalles de los contratos son secretos comerciales de Google) sus registros para la construcción deScholar.

Google proporciona ciertos valores añadidos (citas, enlaces, etiquetas) además de añadir la gigantesca sección académica de la Web visible, que sí aparece en el buscador general.

El resultado es una gran base de datos bibliográfica multidisciplinar que incluye citas a los diferentes artículos (fundamentalmente como ayuda a la recuperación). Es decir, es el tercer gran sistema de citas junto con la WoK y Scopus, con la ventaja de su mayor tamaño y el hecho fundamental de ser de acceso gratuito. Se trata de un producto todavía en versión beta (¡desde 2004!), cuyo futuro no está garantizado y que al parecer es mantenido por un equipo muy reducido. Todo ello podría explicar la falta de normalización documental que sería muy necesaria en un producto multifuente tan heterogéneo formal y sustantivamente.

A pesar de los distintos problemas documentales de Google Scholar, la reciente aparición de un software gratuito (Publish or Perish), que permite la captura directa de los registros y calcula automáticamente diversos indicadores (incluyendo distintas variantes del índice h), ha renovado y generalizado el interés por Scholar en la comunidad bibliométrica.

En la bibliografía de esta nota figura una selección de artículos que tratan fundamentalmente dos áreas: la comparación directa de Google Scholar con las otras grandes bases de datos de citas (Wok y Scopus), y la utilización de registros de Scholarpara la realización de estudios bibliométricos.

Los árboles no dejan ver el bosque

La opacidad de Google respecto a las fuentes que utiliza (y la evolución temporal de dicha cobertura, que parece se incrementó significativamente en los últimos años) ha dificultado el análisis global del buscador académico. De hecho, el diseño de muchos estudios comparativos implicaba utilizar básicamente instituciones y autores de reconocido prestigio, para los que se obtenía una cierta equivalencia con los resultados obtenidos en los productos de “calidad contrastada” (basados más o menos en núcleos deBradford). Las diferencias en los estudios disciplinares se atribuían a diferencias de cobertura y, en fin, otras discrepancias se atribuían a problemas y limitaciones técnicas que se trataban de describir y evaluar o simplemente se citaban sin más, como pretexto.

En el curso de un estudio cibermétrico sobre la distribución institucional de los contenidos recogidos en Google Scholar, descubrimos que las discrepancias son mayores de lo que se estimaba y que, de hecho, esta base no es comparable a WoK o Scopus, y su uso bibliométrico puede estar desaconsejado como norma general.

Se recogieron los registros totales (al menos con resumen) que aparecen en Scholar para dos grupos de dominios internet: 225 top level domains (incluyendo dominios nacionales como .es, .fr o .it, y los genéricos tales como .com, .org o .net) y 10.442 dominios universitarios (por ejemplo: ucm.es, harvard.edu u ox.ac.uk).

De la primera población se obtuvo un total de 86 millones de registros, de los que 55 millones (el 64%) correspondían a dominios genéricos, lo que cabría esperar de productores y distribuidores comerciales (.com) u organizaciones sin ánimo de lucro fuertemente presentes en este “mercado” (.org). Hay que tener en cuenta que Google Scholar muestra registros únicos, que “unifican” duplicados, es decir registros que pueden aparecer en repositorios institucionales o páginas personales pero que están también recogidos en distribuidores comerciales.

El segundo grupo (universidades) proporcionó 9 millones de registros, que supone un 10,6% del total obtenido en la estimación global, lo que implica que hay alrededor de un cuarto de los contenidos que bajo bandera nacional (dominio propio) son provistos desde instituciones no universitarias (productores locales, centros de investigación, portales, bibliotecas y repositorios digitales). La muestra universitaria puede utilizarse para un análisis en más profundidad, aunque hay que advertir que en muchos casos se trata de producción hospedada, es decir, además de trabajos publicados por personal de la institución se pueden encontrar contribuciones de terceros, tales como presentaciones en congresos celebrados en la universidad hospedadora o material didáctico producido por otros autores pero puesto a disposición (posiblemente sin cobertura contractual) por el profesorado propio.

En dicho análisis aparecen las sorpresas ya que, tras los EE.UU., los siguientes países mejor representados son respectivamente España, Brasil y Taiwán (por delante de Japón, Alemania. Canadá y Reino Unido). Entre los veinte primeros aparecen también Costa Rica, México o Indonesia.

Descendiendo a nivel institucional, tras Harvard (base de datos de astronomía) se encuentran Pennsylvania State University (CiteSeerX), la Universidad de La Rioja(Dialnet), Johns Hopkins University (Muse), Catie en Costa Rica (base de datos de agronomía), Universidad Complutense de Madrid (CompluDoc) o la Universidad Autónoma del Estado de México (Redalyc).

Es decir, de acuerdo con las actuales políticas institucionales, sus páginas web buscan reflejar no sólo la producción de “excelencia” de la universidad, sino todos los resultados independientemente de su calidad y tipo e incluso hospedando producción de terceros, ya puntualmente o exhaustivamente como parte de consorcios amplios. Y Google Scholarestá recogiendo y reflejando todo ello (y cada vez más, a medida que las iniciativas open access vayan triunfando, aunque sea lentamente).

En resumen, Google Scholar es una interesante herramienta de recuperación de información, con limitaciones derivadas de su falta de control documental, que se pueden soslayar dado su tamaño y el hecho de ser gratuita. La oferta de citas bibliográficas claramente incrementa su valor, pero la evolución reciente la aleja cada día más de aquellas que filtran contenidos de acuerdo con criterios de calidad (¿impacto?). Este ruido extra desaconseja un uso liberal en los estudios bibliométricos, especialmente aquellos que tengan fines evaluativos.

Referencias bibliográficas

Bar-Ilan, Judit. “Which h-index? A comparison of WoS, Scopus and Google Scholar”.Scientometrics, 2007, v. 74, n. 2, pp. 257–271.

Bar-Ilan, Judit. “A Closer Look at the Sources of Informetric Research”. Cybermetrics, 2009, v. 13, paper 4.

Bar-Ilan, Judit. “Citations to the ‘Introduction to informetrics’ indexed by WOS, Scopus and Google Scholar”. Scientometrics, 2010, v. 82, n. 3, pp. 495-506.

Beel, Joeran; Gipp, Bela. “Academic search engine spam and Google Scholar’s resilience against it”. Journal of electronic publishing, 2010, v. 13, n. 3.

García-Pérez, M. A. “Accuracy and completeness of publication and citation records in the Web of Science, PsycINFO, and Google scholar: A case study for the computation of h indices in psychology”. Journal of the american society for information science and technology, 2010, v 61, n. 10, pp. 2070-2085.

Harzing, A.; Van der Wal, R. “Google Scholar as a new source for citation analysis”.Ethics in science and environmental politics, 2008, v. 8, n. 1, pp. 61–73.

Harzing, A.; Van der Wal, R. “A Google Scholar h-index for journals: An alternative metric to measure journal impact in economics and business”. Journal of the american society for information science, 2008, v. 60, n. 1, pp. 41–46.

Jacsó, Peter. “Google Scholar revisited”. Online information review, 2008, v. 32, n. 1, pp. 102-114.

Jacsó, Peter. “Savvy searching pragmatic issues in calculating and comparing the quantity and quality of research through rating and ranking of researchers based on peer reviews and bibliometric indicators from Web of science, Scopus and Google Scholar”.Online information review, 2010, v. 34, n. 6, pp. 972-982.

Kousha, Keyvan; Thelwall, Mike. “Sources of Google Scholar citations outside the Science Citation Index: A comparison between four science disciplines”. Scientometrics, 2008, v. 74, n. 2, pp. 273–294.

Li, J.; Burnham, J.F.; Lemley, T.; Britton, R.M. “Citation analysis: Comparison of web of science, scopus, scifinder, and google scholar”. Journal of electronic resources in medical libraries, 2010, v. 7, n. 3, pp. 196-217.

Mayr, Phillip; Walter, Anne-Kathrin. “An exploratory study of Google Scholar”.Online information review, 2007, v. 31, n. 6, pp. 814-830.

Meho, L.; Yang, K. “Impact of data sources on citation counts and rankings of LIS faculty: Web of Science vs. Scopus and Google Scholar”. Journal of the american society for information science and technology, 2007, v. 58, pp. 2105–25.

Mikki, S. “Comparing Google Scholar and ISI Web of Science for earth sciences”.Scientometrics, 2010, v. 82, n. 2, pp. 321-331.

Torres-Salinas, Daniel; Ruiz-Pérez, Rafael; Delgado-López-Cózar, Emilio. “Google Scholar como herramienta para la evaluación científica”. El profesional de la información, 2008, v. 18, n.5, pp. 501-510.

White, Bruce. “Examining the claims of Google Scholar as a serious Information Source”. New zealand library & information management journal, 2006, v. 50, 1, pp. 11-24.

Cómo citar este artículo:

Aguillo, Isidro F. “Google Scholar: no es oro todo lo que reluce”. Anuario ThinkEPI, 2011, v. 5, pp. ¿¿-??.

Un corto intervalo entre embarazos aumenta el riesgo de autismo

Un corto intervalo entre embarazos aumenta el riesgo de autismo
21/01/2011	Redacción
Un corto intervalo entre embarazos aumenta el riesgo de desarrollar autismo, según un nuevo estudio publicado en la revistaPediatrics. Concretamente, los niños concebidos en un tiempo inferior a los 12 meses después del nacimiento de su hermano presentan el triple de probabilidad de desarrollar autismo al compararlos con niños que fueron concebidos pasados 3 años del nacimiento de su hermano.Los investigadores analizaron los registros de nacimiento de todos los niños nacidos en California entre 1992 y 2002, centrándose en el primer y segundo hijo, así como en los diagnósticos de autismo. Entre los 662.730 niños que nacieron en segundo lugar, se observó una asociación inversa entre el intervalo interembarazo y las probabilidades de padecer autismo. El nacimiento prematuro o el bajo peso al nacer no afectan a esta asociación, la cual se mantiene, independientemente de las características sociodemográficas. Los autores proponen que estos resultados podrían proporcionar una pista importante sobre cuales son los factores de riesgo potencialmente modificables para el autismo.
[Pediatrics 2011] Keely Cheslack-Postava, Kayuet Liu, and Peter S. Bearman

Palabras Clave: Autismo. Intervalo interembarazo

Riesgo de mortalidad a largo plazo en la epilepsia de inicio infantil

Riesgo de mortalidad a largo plazo en la epilepsia de inicio infantil
17/01/2011	Redacción
El seguimiento a largo plazo de los pacientes con un inicio temprano de la epilepsia muestra que el riesgo de muerte es tres veces mayor que el de las personas de la misma edad de la población general.De las 60 muertes producidas en la cohorte de 245 pacientes con diagnóstico de epilepsia durante la infancia que se analizaron en este estudio, el 55% estuvieron relacionadas con la epilepsia y el 18 se produjeron por una muerte súbita inexplicable en la epilepsia (SUDEP). El riesgo era particularmente alto para los que no habían logrado la remisión de las convulsiones durante 5 años sin medicación. El riesgo acumulado de SUDEP era del 7% a los 40 años en general, pero del 12% para los que no habían obtenido la remisión a largo plazo y no toman medicamentos. Tener una causa de epilepsia remota sintomática, tal como un deterioro neurológico importante, también se asociaba con un mayor riesgo de muerte por causa idiopática o criptogenética. Este hecho ocurría en el 37% de estos pacientes frente al 12% de los que no presentaban estas condiciones.
[N Engl J Med 2010] Sillanpää M y Shinnar S

Palabras Clave: Epilepsia. Infancia. Riesgo de muerte

Las redes sociales y el cambio de médico

Las redes sociales de pacientes acumulan un tesoro muy importante, su principal activo: datos, muchos datos. Y por ello, cada vez es más habitual ver como las propias redes publican artículos que proporcionan detalles muy interesantes sobre el comportamiento de los pacientes que buscan información en internet y además participan en la red en cuestión.

Un ejemplo es Patients Like Me, una conocidísima red de intercambio de información de pacientes. Un equipo de profesionales de la citada red ha publicado en Journal of Medical Internet Research un artículo titulado "Sharing Health Data for Better Outcomes on PatientsLikeMe".

Es llamativo que entre un 6% y un 21% de los miembros de la red cambiaron de médico como resultado de usar Patients Like Me. El mayor porcentaje se dio en la comunidad de fibromialgia. Hace unas semanas hablamos en saludconcosas de las motivaciones que empujaban al paciente a cambiar de médico y una de las principales era precisamente hablar con familiares o amigos, aspecto que se puede sustituir por utilizar el conocimiento que genera en las comunidades de cada enfermedad.

Grupo Menarini España Presentations

Goodbye PubMed, hello raw data

BMJ

2011; 342:d212 doi: 10.1136/bmj.d212 (Published 12 January 2011)

Cite this as: BMJ 2011; 342:d212

Editor's Choice

Goodbye PubMed, hello raw data

Fiona Godlee, editor, BMJ

fgodlee@bmj.com

This time last year the H1N1 influenza pandemic was burning itself out, having caused, thankfully, far less sickness and death than predicted. Now this year’s seasonal flu epidemic is doing its rounds in the northern hemisphere (doi:10.1136/bmj.d203, doi:10.1136/bmj.d190). The UK’s problems with uptake and availability of the flu vaccine seem to have been sorted out, but what interests me is this year’s low key approach to antivirals.

You will remember that neuraminidase inhibitors were promoted by WHO as a key part of influenza prevention and treatment, and that oseltamivir was stockpiled at vast expense by most governments around the world. The drug was made widely and easily available, but even so, huge amounts were left unused. You may also remember that serious doubts were raised about its effectiveness.

At the end of 2009 we published an update of the Cochrane review of antivirals as treatment for flu in otherwise healthy adults (BMJ 2009;339:b5106). As reported in a BMJ/Channel 4 investigation, the reviewers had found that, despite repeated requests to the drug company, Roche, they were unable to obtain the trial data necessary to validate their earlier conclusion that oseltamivir reduced complications (BMJ 2009;339:b5374).

This week the Cochrane team explains why their experience with Roche blows a hole in the systematic review enterprise (doi:10.1136/bmj.c7258). The incomplete information they obtained from Roche merely proved how inadequate the published record on oseltamivir was. The two main published trials don’t mention any adverse events, but the partial study reports from Roche listed 10 serious events, three of which were classified as possibly due to oseltamivir. By laboriously compiling a full list of industry and non-industry trials, they found one large trial by Roche Shanghai that Roche headquarters in Basel hadn’t got on their list. By looking at the regulatory documents, they found that the largest phase III trial of oseltamivir (unpublished) is hardly mentioned in regulatory documents.

From now on, they say, reviewers must have access to all unpublished data, not only from unpublished trials—the usual focus of concern about publication bias—but also from those that have been published in peer reviewed journals. Reviewers must assess entire trial programmes, and so new tools and methods are needed. If the trial reports are incomplete, reviewers should turn to reports from the drug regulators. As Tom Jefferson, the lead author for the Cochrane review, told me, “it’s goodbye PubMed, goodbye Embase.”

The reviewers have posted their new style protocol for this review on the Cochrane site and, recognising the enormity of the task, they are recording how much work is involved. But it must be clear to everyone that such a heroic approach is unsustainable across the whole of healthcare, given the resource constraints on academics and regulators. Which brings us back to what seems to be the only real solution—that the raw data from trials must be made freely available. Journals clearly have a role to play in making this happen, as An-Wen Chan agrees in his editorial (doi:10.1136/bmj.d80). The International Committee of Medical Journal Editors meets in a few months’ time. This will be on the agenda.