El ecosistema de la información científica: estructura y niveles de agregación
14 febrero, 2011 | Por Ernest Abadal y Lluís Codina en Notas ThinkEPI 2011 |
1. La información académica
LA INFORMACIÓN académica o científica difunde los resultados de la investigación a través de artículos de revista, contribuciones a congresos, tesis, patentes, etc.
Constituye un sector económico específico que dispone de una industria editorial ?conReed-Elsevier y Thomson Reuters a la cabeza? que se ha visto afectada en los últimos años por los procesos de digitalización y por la irrupción del acceso abierto.
El número de contenidos generados es altísimo1 y esto explica que se hayan desarrollado diversos productos y servicios pensados específicamente para ayudar a los científicos a localizar y consultar los documentos que pueden ser de su interés. Durante muchos años, las bases de datos bibliográficas fueron los únicos instrumentos que facilitaban a los investigadores la localización de referencias científicas. Treinta años después (a principios de 2000) aparecieron los motores de búsqueda académicos, que incluyen toda clase de documentos publicados en sitios web relacionados con la actividad investigadora (conScirus y Google Scholar al frente) y, a partir de aquí, otros productos y servicios han hecho acto de presencia.
Nuestro objetivo es presentar una tipología del conjunto de sistemas de acceso a la información científica que actualmente forman un ecosistema con nichos bien separados, pero también con elementos en competencia que se solapan.
2. Tipología de productos para acceder a la información científica
En la tabla 1 presentamos una propuesta de caracterización de los distintos productos de acceso a la información científica existentes actualmente, junto con una descripción de sus rasgos esenciales.
Producto | Contenidos analizados | Tecnología | Resultados | Inicios | Coste | Ejemplos |
Bases de datos bibliográficas | Fuentes primarias: artículos de revista, congresos, etc. | Asignación de metadatos (registros bibliográficos) | Registros bibliográficos + acceso a un sistema de resolución de enlaces | Finales 1970 | Comerciales | Scopus, ISI WoK,Chemical Abstracts, Eric, etc. |
Portales de revistas | Fuentes primarias: artículos de revistas | Asignación de metadatos (registros bibliográficos); Indización del texto completo | Registros bibliográficos + acceso al documento original | Finales 1990 | Comerciales y gratuitos | Emerald, Scielo,ScienceDirect, etc. |
Repositorios | Fuentes primarias: artículos de revista, tesis, congresos, etc. | Asignación de metadatos (registros bibliográficos); Indización del texto completo | Registros bibliográficos + acceso al documento original | Finales 1990 | Gratuitos | E-LIS, DDD (UAB), MITDspace,Repositorium, etc. |
Motores de búsqueda académicos | Portales de revistas; Repositorios; Sedes web académicas | Indización del texto completo | Lista de enlaces | 2000 | Gratuitos | Google Scholar,Scirus, etc. |
Recolectores | Portales de revistas; Repositorios | Recolección de metadatos | Registros bibliográficos + acceso al documento original | Mediados 2000 | Gratuitos | OAIster,Recolecta,Arrow, etc. |
Metabuscadores académicos | Portales de revistas; Repositorios; Motores de búsqueda académicos | Búsqueda federada | Lista de enlaces | Principios 2000 | Gratuitos y comerciales | ScienceResearch,Biznar, etc. |
Metabuscadores de bibliotecas | Repositorios; Portales de revistas suscritas; Catálogo de la biblioteca | Búsqueda federada | Registros bibliográficos + acceso al documento original | Principios 2000 | Comerciales | Metalib, Encore, etc. |
Tabla 1. Productos principales para el acceso a la información científica
2.1. Los contenidos analizados
Una primera diferenciación de los productos de la tabla la podríamos establecer en función de cuáles son los contenidos analizados. De esta manera se pueden establecer dos niveles de agregación, según se almacene y se indice directamente la fuente original de la información científica (artículos revista, congresos, tesis, etc.) o se llegue a ellos de forma indirecta, a través de algún otro producto agregador como portales de revista o repositorios.
En el primer nivel de agregación encontramos aquellos sistemas de recuperación que se nutren directamente de la fuente original de la información científica, es decir, que toman como referencia los artículos de revista, las contribuciones a congresos, las tesis, etc. Estos productos son las bases de datos bibliográficas, los portales de revistas, ya sean comerciales o de acceso abierto, y los repositorios.
En el segundo nivel se encuentran aquellos servicios que se nutren directamente del primer nivel, es decir, que incluyen contenidos que proceden de portales de revistas y de repositorios. Estos sistemas no van a buscar directamente las fuentes (las revistas, las tesis o los congresos) en su lugar de origen, sino que llegan a ellas por medio de los agregadores de primer nivel. De esta forma les basta con acudir a unos pocos miles de sedes web para nutrirse con millones de contenidos. Aquí estarían los motores de búsqueda académicos, los recolectores, los metabuscadores académicos y los metabuscadores de biblioteca.
2.2. La tecnología
Los fundamentos tecnológicos utilizados por los productos analizados son fundamentalmente cuatro:
-Asignación de metadatos:
Se trata del proceso intelectual (no automático) que consiste en elaborar un registro bibliográfico para cada una de las fuentes originales analizadas. Puede ser realizado por el mismo autor que crea los contenidos (artículos de revista, etc.) o por el analista de la base de datos, portal de revistas o repositorio.
-Indización automática del texto completo:
Consiste en extraer los términos de los contenidos seleccionados, que pueden estar más o menos dispersos en servidores, y generar un índice global como resultado.
-Recolección de metadatos:
Consiste en crear un índice común recolectando metadatos de los repositorios que cumplen un protocolo común (OAI-PMH). El usuario recibe una lista única de resultados.
-Búsqueda federada:
Consiste en enviar la misma consulta a cientos de fuentes (agregadores de primer nivel) que indizan las fuentes primarias, en lugar de volverlas a indizar directamente. Como en el caso anterior, el usuario también recibe una lista única de resultados.
2.3. Lista de resultados
Las páginas de resultados que ofrecen estos productos pueden ser de tres tipos:
a) Registros bibliográficos + acceso al documento original (portales de revista, repositorios, recolectores).
b) Registros bibliográficos + acceso a un sistema de resolución de enlaces (bases de datos bibliográficas).
c) Lista de enlaces (motores académicos, metabuscadores).
En el primer caso (a), el usuario tiene solucionado siempre de forma directa el paso siguiente a cualquier búsqueda: la obtención del documento. En el segundo caso (b), lo tiene solucionado de forma parcial, es decir, en ocasiones el sistema de resolución de enlaces lo conducirá al documento completo, pero a veces no y, además, deberá hacerlo en varios pasos. En el tercer caso (c), se ofrece una lista de enlaces a otros sitios web de modo que el acceso en principio es directo, pero lleno de casuística: enlaces rotos, servidores que requieren suscripción, etc.
3. Consideraciones finales
De la estructura y niveles de agregación antes descritos se desprenden diversos comentarios para algunos de los principales agentes de la comunicación científica:
Para los científicos como usuarios de información
Es frecuente que los investigadores estén suscritos a las alertas de las revistas de su máximo interés. De todas formas, para las búsquedas sistemáticas y exhaustivas acostumbran a utilizar mayoritariamente, y de forma intensiva, los recursos de segundo nivel (especialmente los motores de búsqueda académicos) y también las bases de datos, que les aseguran el acceso a un mayor número de fuentes primarias. Esto es lógico ya que no es práctico tener que ir recorriendo los centenares de portales de revistas o de repositorios.
Para los editores de las revistas
Dado que los científicos consultan fundamentalmente agregadores de segundo nivel, es importante para una revista estar presente en portales de revistas o en repositorios, ya que son el paso esencial e imprescindible para poder ser incluidas en motores de búsqueda y metabuscadores. Es muy difícil estar en el segundo nivel sin pasar por el primero.
Para los repositorios
Los contenidos incluidos en repositorios tienen asegurada la presencia en el segundo nivel. Esto es muy importante para los contenidos que están depositados en ellos. El mayor número de consultas a los repositorios procede de agregadores de segundo nivel y no tanto de consultas directas.
Para los científicos en cuanto que autores
Si quieren asegurar una máxima difusión a sus obras tienen que publicar en revistas incluidas en portales y, si no son de acceso abierto, depositar sus textos en repositorios. De esta forma tienen asegurada su inclusión en motores de búsqueda y metabuscadores académicos y una fácil localización por parte de sus colegas.
Notas
1. Para tener una referencia hay que tener en cuenta que las revistas académicas activas tan sólo son unas 78.000 (según Ulrich’s), cada una de las cuales publica un número variado de artículos anualmente.
Cómo citar este artículo:
Abadal, Ernest; Codina, Lluís . “El ecosistema de la información científica: estructura y niveles de agregación”. Anuario ThinkEPI, 2011, v. 5, pp. ¿¿-??.