domingo, 15 de diciembre de 2013

Carencias informativas de los datos abiertos en España

http://www.thinkepi.net/carencias-informativas-de-los-datos-abiertos-en-espana

Carencias informativas de los datos abiertos en España
6 diciembre, 2013 Por Fernanda Peset y Antonio-Lázaro Fernández-López
en Notas ThinkEPI 2014

Introducción

La evolución hacia la apertura de los datos, Open data, es ya imparable. Las instancias políticas (Kroes, 2013), las administraciones (Ley de reutilización, 2007) y hasta los sectores académicos (Ferrer-Sapena y Sánchez, 2012; Hernández y García-Moreno, 2013; Dotor, 2013) están hablando de ello.

Como siempre que están presentes tantos actores en un escenario, un mismo término tiene significados diferentes para cada uno de ellos. En este texto veremos aspectos derivados de los datos públicos abiertos (ODG open data government), uno de cuyos hitos más conocidos son las declaraciones de Obama en 2009 sobre apertura de la Administración.

Reflexionamos sobre cómo se han implementado los datos procedentes de la actividad estadística pública en los catálogos de datos de los gobiernos autonómicos, dado que esta información es frecuente en las aplicaciones que consumen datos abiertos. A pesar de esta intensa presencia consideramos que su tratamiento informativo o documental muestra insuficiencias por los diferentes niveles de análisis y otros aspectos. En este texto se estudian tres cuestiones con respecto a la estadística oficial: que cumplan con los requerimientos que se solicitan a los datos abiertos, la posibilidad de ser encontrada en los catálogos, y que pueda ser correctamente comprendida de cara a la reutilización.

Hemos buscado en cada uno de los portales de gobierno abierto si es posible identificar la información estadística pública, puesto que, como ya se ha comentado, la información numérica es uno de los pilares de la recombinación de datos; y en segundo lugar, si el tratamiento informativo que se realiza permite, a nuestro entender, una reutilización con garantías.

1. ¿Qué es?

El primer aspecto es fijar lo que entendemos por información estadística pública y por Opendata. Dado que no existe una definición de estadística oficial que contemple todas las situaciones del panorama español, asumiremos que ésta es la producida por la actividad estadística de los organismos públicos con competencias en esta materia. Actividades estadísticas son las “que conducen a la obtención, la recopilación, la elaboración y la ordenación sistemática de datos…” (Ley de Cantabria, art.2, 1990).

Acordar qué son Opendata también resulta complicado. Recordemos que en numerosas ocasiones los concebimos como datos numéricos y gran parte de ellos son producto de la actividad estadística oficial, cuyos datasets también son llamados microdatos. La Ley de reutilización (2007), por ejemplo, indica que la información del sector público –a la que llama documentos- ha de estar disponible en la Red en unos formatos determinados y tener una declaración de lo que puede y no puede hacerse para que pueda reutilizarse.

Por su parte, la OKF (Open knowledge foundation) dice: “a piece of data or content is open if anyone is free to use, reuse, and redistribute it — subject only, at most, to the requirement to attribute and/or share-alike”.

Nosotros, además, desde el sector de la gestión de la información, consideramos que han de tener los suficientes metadatos para que sean interpretables y se reutilicen con garantías de fiabilidad. Quizá por ello la definición del informe de la Royal society (Science, 2012) sobre datos abiertos, a nuestro entender, sea también adecuada para los Opendata de la estadística oficial. Los define como datos que cumplen ciertos criterios cuando son liberados -también llamada apertura inteligente/competitiva-, por lo que deben ser:

- Accesibles (localizables), es decir, estar depositados manera que puedan ser encontrados, y en una forma en que puedan ser inmediatamente usados.
- Certificados (acreditados), es decir, que se ha realizado una evaluación sobre la credibilidad de los datos.
- Inteligibles (interpretables), es decir, que puedan ser entendidos por quienes desean conocer algo.
- Reutilizables, o estar en un formato por el que otros puedan usar esta información. Y por tanto, requieren la información necesaria para ello: los metadatos.

2. ¿Se encuentran?

Hemos de hacer notar que la información estadística ya estaba disponible desde hace años en internet, si bien no es demasiado fácil encontrar exactamente la que deseamos para un problema determinado (Fernández-López, 2013). Además, nuestro país cuenta con una estructura muy característica al tener diferentes niveles: un sistema para la Administración general del Estado y varios autonómicos.

Hacer disponible la información pública es uno de los pilares de la transparencia de la Administración, lo que en breve verá la luz como ley (Proyecto, 2013). Pero, ¿dónde están esos conjuntos de datos en los que pensamos los usuarios potenciales?, ¿es posible distinguir la información estadística entre las funcionalidades de los catálogos de datos abiertos?

Los portales de gobierno abierto (tanto el central como autonómicos) que han surgido están ofreciendo todo tipo de información abierta. A partir 2005, con el Plan Avanza, pasando por el proyecto Aporta, el gobierno de España ha procurado ordenar el panorama sobre los datos abiertos, dando lugar al portal “datos.gob.es” en 2011. Los catálogos actúan como primer acceso único a los diferentes recursos web que pueden, o no, estar identificados como proveedores de datos abiertos.

Ahora bien, el estatal no es el único portal que existe, tal y como se observa en su inventario de iniciativas españolas, que nosotros hemos completado con otros portales autonómicos abiertos. Esta diversidad de catálogos se convierte en sí misma en una dificultad para encontrar los conjuntos de datos.

Además, hemos analizado el tratamiento que dan a la información estadística pública con el objetivo de saber si se identifica claramente y se puede recuperar de forma sistemática.

Los portales más exhaustivos ofrecen un apartado específico para este tipo de información, como en el vasco, que tiene un apartado “Buscar datos estadísticos”. Sin embargo, en otros son recuperables como “Tipo de datos” o como una etiqueta en una nube de tags. Incluso existen casos en que ni siquiera podría llegarse a esta información utilizando el buscador, por ejemplo, si un censo o una encuesta no se etiquetaran también como estadística.
INICIATIVA COMUNIDAD
Dades Obertes.
http://www20.gencat.cat/portal/site/dadesobertes Cataluña
Proyecto reutiliz@.
Error permanente en http://www.extremadurareutiliza.es Extremadura
Dades Obertes CAIB.
http://www.caib.es/caibdatafront/index?lang=es Islas Baleares
Open Data Navarra.
http://gobiernoabierto.navarra.es/es/open-data Navarra
Datos de Asturias.
http://risp.asturias.es/catalogo/index.html
Enlace no funciona. Principado de Asturias
Dato abierto Rioja.
http://www.larioja.org/npRioja/default/index.jsp?idtab=758984 Rioja
Aragón Open Data.
http://opendata.aragon.es Aragón
Abert@s Portal Open Data de la Xunta de Galicia.
http://abertos.xunta.es/portada Galicia
Open Data Euskadi.
https://euskadi.net/w79-home/es País vasco
Portal de datos abiertos.
http://www.datosabiertos.jcyl.es Castilla y León
La dirección en el catálogo de gob.es es la del Istac. Canarias
Portal de datos abiertos de JCCM.
http://opendata.jccm.es Castilla–La Mancha
Junta de Andalucía. Datos abiertos.
http://www.juntadeandalucia.es/datosabiertos/portal.html Andalucía


3. Metadatos

Como último paso, hemos determinado si esa oferta de datos se acompaña de los metadatos específicos de los conjuntos para hacerlos comprensibles y por tanto reutilizables (inteligibles en palabras de la Royal society). Los metadatos en el ámbito de Opendata deben informar de los datasets a los que hacen referencia y tienen que poder ser recuperados al tiempo que el dataset concreto, tal y como indica la Ley Foral 11/2012 de la transparencia y del gobierno abierto de Navarra.

Para ello hemos buscado en los catálogos un conjunto de datos con información estadística acerca del mercado de trabajo, específicamente la tasa de actividad o el número de población inactiva, ya que esos datos son utilizados por todos los órganos estadísticos de las Comunidades autónomas para obtener sus propios resultados. Esta información se obtiene de la operación estadística coyuntural “Encuesta de Población Activa (EPA)”, del Instituto nacional de estadística. De este conjunto de datos nos preguntamos si podemos encontrar la “Tasa de actividad” o “Inactivos” en el portal de datos abiertos. Y en relación con la metainformación necesaria, nos preguntamos si se ofrece información para la reutilización, como por ejemplo, ¿qué es la “tasa de actividad” o ser “inactivo”?

En términos generales se aprecia de nuevo una gran disparidad en la forma en que los portales ofrecen los metadatos. En el mejor de los casos los asocian al dataset pero en otros muchos, sin embargo, los conjuntos de datos no se acompañan de sus metadatos específicos sino de los que informan de la operación estadística en su totalidad. Por tanto, complican en exceso su interpretación y su reutilización directa. Algunos datasets, incluso, no cuentan con ningún metadato.

Por ejemplo, el catálogo de “datos.gob”, que ofrece acceso indirecto a la información estadística pública, descarga la responsabilidad de ofrecer metadatos específicos a las páginas a las que redirige. Los metadatos de los registros del catálogo “datos.gob” no llegan al nivel de detalle que requeriría la descripción de conjuntos de datos estadísticos. En ocasiones, enlaza a bases de datos mayores como puede ser Inebase, donde el usuario ha de utilizar formularios de consulta para llegar a la información que desea. Y por supuesto, los metadatos están aparte, en documentos extensos asociados al conjunto de operaciones estadísticas.

En cuanto a los portales autonómicos se aprecia que algunos también efectúan reenvíos a los institutos de estadística (Andalucía o Galicia). Algunos otros, sin embargo, sirven la información desde sus páginas, algunos con metadatos (Euskadi, Navarra o Cataluña). Pero la mayoría no lo hace: Baleares, Rioja o Castilla-León. Incluso algunos ni siquiera funcionan, a la luz de nuestros repetidos intentos hasta 4 de diciembre de 2013.

Conclusiones

Observamos cómo hay sensibilidades diferentes a la hora de abordar la incorporación de datos de la estadística oficial en los catálogos de los portales de datos abiertos. Encontramos diferentes modelos, por ejemplo catálogos que funcionan de manera referencial y remiten a los órganos estadísticos de sus respectivas administraciones, descargando en estos organismos la responsabilidad de ofrecer la metainformación y los formatos adecuados.

Con tal variedad de portales y de formas de distribuir la información, en lugar de facilitar que se encuentren los conjuntos de datos, se han añadido dificultades. Al ser tantos se pierden las ventajas de una economía de escala: pocos portales bien diseñados que incluyeran una masa crítica suficiente de datasets. Nos encontramos con un problema conocido ya por nosotros: muchas formas de entrada a pocos contenidos, que se duplican una y otra vez, quizá debido a la facilidad para compartir recursos gracias a la interoperabilidad técnica.

Esta misma dispersión de recursos impide saber qué información estadística vamos a encontrar y cómo la vamos a encontrar en un catálogo: si se recoge información de cualquier nivel administrativo dentro del área geográfica o sólo del nivel autonómico; si son reenvíos a otras páginas; o si se van a describir los conjuntos de datos, o al menos los más significativos. Por otra parte, en cada uno de los portales la estadística oficial, o incluso la estadística, se recupera de las formas más variadas. Eso sin entrar en que la multiplicidad de recursos produce más errores, como encontrar estadística de una autonomía cuando se busca la estatal.

Y estas conclusiones podrían dar lugar a interpretarnos de forma errónea. Tampoco creemos que un solo portal de tipo centralizado, como “datos.gob.es”, sea la solución.

Con esta reflexión queremos hacer notar lo que todos conocemos porque somos gestores de información: los contenidos han de ser la clave de este tipo de productos de información, no la tecnología ni el diseño. Eso significa que por métodos manuales o automatizados deben asignarse los metadatos que necesita un dataset para ser reutilizado de forma fiable. Y en esto, de nuevo, nuestra profesión mucho que decir y un largo camino por andar.

Bibliografía

Datos.gob.es
http://datos.gob.es/datos/?q=node/521

Dotor Alonso, María (2013). Datos Abiertos de seguridad ciudadana. Valencia: Universidad Politécnica de Valencia [Tesina final de máster].

Fernández-López, Antonio Lázaro (2013). Análisis y diagnóstico de la difusión de la información y documentación estadística de las administraciones públicas en España. Valencia: Universidad Politécnica de Valencia [Trabajo de DEA].

Ferrer-Sapena, Antonia; Sánchez-Pérez, Enrique A. (2013). “Open data, big data: ¿hacia dónde nos dirigimos?”. Anuario ThinkEPI, v. 7, pp. 150-156.

Hernández-Pérez, Tony; García-Moreno, María-Antonia (2013). “Datos abiertos y repositorios de datos: nuevo reto para los bibliotecarios”. El profesional de la información, v. 22, n. 3, pp. 259-263.

Iniciativas españolas. Datos.gob.es.
http://datos.gob.es/datos/?q=node/237

Kroes, Neelie (18 marzo, 2013). Opening up scientific data. European Union. Speech/13/236.
http://europa.eu/rapid/press-release_SPEECH-13-236_en.htm

Ley 3/1990, de 21 de marzo, de Estadística de Cantabria. (BOC 09-04-1990)

Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público. Transpone la Directiva 2003/98/CE, de 17 de noviembre de 2003.

Metadatos para el catálogo datos.gob.es.
http://datos.gob.es/datos/sites/default/files/files/5_met_06.pdf

Proyecto de ley de Transparencia, Acceso a la Información Pública y Buen Gobierno.
http://www.leydetransparencia.gob.es/anteproyecto/index.htm

Science as an open enterprise (2012). The Royal Society Science Policy Centre report. ISBN: 978-0-85403-962-3.
http://royalsociety.org/policy/projects/science-public-enterprise/report

The Open Definition.
http://opendefinition.org- See more at: http://www.thinkepi.net/carencias-informativas-de-los-datos-abiertos-en-espana?utm_source=feedburner&utm_medium=email&utm_campaign=Feed%3A+thinkepi+%28ThinkEPI%29#sthash.zuCBdv6y.dpuf

No hay comentarios: