martes, 11 de diciembre de 2012

Big data y not so Big data

Inicio » Notas ThinkEPI 2013 » Big data y not so Big data

Big data y not so Big data
30 noviembre, 2012 Por Jorge Serrano-Cobos
en Notas ThinkEPI 2013



“Big data” es uno de esos conceptos que están con nosotros desde hace mucho, pero que periódicamente saltan a la palestra de los medios y gozan de su minuto de gloria (o semana, mes o año…).

Big data hace referencia a sistemas que manipulan grandes o enormes cantidades de datos, sobre los que ejecutan diferentes tipos de análisis con técnicas propias de business analytics, data mining o text mining para buscar patrones entre los ingentes volúmenes de datos (podemos hablar de terabytes, petabytes, 1.000.000.000.000.000 bytes, o más). Y antes de que cierres el mensaje por pensar “esto no es para mí”, más abajo encontrarás algunos ejemplos realizados por documentalistas (colaborando o no con programadores y matemáticos).

Las dificultades inherentes a gestionar semejantes cantidades de bits son fácilmente imaginables: encontrar y obtener los datos, almacenarlos de forma que la organización tenga acceso rápido a ellos y/o compartirlos con clientes actuales o potenciales, desarrollar una forma de buscar la aguja en el pajar y, por supuesto, analizar los datos y mostrarlos de forma resumida y visualmente clara para convertirlos en información apropiada para la toma de decisiones…

Grandes compañías como Oracle, Google o IBM se han apuntado al carro de proporcionar herramientas (con tendencia al Cloud computing) que permitan a compañías no tan grandes a utilizar y computar esa información, donde la herramienta reina actualmente es quizá Hadoop.
http://hadoop.apache.org

Las aplicaciones de este tipo de técnicas y herramientas son prácticamente infinitas: marketing, logística, gestión de recursos hídricos, estudio del lenguaje humano, genómica, investigación científica en general… Desde nuestro perfil, al enfrentarnos al desafío delBig data, una opción puede ser maridar un profesional encargado de conceptualizar los objetivos que queremos conseguir (qué indicadores buscamos, qué conclusiones esperamos, cuáles son las hipótesis de trabajo que queremos confirmar o refutar) y un especialista en datos, con una fuerte formación combinada en programación, gestión de sistemas y matemáticas de alto nivel.

En principio, es posible pensar que hablamos de conceptos alejados de nuestra realidad profesional, pero no tiene por qué. Aunque en muchos casos, nuestros contextos se circunscriban más a not so Big data (más conocido como Small data), es interesante investigar y conocer mejor las posibilidades que las técnicas de análisis inherentes al Big data pueden aportar en nuestro contexto.

Así, estamos quizá más familiarizados con la disciplina de la Analítica web (hoy día se oye también “Digital analytics”, al incorporar datos no sólo de la Web, como las Apps de los móviles), cuyo espejo a gran escala sería la disciplina de Data analytics, en las que estamos buscando básicamente lo mismo: pasamos de Descriptive analytics, mostrando “lo que hay”, a veces a través de herramientas de “Visualization analytics”, en 2D ó 3D, a usar técnicas de modelización predictiva que nos permitan hallar tendencias, patrones, correlaciones y más allá, causalidades, para generar predicciones, lo que se denominaPredictive o aún Prescriptive analytics. Y la bibliometría y cibermetría tienen mucha relación con este tipo de analítica.

Pero, sin entrar en herramientas orientadas a otros sectores (banca, salud), podemos utilizar algunas herramientas de Big data o Small data sin que sepamos que lo es o usarlas de forma gratuita, por ejemplo:

- Yahoo clues: Muestra visualmente tendencias de búsqueda, muy útil para segmentación de mercados digitales.
http://clues.yahoo.com

- Google keywords tool: permite descubrir las palabras clave, frases de búsqueda oqueries más buscadas en torno a un concepto utilizado como semilla. El sistema contabiliza millones de expresiones y datos históricos. Nosotros sólo recibimos la pequeña parte relacionada con lo que pedimos. Pero podemos pedir mucho.
https://adwords.google.com/o/KeywordTool

En un reciente informe realizado sobre el e-Commerce del vino, estudiamos más de 6.000 expresiones de búsqueda distintas, en 6 idiomas distintos, que correspondían a 128 millones de búsquedas de media mensual, para encontrar, entre otras cosas, cómo se busca el vino español en comparación con vinos de otros países. Podemos combinar esta herramienta con Google trends, para ayudar en la visualización de la información (temporal o geográficamente).
http://bit.ly/Twmvui

- Microsoft academic search: buscador y visualizador de relaciones a un tiempo. Con sus limitaciones y sesgos está -creo- haciendo bastante por presionar a otros para mejorar las herramientas de análisis (y visualización) bibliométrico.
http://academic.research.microsoft.com

- Google correlate: permite buscar términos de búsqueda con similares patrones que uno dado, o introducir nuestros propios datos para que nos los analice.
http://www.google.com/trends/correlate

- Google fusion tables: herramienta con la que puedes combinar y visualizar distintos conjuntos de datos, alojables en la nube.
http://support.google.com/fusiontables/answer/2571232/?hl=en&

Por ejemplo, en MASmedios.com lo hemos usado para visualizar mediante geolocalización acciones realizadas en ubicaciones físicas por millones de ciudadanos.
http://www.eleccions2011.gva.es/es/ciudadanos/mapas-municipales

- Google N-Gram viewer: puede ayudar a analizar históricamente las palabras más usadas en los libros de Google books, las menciones a autores, etc. Nota: ojo con los posibles fallos de digitalización, puede dar resultados “divertidos”.
http://books.google.com/ngrams

- Google public data explorer: permite explotar las posibilidades de visualización de datos obtenidos de entidades públicas o nuestros propios datos, lo que nos lleva a conectar elBig data con el Linked data y el Open data, del que ya se está hablando en nuestro entorno, por lo que no me extenderé aquí.
http://www.google.com/publicdata/directory

- En el sector del Social analytics, han surgido multitud de herramientas que usan las APIs de distintas fuentes (Google, Facebook, Twitter, etc.) para extraer datos con los que realizar comparaciones de todo tipo y extraer tendencias en tiempo real incluyendo lo que se denomina Sentiment analysis para evaluar la opinión que los usuarios tienen de una marca, como realiza la compañía española Bitext.

http://www.datasciencecentral.com/video/real-time-analytics-for-small-data-big-data-and-huge-data
http://www.bitext.com/actividad/soluciones/sol_naturalopinions.html

- Las APIs sin más de estas fuentes, son intensamente utilizadas en multitud de ámbitos, generando muy distintas herramientas, desde el SEO al turismo, pasando por la webometría. Nosotros y otros compañeros de éste nuestro gremio lo hemos usado para realizar inteligencia competitiva, investigaciones longitudinales de search analytics, posicionamiento en buscadores, etc., en ámbitos tan dispares como el E-Commerce y la exportación o los rankings universitarios, por poner ejemplos, pero las posibilidades están por explorar.

¿Más herramientas y ejemplos de proyectos en los que hayan intervenido gestores de información? Seguro que podéis incluir vuestras propias aportaciones.

Más información:

http://www.datasciencecentral.com

http://www.kdnuggets.com

No hay comentarios: