Cátedra BOB

¿Qué es Big Data?

Las tecnologías Big Data permiten capturar, almacenar, gestionar y analizar datos masivos (por su volumen), complejos (por su variedad) y que se crean o cambian rápido (por su velocidad de transferencia y variabilidad en su estructura). Esto no era posible con las tecnologías computacionales clásicas.

Big Data proporciona herramientas y procedimientos que pueden ser usados por entidades públicas o privadas para aprovechar las cantidades masivas de datos complejos y en tiempo real que generan diariamente, al extraer el valor necesario que los convierta en información y conocimiento, y así mejorar los procesos y la toma decisiones.

Según la definición de Gartner, de aproximadamente 2001 (y que continúa siendo la definición de referencia): Big data son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a una velocidad superior. Esto se conoce como «las tres V»:

  • Volumen: La cantidad de datos importa. Con Big Data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido o equipo con sensores. En algunos casos esto puede suponer decenas de terabytes de datos o incluso cientos de petabytes.
  • Velocidad: La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna acción. La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real.
  • Variedad: La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos convencionales eran estructurados y podían organizarse claramente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o vídeo, requieren un preprocesamiento adicional para poder obtener significado y habilitar los metadatos.

IBM describe Big Data incorporando dos V adicionales:

  • Variabilidad
    • La forma en que se capturan los datos puede variar de un momento a otro, o de un lugar a otro, de manera que puede crearse cierta dependencia del contexto en que se de la recopilación de información. Esta variabilidad significa que los datos solo se pueden interpretar de manera significativa cuando se toma en consideración el contexto. Las tecnologías que componen una arquitectura Big Data deben ser flexibles para poder adaptarse a nuevos cambios en la forma de obtención de los datos como en su almacenamiento y procesado.
  • Valor
    • El objetivo final del Big Data es extraer valor de toda la información almacenada, a través de distintos procesos, de manera eficiente y con el coste más bajo posible. Es importante cerciorarse de que los conocimientos que se generan se basen en datos precisos. De esta manera, un sistema Big Data debe extraer dicho valor en forma de nueva información de la manera más óptima posible, adaptándose a todos los formatos existentes y futuros.

Desde la Cátedra fomentaremos la difusión, formación e investigación en Big Data ayudando a las entidades públicas y privadas de Canarias a aprender y aplicar estas tecnologías para que consigan ser más eficientes.