Volumen, Velocidad Y Variedad: Entendiendo Las Tres V's Del Big Data

Admond Lee
Apr 07, 2020

Contents Outline

Volumen, Velocidad Y Variedad: Entendiendo Las Tres V's Del Big Data

Apr 07, 2020 9 minutes read

Para aquellos que luchan por entender el big data, hay tres conceptos clave que pueden ayudar: volumen, velocidad y variedad. Estos tres vectores describen cómo el big data es tan diferente de la gestión de datos de la vieja escuela.

Nota del editor: Este artículo fue publicado originalmente en 2016 y ha sido actualizado para 2018.

Nosotros, los profesionales de las artes tecnológicas, tenemos la tendencia a usar una jerga especializada. Eso no es inusual. La mayoría de los gremios, sacerdocios y profesiones han tenido su propio estilo de comunicación, ya sea por conveniencia o para establecer un sentido de exclusividad. En tecnología, también tendemos a adjuntar palabras de moda muy simples a temas muy complejos, y luego esperamos que el resto del mundo lo haga.

Tomemos, por ejemplo, las etiquetas de "nube" y "big data". El término "nube" surgió porque los ingenieros de sistemas solían dibujar diagramas de redes de área local. Entre los diagramas de las redes locales, dibujábamos un revoltijo parecido a una nube que se refería, más o menos, a "las cosas indefinidas que hay en medio". Por supuesto, la Internet se convirtió en la última cosa indefinida en el medio, y la nube se convirtió en La Nube.

Para el tío Steve, la tía Becky y Janice en Contabilidad, "La Nube" significa el lugar donde guardas tus fotos y otras cosas. Mucha gente no sabe realmente que "nube" es una abreviatura, y la realidad de la nube es el crecimiento de casi inimaginables enormes centros de datos que contienen grandes cantidades de información.

Big data es otra de esas palabras abreviadas, pero esta es una que Janice en Contabilidad, Jack en Marketing, y Bob el miembro de junta directiva de la empresa realmente necesitan entender. El big data no sólo puede responder a grandes preguntas y abrir nuevas puertas a la oportunidad, sino que sus competidores están usando casi sin duda big data para su propia ventaja competitiva.

Eso, por supuesto, plantea la pregunta: ¿qué es el big data? La respuesta, como la mayoría en la tecnología, depende de su perspectiva. Aquí hay una buena manera de pensar en ello. El big data son datos que son demasiado grandes para que la gestión de datos tradicional los maneje.

Los grandes, por supuesto, también son subjetivos. Por eso lo describiremos de acuerdo a tres vectores: volumen, velocidad y variedad... las tres V.

VOLUMEN
El volumen es la V más asociada al big data porque, bueno, el volumen puede ser grande. De lo que estamos hablando aquí es de cantidades de datos que alcanzan proporciones casi incomprensibles.

Facebook, por ejemplo, almacena fotografías. Esa declaración no empieza a aturdir la mente hasta que empiezas a darte cuenta de que Facebook tiene más usuarios que China. Cada uno de esos usuarios ha almacenado un montón de fotografías. Facebook está almacenando aproximadamente 250 mil millones de imágenes.

¿Puedes imaginarlo? En serio. Adelante. Trata de envolver tu cabeza alrededor de 250 mil millones de imágenes. Intenta con esta. En 2016, Facebook tenía 2,5 billones de publicaciones. En serio, es un número tan grande que es casi imposible de imaginar.

Así que, en el mundo de los grandes datos, cuando empezamos a hablar de volumen, estamos hablando de cantidades insanamente grandes de datos. A medida que avanzamos, vamos a tener más y más grandes colecciones. Por ejemplo, a medida que agregamos sensores conectados a casi todo, todos esos datos de telemetría se sumarán.

¿Cuánto se sumará? Considere esto. Gartner, Cisco e Intel estiman que habrá entre 20 y 200 (no, no están de acuerdo, ¡sorpresa!) dispositivos de IO conectados, el número es enorme sin importar qué. Pero no es sólo la cantidad de dispositivos.

Considera cuántos datos salen de cada uno. Tengo un sensor de temperatura en mi garaje. Incluso con un nivel de granularidad de un minuto (una medida por minuto), eso sigue siendo 525.950 puntos de datos en un año, y eso es sólo un sensor. Digamos que tienes una fábrica con mil sensores, estás viendo medio billón de puntos de datos, sólo para la temperatura.

O, consideremos nuestro nuevo mundo de aplicaciones conectadas. Todo el mundo lleva un teléfono inteligente. Veamos un ejemplo sencillo, una aplicación de lista de tareas pendientes. Cada vez más proveedores gestionan los datos de las aplicaciones en la nube, de modo que los usuarios pueden acceder a sus listas de tareas en todos los dispositivos. Dado que muchas aplicaciones utilizan un modelo freemium, en el que se entrega una versión gratuita y otra version premium, los proveedores de aplicaciones basadas en SaaS tienden a tener muchos datos que almacenar.

Todoist, por ejemplo (el gestor de tareas que utilizo) tiene aproximadamente 10 millones de instalaciones activas, según Android Play. Eso sin contar todas las instalaciones en la Web y en el iOS. Cada uno de esos usuarios tiene listas de elementos... y todos esos datos deben ser almacenados. Todoist no es ciertamente del nivel de Facebook, pero aún así almacenan muchos más datos que casi cualquier aplicación hace una década.

Luego, por supuesto, están todas las colecciones internas de datos de la empresa, que van desde la industria energética a la salud y la seguridad nacional. Todas estas industrias están generando y capturando grandes cantidades de datos.

Ese es el vector del volumen.

VELOCIDAD
¿Recuerdas nuestro ejemplo de Facebook? 250 mil millones de imágenes pueden parecer muchas. Pero si quieres que te vuele la cabeza, considera esto: Los usuarios de Facebook suben más de 900 millones de fotos al día. Un día. Así que ese número de 250 mil millones del año pasado parecerá una gota en un vaso de agua en unos meses.

La velocidad es la medida de la rapidez con la que llegan los datos. Facebook tiene que manejar un tsunami de fotografías todos los días. Tiene que ingerirlo todo, procesarlo, archivarlo, y de alguna manera, más tarde, ser capaz de recuperarlo.

Aquí hay otro ejemplo. Digamos que estás llevando a cabo una campaña de marketing y quieres saber cómo la gente "ahí fuera" se siente acerca de tu marca en este momento. ¿Cómo lo harías? Una forma sería licenciar algunos datos de Twitter de Gnip (adquiridos por Twitter) para agarrar un flujo constante de tweets, y someterlos a un análisis de sentimientos.

Esa alimentación de datos de Twitter a menudo se llama "la manguera de fuego" (the firehose) porque se producen tantos datos (en forma de tweets), que se siente como estar en el extremo de una manguera de fuego.

Aquí hay otro ejemplo de velocidad: análisis de paquetes para ciberseguridad. Internet envía una gran cantidad de información a través del mundo cada segundo. Para un equipo de TI de una empresa, una parte de esa inundación tiene que viajar a través de cortafuegos a una red corporativa.

Desafortunadamente, debido al aumento de los ciberataques, el cibercrimen y el ciberespionaje, las siniestras cargas útiles pueden ocultarse en ese flujo de datos que pasa a través del cortafuegos. Para prevenir el compromiso, ese flujo de datos tiene que ser investigado y analizado por anomalías, patrones de comportamiento que son señales de alerta. Esto se está volviendo más difícil a medida que más y más datos son protegidos con encriptación. Al mismo tiempo, los malos están escondiendo sus cargas de malware dentro de paquetes encriptados.

O tomar los datos de los sensores. Cuanto más despegue la Internet de las cosas, más sensores conectados estarán en el mundo, transmitiendo diminutos bits de datos a una tasa casi constante. A medida que el número de unidades aumenta, también lo hace el flujo.

Ese flujo de datos es el vector de velocidad.

VARIEDAD
Habrás notado que he hablado de fotografías, datos de sensores, tweets, paquetes encriptados, etc. Cada uno de estos son muy diferentes entre sí. Estos datos no son las antiguas filas y columnas y joins de bases de datos de nuestros antepasados. Es muy diferente de una aplicación a otra, y gran parte de ella no está estructurada. Eso significa que no encajan fácilmente en los campos de una hoja de cálculo o una aplicación de base de datos.

Tomemos, por ejemplo, los mensajes de correo electrónico. Un proceso de descubrimiento legal podría requerir el cribado de miles a millones de mensajes de correo electrónico en una colección. Ninguno de esos mensajes va a ser exactamente igual a otro. Cada uno consistirá en una dirección de correo electrónico del remitente, un destino, más un sello de tiempo. Cada mensaje tendrá texto escrito por humanos y posiblemente archivos adjuntos.

Fotos y videos y grabaciones de audio y mensajes de correo electrónico y documentos y libros y presentaciones y tweets son todos datos, pero generalmente no están estructurados, y son increíblemente variados.

Toda esa diversidad de datos constituye el vector de variedad de los grandes datos.

MANEJANDO LAS TRES Vs.
Se necesitaría una biblioteca de libros para describir todos los diversos métodos que los profesionales del big data utilizan para procesar las tres V. Por ahora, sin embargo, tu gran aporte debería ser este: una vez que empieces a hablar de datos en términos que van más allá de lo básico, una vez que empieces a hablar de cantidades épicas, flujo insano y amplio surtido, estarás hablando de big data.

Una última reflexión: ahora hay maneras de cribar toda esa locura y recoger ideas que pueden aplicarse para resolver problemas, discernir patrones e identificar oportunidades. Ese proceso se llama analítica, y es por eso que, cuando escuchas big data, a menudo escuchas el término analítica aplicado en la misma frase.

Las tres Vs describen los datos a ser analizados. La analítica es el proceso de derivar valor de esos datos. Tomados en conjunto, existe el potencial para una sorprendente perspicacia o un preocupante descuido. Como cualquier otra gran potencia, el big data viene con una gran promesa y una gran responsabilidad.
Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!