Siete claves para entender el Big Data


Disponer de muchos datos para tomar una decisión no es nuevo. Lo que ha cambiado radicalmente en los últimos tiempos es la cantidad de datos de los que podemos disponer, la velocidad a la que se generan nuevos datos y los distintos tipos de información que podemos procesar para obtener aprendizajes de negocio sobre ellos. Eso es precisamente lo que conocemos como Big Data, y lo que David Mangas Núñez, Industry Lead para FSI en Microsoft y Profesor de ICEMD, define como “las tres V“: volumen, velocidad y variedad.

La primera “V”, Volumen, se refiere a la posibilidad de manejar grandes cantidades de información, y es la que da nombre a toda esta disciplina: Big Data. La segunda “V” se refiere a la velocidad con la que se procesan estos datos, ya que una de las grandes diferencias de Big Data con los sistemas primitivos de procesamiento de información es que plantea tratar datos en tiempo real para obtener conclusiones en tiempo real, no procesa datos “muertos” para obtener explicaciones a lo que ya pasó. Es un proceso vivo.

Y la tercera “V” habla de la variedad de datos a tratar. En los proyectos de Big Data no sólo se procesan datos perfectamente organizados, lo que se conoce como información estructurada, sino que deben ser capaces de tratar datos no estructurados.

Como puedes imaginar, bajo la aparente sencillez de un término como Big Data se encuentran toda una serie de procesos y metodologías que funcionan conjuntamente para dar con el resultado buscado. Hay partes del proceso dedicadas a la captación de datos, otras dedicadas al procesamiento de la información y, las finales, orientadas a la extracción de conclusiones. A la hora de planificar un proyecto de Big Data, una compañía necesita perfiles con una gran capacitación que, por lo reciente de la disciplina del Big Data, posiblemente no existan. Por eso es vital acceder a una formación de calidad para añadir, a los conocimientos existentes, la capa de especialización en Big Data que les dote de nuevas capacitaciones.

Las herramientas disponibles para acometer un proyecto de Big Data son muy variadas pero las más importantes, según Ramón Pin Mancebo, Data engineer en Orange Spagne y profesor de ICEMD, son estas siete:

Apache Hadoop

El componente fundamental en el que se apoyan el resto de elementos. Dispone de un sistema de almacenamiento distribuido, de gestión de recursos y de procesamiento Map/Reduce. Es una herramienta fundamental para proyectos de Big Data que emplean gigantes como Amazon o Yahoo!

Apache Spark

Una herramienta que permite tratar, de forma distribuida, los datos tanto en procesos por lotes como en tiempo real mediante una API única. En palabras de Ramón Pin Mancebo, “Desde su llegada al ecosistema en 2014 Spark ha ganado cada día más y más adeptos. Todo recién llegado debería profundizar en su uso”. Su aprendizaje es un proceso laborioso ya que el máximo rendimiento se obtiene tras aprender y dominar el lenguaje Scala. Lo emplean grandes compañías como Cisco, Verizon o Visa.

Apache Flink

Una destacada alternativa a Spark que, poco a poco, está ganando cuota de mercado. Hace lo mismo de un modo radicalmente diferente. Lo emplea, por ejemplo, Zalando.

Presto

Es un motor de consultas SQL que facilita establecer relaciones entra la información disponible en distintos sistemas de almacenamiento de forma unificada sin que sea necesario trasladar los datos a una única plataforma. Empleado por Airbnb, Netflix o Facebook.

Apache HBase

Es un sistema de almacenamiento escalable y distribuido de datos sobre ficheros HDFS. Organiza la información por familias de columnas lo que facilita la actualización y el acceso aleatorio a la información. Nuevamente según destaca Ramón Pin Mancebo, “Está presente en las principales distribuciones de Hadoop por lo que saber modelar datos haciendo uso de esta herramienta es otra de esos skills necesarios para todo conocedor”. Es usado por Facebook, Airbnb, y Spotify.

Apache Cassandra

Cassandra es el principal rival de HBase en el mundo del Big Data. Emplean un modelo de datos muy similar, pero Cassandra no usa ningún componente del ecosistema Hadoop ni está incluida en sus distribuciones. Teniendo esto en cuenta, es una de las pocas soluciones disponibles para despliegues multi-datacenter por lo que, según Ramón Pin Mancebo, Data engineer en Orange Spagne y profesor de ICEMD “es también un ‘debe’ en nuestra lista de conocimientos”. Es público que se emplea en el CERN, Cisco y Walmart.

Apache Kudu

La última gran herramienta de este “arsenal Big Data” es Kudu, una herramienta perfecta que complementa al HDFS. En esencia es un sistema de almacenamiento de datos en columnas para poder hacer consultas sobre ellos de forma sencilla y rápida. Lo emplea Cloudera.

Como has visto hasta aquí, una etiqueta como Big Data esconde una importante sofisticación tanto en el análisis del problema a resolver como en los procesos y herramientas a implementar. Si tu rumbo profesional o las necesidades actuales de tu empresa están orientadas en esta dirección, te interesa conocer lo que puede aportarte el Programa Superior en Big Data Analytics de ICEMD. Tienes más información aquí.



Publicar un comentario

0 Comentarios