Disponer de muchos datos para tomar una decisión no es nuevo. Lo que
ha cambiado radicalmente en los últimos tiempos es la cantidad de datos
de los que podemos disponer, la velocidad a la que se generan nuevos
datos y los distintos tipos de información que podemos procesar para
obtener aprendizajes de negocio sobre ellos. Eso es precisamente lo que
conocemos como Big Data, y lo que David Mangas Núñez, Industry Lead para FSI en Microsoft y Profesor de ICEMD, define como “las tres V“: volumen, velocidad y variedad.
La primera “V”, Volumen, se refiere a la posibilidad de manejar grandes cantidades de información, y es la que da nombre a toda esta disciplina: Big Data. La segunda “V” se refiere a la velocidad con la que se procesan estos datos,
ya que una de las grandes diferencias de Big Data con los sistemas
primitivos de procesamiento de información es que plantea tratar datos
en tiempo real para obtener conclusiones en tiempo real, no procesa
datos “muertos” para obtener explicaciones a lo que ya pasó. Es un
proceso vivo.
Y la tercera “V” habla de la variedad de datos a tratar.
En los proyectos de Big Data no sólo se procesan datos perfectamente
organizados, lo que se conoce como información estructurada, sino que
deben ser capaces de tratar datos no estructurados.
Como puedes
imaginar, bajo la aparente sencillez de un término como Big Data se
encuentran toda una serie de procesos y metodologías que funcionan
conjuntamente para dar con el resultado buscado. Hay partes del proceso
dedicadas a la captación de datos, otras dedicadas al procesamiento de
la información y, las finales, orientadas a la extracción de
conclusiones. A la hora de planificar un proyecto de Big Data, una compañía necesita perfiles con una gran capacitación que, por lo reciente de la disciplina del Big Data, posiblemente no existan. Por eso es vital acceder a una formación de calidad para añadir, a los conocimientos existentes, la capa de especialización en Big Data que les dote de nuevas capacitaciones.
Las herramientas disponibles para acometer un proyecto de Big Data son muy variadas pero las más importantes, según Ramón Pin Mancebo, Data engineer en Orange Spagne y profesor de ICEMD, son estas siete:
Apache Hadoop
El
componente fundamental en el que se apoyan el resto de elementos.
Dispone de un sistema de almacenamiento distribuido, de gestión de
recursos y de procesamiento Map/Reduce. Es una herramienta fundamental
para proyectos de Big Data que emplean gigantes como Amazon o Yahoo!
Apache Spark
Una
herramienta que permite tratar, de forma distribuida, los datos tanto
en procesos por lotes como en tiempo real mediante una API única. En
palabras de Ramón Pin Mancebo, “Desde su llegada al ecosistema en 2014
Spark ha ganado cada día más y más adeptos. Todo recién llegado debería
profundizar en su uso”. Su aprendizaje es un proceso laborioso ya que el
máximo rendimiento se obtiene tras aprender y dominar el lenguaje
Scala. Lo emplean grandes compañías como Cisco, Verizon o Visa.
Apache Flink
Una
destacada alternativa a Spark que, poco a poco, está ganando cuota de
mercado. Hace lo mismo de un modo radicalmente diferente. Lo emplea, por
ejemplo, Zalando.
Presto
Es un motor de consultas SQL que
facilita establecer relaciones entra la información disponible en
distintos sistemas de almacenamiento de forma unificada sin que sea
necesario trasladar los datos a una única plataforma. Empleado por
Airbnb, Netflix o Facebook.
Apache HBase
Es un sistema de
almacenamiento escalable y distribuido de datos sobre ficheros HDFS.
Organiza la información por familias de columnas lo que facilita la
actualización y el acceso aleatorio a la información. Nuevamente según
destaca Ramón Pin Mancebo, “Está presente en las principales
distribuciones de Hadoop por lo que saber modelar datos haciendo uso de
esta herramienta es otra de esos skills necesarios para todo conocedor”.
Es usado por Facebook, Airbnb, y Spotify.
Apache Cassandra
Cassandra
es el principal rival de HBase en el mundo del Big Data. Emplean un
modelo de datos muy similar, pero Cassandra no usa ningún componente del
ecosistema Hadoop ni está incluida en sus distribuciones. Teniendo esto
en cuenta, es una de las pocas soluciones disponibles para despliegues
multi-datacenter por lo que, según Ramón Pin Mancebo, Data engineer en
Orange Spagne y profesor de ICEMD “es también un ‘debe’ en nuestra lista
de conocimientos”. Es público que se emplea en el CERN, Cisco y
Walmart.
Apache Kudu
La última gran herramienta de este
“arsenal Big Data” es Kudu, una herramienta perfecta que complementa al
HDFS. En esencia es un sistema de almacenamiento de datos en columnas
para poder hacer consultas sobre ellos de forma sencilla y rápida. Lo
emplea Cloudera.
Como has visto hasta aquí, una etiqueta como Big
Data esconde una importante sofisticación tanto en el análisis del
problema a resolver como en los procesos y herramientas a implementar.
Si tu rumbo profesional o las necesidades actuales de tu empresa están
orientadas en esta dirección, te interesa conocer lo que puede aportarte
el Programa Superior en Big Data Analytics de ICEMD. Tienes más
información aquí.
Fuente: https://www.muylinux.com/
0 Comentarios