lunes, 19 de febrero de 2018

18 herramientas para Big Data que necesitas conocer!!!

En el ámbito de la Transformación Digital de hoy en día, Big Data ha brindado a la organización una ventaja para analizar el comportamiento del cliente e hiper-personalizar cada interacción que resulta en ventas cruzadas, una mejor experiencia del cliente y obviamente más ingresos.

El mercado de Big Data ha crecido constantemente a medida que más y más empresas han implementado una estrategia basada en datos. Si bien Apache Hadoop es la herramienta más establecida para analizar Big Data, existen miles de herramientas de big data por ahí. Todas ellas prometen ahorrarle tiempo, dinero y ayudarlo a descubrir conocimientos empresariales nunca antes vistos.

Hemos seleccionado algunos para que comience con  Big Data con el pie derecho:

Avro: fue desarrollado por Doug Cutting y utilizado para la serialización de datos para codificar el esquema de los archivos de Hadoop.

Cassandra: es una base de datos distribuida y de código abierto. Diseñada para manejar grandes cantidades de datos distribuidos en servidores de productos básicos, a la vez que proporciona un servicio altamente disponible. Es una solución NoSQL que fue desarrollada inicialmente por Facebook. Es utilizado por muchas organizaciones como Netflix, Cisco, Twitter, así como formar parte de los Servicios de Nutanix, dentro de la Controler Virtual Machine.

Drill: un sistema distribuido de código abierto para realizar análisis interactivos en conjuntos de datos a gran escala. Es similar al Dremel de Google y es administrado por Apache.

Elasticsearch: un motor de búsqueda de código abierto basado en Apache Lucene. Está desarrollado en Java y puede impulsar búsquedas extremadamente rápidas, que respalden sus aplicaciones de descubrimiento de datos.

Flume: es un marco para poblar Hadoop con datos de servidores web, servidores de aplicaciones y dispositivos móviles. Es la fontanería entre las fuentes y Hadoop.

HCatalog: es un servicio centralizado de administración y uso compartido de metadatos para Apache Hadoop. Permite una visión unificada de todos los datos en los clústeres de Hadoop y permite que diversas herramientas, incluyendo Pig y Hive, procesen cualquier elemento de datos sin necesidad de saber físicamente en qué parte del clúster se almacenan los datos.

Impala: proporciona consultas SQL rápidas e interactivas directamente en sus datos de Apache Hadoop almacenados en Hadoop Distributed File System (HDFS) o HBase utilizando los mismos metadatos, la sintaxis SQL (Hive SQL), el controlador ODBC y la interfaz de usuario (Hue Beeswax) como Apache Hive. Esto proporciona una plataforma familiar y unificada para consultas orientadas a lotes o en tiempo real.

JSON: muchas de las bases de datos NoSQL de hoy almacenan datos en el formato JSON (JavaScript Object Notation) que se ha hecho popular entre los desarrolladores web. JSON también es altamente popular en todas aquellas soluciones que manejan REST-API para administración vía interfaz navegador.

Kafka: es un sistema distribuido de mensajería de publicación y suscripción, que ofrece una solución capaz de manejar toda la actividad del flujo de datos y procesar éstos en un sitio web del consumidor. Este tipo de datos (visitas a la página, búsquedas y otras acciones del usuario) son un ingrediente clave en la web social actual.

MongoDB: es una base de datos NoSQL orientada a documentos, desarrollada bajo el concepto de Código Abierto. Esto viene con soporte para indexado completo, flexibilidad para indexar cualquier atributo y escalar horizontalmente sin afectar la funcionalidad.

Neo4j: es una base de datos de gráficos y cuenta con mejoras de rendimiento de hasta 1000 veces o más, cuando se compara con bases de datos relacionales.

Oozie: es un sistema de procesamiento de flujo de trabajo que permite a los usuarios definir una serie de trabajos escritos en varios idiomas, como Map Reduce, Pig y Hive. Además, los vincula inteligentemente entre sí. Oozie permite a los usuarios especificar dependencias.

Pig: es un lenguaje basado en Hadoop desarrollado por Yahoo. Es relativamente fácil de aprender y es un lenguaje experto para los canales de datos muy profundos y muy extensos.

Storm: es un sistema de computación distribuida en tiempo real, de código abierto y gratuito. Storm facilita el procesamiento fiable de flujos de datos no estructurados en el campo del procesamiento en tiempo real. Storm es tolerante a fallas y funciona con casi todos los lenguajes de programación, aunque típicamente lo han utilizado con Java. Descendiendo de la familia Apache, Storm ahora es propiedad de Twitter.

Tableau: es una herramienta de visualización de datos con un enfoque principal en la inteligencia empresarial. Puede crear mapas, gráficos de barras, diagramas de dispersión y más, sin necesidad de programación. Recientemente lanzaron un conector web que le permite conectarse a una base de datos o API, lo que le brinda la posibilidad de obtener datos en tiempo real en una visualización.

ZooKeeper: es un servicio que proporciona configuración centralizada y registro de nombre de código abierto para grandes sistemas distribuidos. ZooKeeper es uno de los servicios fundamentales dentro de la Controler Virtual Machine de Nutanix.

Todos los días se agregan muchas más herramientas, la pila de tecnología Big Data y es extremadamente difícil de lidiar con todas y cada una de las herramientas. La recomendación aquí yu ahora es que Usted seleccione algunas que pueda dominar y continúe actualizando su conocimiento.

¿Ya aplica alguna de estas herramientas para la estrategia de Big Data en su empresa u organización?

No hay comentarios:

Publicar un comentario

Todos los derechos reservados.
Copyright © 2025.