Blog Exitcertified México: MongoDB

Mostrando entradas con la etiqueta MongoDB. Mostrar todas las entradas

martes, 15 de enero de 2019

Juego de Nubes: Se acerca un desenlace

Las cargas de trabajo "Nacido en La Nube" pudieron haber sido diseñadas para ser agnósticas de la plataforma, pero eso no significa que siempre será así ya que los "hiperescaladores" como Amazon Web Services y Microsoft Azure continúan agregando funcionalidades específicas y únicas a sus respectivos servicios.

En 2013 y 2014 discutíamos acerca del "Juego de servicios" y cómo, al igual que en la serie de fantasía épica de HBO "Juego de Tronos" que se ha desarrollado durante varias temporadas, han habido distintos capítulos en la evolución de La Nube del consumidor.

Para resumir: la evolución de La Nube del consumidor ha ido de la mano y se ha vinculado a los servicios que los principales actores de la industria (Apple, Google, Microsoft y Amazon) ofrecen para quien deciden alojar sus cargas de trabajo en ellos, creando diferenciadores entre sí.

El Primer Capítulo de "Game of Services" fue sobre las plataformas de sistemas operativos móviles y que quedaría en pie. Ahora sabemos quienes ganaron: Apple y Google.

El Segundo Capítulo versaba sobre los servicios en sí mismos, lo que "Las Casas" tenían que ofrecer en términos de almacenamiento en La Nube, aplicaciones, mensajería, contenido (música/video/libros) y cómo estos continuarían evolucionando.

El Tercer Capítulo trata acerca de la contienda de las Interfaces de Programación para las Aplicaciones (API), hacia los servicios en La Nube pública de los consumidores. Google y Facebook en su mayor parte, siguen siendo Las Nubes para consumidores más importantes y el acceso a esas API, sigue siendo un objetivo en constante movimiento.

¿Cuál es el cuarto capítulo? La evolución de la empresa/nube comercial. Estamos hablando de "hiperscaladores" de La Nube pública como Amazon Web Services, Microsoft Azure, Google Cloud Platform y en menor medida, IBM Cloud.

Hasta ahora, las cargas de trabajo de La Nube empresarial se clasifican como IaaS (Infraestructura como servicio), PaaS (Plataforma como servicio), SaaS (Software como servicio) o una mezcla de los tres. Las cargas de trabajo que están diseñadas para ejecutarse en La Nube desde el primer día a menudo se denominan cargas de trabajo "Nacidas en La Nube", mientras que las cargas de trabajo cliente-servidor tradicionales (segunda plataforma) que se originan en los centros de datos locales que se trasladan a La Nube, son cargas de trabajo migradas a La Nube.

Mientras que cuando combinamos La Nube Pública y la Privada, dividiendo así entre La Nube y las instalaciones locales, tenemos lo que se llama una Arquitectura de Nube Híbrida.

En su mayor parte, Las Nubes empresariales/comerciales han alojado servicios que podrían considerarse productos básicos o intercambiables. Las máquinas virtuales, el almacenamiento y las redes son servicios fundamentales de IaaS que en esencia son efectivamente los mismos entre los principales "hiperescaladores", así como entre los principales actores a los que se ha valorado igual, y que ahora van en carrera descendente.

Los contenedores que se ejecutan en estándares de empaquetado de aplicaciones de código abierto como Docker, y que usan sistemas de orquestación como Kubernetes, son la próxima generación de cómputo y eso también se está convirtiendo en un producto básico, además de que han resultado ser más baratos y mucho más fáciles de escalar que las máquinas virtuales. Si tiene una aplicación basada en Docker en una Nube Pública, es bastante trivial portarla a otra Nube Pública con servicios de hosting de "contenedorización" similares.

Los "hiperscaladores" pueden intentar diferenciarse en rendimiento y algunas otras cosas, pero a un nivel fundamental, IaaS es IaaS y los Contenedores son Contenedores. Ya sea que lo ejecute en AWS, Azure o Google Cloud.

SaaS y PaaS es donde realmente ocurre la diferenciación en La Nube comercial. Para una empresa como Microsoft, sus SaaS como Office 365, PowerBI, Dynamics, SharePoint, Teams y Skype for Business son cosas que lo diferencian del resto de la industria. Estas son plataformas de aplicaciones que ya tienen una importante cuota de mercado con las instalaciones locales, por lo que mover a los clientes a versiones alojadas de estas basadas en La Nube no representa un gran reto. Podemos decir pues que SaaS es un negocio natural para la transición desde sus instalaciones heredadas.

Estas cargas de trabajo ya son muy rígidas porque están vinculadas al mecanismo de autenticación de Active Directory de Microsoft, que es una tecnología fundamental para los entornos basados en Microsoft. Estos clientes ya están bloqueados, pero no es como si estuvieran tratando de salir de estas plataformas de aplicaciones de todos modos, porque realmente no hay muchas alternativas buenas para ellos.

Platform as a Service tiene todo tipo de servicios de aplicaciones terminadas, como bases de datos alojadas y sistemas de aprendizaje automático que se facturan de forma transaccional. Estos sistemas, cuando se combinan con PaaS basado en contenedores, permiten a los clientes empresariales construir sistemas altamente escalables que de otro modo serían de costo prohibitivo implementar en IaaS y se pueden aprovisionar a pedido.

Hasta ahora, muchos de estos sistemas se han construido en plataformas de código abierto como Hadoop o MongoDB. Pero ahora estamos empezando a ver a los proveedores de Nube de hiperescala, construir sus propios servicios back-end altamente escalables que son compatibles pero que no son lo mismo que sus homólogos de código abierto.

Un ejemplo de ello es DocumentDB, un servicio de base de datos alojado que es compatible con la API de MongoDB pero que no utiliza ningún código real de MongoDB, que Amazon lanzó esta semana en AWS.

Por ahora uno puede crear aplicaciones en AWS, utilizando IaaS y sistemas basados en contenedor y respaldarlas en DocumentDB, para que en una fecha posterior devolverlas a las instalaciones locales o incluso a otra Nube de hiperescala que compita, como Microsoft Azure o Google. Esto es Plataforma en la Nube, pero este puede no ser el caso por tiempo indefinido.

Hoy en día muchos de estos servicios alojados usan APIs que son compatibles con sus contrapartes de código abierto. Por lo tanto, el código es portátil; no está atascado en ese proveedor de Nube.

Esto no es completamente diferente de, por ejemplo, el problema clásico de la transferencia de una base de datos basada en SQL a otra, siempre que estén codificadas según las especificaciones ANSI SQL. En ese nivel de compatibilidad, no importa si una base de datos comenzó en Oracle, luego puede moverla a IBM DB2 o incluso a Microsoft SQL Server.

Pero a medida que estos servicios se convierten en productos básicos, como lo hicieron IaaS para el cómputo y el almacenamiento. Los proveedores de La Nube agregarán sus propias mejoras de características que inevitablemente, se diferenciarán de las contrapartes de código abierto. Es bien sabido que a los desarrolladores de software les encanta aprovechar las nuevas funciones, especialmente si pueden aumentar el rendimiento, mejorar la escalabilidad y ahorrar dinero en costos transaccionales o computacionales.

Esa es una de las razones por las que se están moviendo a PaaS, en "contenedorización" y microservicios en La Nube. En primer lugar, para crear verdaderas aplicaciones "Nacido en La Nube". Además pueden centrarse en ejecutar una plataforma de aplicaciones y su código en lugar de preocuparse por la infraestructura subyacente. IaaS es realmente solo un paso intermedio hacia La Nube para transformar las cargas de trabajo, ya que aún debe preocuparse por mantener al sistema operativo.

Pero como hemos observado a menudo con los clientes, si se termina poniendo lógica empresarial en procedimientos almacenados y activadores en una plataforma de base de datos, en particular para aprovechar las optimizaciones de rendimiento, puede terminar teniendo verdaderos dolores de cabeza de compatibilidad.

En esos casos ya no es tan fácil pasar, por ejemplo, de Oracle a IBM DB2. Podría terminar costándonos una gran cantidad de tiempo de desarrollo de software (y dinero) para mover esa lógica de negocios fuera de la base de datos, de modo que pueda trasladarse de una plataforma a otra.

A modo de ejemplo, nos viene a la mente un cliente bancario de IBM tenía 800 procedimientos almacenados y activadores en Oracle, lo que les habría costado millones eliminarlos y mover la lógica a middleware en J2EE. Aunque DB2 hubiera sido más barato que Oracle en términos de licencias, los costos de desarrollo de software hubieran sido mucho más caros. Terminaron simplemente apegándose a Oracle, pero cambiándolo a un sistema operativo y plataforma de hardware diferentes (IBM AIX y POWER) para obtener el rendimiento que necesitaban. Al final se vieron atados y encerrados a esa base de datos.

Podríamos ver muy bien que esto suceda con Nubes de "hiperescala". Claro que DocumentDB es compatible con MongoDB ahora. Pero, ¿quién puede decir que dentro de cinco años las API serán idénticas? Y DocumentDB es solo un servicio en La Nube. Una aplicación altamente escalable, nacida en La Nube podría estar diseñada para aprovechar una docena o más de servicios de Nube que son específicos de ese proveedor de Nube. Todo lo cual está en constante evolución y obteniendo nuevos conjuntos de características.

¿Cuántos servicios tiene, digamos, Microsoft Azure en su cartera? Dejamos de contar hace mucho tiempo. Claro, muchos de ellos utilizan estándares de código abierto, pero ¿cuántos de ellos no lo hacen? ¿Por cuánto tiempo estos servicios compatibles con Open Source permanecerán completamente de esa manera? A medida que AWS, Microsoft y Google Cloud e IBM se vuelven mucho más competitivos entre sí, es probable que no lo sean.

Cuanto más se pierda el control de la infraestructura, mueva su enfoque en ejecutar estrictamente el código de su aplicación y tenga que depender de una plataforma de alojamiento, mayor será la posibilidad de que esa plataforma se vuelva pegajosa, que es precisamente lo que desean los proveedores de "hiperescala" como AWS y Microsoft.

Ellos quieren que te quedes. Quieren que continúes comprando ciclos y transacciones. No quieren que te muevas de sus Nubes. Los sistemas SaaS como Office 365, Workday y Salesforce son, obviamente, de lo mas pegajosos.

Esto realmente no es diferente de tener plataformas de software locales, que son propietarias y utilizan código que no se puede trasladar fácilmente a otra plataforma. La diferencia es que, en lugar de otorgar licencias a estas plataformas, usted está alquilando tiempo en ellas, lo que prefieren los contadores en su organización, porque es un gasto operativo (OPEX) y no un gasto de capital (CAPEX).

Por lo tanto, ciertamente puede diseñar sistemas basados en La Nube que sean bastante autónomos y portátiles. Pero puede que no sea financieramente viable hacerlo a largo plazo. Los servicios en La Nube terminados serán más económicos de lo que puede alojar en máquinas virtuales de IaaS o incluso en contenedores. Con PaaS, la compensación será en última instancia el rendimiento, las características y el costo en comparación con la portabilidad.

¿Es inevitable el bloqueo de La Nube, a medida que dependemos más de los servicios en La Nube terminados? Usted tiene la respuesta y la última palabra.

lunes, 19 de febrero de 2018

18 herramientas para Big Data que necesitas conocer!!!

En el ámbito de la Transformación Digital de hoy en día, Big Data ha brindado a la organización una ventaja para analizar el comportamiento del cliente e hiper-personalizar cada interacción que resulta en ventas cruzadas, una mejor experiencia del cliente y obviamente más ingresos.

El mercado de Big Data ha crecido constantemente a medida que más y más empresas han implementado una estrategia basada en datos. Si bien Apache Hadoop es la herramienta más establecida para analizar Big Data, existen miles de herramientas de big data por ahí. Todas ellas prometen ahorrarle tiempo, dinero y ayudarlo a descubrir conocimientos empresariales nunca antes vistos.

Hemos seleccionado algunos para que comience con Big Data con el pie derecho:

Avro: fue desarrollado por Doug Cutting y utilizado para la serialización de datos para codificar el esquema de los archivos de Hadoop.

Cassandra: es una base de datos distribuida y de código abierto. Diseñada para manejar grandes cantidades de datos distribuidos en servidores de productos básicos, a la vez que proporciona un servicio altamente disponible. Es una solución NoSQL que fue desarrollada inicialmente por Facebook. Es utilizado por muchas organizaciones como Netflix, Cisco, Twitter, así como formar parte de los Servicios de Nutanix, dentro de la Controler Virtual Machine.

Drill: un sistema distribuido de código abierto para realizar análisis interactivos en conjuntos de datos a gran escala. Es similar al Dremel de Google y es administrado por Apache.

Elasticsearch: un motor de búsqueda de código abierto basado en Apache Lucene. Está desarrollado en Java y puede impulsar búsquedas extremadamente rápidas, que respalden sus aplicaciones de descubrimiento de datos.

Flume: es un marco para poblar Hadoop con datos de servidores web, servidores de aplicaciones y dispositivos móviles. Es la fontanería entre las fuentes y Hadoop.

HCatalog: es un servicio centralizado de administración y uso compartido de metadatos para Apache Hadoop. Permite una visión unificada de todos los datos en los clústeres de Hadoop y permite que diversas herramientas, incluyendo Pig y Hive, procesen cualquier elemento de datos sin necesidad de saber físicamente en qué parte del clúster se almacenan los datos.

Impala: proporciona consultas SQL rápidas e interactivas directamente en sus datos de Apache Hadoop almacenados en Hadoop Distributed File System (HDFS) o HBase utilizando los mismos metadatos, la sintaxis SQL (Hive SQL), el controlador ODBC y la interfaz de usuario (Hue Beeswax) como Apache Hive. Esto proporciona una plataforma familiar y unificada para consultas orientadas a lotes o en tiempo real.

JSON: muchas de las bases de datos NoSQL de hoy almacenan datos en el formato JSON (JavaScript Object Notation) que se ha hecho popular entre los desarrolladores web. JSON también es altamente popular en todas aquellas soluciones que manejan REST-API para administración vía interfaz navegador.

Kafka: es un sistema distribuido de mensajería de publicación y suscripción, que ofrece una solución capaz de manejar toda la actividad del flujo de datos y procesar éstos en un sitio web del consumidor. Este tipo de datos (visitas a la página, búsquedas y otras acciones del usuario) son un ingrediente clave en la web social actual.

MongoDB: es una base de datos NoSQL orientada a documentos, desarrollada bajo el concepto de Código Abierto. Esto viene con soporte para indexado completo, flexibilidad para indexar cualquier atributo y escalar horizontalmente sin afectar la funcionalidad.

Neo4j: es una base de datos de gráficos y cuenta con mejoras de rendimiento de hasta 1000 veces o más, cuando se compara con bases de datos relacionales.

Oozie: es un sistema de procesamiento de flujo de trabajo que permite a los usuarios definir una serie de trabajos escritos en varios idiomas, como Map Reduce, Pig y Hive. Además, los vincula inteligentemente entre sí. Oozie permite a los usuarios especificar dependencias.

Pig: es un lenguaje basado en Hadoop desarrollado por Yahoo. Es relativamente fácil de aprender y es un lenguaje experto para los canales de datos muy profundos y muy extensos.

Storm: es un sistema de computación distribuida en tiempo real, de código abierto y gratuito. Storm facilita el procesamiento fiable de flujos de datos no estructurados en el campo del procesamiento en tiempo real. Storm es tolerante a fallas y funciona con casi todos los lenguajes de programación, aunque típicamente lo han utilizado con Java. Descendiendo de la familia Apache, Storm ahora es propiedad de Twitter.

Tableau: es una herramienta de visualización de datos con un enfoque principal en la inteligencia empresarial. Puede crear mapas, gráficos de barras, diagramas de dispersión y más, sin necesidad de programación. Recientemente lanzaron un conector web que le permite conectarse a una base de datos o API, lo que le brinda la posibilidad de obtener datos en tiempo real en una visualización.

ZooKeeper: es un servicio que proporciona configuración centralizada y registro de nombre de código abierto para grandes sistemas distribuidos. ZooKeeper es uno de los servicios fundamentales dentro de la Controler Virtual Machine de Nutanix.

Todos los días se agregan muchas más herramientas, la pila de tecnología Big Data y es extremadamente difícil de lidiar con todas y cada una de las herramientas. La recomendación aquí yu ahora es que Usted seleccione algunas que pueda dominar y continúe actualizando su conocimiento.

¿Ya aplica alguna de estas herramientas para la estrategia de Big Data en su empresa u organización?

Páginas

martes, 15 de enero de 2019

Juego de Nubes: Se acerca un desenlace

lunes, 19 de febrero de 2018

18 herramientas para Big Data que necesitas conocer!!!