Mostrando entradas con la etiqueta Apache. Mostrar todas las entradas
Mostrando entradas con la etiqueta Apache. Mostrar todas las entradas

martes, 22 de mayo de 2018

Debajo del capó de los Chatbots

Esta es la segunda entrega en nuestra serie que habla de los chatbots. Aquí exploramos Reconocimiento del Lenguaje Natural (Natural Language Understanding o NLU), que es la parte frontal de todos los chatbots. Analizaremos la programación necesaria para crear reglas basadas en chatbots, y luego analizaremos el uso de algoritmos de Aprendizaje Profundo que son la base de los chatbots habilitados para Inteligencia Artificial.

En la entrada anterior: "Chatbots. Guía para principiantes", cubrimos los conceptos básicos, incluida su breve historia tecnológica, usos, opciones de diseño básico y donde entra en juego el Aprendizaje Profundo.

En esta entrada, exploraremos con más profundidad cómo la Comprensión del Lenguaje Natural (NLU) basada en redes neuronales profundas RNN/LSTM permite tanto el chatb basado en reglas como el AI. Veremos el método, la lógica, las elecciones de diseño y los componentes programáticos que están en funcionamiento en chatbots basados en reglas. Finalmente, veremos el uso de las Redes Neuronales Recurrentes (RNN) y loas Grandes Memorias a Corto Plazo (LSTM) para generar respuestas largas, e incluso llevar a cabo conversaciones aparentemente sofisticadas que cruzan el umbral de la Prueba de Turing.

Comprensión del lenguaje natural: el front-end para todos los chatbots

Puede que esté más acostumbrado a escuchar sobre NLP (Procesamiento de Lenguaje Natural), pero con chatbots estamos mucho más interesados ​​en el subconjunto dentro de NLP llamada NLU (Natural Language Understanding). Es la capacidad de la máquina para comprender el texto o el habla humanos, extrayendo el significado correcto a pesar de los problemas de acentos, errores de ortografía, pronunciación o simplemente una forma extraña de frasear la entrada.

Afortunadamente, no tiene que construir la NLU desde cero, ya que todas las principales plataformas de desarrollo tienen una integrada. Pueden ser modelos propietarios de alto nivel como Amazon o IBM, o la variedad de código abierto que se encuentra en las bibliotecas de máquina, como la Core NLP Suite de Stanford, Natural Language Toolkit (NLTK), Apache Open NLP, o spaCy entre otros.

Si bien las rutinas de NLU hacen muchas cosas, las que son particularmente importantes en el soporte de chatbots son las siguientes:

Reconocimiento de entidades nombradas: identificación de categorías de palabras como el nombre de una persona, un producto, una fecha o una dirección.

Normalización: intenta dar cuenta de errores de ortografía, errores tipográficos o pronunciaciones diferentes.

Etiquetado de partes del habla: identifica las partes del habla como sustantivos, verbos y adjetivos como la base para comprender la estructura de la oración y cómo afectará el significado.

Análisis de dependencias: identificación de sujetos, objetos, acciones y similares para encontrar frases dependientes.

Los paquetes de NLU no habrán sido entrenados en los nombres propios, eventos, lugares o incluso acrónimos que sean únicos para diferentes negocios. En algunos casos, puede ser necesario agregar diccionarios y ontologías específicas del dominio, para permitir que la NLU interprete correctamente cómo deben entenderse estas palabras y frases únicas.

Sin embargo, muchas NLU se pueden capacitar o adiestrar sobre la marcha con una tecnología incorporada llamada Comunicación en Foco (CIF). CIF desarrolla lo que se denomina Discriminadores de Contexto (CD) al reducir las oraciones complejas o aquellas que contienen palabras desconocidas, en grupos de palabras cortas comparándolas con "vecinos semánticos" compuestos por contexto y puntos de vista sobre los sujetos en las oraciones.

La comparación de los nuevos CD con los anteriores, produce derivados de orden superior que le permiten a la NLU interpretar las relaciones de entidad entre sujetos previamente desconocidos.

Hay otras cosas útiles que la NLU puede agregar al proceso como el Análisis de Sentimientos. Una NLU previamente capacitada generalmente puede detectar lo suficiente sobre el tono de la conversación, para saber si el usuario está teniendo una buena experiencia o si el chatbot debe reenviar la conversación a un operador de respaldo humano.

Construyendo un chatbot basado en reglas de respuesta programada

El objetivo del diseño en la construcción de un chatbot basado en reglas, es describir en detalle todas las preguntas posibles, información aclaratoria y respuestas o acciones que pretenda que su chatbot pueda manejar. Eso puede ser un montón de detalles y una buena razón para mantener su dominio de conocimiento estrecho. NLU se encargará de las palabras con significados similares o diferentes formas de expresar la solicitud, pero eso aún deja mucho trabajo por hacer.

A pesar de este trabajo inicial, las reglas siguen siendo la forma más rápida y fácil de crear un chatbot. Para el desarrollador que claramente necesita un equipo que incluya una o más PYMES, el proceso no es particularmente rápido ni fácil, pero es menos complejo que construir un robot con Inteligencia Artificial.

Esta categoría de chatbot está creciendo tan rápidamente que Gartner pronosticó recientemente que para 2020, un 10% de los nuevos empleados de TI estarían escribiendo estos "scripts".

Este tipo de scripting comúnmente se llama "cascada", ya que es un proceso de diseño secuencial en el cual las fases más altas (anteriores) de la cascada, llenan piscinas de nivel inferior de la que también pueden fluir una dentro de la otra. La descripción preferida de este proceso es "árbol de decisión", que es más descriptivo y más familiar para las audiencias que vienen de Ciencia de Datos.

Podemos construir un chatbot desde cualquier código en bruto de nuestra preferencia, pero el curso de acción mucho más fácil es usar una de las muchas plataformas de chatbot que han surgido. Estas ofrecen marcos paso a paso para todos los componentes necesarios que deberá definir.

Es posible que aún necesitemos agregar líneas de código en estas plataformas, por ejemplo, para describir la fuente de datos externos y cómo acceder a esa información. Otra alternativa es seguir y ejecutar los pasos necesarios para una acción como 'hacer una cita'. Muchas plataformas tienen módulos preconstruidos para acciones como "concertar una cita" que pueden personalizarse. Aunque esto no es exactamente arrastrar y soltar, no tendrá que aprender los pormenores de NLP. Estas plataformas lo guían a través de un proceso paso a paso para recopilar la información NLU necesaria, a medida que avanza y luego proporciona un entorno para las pruebas antes de la implementación.

Agentes - Propósitos - Entidades - Flujos de Diálogo

Agentes, propósitos, entidades y flujos de diálogo son los componentes básicos de su chatbot. Esto no pretende ser una inmersión profunda en el tema, sino algo para entender estos términos y cómo se relacionan.

Agente: Es tu chatbot que puede tener múltiples Agentes subyacentes con diferentes objetivos, pero un solo Agente principal que refleja solo las tareas específicas y el conocimiento limitado que tiene previsto. Es posible que tenga un agente que le proporcione datos del clima, otro que programe una cita u otro que responda a una queja de servicio al cliente. Si bien es posible poner estos tres objetivos en un solo agente, sería difícil de manejar en el mejor de los casos. Entonces su agente define pormenorizadamente todas las cosas que quiere que este chatbot específico pueda hacer.

Las definiciones que componen el chatbot se basan en Propósitos (Intents), Entidades (Entities) y Flujo de Diálogo (Dialog Flow).

Propósito: Asignar algo "dicho por el Usuario" a una "Acción" determinada.

Lo primero que le pedirá su plataforma son Propósitos (Intents). Los propósitos son un relacionamiento uno a uno, entre la solicitud de idioma natural del usuario VS las acciones que debe tomar su robot de conversación.

Piense en esto como detección de intención. El primer paso es, por lo general, asignar "Usuario dice" a una "Acción".

Si su chatbot es bastante limitado, por ejemplo, informando sobre el clima en una ciudad en particular en un día en particular, la lista de posibles afirmaciones de "Usuario dice" también es bastante estrecha. Por ejempo: ¿Cuál es el clima en (ciudad x) (el próximo viernes)?

Sin embargo, si está creando un chatbot de servicio al cliente, es probable que las solicitudes de lenguaje natural del usuario sean mucho más variadas. Debe completar un conjunto de ejemplos que represente lo que el usuario podría decir. No es necesario pensar en todos ellos ya que la NLU usará sus ejemplos para entrenarse para declaraciones de usuario similares, pero cuantas más, mejor.

Supongamos que en su proceso de servicio al cliente, generalmente reconoce tres tipos de solicitudes: quejas, devoluciones y todo lo demás. (Los siguientes ejemplos se extraen del blog de IBM "Watson Build-a-chatbot").

Entonces, para las quejas, puede ingresar ejemplos como:

  • ¿Puedo obtener ayuda?
  • Necesito esto arreglado
  • Tengo un problema.
  • Deseo registrar una queja.
  • Por favor, ayúdame.
  • Algo esta mal.

Para las devoluciones, puede ingresar ejemplos como:

  • Intercambiar.
  • Ya no quiero esto.
  • Quisiera regresar esto.
  • Necesito que retires esto.
  • Quiero mi dinero de vuelta.
  • Por favor tome esto de vuelta.
  • Este loro está muerto. Necesito devolverlo.

Para la categoría "todo lo demás", puede dejar volar su imaginación ya que está entrenando a la NLU para que reconozca que no es una queja o devolución. Puede divertirse con esta categoría.

  • Un poco de esto, un poco de aquello.
  • Plátano.
  • Paseador de perros.
  • El fútbol es bueno.
  • Desearía ser un pez.
  • ¿Dónde estoy?

De hecho, los usuarios pueden hacer solicitudes que contengan múltiples intenciones en el mismo mensaje, por lo que es posible asignar prioridades a diferentes intenciones así como a intentos de retroceso.

Se podría utilizar un intento de "repliegue" si su chatbot no puede identificar el intento y es posible que deba solicitar una aclaración como: "No lo entendí. ¿Podría aclarar su solicitud?". Otra opción sería la de diseñar su chatbot para simplemente referir al cliente a una Corporate Social Responsibility (CSR) humana, si el chatbot no puede entender la intención: -"...déjeme transferirlo a un agente."-

Acciones

Basado en el relacionamiento de intención, su chatbot ahora comprenderá que es necesario tomar una o más acciones. Si son simples como el ejemplo del clima o "concierte una cita", es posible que pueda personalizar los módulos preconstruidos. Sin embargo, sus acciones pueden ser tan complejas como desee, lo que requerirá una codificación personalizada.

Por ejemplo, una queja puede ser respondida por un mensaje de texto o una respuesta verbal en la que se requiere buscar el pedido del cliente e incluirlo como parte del detalle de la respuesta.
También puede proporcionar directamente o por correo electrónico un formulario de devolución prellenado, ofreciendo algunas instrucciones sobre el procedimiento y la política de devolución.
En un caso mucho más complejo, podría buscar inventario disponible para ver si un artículo de reemplazo (por ejemplo de diferente tamaño o color) está disponible de inmediato y ofrecerlo como reemplazo para evitar una devolución.

Contextos

Las plataformas de chatbot también ofrecen un método de grabación de información previa, que podría ser necesaria para comprender mejor el propósito real de la solicitud actual.

Por ejemplo, si un usuario está escuchando música y encuentra una canción que le gusta, puede ingresar "muéstrame más canciones semejantes". El contexto habrá almacenado el título de la canción, género, categoría, artista y otra información para que pueda interpretar la solicitud en relación con la última canción escuchada.

Del mismo modo, si se trata de un dispositivo doméstico inteligente y el primer comando de voz fue "encender las luces de la sala de estar", seguido de "apagarlas", el contexto permitirá que el chatbot comprenda que son las luces de la sala las que están siendo operadas.

Entidades

Las entidades son objetos del mundo real como productos, personas, lugares, fechas, horas, distancia y nombres de categoría, entre otros. Las NLU pueden extraer los valores de los parámetros de la solicitud del usuario buscando entidades, algunas de las cuales serán definidas por el sistema, pero muchas de las cuales serán definidas por nosotros durante el proceso de programación.

Las entidades también pueden ser condicionales para definir un filtro como "precio más bajo" o "abierto ahora". Algunas entidades, como la fecha, hora o la distancia, generalmente están integradas en el sistema y no necesitan ser definidas por separado. Sin embargo, nombres y tipos de productos tendrían que ser ingresados y actualizados.

Flujo de Diálogo

El flujo de diálogo es el área de la lógica y el arte. ¿Desea que el diálogo de Chabot parezca natural y coloquial? ¿También que el diálogo del Chabot sea lógico, que conduzca a la satisfacción del usuario en los pocos pasos posibles?

Muchos chatbots se pueden construir con diálogos lineales simples, pero muchos requerirán diálogos no lineales o ramificados. Los no lineales pueden ser necesarios en muchos casos, por ejemplo:

  • Si su chatbot está realizando una encuesta de satisfacción del cliente y le pide al usuario que califique su experiencia como excelente, buena, regular o deficiente, es probable que las siguientes preguntas que plantee sean diferentes para cada categoría y se requiere una bifurcación.
  • Si su chatbot no entendió la solicitud, puede tener varios bucles de conversación diferentes que planteará el chatbot, para aclarar el intento del usuario y la acción requerida.

Una rama que casi siempre está presente es la referencia a un agente en vivo. Esto sucede cuando el chatbot no puede entender la intención o no tiene suficiente información para responder, así como si el usuario dice una palabra clave como 'agente'. En algunos casos, el análisis del sentimiento de NLU puede detectar que el usuario se está frustrando o enfadado y puede crear una salida a un agente humano cuando se detecta esto.

Construyendo Chatbots basados en Aprendizaje Profundo, derivado de Inteligencia Artificial

En nuestro primer artículo describimos cómo los Chatbots generados por Inteligencia Artificial se están introduciendo basados ​​en arquitecturas RNN/LSTM, que pueden incorporar oraciones complejas y largas, retener el contexto y proporcionar respuestas largas o en varias partes. Todo esto ocurre sin que un programador tenga que definir intenciones, acciones, respuestas, entidades o flujo de diálogo. ¿Qué no hay Inteligencia Artificial de por medio?

Esta puede ser la ola del futuro, pero recién ahora está comenzando. Mencionamos el reciente anuncio de Andrew Ng de Woebot, un chatbot capaz de consejería psicológica para la depresión.

Otro ejemplo instructivo fue discutido en un documento de investigación: "Un modelo conversacional neural" por dos investigadores de Google el año pasado. Su objetivo era crear un chatbot que pudiera conversar con los usuarios para resolver preguntas difíciles de soporte de TI. Dos puntos importantes provienen de esta experiencia.

Al igual que todos los modelos de Redes Neuronales Convolucionales (CNN) y Redes Neuronales Recurrentes (RNN), necesita una gran cantidad de datos para entrenar. Afortunadamente, había una gran cantidad de registros de la mesa de ayuda de la computadora en los que se podía entrenar y que contenían años de historia sobre diferentes problemas y sus soluciones.

Recuerde que dijimos que todos los chatbots requerían un dominio razonablemente cerrado. Los problemas de la mesa de ayuda de computadora pueden ser un dominio muy grande, pero esencialmente está cerrado y la base de conocimiento podría definirse mediante los registros de soporte anteriores.

La segunda y más divertida característica es que los investigadores necesitaron enseñar a su Generador de Chatbots a hablar inglés coloquial. Por lo tanto, además de capacitarse en la base de conocimientos técnicos, también lo capacitaron en un conjunto de datos públicos de 2.000 reproducciones de pantalla, de las cuales aprendió inglés coloquial moderno.

El resultado fue reportado como bastante exitoso con el sistema capaz de asimilar el lenguaje hablado complejo de varias partes, determinando correctamente la intención y la causa. También podría responder en una conversación compleja y de varias partes para que el usuario pueda hacer interjecciones, o pedir aclaraciones si un paso correctivo particular no se entendió o si fue demasiado complejo.

Sí. Hoy hay ejemplos de chatbots generativos, pero este es principalmente el dominio de los chatbots por venir. Mientras tanto, el camino hacia los chatbots basados ​​en reglas está bien desarrollado, aunque sea nuevo y esté listo para su proyecto.

¿Seguimos? Espere la siguiente entrada del tema.

miércoles, 4 de abril de 2018

Cloud Foundry para Desarrolladores: Parte 1

Ha oído hablar de Cloud Foundry. Sabe que está creciendo rápidamente y podría ser algo que le interese. Pero, ¿qué es exactamente Cloud Foundry? Una posible respuesta corta es: "Sin embargo otra cosa en La Nube" (Yet Another Cloudy Thingy), porque seguramente hay muchos proyectos en la nube. Una mejor respuesta corta es Plataforma como un Servicio (Paas por sus siglas en inglés) para construir, administrar, aprovisionar o desplegar aplicaciones nativas de La Nube.

En esta serie, le presentaremos Cloud Foundry y cómo empezar a usarlo para desarrollar aplicaciones. En las primeras tres partes, cubriremos los conceptos básicos, la terminología, una descripción general técnica y la arquitectura. En las dos siguientes, mostraremos cómo escribir y enviar una aplicación a una instancia de Cloud Foundry.

La información en esta serie se basa en el curso de capacitación "Cloud Foundry para Desarrolladores" (LFD232) de Cloud Foundry y The Linux Foundation. Puede descargar un capítulo de muestra del curso aquí.

¿Qué es PaaS?

Plataforma como un Servicio o PaaS (por sus siglas en inglés), describe una infraestructura completa para desarrollar, administrar y desplegar aplicaciones. Agrupa servidores, redes, almacenamiento, sistemas operativos, middleware, bases de datos y herramientas de desarrollo en una pila de software y hardware escalable y administrada de manera centralizada.

PaaS puede ser especializado, por ejemplo para el desarrollo de aplicaciones móviles o generalizado, y admite una amplia gama de plataformas y entornos de desarrollo.

PaaS puede estar en su Centro de Datos Local ("on premise"/en sus instalaciones) o pagar según el uso de un proveedor de servicios públicos o una combinación de ambos. Algunos proveedores comerciales populares de PaaS son Amazon Web Services, Google App Engine, Red Hat's OpenShift Online, Microsoft Azure y Salesforce.

El objetivo es agilizar el desarrollo y la administración de aplicaciones al liberar a los desarrolladores de la molestia de crear y mantener sus propios entornos de desarrollo e implementación. Un host PaaS tiene el mismo aspecto para el usuario, ya sea local o remoto: todo lo que necesita es una computadora y una conexión de red para acceder a todo lo que necesita.

Cloud Foundry

Hay una tonelada de información en cloudfoundry.org, pero debe buscar para averiguar qué es Cloud Foundry. Es una plataforma para construir proyectos PaaS; no es un producto independiente, sino que debe ejecutarse sobre una plataforma IaaS (Infraestructura como Servicio). Cloud Foundry se creó en VMware en 2009 y fue diseñado para ejecutarse en VMware vSphere.

Cloud Foundry se transformó y creció hasta convertirse en un proyecto independiente de la Fundación Linux sin fines de lucro. Utiliza Open Container Initiative y muchas otras tecnologías en la nube, incluidas Docker, Kubernetes y BOSH.

Cloud Foundry también se ejecuta en OpenStack y pretende ser neutral en la plataforma, ejecutándose en cualquier IaaS. Si desea intentar crear su propia instancia de Cloud Foundry, siga estas instrucciones en OpenStack.org. Si desea ir directamente al desarrollo de aplicaciones y no tener problemas con la construcción de su propio PaaS, CloudFoundry.org mantiene una lista de proveedores certificados, donde puede comenzar de manera gratuita o de bajo costo.

La Fundación certifica estos proyectos, que deben cumplir con ciertos estándares. La licencia de Cloud Foundry es Licencia Apache 2.0, una licencia permisiva que permite liberar (valga la redundancia) código modificado bajo diferentes licencias y otorga derechos de patente permisivos. La Fundación también ofrece certificaciones para desarrolladores y administra el Examen de Desarrollador Certificado, de Cloud Foundry.

La Fundación Cloud Foundry posee las marcas registradas y administra el proyecto, que no es una tarea pequeña, ya que los contribuyentes y seguidores incluyen algunos pesos pesados ​​de la industria. El trabajo de la Fundación es ser neutral y garantizar que ninguna entidad individual pueda controlar el código.

Hay una gran cantidad de problemas de "propiedad intelectual" para navegar y armonizar. Si este tipo de cosas le interesan, visite Cloud Foundry Foundation para conocer todo sobre administración y control, su junta directiva, membresía y una serie de otras tareas y problemas que la Fundación administra.

"Todos los negocios, son un negocio de software"

Esta es una cita popular ahora, y aunque no estamos completamente de acuerdo con ella, es cierto que la mayoría de las empresas deben ser conocedoras de la tecnología sobre el desarrollo de aplicaciones personalizadas. Cornelia Davis de Pivotal dice: "Estamos construyendo un negocio de software o perdiendo a alguien que sí lo está". Algunos ejemplos clásicos son Netflix vs. Blockbuster, Uber y Lyft vs. compañías de taxis y limusinas, Airbnb vs. la industria de hoteles/moteles.

No todos están completamente contentos con esta invasión de software en todo. Cada restaurante, tienda y producto ahora tiene su propia aplicación, y cada vez más dispositivos nos ladran todo el tiempo. ¿Recuerda la historia corta de Ray Bradbury, "The Murderer"? Albert Brock está harto del ruido incesante de la sociedad moderna, la gente lo llama en su radio de muñeca, e incluso su casa lo regaña, por lo que se embarca en una cruzada de destrucción para cerrar todo. Muy profético para haberse escrito en el ya lejano año 1953.

Pero este es el estado de nuestro mundo ahora y aquí es donde el crecimiento y las oportunidades, son para los desarrolladores de software. Y para mantenerse al día con estos tiempos modernos, en las siguientes cuatro partes de esta serie, veremos cómo comenzar a utilizar Cloud Foundry como La Plataforma de desarrollo.

Le recomendamos descargar ahora el capítulo de muestra de "Cloud Foundry for Developers".

miércoles, 28 de febrero de 2018

30 herramientas y recursos esenciales, para la Tecnología de Contenedores

En lugar de una herramienta para administradores de sistemas como la virtualización, la tecnología de contenedor de software afecta a todos, desde los desarrolladores, los probadores, personal de operaciones, analistas y a toda el área de Tecnologías de la Información (TI). El tamaño y la integridad de los paquetes de contenedores permiten a los miembros del equipo implementar entornos completos en segundos.

Los Contenedores son una tecnología maravillosa que genera una serie completa de decisiones posteriores, que incluyen qué estándares usar, cómo almacenar las versiones anteriores, cómo aprovisionar las imágenes y cómo administrarlas en producción.

¿Pero cómo ensamblar la combinación correcta de productos y servicios para construir, ejecutar y administrar Contenedores de manera eficiente en nuestro entorno? Para responder a esta pregunta, hemos estudiado una amplia gama de productos y servicios de tecnología de contenedores para que pueda Usted evaluar la arquitectura de contenedores, la administración e implementación de clústeres, el almacenamiento, la seguridad, los sistemas operativos y la implementación de distintas opciones.

Ambientes de ejecución de los Contenedor

A pesar de su popularidad como un estándar de facto, Docker es solo uno de los juegos de herramientas de virtualización ligeras y competitivas para Linux entre las que puede elegir. Las opciones incluyen:

Docker

El motor de contenedor abierto Docker, funciona con la mayoría de los productos que se mencionan a continuación, así como con muchas herramientas de código abierto.

Motor Docker con Soporte Comercial (CSDE por sus siglas en inglés)

Esta extensión para Docker es propiedad de la empresa Docker. CSDE habilita la compatibilidad para ejecutar instancias de acopladores incluso en servidores de Windows modernos.

rkt

Pronunciado "cohete" (rocket) y desarrollado por CoreOS, rkt es el principal competidor de Docker para contenedores.

Contenedores Solaris

Esta arquitectura de contenedor para Solaris es anterior a Docker. Las organizaciones de TI que ya se han estandarizado en Solaris pueden desear explorar esta opción.

Contenedores de Microsoft

Una alternativa competitiva a Linux, Microsoft Containers puede soportar contenedores de Windows bajo circunstancias muy específicas. Repetimos: muy específicas.

Gestión e implementación de clusters

Su equipo puede crear imágenes y pasarlas del desarrollo a la prueba y viceversa. Ahora viene la parte difícil: apoyarlos en la producción. Eso significa registrar artefactos, implementarlos en producción como un sistema, administrar servidores y administrar colecciones de servidores (incluida una colección de servidores en la nube conocida como "clúster").

Las herramientas de administración de clúster gestionan las cargas de trabajo, incluido el traslado de instancias de un host virtual a otro basado en la carga y la asignación de recursos, como CPU y memoria.

Kubernetes

Si bien no existe un estándar para la administración de clusters, el producto de código abierto de Google, Kubernetes, es el más popular. Con el respaldo de AWS de Amazon, Google Cloud Engine (GCE) y el servicio Azure Container de Microsoft, Kubernetes es relativamente portátil, lo que ayuda a evitar el bloqueo de proveedores e incluso se puede ejecutar en una nube privada, como OpenStack. Microsoft, Amazon y Google ofrecen servicios de contenedores que ejecutan Kubernetes, con opciones de soporte comercial disponibles.

Apache Mesos

Es una herramienta para abstraer recursos informáticos. Apache Mesos puede ejecutar imágenes Docker y rkt, una al lado de la otra, en el mismo clúster. Sistema Operativo para el Centro de Datos (DC/OS por sus siglas en inglés) es una plataforma construida en Mesos que funciona como un sistema operativo de centro de datos.

Docker Swarm

El producto gratuito de Docker para la gestión de clusters. Swarm se ejecuta desde la línea de comandos, viene incluido con Docker 1.12 y versiones posteriores. Ahora incluye las capacidades de orquestación nativa de Docker.

Docker Data Center

Un panel de control basado en la web, que brinda una administración completa de Docker. Incluye un panel de control, registro, monitoreo, registro e integración continua. Docker Data Center ejecuta Docker Swarm para la administración de clústeres.

Aunque Docker el estándar es gratuito, la versión para Centro de Datos es un producto comercial con soporte idem. Por supuesto, Docker Data Center abarca y amplía los productos gratuitos y de código abierto de la empresa: Docker y Swarm.

Contenedores de almacenamiento

Los contenedores están diseñados para ser intercambiables, incluso fungibles, como la moneda. Eso funciona excepcionalmente bien para servidores web, donde servidores idénticos se pueden agregar o eliminar de un clúster según la demanda.

El almacenamiento y las bases de datos, por otro lado, necesitan ubicaciones persistentes para alojar datos, o al menos una capa de interfaz estándar. Las organizaciones que desean trasladarse a una infraestructura de "todo en contenedores" necesitan almacenamiento y las empresas necesitan forzosamente satisfacer esta demanda.

ClusterHQ

Estas herramientas ayudan a poner bases de datos en contenedores. Aunque el proveedor que desarrolló ClusterHQ cerró sus puertas el pasado diciembre, dejó una gran cantidad de software de código abierto/gratuito en github.com/ClusterHQ.

BlockBridge

BlockBridge, la compañía de "plataforma de almacenamiento elástica", ofrece almacenamiento como un contenedor utilizando Docker, con opciones para OpenStack y almacenamiento seguro definido por software.

Almacenamiento de EMC/lib

El sistema de almacenamiento EMC/lib ofrece una biblioteca de códigos para habilitar el almacenamiento de contenedores, de forma gratuita y abierta.

Complementos Docker para almacenamiento

EMC, NetApp y otros han creado complementos para admitir el almacenamiento, que Docker Inc. pone a disposición para su descarga.

Seguridad de los contenedores

El inicio de sesión único, la integración con LDAP, la auditoría, la detección y prevención de intrusiones y el escaneo de vulnerabilidades, son focos rojos para las organizaciones que se trasladan a contenedores. Incluso los dispositivos y software tradicionales pueden ser difíciles o imposibles de configurar en clústeres de contenedores. Afortunadamente, un puñado de proveedores está trabajando para abordar esta necesidad. Sin embargo el espacio es tan nuevo, que dos compañías emergentes aún no tienen una oferta de productos terminados.

Twistlock

Construye imágenes Docker con componentes como un sistema operativo, un servidor web o un sistema de administración de contenido. El problema es que el software no actualizado o desactualizado en una imagen, puede albergar riesgos de seguridad. El "escáner" de vulnerabilidades de Twistlock aborda este tema, comparando imágenes con una base de datos de amenazas conocidas. Esta es una auditoría automatizada, sobre una base de datos que se actualiza constantemente. Otras características principales incluyen una detección de intrusiones más clásica y sistemas de cumplimiento normativo.

Aqua Container Security


Al igual que Twistlock, Aqua se centra en la capacidad de crear, supervisar y aplicar políticas para contenedores junto con la integración con CI, ejecutando comprobaciones de seguridad en cada compilación.

StackRox

Fundado por Sameer Bhalotra, ex ejecutivo de seguridad de Google y director sénior de ciberseguridad en la Oficina Ejecutiva del Presidente de los Estados Unidos, StackRox está preparando un producto similar en esta área. Si bien la puesta en marcha se mantiene en modo sigiloso y sin ninguna oferta de producto en su sitio web, la compañía es una de las que debemos observar.

Aporeto

Otra startup en modo sigiloso, Aporeto fue cofundadora de un antiguo CTO de Nauge Networks. Con sede en San José, California, Aporeto dice que proporcionará una "solución integral de seguridad nativa de la nube, para desplegar y operar aplicaciones modernas", microservicios y contenedores.

Sistemas operativos

La mayoría de las distribuciones del sistema operativo Linux se basan en la convenincia e incluyen grandes paquetes preinstalados, por si acaso el usuario los quiere. Docker, por el contrario, está diseñado para la virtualización liviana: para ejecutar muchas máquinas idénticas con la menor cantidad posible de gastos generales en términos de memoria, disco y CPU.

En respuesta, los proveedores han desarrollado compilaciones de Linux optimizadas para contenedores, que intentan equilibrar las capacidades que los equipos pueden necesitar en una distribución de Linux con el minimalismo que exigen los contenedores. Estos son algunos de los más populares:

RancherOS

Con solo el kernel de Linux y Docker, la imagen del sistema RancherOS se ajusta a solo 22 MB de espacio en disco. RancherOS elimina systemd, el sistema de administración de servicios integrado en la mayoría de las versiones de Linux, en lugar de iniciar Docker Daemon en sí mismo como el sistema init o "bootstrap".

CoreOS Container Linux

Diseñado para trabajar con las herramientas y sistemas CoreOS Linux, CoreOS Container Linux está preconfigurado para ejecutar contenedores Linux. También viene con actualizaciones automáticas activadas; los sistemas operativos se actualizan sin ningún tipo de manipulación.

Ubuntu Snappy

Canonical, la compañía matriz de Ubuntu Linux, afirma que Snappy, su respuesta para contenedores, ejecuta más de siete veces más contenedores Docker que cualquier otra distribución. Snappy está diseñado para tener actualizaciones de alto rendimiento, espacio reducido y delta (incremental) para el sistema operativo y las aplicaciones, manteniendo las descargas pequeñas.

Red Hat Atomic Host

Estas herramientas le permitirán alojar contenedores Linux en una versión mínima de Red Hat Enterprise Linux. Las organizaciones que ejecutan Red Hat y desean utilizar contenedores, querrán que sus hosts ejecuten el sistema operativo Red Hat Atomic Host.

Microsoft Nano Server

Nano Server es un sistema operativo de línea de comandos pequeño administrado por control remoto, diseñado para hospedar y ejecutar objetos parecidoa a los contenedores, posiblemente en la nube. Sí. Microsoft tiene capacidad de contenedor basado en Windows Server y Nano está específicamente diseñado para ese propósito. Otros sistemas operativos de Microsoft que pueden albergar Contenedores de Windows incluyen Windows Server 2016 y Windows Pro 10 Enterprise.

Photon de VMware

Con un peso de 220 MB en el disco, Photon es un sistema operativo de contenedor mas grande que algunos otros, aunque solo tiene un centésimo del tamaño de la última versión de Windows. Este host-container de Linux está diseñado para integrarse con los productos de virtualización vSphere de VMware. Sólo como un ejemplo, vCenter Server Virtual Appliance se ejecuta sobre Photon 1.0.

Eventos acerca de contenedores y fuentes para soporte

Una vez que se haya comprometido con los contenedores, la parte más difícil será implementarlos y respaldarlos. Desde conferencias hasta foros de soporte y soporte comercial, estos son los recursos que necesita.

DockerCon

Este es el evento a asistir si su empresa persigue la arquitectura de todo Docker, con el apoyo de Docker Data Center, Swarm y otros productos de los socios comerciales de Docker. DockerCon tiene siete pistas, que van desde tutoriales introductorios hasta consejos, trucos e ideas de vanguardia.

Container Summit (Cimbre de Contenedores)

Este evento es más pequeño que DockerCon, pero tiene un alcance mucho más amplio. En 2016, Container Summit celebró dos grandes conferencias, y 12 más pequeñas en los Estados Unidos. La cumbre de contenedores es un buen lugar para establecer contactos con sus colegas que están trabajando para implementar y administrar tecnología de contenedores.

ContainerCon

Este es un evento más grande que presenta a los líderes del pensamiento en el espacio del contenedor y una amplia variedad de proveedores. ContainerCon se ejecuta en paralelo con LinuxCon y CloudOpen.

CoreOS Fest

Esta es la respuesta de CoreOS a DockerCon. Asista a CoreOS Fest para capacitación, soporte e información sobre la pila de tecnología rkt / CoreOs.

StackOverflow

El sitio de preguntas y respuestas en línea más grande para programadores, StackOverflow, ofrece abundante información sobre la implementación de sus aplicaciones en contenedores.

Sitio de la comunidad Docker

El sitio comunitario comisariado de Docker brinda información y foros centrados en Docker.

Sitio de comunidad de CoreOS

El sitio de la comunidad curada de CoreOS se centra en conectar a las personas con expertos mediante reuniones y chats.

Salir y contenerizar

El concepto detrás de los contenedores es simple: la implementación es compleja. Si su equipo técnico utiliza contenedores estrictamente para construcciones y pruebas, su decisión se limita a elegir el sistema operativo y el tipo de contenedor correctos. Pero una vez que el sistema de compilación está creando una imagen para cada compilación, ¿por qué detenerse allí?

Expandir la compilación/prueba anterior, significa seleccionar una pila de tecnologías para operaciones, implementación, monitoreo, soporte, seguridad, etc. CoreOS y Docker ofrecen extensiones y soporte que facilita la integración de sus propios ecosistemas de productos. Pero si prefiere desplegar su propio entorno, el uso de Kubernetes para la administración del clúster puede evitar el centrarse en un solo proveedor, pudiendo elegir cualquiera de los principales proveedores que la nube admiten.

Esta es nuestra lista concisa de recursos para contenedores, pero damos la bienvenida a los suyos. ¿Qué nos perdimos? Siéntase libre de agregar sus consejos y sugerencias a esta lista a través de los comentarios.

lunes, 19 de febrero de 2018

18 herramientas para Big Data que necesitas conocer!!!

En el ámbito de la Transformación Digital de hoy en día, Big Data ha brindado a la organización una ventaja para analizar el comportamiento del cliente e hiper-personalizar cada interacción que resulta en ventas cruzadas, una mejor experiencia del cliente y obviamente más ingresos.

El mercado de Big Data ha crecido constantemente a medida que más y más empresas han implementado una estrategia basada en datos. Si bien Apache Hadoop es la herramienta más establecida para analizar Big Data, existen miles de herramientas de big data por ahí. Todas ellas prometen ahorrarle tiempo, dinero y ayudarlo a descubrir conocimientos empresariales nunca antes vistos.

Hemos seleccionado algunos para que comience con  Big Data con el pie derecho:

Avro: fue desarrollado por Doug Cutting y utilizado para la serialización de datos para codificar el esquema de los archivos de Hadoop.

Cassandra: es una base de datos distribuida y de código abierto. Diseñada para manejar grandes cantidades de datos distribuidos en servidores de productos básicos, a la vez que proporciona un servicio altamente disponible. Es una solución NoSQL que fue desarrollada inicialmente por Facebook. Es utilizado por muchas organizaciones como Netflix, Cisco, Twitter, así como formar parte de los Servicios de Nutanix, dentro de la Controler Virtual Machine.

Drill: un sistema distribuido de código abierto para realizar análisis interactivos en conjuntos de datos a gran escala. Es similar al Dremel de Google y es administrado por Apache.

Elasticsearch: un motor de búsqueda de código abierto basado en Apache Lucene. Está desarrollado en Java y puede impulsar búsquedas extremadamente rápidas, que respalden sus aplicaciones de descubrimiento de datos.

Flume: es un marco para poblar Hadoop con datos de servidores web, servidores de aplicaciones y dispositivos móviles. Es la fontanería entre las fuentes y Hadoop.

HCatalog: es un servicio centralizado de administración y uso compartido de metadatos para Apache Hadoop. Permite una visión unificada de todos los datos en los clústeres de Hadoop y permite que diversas herramientas, incluyendo Pig y Hive, procesen cualquier elemento de datos sin necesidad de saber físicamente en qué parte del clúster se almacenan los datos.

Impala: proporciona consultas SQL rápidas e interactivas directamente en sus datos de Apache Hadoop almacenados en Hadoop Distributed File System (HDFS) o HBase utilizando los mismos metadatos, la sintaxis SQL (Hive SQL), el controlador ODBC y la interfaz de usuario (Hue Beeswax) como Apache Hive. Esto proporciona una plataforma familiar y unificada para consultas orientadas a lotes o en tiempo real.

JSON: muchas de las bases de datos NoSQL de hoy almacenan datos en el formato JSON (JavaScript Object Notation) que se ha hecho popular entre los desarrolladores web. JSON también es altamente popular en todas aquellas soluciones que manejan REST-API para administración vía interfaz navegador.

Kafka: es un sistema distribuido de mensajería de publicación y suscripción, que ofrece una solución capaz de manejar toda la actividad del flujo de datos y procesar éstos en un sitio web del consumidor. Este tipo de datos (visitas a la página, búsquedas y otras acciones del usuario) son un ingrediente clave en la web social actual.

MongoDB: es una base de datos NoSQL orientada a documentos, desarrollada bajo el concepto de Código Abierto. Esto viene con soporte para indexado completo, flexibilidad para indexar cualquier atributo y escalar horizontalmente sin afectar la funcionalidad.

Neo4j: es una base de datos de gráficos y cuenta con mejoras de rendimiento de hasta 1000 veces o más, cuando se compara con bases de datos relacionales.

Oozie: es un sistema de procesamiento de flujo de trabajo que permite a los usuarios definir una serie de trabajos escritos en varios idiomas, como Map Reduce, Pig y Hive. Además, los vincula inteligentemente entre sí. Oozie permite a los usuarios especificar dependencias.

Pig: es un lenguaje basado en Hadoop desarrollado por Yahoo. Es relativamente fácil de aprender y es un lenguaje experto para los canales de datos muy profundos y muy extensos.

Storm: es un sistema de computación distribuida en tiempo real, de código abierto y gratuito. Storm facilita el procesamiento fiable de flujos de datos no estructurados en el campo del procesamiento en tiempo real. Storm es tolerante a fallas y funciona con casi todos los lenguajes de programación, aunque típicamente lo han utilizado con Java. Descendiendo de la familia Apache, Storm ahora es propiedad de Twitter.

Tableau: es una herramienta de visualización de datos con un enfoque principal en la inteligencia empresarial. Puede crear mapas, gráficos de barras, diagramas de dispersión y más, sin necesidad de programación. Recientemente lanzaron un conector web que le permite conectarse a una base de datos o API, lo que le brinda la posibilidad de obtener datos en tiempo real en una visualización.

ZooKeeper: es un servicio que proporciona configuración centralizada y registro de nombre de código abierto para grandes sistemas distribuidos. ZooKeeper es uno de los servicios fundamentales dentro de la Controler Virtual Machine de Nutanix.

Todos los días se agregan muchas más herramientas, la pila de tecnología Big Data y es extremadamente difícil de lidiar con todas y cada una de las herramientas. La recomendación aquí yu ahora es que Usted seleccione algunas que pueda dominar y continúe actualizando su conocimiento.

¿Ya aplica alguna de estas herramientas para la estrategia de Big Data en su empresa u organización?

miércoles, 17 de septiembre de 2014

Hoy... Aquí... ¿Para qué me sirve La Nube?


Quienes nos han obsequiado con la lectura de nuestras aportaciones a este Blog, se han dado cuenta de cómo desde hace ya mucho tiempo el concepto y por qué no decirlo, el fenómeno del Cómputo en La Nube, ha sido un tema fundamental para nosotros.

También hemos mencionado que por desinformación, confusión o en ocasiones ignorancia, muchas empresas y personas tienen la idea de que La Nube no es otra cosa que un lugar en la "Webósfera", esa capa abstracta entre la litosfera y la atmósfera, que solo sirve para almacenar de manera alternativa los archivos con fotografías, música, hojas de cálculo, etc.

Cierto que el almacenamiento en La Nube es uno de los inmensos servicios que ofrece La Nube, pero que vale la pena entonces repasar qué es y qué conforma La Nube:

  • La Nube es un concepto en el que todo lo que corresponde a las Tecnologías de la Información (TI) se ofrece en la modalidad de "como un servicio" (as a Service).
  • Los tres pilares que sustentan de manera básica a La Nube son:
    • Infraestructura como un Servicio (IaaS)
    • Plataforma como un Servicio (PaaS)
    • Software como un Servicio (SaaS)
  • Existen dos modalidades en las que se puede ofrecer o disfrutar de los servicios de La Nube:
    • Nube Privada, en donde toda la infraestructura física interviene directa e indirectamente sustentando a todos y cada uno de los Servicios, es propiedad del que quien los ofrece y/o disfruta.
    • Nube Pública, en la que no se requiere adquirir ningún dispositivo, rack, espacio físico, etc. y los servicios son provistos por un tercero en modalidad "paga lo que consumes" (como el suministro de la energía eléctrica). 
Todo esto es ya de por sí revolucionario y puede ser algo confuso, pero como intitulamos a esta aportación: ¿Para qué me sirve La Nube?

Creemos pues que para un mejor entendimiento y en pro de la claridad, vamos a plantearlo todo con escenarios y ejemplos.


Escenario 1: "No tengo dinero para Servidores, pero necesito implementar una aplicación de misión crítica en mi empresa".

Sabemos que en México y prácticamente en toda latinoamérica, la mayoría de las empresas que venden productos y servicios son clasificadas como Pequeñas - Medianas Empresas (SMB). El común denominador en todas ellas es que debido a la escasez de recursos económicos en dichas compañías, no es posible terminar de implementar como es debido proyectos como ERP, CRM, etc.

El alto coste en la adquisición en el Hardware, más aún el elevado Costo Total de Propiedad (TOC) por el pago de licencias de Sistema Operativo, espacio físico, suministro de energía eléctrica, necesidades de enfriamiento de los equipos, sueldos y salarios para personal de administración, etc. hace prohibitivo pues todo esto para la mayoría de negocios pequeños y medianos.

¿Es posible entonces bajar considerablemente todo lo relativo a la infraestructura sobre la que deberán ejecutarse las soluciones de TI? La respuesta es un rotundo SÍ. ¿Cómo? Utilizando Servidores en La Nube.

Los Servicios en La Nube que ya ofrece AVNET Technology Solutions a través de su Red de Asociados, permiten a empresas del segmento SMB o PYME acceder a recursos de cómputo, almacenamiento, red, etc. a costos muy razonables y sin necesidad de invertir en equipos físicos.

Con herramientas modernas y acceso a través de un navegador vía Internet, es posible solicitar, controlar, administrar, utilizar, acceder a los recursos necesarios, en cualquier momento, en cualquier lugar y a través de prácticamente cualquier dispositivo.


Escenario 2: "Necesito contar con una solución de colaboración, correo electrónico y trabajo en grupo, pero sin tener que invertir demasiado dinero tan solo en la infraestructura de cómputo".

¿Cuántas veces en tarjetas de presentación de empresas exitosas, el correo electrónico de quien nos atiende es <nombre de la persona>@gmail.com, <nombre de la persona>@hotmail.com, etc.? Esto era el pan nuestro de cada día a fines de los años noventa del siglo XX. ¿Pero en plena segunda década del siglo XXI?

¿Por qué no contratar Servicios de Plataforma de Colaboración con AVNET? No es necesario comprar equipos. Es posible alojar el nombre del dominio de la compañía para poder contar con buzones de correo electrónico <nombre de la persona>@<nombre de la empresa>.com (por mencionar un ejemplo).

Es posible también que no sea necesario implementar VPN y/o cualquier otro mecanismo de seguridad, pues los datos vivirán en Servidores Centrales en La Nube y solamente personal acreditado de la empresa puede tener acceso completo a ellos.

¿Qué sería necesario entonces para que los Usuarios Finales puedan contar con todos los servicios de colaboración y trabajo en grupo de la empresa? Un navegador y/o programas de uso común como Microsoft Outlook.


3.- "Necesitamos contar con una estrategia completa de Respaldo y Recuperación de Datos, que no sea tan onerosa pero que sí sea efectiva".

Cuando se desea implementar una verdadera Solución de Respaldo, Recuperación de Desastres, Continuidad de Negocio, etc. los cánones más conservadores y ortodoxos recomiendan que: -"...el sitio de recuperación de desastres debe de estar físicamente distante del sitio de producción..."-.

Algo que también son un "deber ser" es esa sentencia que dicta: -"...el sitio de recuperación de desastres deberá ser un espejo idéntico del sitio de producción..."-. Esto último plantea el hecho de que se requiere entonces pensar en una enorme inversión tan solo en duplicar equipos, almacenamientos, infraestructura de red, etc. amén de que se debe contar con personal, software, licencias, planes de acción y demás requerimientos para garantizar los Niveles de Calidad de Servicio, los RTO y RPO para que no se vea afectado en gran medida el proceso de negocio.

¿Qué tal si ahora se pudiese contar el La Nube con todo lo necesario para conformar de entrada, el Sitio de Recuperación? En servidores virtuales que pudiesen ser utilizados para prueba y desarrollo mientras no está presente un desastre y que "de facto" quedan literalmente apartados de el Sitio de Producción.

¿Y si ambos, el Sitio de Producción y el Sitio de Recuperación de Desastres, estuviesen en La Nube? Esto significa cero inversión en Hardware, así como también tener la garantía de que ambos sitios están apartados uno de otro y que los recursos informáticos (procesadores, memorias, redes, almacenamiento, etc.) son los necesarios y suficientes para garantizar en todo momento la operación del negocio.


4.- "Necesito una solución de Análisis de Datos e Inteligencia de Negocios que cuente con todo lo necesario para BigData, pero no cuento con los recursos económicos suficientes para adquirir todo el hardware necesario que lo sustente".

¿Por qué no contar con una solución en la que todos los recursos necesarios de cómputo, almacenamiento y el "framework" (Apache Hadoop) indispensables para el análisis de una inmensa cantidad de datos en tiempos cortísimos?

Todo ello puede realizarse con recursos en La Nube, de manera segura, confiable, efectiva y a un precio razonable.


5.- "Necesito que mis empleados puedan tener su ambiente de escritorio de trabajo, que les permita ser productivos desde cualquier lugar, en cualquier momento, desde cualquier dispositivo y garantizando la máxima seguridad para la información de mi empresa".

El dolor de cabeza constante para un CIO, un CFO, un CEO y los mismos Usuarios Finales es precisamente el alto costo de los equipos de escritorio (Desktop y Laptops principalmente).

Partiendo de el hecho de que -"...trabajo es una actividad y no un lugar"-, así como también teniendo en cuenta que las tecnologías actuales permiten a una persona tener un buen acceso a Centros de Datos a través de navegadores y aplicaciones cliente ejecutándose en Tablets, Phablets, Teléfonos Inteligentes y demás dispositivos, es que ahora podemos hablar de conceptos como Infraestructura de Escritorios Virtuales (VDI) y Escritorios como un Servicio (DaaS).

Utilizando recursos informáticos que moran en La Nube, es posible que los Usuarios puedan trabajar desde, donde y cuándo sea, sin que la información de la empresa se vea vulnerada al momento de que un dispositivo sea robado, extraído, perdido, etc.

En un ambiente completamente controlado y sin necesidad de que el dispositivo en donde se ejecuta el Escritorio de Trabajo sea costoso, los Usuarios Finales tendrán todo lo que necesitan para trabajar.

Pudiésemos continuar con muchos más escenarios y ejemplos, pero no deseamos que esta aportación se prolongue demasiado. Lo que sí deseamos es que se acerquen a nosotros para preguntarnos cómo hacer para acceder a los Servicios en La Nube que tenemos para ofrecer, a través de nuestra extensa red de Canales en todo México y América Latina.

¿Ya cuenta Usted con una estrategia de Cómputo en La Nube?




martes, 5 de marzo de 2013

Procesadores Intel® para BigData...

Hace ya un tiempo no tan corto que en este Blog tocamos el tema de BigData en las entradas Entendiendo a BigData (parte I), Entendiendo a BigData (parte II) y Entendiendo a BigData (parte III)  explicándose en dichas entradas qué es, sus alcances y sus limitaciones.

Todo lo dicho en esas entradas era dentro del enfoque del Software, mas sin embargo es menester mencionar que existen fabricantes de Hardware los que ahora se unen a esta tendencia tecnológica que ya forma parte del día a día de muchas empresas en el mundo.

Para asegurar que más organizaciones y personas puedan utilizar la vasta cantidad de datos que son generados, colectados y almacenados todos los días – también conocidos como “BigData”, Intel Corporation anuncia la disponibilidad de la nueva Distribución de Intel® del software Hadoop* de Apache.

Esta oferta, que incluye el Intel® Manager para el software Hadoop de Apache, es fabricada desde el silicio para ofrecer capacidad de desempeño líder de la industria y atributos de seguridad mejorados.

Con la globalización, la extensión virtual se hizo necesaria, además el incremento exponencial de datos en la última década despertó la atención de los expertos por una posible falta de espacio. Por ejemplo, a través de Internet, en sólo un minuto más de 639.800 Gigabytes de datos globales son transferidos entre computadoras, 204 millones de correos electrónicos son enviados y más de 47.000 aplicaciones son bajadas; además, se prevé que para 2015 estos números se dupliquen.

En ese escenario, BigData se presenta como un activo valioso para muchas organizaciones. La capacidad de analizar y entender BigData tiene un enorme potencial para transformar a la sociedad, ya que permite nuevos descubrimientos científicos, modelos de negocios y experiencias de consumo. Aun así, sólo una pequeña fracción del mundo es capaz de encontrar sentido en toda esta información debido a que las tecnologías, técnicas y habilidades disponibles actualmente son demasiado rígidas para los tipos de datos, o excesivamente caras para implementarlas.

El software de BigData recoge todos los datos que una organización genera y permite a los administradores y analistas usarlos más tarde. En este sentido, son más escalables que las bases de datos tradicionales y los data warehouses. BigData está impacta en la forma en que será usado el data center en el futuro. BigData tiene muchas más implicaciones sobre el ámbito de data centers, especialmente, con su infraestructura de cómputo y de redes. En este sentido, en el futuro, éstos deben ser no sólo capaces de procesar los datos sino también de mover su volumen.

El software Hadoop de Apache es una estructura de código abierto para almacenar y procesar grandes volúmenes de datos en clústeres escalables de servidores, que surgieron como la plataforma preferida para la gestión de BigData. Con cada vez más información proveniente de los miles de millones de sensores y sistemas inteligentes también en el horizonte, la estructura de trabajo debe permanecer abierta y escalable, además de cumplir con los requisitos exigentes de rendimiento, seguridad y capacidad de gestión de nivel empresarial.

“Personas y máquinas están produciendo información valiosa que podrá enriquecer nuestras vidas de muchas maneras, desde la extrema precisión en la previsión del mal tiempo hasta el desarrollo de tratamientos personalizados para enfermedades terminales”, declaró Boyd Davis, vicepresidente y gerente general del Data Center Software Division de Intel. “Intel se compromete a contribuir y dar soporte a la comunidad de código abierto para proveer a la industria una mejor base sobre la cual podrá extender los límites de la innovación y percibir la oportunidad de transformación de BigData”, añade el ejecutivo.

Rendimiento y seguridad garantizados: 
La diferencia de la tecnología IntelActualmente, Intel está ofreciendo una plataforma abierta innovadora, desarrollada en Hadoop de Apache, capaz de acompañar el ritmo de la rápida evolución del análisis de BigData. La nueva Distribución de Intel® es la primera en ofrecer criptografía total con soporte para Intel® AES New Instructions (Intel® AES-NI) con el procesador Intel® Xeon®. Al incorporar un soporte para criptografía basada en el silicio del Hadoop Distributed File System*, las organizaciones ya pueden analizar con seguridad sus conjuntos de datos sin comprometer el rendimiento.

Las optimizaciones hechas para comunicación a través de redes y las tecnologías IO de la plataforma del procesador Intel® Xeon® también habilitan nuevos niveles de rendimiento. Analizar un Terabyte de datos – algo que anteriormente llevaría más de 4 horas – ahora puede hacerse en 7 minutos¹ gracias a la poderosa combinación de hardware Intel y la nueva Distribución de Intel®. Si consideramos la estimación de Intel de que el mundo genera un Petabyte de datos (1.000 Terabytes) cada 11 segundos, o lo equivalente a 13 años de video HD, el poder de la tecnología Intel ofrece al mundo posibilidades aún mayores.

Por ejemplo, en un ambiente hospitalario, la inteligencia derivada de los datos puede ayudar a mejorar la atención al paciente, ayudando a los profesionales de salud a que hagan diagnósticos más rápidos y precisos, determinen la eficacia de medicamentos, las interacciones de los medicamentos, recomendaciones sobre las dosis y los potenciales efectos colaterales a través del análisis de millones de registros médicos electrónicos, datos de salud pública y registros de información de reclamos médicos, tornándose fundamental mantener la seguridad y la privacidad durante la realización de análisis.

La inclusión del Intel® Manager para el software Hadoop de Apache también simplifica la implementación, la configuración y el monitoreo del clústers para administradores de sistemas a medida que estos estudian la implementación de nuevas aplicaciones. Usando el Intel® Active Tuner para el software Apache Hadoop se configura automáticamente el ajuste del desempeño. Hasta ahora, esto exigía una comprensión especializada del uso de cada aplicación de recursos del sistema, juntamente con la configuración del Hadoop y de estándares de rendimiento.

Intel está trabajando con asociados estratégicos para integrar este software en innúmeras plataformas y soluciones de próxima generación y para habilitar la implementación en ambientes de nubes públicas y privadas. Los aliados que soportan ese lanzamiento son 1degreenorth*, AMAX*, Cisco*, Colfax Corporation*, Cray*, Datameer*, Dell*, En Pointe*, Flytxt*, Hadapt*, HStreaming*, Infosys*, LucidWorks*, MarkLogic*, NextBio*, Pentaho*, Persistent Systems*, RainStor*, Red Hat*, Revolution Analytics*, SAP*, SAS*, Savvis, a CenturyLink company, Silicon Mechanics*, SoftNet Solutions*, Super Micro Computer, Inc.*, Tableau Software*, Teradata*, T-Systems*, Wipro* y Zettaset*.

Un enfoque integral para Big Data
El nuevo software amplía el extenso portafolio de productos de Intel para data center, redes, almacenamiento y sistemas inteligentes. El recién lanzado Intel® Intelligent Systems Framework, un conjunto de soluciones interoperables proyectado para habilitar la conectividad, la gestión y la seguridad en dispositivos inteligentes – de manera consistente y escalable – crea una base para ayudar a reunir, analizar y proveer información valiosa para el análisis punto a punto, del dispositivo al data center.

Además, Intel continúa invirtiendo en investigaciones y en capital para generar avances en el ecosistema de BigData. Intel Labs es la vitrina que incluye el desarrollo del Intel® Graph Builder para el software Hadoop de Apache, una biblioteca para transformar grandes conjuntos de datos en gráficos con el objetivo de ayudar a visualizar las relaciones entre los datos. El Intel® Graph Builder es optimizado para la nueva Distribución de Intel® para ayudar a reducir el tiempo de desarrollo al eliminar la necesidad de desarrollar grandes cantidades de códigos personalizados. Mientras tanto, Intel Capital ha hecho grandes inversiones en tecnologías para el análisis de BigData, incluyendo el 10gen del MogoDB Company y la proveedora de soluciones para el análisis de BigData Guavus Analytics.