Blog Exitcertified México: Entendiendo a BigData (Parte II)

miércoles, 20 de junio de 2012

Entendiendo a BigData (Parte II)

En la entrada inmediata anterior intitulada "Entendiendo a BigData (Parte I)" compartimos un enfoque y una definición de lo que es BigData. Ahora en esta entrada les compartimos mas información y algunas alternativas para entender más y comenzar a aprovechar el potencial de BigData.

Debido a los desafíos que imponen el Volumen, la Velocidad y la Variedad, muchas organizaciones en la actualidad no tienen más remedio que pasar por alto o simplemente "aventar por el escape" grandes cantidades de información que puede ser muy valiosa.

Imaginemos por un momento que nosotros, las empresas y toda organización educativa o de gobierno somos seres acuáticos que nos encontramos navegando a través de un enorme y basto océano de datos.

Ahora imaginemos que este maremágnum de datos contiene una enorme cantidad de nutrientes potenciales (datos que se pueden convier en información valiosa) al alcance de todo quien sepa deglutirlos.

Como sucede con los organismos vivientes, si nuestro aparato digestivo (la infraestructura de TI de nuestra empresa u organización) ha evolucionado y está preparado, podremos digerir, nutrirnos y saciarnos de este alimento de información. De lo contrario si nuestro "aparato digestivo" es primitivo y solamente aprovecha muy poco de esa información, dejará pasar directamente al escape mucha información potencial como sucede con las formas más primitivas de vida.

Eso significaría que los sensores y sistemas de TI simplemente no están a la altura de la exploración e interpretación de los vastos océanos de datos en la que navegamos. Como consecuencia, la mayor parte de los datos que rodea las organizaciones hoy simplemente se ignora.

A modo de ejemplo podemos mencionar que hasta hace muy poco, la gran mayoría de los datos capturados a través de los sistemas de tarjetas de fidelidad de los minorista no ha sido procesada de ninguna manera. Y todavía hoy, casi todos los datos de vídeo capturados por los hospitales durante la cirugía se elimina en cuestión de semanas.

Esto puede resultar escandaloso, ya que si existiera una verdadera coordinación e inteligente explotación y/o minera de estos flujos de información, podríamos mejorar tanto los resultados individuales de cada paciente y una mayor planificación de las iniciativas y estrategias relativas a la salud.

Debido a los problemas planteados por su volumen, la velocidad y la variedad, BigData exige nuevas soluciones tecnológicas. En la actualidad el líder en este campo es un proyecto de código abierto llamado Apache Hadoop.

Apache Hadoop está desarrollando una biblioteca de software para sistemas confiables y escalables de de computación distribuido, capaz de manejar la gran avalancha de datos proporcionando una plataforma viable para el primer análisis de BigData. Actualemte Hadoop ya es utilizada por la mayoría de los pioneros de BigData. Por ejemplo, LinkedIn actualmente utiliza Hadoop la generación de más de 100 millones de recomendaciones personalizadas a la semana.

Lo que hace Hadoop es básicamente distribuir el almacenamiento y procesamiento de grandes conjuntos de datos a través de grupos o clusters de servidores usando un modelo de programación simple.

El número de servidores en un clúster puede ser escalado fácilmente tanto como los requisitos dictan. De manera que quizás se requieran 50 máquinas , tal vez 2000 o más. Considerando que las soluciones tradicionales de computo a gran escala se basan en el hardware del servidor para ofrecer alta tolerancia a fallos, Hadoop detecta y compensa las fallas de hardware u otros problemas del sistema a nivel de aplicación.

Técnicamente, Hadoop se compone de dos elementos clave. El primero es el sistema de archivos distribuidos Hadoop (HDFS), que permite un alto ancho de banda basado en un clúster de almacenamiento, esencial para la computación de Bigdata.

La segunda parte de Hadoop es un marco de procesamiento de datos denominado MapReduce, el cual se basa en la tecnología de búsqueda de Google. Éste distribuye o "mapea" grandes conjuntos de datos en múltiples servidores.

Cada uno de estos servidores entonces realiza el procesamiento de los datos globales establecidos que se ha asignado creando lo que se llama un resumen. Los resúmenes creados en cada servidor se agregan al así llamado "Reductor". Este enfoque permite que los conjuntos datos crudos muy grandes sean pre-procesados con rapidez, "destilándose" antes de que las herramientas de análisis de datos más tradicionales sean aplicadas.

Ahora bien, hablando de las implicaciones que BigData trae consigo, mientras que el volumen de datos ahora se mide en Terabytes, Petabytes e inclusive Exabytes, ahora no solamente tenemos enfrente un enorme desafío técnico sino también enormes oportunidades de negocio.

Por ello IBM menciona que -"BigData ... es una oportunidad para encontrar soluciones de comprensión en los nuevos tipos de datos emergentes para que las empresas, permitiendo respondar con mayor agilidad a las preguntas que en el pasado estaban fuera de su alcance"-.

Oracle por su parte publica que -"BigData mantiene la promesa de dar a las empresas una visión más profunda de sus clientes, socios y proveedores, con respuestas a preguntas que ni siquiera se han planteado aún"-.

En conclusión, BigData no es una moda o un nuevo "slogan" publicitario inventado por el área de Mercadotécnia de una empresa de Tecnologías de la Información. BigData es todo un reto que ya está presente en todas las empresas, entidades educativas y de gobierno a nivel global.

El planteamiento más importante de todo esto está en la respuesta a la pregunta: -"¿Desea Usted que su empresa u organización sea solo un organismo primitivo que deje pasar y eyecte información valiosa directamente por el escape?"-

Si la respuesta a la pregunta anterior es un rotundo NO, entonces lo que Usted necesita YA es alguna solución para aprovechar esta información, la cual se ha convertido en un enorme océano en el que todos estamos actualmente navegando.

Como sucede con todo concepto, solución y/o paradigma, BigData no es algo que se pueda dejar "a la ligera" en manos de pseudo expertos o peor aún de charlatanes. Se trata de algo que bien implementado puede literalmente alimentar a su empresa con datos de excelente calidad, propiciando un crecimiento saludable y sostenido.

Para terminar, conteste a Usted mismo esta pregunta: ¿Qué tan evolucionada está su infraestructura y soluciones de TI para poder digerir BigData?

Páginas

miércoles, 20 de junio de 2012

Entendiendo a BigData (Parte II)

No hay comentarios:

Publicar un comentario