Páginas

martes, 3 de abril de 2018

Aprendizaje Automático a la nueva velocidad y escala de los negocios

Integrado en el núcleo de Vertica, sin necesidad de descargar e instalar paquetes separados, el aprendizaje automático admite todo el proceso de análisis predictivo con procesamiento paralelo masivo y una interfaz SQL familiar, lo que permite a los científicos y analistas de datos adoptar el poder de Big Data y acelerar resultados de negocios sin límites y sin compromisos.

Aprendizaje automático: una ventaja competitiva

En el mundo actual impulsado por los datos, crear una ventaja competitiva depende de su capacidad para transformar volúmenes masivos de datos en ideas significativas. Las empresas que usan análisis avanzados y aprendizaje automático tienen el doble de probabilidad de ser ejecutoras financieras de primer cuartil, y tres veces más probabilidades de ejecutar decisiones efectivas.

Sin embargo, mientras que el 75% de los líderes empresariales identifican el "crecimiento" como la principal fuente de valor de los análisis, solo el 60% de estos líderes tienen capacidades de análisis predictivo.

Aprovechar al máximo Big Data puede ayudar a comprender en profundidad el comportamiento del usuario, permitiéndole personalizar la experiencia del consumidor, evitar el abandono, detectar fraudes e incrementar sus resultados.

Lamentablemente, la creciente velocidad, el volumen y la variedad de datos han aumentado la complejidad de la construcción de modelos predictivos, ya que pocas herramientas son capaces de procesar estos conjuntos de datos masivos a la velocidad de los negocios. El Aprendizaje Automático (Machine Learning o ML por sus siglas en inglés) en la base de datos de Vertica, por otro lado, le permite aprovechar el poder de Big Data y acelerar los resultados comerciales sin límites.

¿Qué es el Aprendizaje Automático y por qué es importante?

El Aprendizaje Automático está ganando popularidad como una forma esencial no solo para identificar patrones y relaciones, sino también de predecir resultados. Esto está creando un cambio fundamental en la forma en que las empresas están operando, desde ser reactivas hasta ser proactivas.

El Aprendizaje Automático permite procesos y análisis que anteriormente eran demasiado complejos de manejar manualmente. Compuesto por una variedad de algoritmos y modelos estadísticos para procesar y correlacionar datos, el Aprendizaje Automático ayuda a los científicos de datos y analistas a descubrir valiosos conocimientos de conjuntos de datos, aparentemente aleatorios o no relacionados.

Estas ideas acerca de los clientes, los procesos de la cadena de valor, los insumos de fabricación y más, se pueden utilizar para tomar decisiones comerciales y mejorar su posición competitiva. En pocas palabras, los algoritmos de Aprendizaje Automático facilitan una toma de decisiones organizativa más informada, y deben ser una aportación esencial para sus funciones, productos y operaciones comerciales diarias.

Sin embargo, para capturar el valor total de Big Data, necesitamos cambiar la escala y la velocidad a través de la cual se modelan, entrena y despliega estos algoritmos de aprendizaje automático.

Las herramientas analíticas tradicionales ya no se escalan en el mundo en el que vivimos. Los volúmenes de datos actuales son demasiado grandes para que las manejen muchas herramientas tradicionales de aprendizaje automático, y las relaciones entre grandes fuentes de datos dispares, desde bases de datos de clientes de back-end hasta comportamientos de clics, son demasiado complejo para que las herramientas tradicionales obtengan todos los valores ocultos disponibles.

Los nuevos métodos de aprendizaje automático en la base de datos liberan a los científicos de datos de las limitaciones de volumen de las herramientas tradicionales y les permiten descubrir y mostrar patrones enterrados en conjuntos de datos cada vez más grandes.

Y a medida que el volumen de datos ingeridos aumenta, el nivel y la sofisticación del aprendizaje también aumentan, lo que resulta en predicciones más precisas que se pueden convertir en un mejor servicio al cliente, productos superiores y una ventaja competitiva.

En 2016, Google AlphaGo hizo historia al convertirse en el primer programa en vencer a un jugador profesional de Go, un antiguo juego chino con más configuraciones de tablero posibles que átomos en el universo.

¿Cómo lo hizo? Mediante el uso de algoritmos de aprendizaje automático para estudiar una base de datos en línea Go matches: equivalente a la experiencia que se obtendría jugando a Go durante 80 años sin interrupción.

Lo mismo es cierto para el auto de Google. Según Pedro Domingos, uno de los expertos líderes en el mundo en aprendizaje automático, -"...un auto sin conductor no está programado para manejarse solo. Nadie sabe cómo programar un automóvil para conducir. Sabemos cómo conducir, pero ni siquiera podemos explicarlo a nosotros mismos. El automóvil de Google aprendió conduciendo millones de millas y observando a la gente conduciendo ".

Usando los mismos algoritmos de aprendizaje automático, Netflix ofrece recomendaciones de películas basadas en su historial de visualización, mientras que Amazon hace recomendaciones de productos basadas en sus tendencias de compra, Facebook identifica y etiqueta las caras de sus amigos en las fotos que carga y la lista continúa. ¿El beneficio? Una experiencia de consumidor personalizada, mayor lealtad, reducción de abandono y una mayor participación en la billetera. Todo al aprovechar el poder del aprendizaje automático.

Tipo de aprendizaje automático

Los algoritmos de aprendizaje automático pueden dividirse en dos grandes categorías: aprendizaje supervisado y aprendizaje no supervisado. El aprendizaje supervisado y el aprendizaje no supervisado son los dos métodos más ampliamente adoptados de aprendizaje automático, con algoritmos para ambos integrados en Vertica.

El aprendizaje supervisado se usa en los casos en que todos los datos están etiquetados y los algoritmos aprenden a predecir el resultado de los datos de entrada.

El algoritmo de aprendizaje ingiere un conjunto de entradas de entrenamiento junto con un conjunto correspondiente de salidas correctas. Luego aprende comparando la salida real con las salidas correctas, encontrando errores y modificando el modelo en consecuencia. El proceso se repite hasta que el modelo proporciona el nivel de precisión deseado en función de los datos de entrenamiento.

El aprendizaje supervisado a menudo usa datos históricos para predecir eventos futuros, por ejemplo, el mejor cliente demográfico para apuntar a una promoción basada en el comportamiento de compras anterior, o predecir puntuaciones de crédito basadas en el comportamiento financiero pasado. Los algoritmos populares incluyen árboles de decisión, clasificación Naïve Bayes, bosque aleatorio, regresión lineal y regresión logística.

El aprendizaje no supervisado se usa en casos donde todos los datos no están etiquetados y los algoritmos aprenden la estructura inherente de los datos de entrada. No hay respuestas correctas ni un "maestro", a diferencia del aprendizaje supervisado.

El algoritmo es responsable de analizar los datos e identificar un patrón, por ejemplo, clientes con características similares que pueden ser objeto de una campaña de marketing en forma colectiva.

Las clasificaciones populares de las técnicas para el aprendizaje no supervisado incluyen el aprendizaje de reglas de asociación y técnicas de agrupación como la agrupación jerárquica y K-means.

Barreras para aplicar el Aprendizaje Automático a escala

Existen varios desafíos a la hora de aplicar el aprendizaje automático a los volúmenes masivos de datos que las organizaciones recopilan y almacenan. El análisis predictivo puede ser complejo, especialmente cuando se agrega Big Data a la mezcla.

Debido a que los conjuntos de datos más grandes producen resultados más precisos, se requiere un procesamiento paralelo, distribuido y de alto rendimiento para obtener información a la velocidad de los negocios. Además, los algoritmos de aprendizaje automático deben reescribirse para aprovechar los modernos motores distribuidos y paralelos.

Las aplicaciones y herramientas tradicionales de aprendizaje automático, requieren que los científicos de datos construyan y ajusten modelos utilizando, solo subconjuntos pequeños de datos (llamados muestreo descendente), que a menudo resultan en imprecisiones, retrasos, costos incrementados y acceso más lento a conocimientos críticos:

  • Desarrollo más lento: las demoras en el traslado de grandes volúmenes de datos entre los sistemas aumentan la cantidad de tiempo que los científicos de datos pasan creando modelos de análisis predictivo, lo que retrasa el tiempo de valorización.
  • Predicciones inexactas: dado que los grandes conjuntos de datos no se pueden procesar debido a la memoria y las limitaciones computacionales con los métodos tradicionales, solo se analiza un subconjunto de los datos, reduciendo la precisión de los conocimientos posteriores y poniendo en riesgo las decisiones comerciales basadas en estos conocimientos.
  • Implementación retrasada: debido a procesos complejos, la implementación de modelos predictivos en producción suele ser lenta y tediosa, lo que pone en peligro el éxito de las iniciativas de big data.
  • Aumento de los costos: se requieren hardware adicional, herramientas de software y recursos de administrador y desarrollador para mover datos, construir modelos predictivos duplicados y ejecutarlos en múltiples plataformas para obtener los resultados deseados.

La plataforma Vertica Analytics ofrece análisis predictivos a velocidad y escala

Capaz de almacenar grandes cantidades de datos diversos y algoritmos de aprendizaje de máquina incorporados clave, la plataforma de análisis de Vertica elimina o minimiza muchas de estas barreras. Construido desde cero para manejar volúmenes masivos de datos, Vertica está diseñado específicamente para abordar los desafíos del análisis de Big Data utilizando un paradigma columnar comprimido, distribuido y equilibrado.

El procesamiento paralelo masivo permite que los datos se manejen a escala de Petabytes para sus casos de uso más exigentes. Sus capacidades de almacenamiento en columnas proporciona compresión de datos, lo que reduce los tiempos de consulta de análisis de Big Data de horas a minutos, o de minutos a segundos, en comparación con las tecnologías heredadas. Además, como un sistema de análisis completo, Vertica proporciona análisis avanzados basados ​​en SQL, incluido el patrón correspondencia, análisis geoespacial, simulaciones de Monte Carlo y muchas más capacidades.

Como una plataforma optimizada que permite ejecutar modelos predictivos avanzados desde la base de datos y en grandes conjuntos de datos, Vertica elimina la necesidad de duplicación y procesamiento de datos en plataformas alternativas (que normalmente requieren ofertas de múltiples proveedores) que agregan complejidad y costo. Ahora la misma velocidad, escala y rendimiento que se utilizan para el análisis basado en SQL, se puede aplicar a los algoritmos de aprendizaje automático, y ambos se ejecutan en un solo sistema para una simplificación adicional y ahorro de costos.

Implementación del aprendizaje automático con la plataforma Vertica Analytics

El aprendizaje automático es más efectivo cuando se aplica a conjuntos de datos muy grandes y, por lo tanto, es un ajuste natural para Vertica que está diseñado para el procesamiento rápido de Big Data. Existen dos formas principales de implementar capacidades de aprendizaje automático en Vertica: el aprendizaje automático en la base de datos de Vertica y las extensiones definidas por el usuario (UDx).

Aprendizaje automático en la base de datos

Con los algoritmos de aprendizaje de máquina aplicados en la base de datos de Vertica, algunos de los modelos de aprendizaje automático más comúnmente utilizados se pueden crear e implementar de forma nativa para analizar grandes conjuntos de datos, acelerando la toma de decisiones con precisión milimétrica. Integrados en el núcleo de Vertica, sin necesidad de descargar e instalar paquetes separados, los algoritmos de aprendizaje automático en la base de datos ofrecen:

  • Escalabilidad: aunque la mayoría de las herramientas externas como R y Python tienen limitaciones en cuanto al tamaño del conjunto de datos que pueden manejar, lo que obliga a los usuarios a reducir las muestras para el análisis y los beneficios de analizar grandes volúmenes de datos, el aprendizaje automático en la base de datos de Vertica de los conjuntos de datos más grandes admitidos para proporcionar información mayor y más precisa.
  • Simplicidad: las características de ingesta nativa, preparación de datos y preparación de modelos de Vertica cubren todo el ciclo de vida de la minería de datos, eliminando la necesidad de exportar y cargar datos en otra herramienta para su análisis, y luego exportar los resultados nuevamente a Vertica. Además, los usuarios pueden entrenar, probar e implementar modelos de aprendizaje automático utilizando una interfaz familiar similar a SQL, sin tener que aprender nuevas técnicas o contratar recursos costosos con habilidades de nicho.
  • Velocidad: el aprendizaje automático en la base de datos de Vertica acelera el tiempo de visión aprovechando la arquitectura de procesamiento paralelo masivo (MPP) de Vertica, incluido el uso de múltiples nodos en el clúster para un cálculo más rápido cuando sea necesario.

Extensiones definidas por el usuario (UDx)

Vertica se conecta a cientos de aplicaciones, fuentes de datos, Extract-Transform and Load («extraer, transformar y cargar», frecuentemente abreviado ETL), módulos de visualización y lo que no se conecta de inmediato se puede integrar fácilmente con Extensiones Definidas por el Usuario (UDx).

Una UDx le permite desarrollar sus propias herramientas analíticas o de carga de datos para Vertica Analytics Platform, incluidos nuevos tipos de análisis de datos y la capacidad de analizar y cargar nuevos tipos de datos. Desarrollados en lenguajes de programación C ++, Java, Python y R utilizando el SDK de Vertica, son los más adecuados para operaciones analíticas que normalmente son difíciles o lentas de realizar con SQL estándar.

La amplia gama de capacidades definidas por el usuario (funciones, transformaciones, agregados, análisis y carga) aprovecha las capacidades de Procesamiento Masivo en Paralelo (Massively Parallel Processing o MPP) de Vertica, aumentando la potencia y la flexibilidad del código de procedimiento al acercarlo a los datos (estructurados, semiestructurados o desestructurado).

La interfaz de usuario de Vertica facilita el aprovisionamiento y el uso de extensiones de procedimientos, simplifica las prácticas operativas y promueve la reutilización de códigos. Sin embargo, aunque los UDx pueden expandir la funcionalidad de análisis de datos dentro de Vertica, no coinciden con la velocidad o escala de las capacidades de aprendizaje automático en la base de datos de Vertica.

En conclusión, Vertica es la elección indicada cuando se trata de analizar cantidades descomunales de Datos, no sólo por sus propiedades intrínsecas incluidas en su arquitectura y modo de operación basado en columnas, sino porque además ya trae consigo algoritmos que facilitan el Aprendizaje Automático.

No hay comentarios:

Publicar un comentario

Todos los derechos reservados.
Copyright © 2025.