lunes, 5 de febrero de 2018

El próximo hito del High Performance Computing

Cuando abordamos el tema de los "Motivadores de la Transformación Digital en el 2018" en este Blog, mencionábamos que -"existen pues ya identificadas diez y seis tecnologías que apuntalan la Transformación Digital."-

Agregamos que -"doce de éstas ya están impactando nuestras vidas a corto y mediano plazo, mientras que las restantes doce lo harán en un largo plazo no mayor a doce años."-

Unas de ellas es precisamente Inteligencia Artificial y dentro de esta, el Aprendizaje Automático, el Aprendizaje Profundo, etc.

El panorama del Cómputo de Alto Rendimiento (HPC por sus siglas en inglés) está evolucionando a un ritmo tan vertiginoso, que algunos lo describen como un punto de inflexión importante, mientras que la famosa Ley de Moore ofrece rendimientos decrecientes a la vez que aumentan las demandas de rendimiento.

Los líderes de las organizaciones están luchando para abrazar las innovaciones recientes a nivel de los sistemas, como la aceleración, al mismo tiempo que enfrentan el desafío de incorporar análisis en sus cargas de trabajo de HPC.

En el horizonte están surgiendo aplicaciones aún más exigentes construidas con aprendizaje automático y aprendizaje profundo, para impulsar las demandas del sistema a nuevos máximos.

Con todo este cambio en la línea de producción, el tic-tock usual de ajustes de código menores para acompañar las mejoras nominales en el rendimiento del hardware, no podemos continuar como de costumbre. Para muchas organizaciones que cuentan com HPC, es tiempo de tomar decisiones importantes.

Al darnos cuenta de que estas demandas solo podían ser abordadas por un ecosistema abierto, IBM se asoció con otros líderes de la industria: Google, Mellanox, NVIDIA y otros, para formar la Fundación OpenPOWER dedicada a administrar la arquitectura de procesadores IBM Power para la próxima generación.

Un enfoque centrado en los datos para HPC con OpenPOWER

En 2014 este enfoque disruptivo a la innovación en el HPC llevó a IBM a adjudicarse dos contratos para construir la próxima generación de supercomputadores, como parte de la colaboración del Departamento de Energía de los Estados Unidos, de Oak Ridge, Argonne y Lawrence Livermore conocido como el Programa CORAL.

En asociación con NVIDIA y Mellanox, demostramos a CORAL que los sistemas tienen un enfoque "centrado en los datos". Una arquitectura diseñada para incorporar potencia de cómputo en todos los lugares donde residen los datos, posicionando a los usuarios para una convergencia de análisis, modelado, visualización y simulación, conduciendo esto a nuevas ideas y velocidades increíbles, ayudándolos a lograr sus objetivos de Cómputo de Alto Desempeño.

Ahora, en el tercer aniversario de ese acuerdo, IBM anuncia que están cumpliendo con los requerimientos del proyecto, con la próxima generación de IBM Power Systems equipados con Unidades de Procesamiento Gráfico (GPU por sus siglas en inglés) NVIDIA Volta, aprovisionadas en Oak Ridge y en los Lawrence Livermore National Labs.

Moviendo montañas

Ambos sistemas, Summit en Oak Ridge National Labs y Sierra en Lawrence Livermore National Labs, se están instalando desde Octubre-Noviembre de 2017 y se espera que finalice a principios de este año 2018. Ambos sistemas son impresionantes. Se espera que Summit aumente el rendimiento de las aplicaciones individuales de 5 a 10 veces con respecto de Titan, el superordenador más antiguo de Oak Ridge y se espera que Sierra proporcione de 4 a 6 veces el rendimiento sostenido de Sequoia, la supercomputadora más antigua de Lawrence Livermore.

Con Summit en su lugar, Oak Ridge National Labs avanzará en su misión declarada: "Ser capaz de abordar, con mayor complejidad y mayor fidelidad, preguntas sobre quiénes somos, nuestro lugar en la tierra y en nuestro universo". Pero lo más importante, los clusters los ubicarán para superar los límites de uno de los desarrollos tecnológicos más importantes de nuestra generación, la inteligencia artificial (IA).

Construido para Inteligencia Artificial. Construido para el futuro


Sin embargo, las cargas de trabajo Inteligencia Artificial (AI por sus siglas en inglés) emergentes, son muy diferentes a las cargas de trabajo de HPC tradicionales. Las medidas de rendimiento enumeradas anteriormente aunque son interesantes, realmente no capturan los requisitos de rendimiento para los algoritmos de aprendizaje profundo. Con las cargas de trabajo de inteligencia artificial, los cuellos de botella se alejan del cálculo y la red lo hacen de nuevo con respecto al movimiento de datos a nivel de la CPU. Los sistemas IBM POWER9 están diseñados específicamente para estos desafíos emergentes.

"Estamos entusiasmados de ver un progreso acelerado a medida que la supercomputadora de la Cumbre del Laboratorio Nacional de Oak Ridge, continúa tomando forma. La infraestructura ahora está completa y estamos empezando a implementar los nodos de procesamiento de IBM POWER9.", dice Buddy Bland, director de la instalación de cómputo de liderazgo de Oak Ridge.

Y Buddy Bland agrega: "Todavía estamos apuntando a principios de 2018 para la construcción final de la máquina Summit, que esperamos sea una de las supercomputadoras más rápidas del mundo. Las capacidades avanzadas de las CPU IBM POWER9 junto con las GPU NVIDIA Volta, mejorarán significativamente el rendimiento computacional de las aplicaciones de misión crítica de Departamento de Energía".

POWER9 aprovecha PCIe Gen-4, la tecnología de interconexión NVIDIA NVLink de próxima generación, coherencia de memoria y más características diseñadas para maximizar el rendimiento de las cargas de trabajo de inteligencia artificial. Esto debería traducirse en un mayor rendimiento general y en escalas más grandes, al tiempo que se reduce el desplazamiento del espacio, otrora debidos a los excesivos recuentos de nodos y el consumo de energía potencialmente fuera de control.

Las proyecciones hechas por los competidores, muestran recuentos de nodos anticipados que exceden los 50,000 para entrar en territorio exascale; pero esto no es hasta el año 2021. Ya en el 2017 IBM pudo aprovechar el aprendizaje profundo distribuido para reducir el tiempo de entrenamiento, pasando de un modelo de 16 días a sólo 7 horas, escalando TensorFlow y Caffe con éxito en 256 NVIDIA Tesla GPU.

Estos nuevos sistemas cuentan con 100 veces más GPU distribuidas en miles de nodos, lo que significa que el único límite teórico para los puntos de referencia de aprendizaje profundo que podemos establecer con estos nuevos supercomputadores, es nuestra propia imaginación.

En conclusión, IBM está apostando fuerte y trabajando muy intensamente en lo que a Inteligencia Artificial, Aprendizaje Profundo y Cómputo de Alto Desempeño se refiere. Esto es un enorme indicio de que la Transformación Digital está vigente, que no es sólo un vocablo nacido en una estrategia de la Mercadotecnia y que en un lapso no muy largo de tiempo, veremos nuevos prodigios de la Informática que dejarán a Watson, como in párvulo comparado con estos nuevos mostruos de silicio, cobre, oro, plástico y acero.

No hay comentarios:

Publicar un comentario

Todos los derechos reservados.
Copyright © 2025.