La empresa matriz que gestiona Facebook, Instagram, Oculus, Messenger y WhatsApp cambio recientemente de nombre a Meta. Mark Zuckerberg quiere ser el pionero de los metaversos y para ello, no escatima en recursos. Uno de esos recursos es el Research SuperCluster (RSC) que se utilizara para entrar a complejos modelos de IA. Dicho sistema está en la primera fase.

Para este superordenador se han configurado un total de 760 equipos NVIDIA DGX A100. Todos estos sistemas suman un total de 1520 procesadores AMD EPYC, contando cada procesador con 64 núcleos. Además, estos sistemas cuentan con un total de 6080 GPU NVIDIA A100, lo cual es una potencia descomunal.

Estos nodos se conectan mediante una infraestructura de alto rendimiento InfiniBand e NVIDIA Quantum-2. Dicho sistema ofrece un ancho de banda de 200GB/s.

Adicionalmente, este sistema cuenta con 175 PetaBytes de Pure Storage FlashArray para el almacenamiento. Dispone también de 46 PetaBytes de caché en sistemas Penguin Computing Altus y 10 PetaBytes de Pure Storage Flashblade.

Destacar que en 2017 para la investigación de IA pusieron en marcha un sistema basado en 22.000 GPU NVIDIA V100 Tensor Core. Dicho sistema ofrecía la capacidad de realizar 35.000 tareas de entrenamiento diarias.

Meta indica que RSC es unas 20 veces más rápido a la hora de ejecutar flujos de trabajo de visión artificial. Además, es 9 veces más rápido en la ejecución de la Biblioteca de Comunicación Colectiva de NVIDIA (NCCL2). También destacan que es tres veces más rápido en el entrenamiento de modelos NPL a gran escala.

Pero esto es solo el principio. Meta indica que se mejorara mucho el rendimiento en la etapa dos. Esta nueva etapa se destinará al desarrollo de IA avanzadas de próxima generación.

Se han marcado como objetivo un rendimiento para IA de 2.5 veces el rendimiento de la etapa inicial. Este ordenador, finalmente, contaría con 16.000 GPU NVIDIA DGX A100, ofreciendo hasta 5 exaFLOPS de cálculo de precisión mixta.

Fuente: ProfesionalReview