Meta ha presentado este lunes AI Research SuperCluster (RSC), un superordenador para la investigación con inteligencia artificial (IA) con el que cimentará el camino hacia el metaverso, y que espera que se convierta en el más rápido del mundo de su tipo cuando esté finalizado.
AI Research SuperCluster nace para dar respuesta a las necesidades que demanda el desarrollo de la siguiente generación de IA avanzada, que, como señala Meta en un comunicado, "requiere ordenadores capaces de hacer trillones de operaciones por segundo".
Este equipo es el que ayudará a la compañía a dar forma al metaverso. Por el momento, los investigadores de Meta lo han empleado en el entrenamiento de modelos de gran tamaño para el procesamiento de lenguaje natural y la búsqueda mediante visión computacional, pero esperan que pueda, por ejemplo, impulsar las traducciones en tiempo real en grandes grupos de personas que hablan distintos idiomas.
El nuevo superordenador ya se encuentra entre los más rápidos actualmente existentes, y desde Meta esperan que sea "el superordenador para IA más rápido" cuando se complete su construcción a mediados del presente año.
RSC es heredero de los trabajos hechos por la compañía en infraestructura computacional de alto rendimiento, cuya primera generación se diseñó en 2017. Esta contaba con 22.000 unidades de procesamiento gráfico (GPU) V100 Tensor Core de Nvidia en un solo clúster, y ejecutaba 35.000 tareas de entrenamiento al día.
Tres años más tarde la empresa decidió desarrollar una nueva infraestructura que fuera capaz de entrenar los modelos con más de un billón de parámetros en bases de datos tan grandes como un exabyte (más de 36.000 años de vídeo en alta calidad).
Frente a la anterior, que empleaba conjuntos de datos de código abierto y disponibles de forma pública, la nueva también incorpora ejemplos del mundo real de los sistemas de producción de Meta en el entrenamiento de modelos, como ha señalado la compañía.
RSC cuenta con 760 sistemas DGX A100 de Nvidia como sus nodos de cómputo, para un total de 6.080 GPU. Estas unidades de procesamiento gráfico se comunican a través del conmutador Quantum InfiniBand 200 Gb/s de Nvidia.
En cuanto al almacenamiento, el superordenador tiene 175 petabytes de Pure FlashArray, 46 petabytes de almacenamiento en caché en los sistemas Penguin Computing Altus y 10 petabytes de Pure FlashBlade.
Este superordenador para IA no está terminado, pero las primeras pruebas de 'benchmark' muestran que es 20 veces más rápido en cargas de trabajo de visión computacional que la infraestructura anterior. También ejecuta la biblioteca de comunicación colectiva (NCCL) de Nvidia nueve veces más rápido y entrena a gran escala modelos de procesamiento de lenguaje natural tres veces más rápido.
La compañía también ha destacado que la seguridad y la privacidad están en el centro de este superordenador, lo que permite que los investigadores puedan entrenar sus modelos utilizando datos encriptados generados por el usuario "que no se desencriptan hasta justo antes de empezar el entrenamiento".
RSC, además, carece de conexiones entrantes o salientes directas con Internet y el tráfico fluye solo desde los centros de datos de producción Meta, y cuenta con encriptación de extremo a extremo entre los sistemas de almacenamiento y las GPU.
Cuando se complete su construcción, la red InfiniBand conectará 16.000 GPU como 'endpoints', con lo que multiplicará por más 2,5 el rendimiento en el entrenamiento de IA, convirtiéndolo, además, y según ha destacado Meta, en "una de las redes de este tipo más grandes desplegadas hasta la fecha".
También escalarán el sistema de almacenamiento, que actualmente sirve un ancho de banda de 16TB/s para el entrenamiento de datos, hasta 1 exabyte. En conjunto, la compañía defiende que será el "superordenador para IA más rápido del mundo" con un rendimiento de cerca de 5 exaflops de computación de precisión mixta.
No hay comentarios