La inteligencia artificial (IA) y el aprendizaje automático (ML) requieren cálculos paralelos en tiempo real en grandes cantidades de datos. Estas cargas de trabajo exacerban el cuello de botella de la memoria de las CPU clásicas para todo uso, tanto desde la perspectiva de la latencia como de la potencia.
Para superar estos desafíos, muchos jugadores nuevos en la industria están recurriendo a nuevas tecnologías para el futuro de la computación AI/ML. Lightelligence recientemente hizo olas en la industria cuando anunció un nuevo acelerador AI/ML que aprovecha una red óptica en chip (NoC).
Lightelligence dice que su nuevo procesador Hummingbird oNOC es el primero de su tipo diseñado para cargas de trabajo de IA específicas de dominio. Imagen cortesía de Lightelligence
En este artículo, veremos los desafíos con los procesadores multinúcleo AI/ML tradicionales, la nueva arquitectura de procesamiento desarrollada por Lightelligence y el ASIC más nuevo de la compañía: Hummingbird.
Desafíos NoC y multinúcleo
El cómputo AI/ML implica funciones matemáticas específicas, como Multiplicación y Acumulación (MAC) y convoluciones, para procesar grandes cantidades de datos simultáneamente. Por esta razón, el hardware de procesamiento AI/ML estándar tiende a consistir en sistemas multinúcleo y heterogéneos.
Un ejemplo de una arquitectura de computación heterogénea. Imagen cortesía de Routledge Handbooks Online
En un sistema multinúcleo, una sola pieza de hardware constará de muchos núcleos para procesar datos en paralelo (como una GPU). En un sistema heterogéneo, como un SoC, un solo chip contendrá una gran cantidad de bloques computacionales diferentes, incluidos aceleradores para funciones genéricas de CPU, GPU y MAC. Aquí, diferentes bloques en el SoC manejarán diferentes tareas para reducir el consumo de energía y acelerar el cálculo general para un modelo ML.
Independientemente de la arquitectura utilizada, la única constante entre los sistemas multinúcleo y heterogéneos es la necesidad de movimiento de datos. Ya sea que los datos se muevan entre múltiples núcleos de procesamiento o dentro y fuera de la memoria, las aplicaciones informáticas de alta velocidad tienden a implementar redes en el chip para acelerar la transferencia de datos entre puntos finales.
Distintas arquitecturas y configuraciones de NoC. Imagen cortesía de ResearchGate
Sin embargo, debido a las limitaciones físicas de los sistemas digitales, estas arquitecturas tienen un ancho de banda limitado. Como resultado, los NoC también están limitados en las topologías que pueden lograr, lo que impide que los ASIC alcancen el máximo rendimiento.
Arquitectura Lightelligence oNoC
Para Lightelligence, la clave para habilitar aceleradores AI/ML de mejor rendimiento es habilitar nuevas topologías NoC que maximicen la velocidad y reduzcan el consumo de energía. Dado que los NoC eléctricos convencionales no son suficientes, la empresa optó por los NoC ópticos (oNoC) como solución.
La arquitectura informática de Lightelligence consta de tres componentes principales: un chip electrónico (EIC), un intercalador y un chip fotónico (PIC).
Una vista transversal de la arquitectura apilada de Lightelligence. Imagen cortesía de Lightelligence
El EIC es parte del sistema que implementa el dominio digital del sistema, incluyendo la ALU, la memoria y la interfaz analógica. El intermediario conecta el EIC y el PIC para proporcionar energía a los dominios. El PIC alberga el oNOC, que utiliza la red óptica para interconectar los núcleos de procesamiento en una técnica de transmisión de todos a todos. Se dice que esta técnica permite que todos los núcleos accedan a los datos simultáneamente.
El oNoC de Lightelligence conecta los EIC con la red óptica. Imagen cortesía de Lightelligence
En un nivel inferior, el intercalador contiene guías de ondas de enrutamiento de fotones que actúan como autopistas para la comunicación de datos entre los EIC. Cada EIC se apila encima de un PIC conectado por micro-baches para formar una matriz 2D. La luz de una fuente láser pasa a través de guías de ondas y se traduce en datos eléctricos mediante la modulación de la intensidad de la luz. Para ello, la interfaz analógica de cada EIC se acopla con el intercalador fotónico y altera el índice de refracción de la guía de ondas de silicio para modular físicamente la intensidad de la luz. Para volver a convertirlo en flujo de bits, el EIC alberga fotodiodos que convierten los pulsos de luz en corriente eléctrica para su uso en el dominio digital.
La principal ventaja de las interconexiones ópticas es que funcionan a velocidades significativamente más altas y con un consumo de energía más bajo de lo que es posible con los NoC eléctricos. Con una latencia cercana a cero, oNoC permite nuevas topologías de NoC, como las toroidales, que de otro modo no serían posibles.
Procesador colibrí oNoC
Recientemente, Lightelligence anunció su nuevo procesador Hummingbird, el primer producto que presenta su arquitectura oNoc.
Hummingbird es un acelerador de IA/ML compuesto por 64 núcleos, cada uno conectado entre sí a través de oNoC. Con 64 transmisores y 512 receptores, Hummingbird es una solución de Instrucción Única, Datos Múltiples (SIMD) con su propio ISA patentado.
El procesador Hummingbird se acumula. Imagen cortesía de Lightelligence
Si bien los números de rendimiento no están disponibles, la compañía dice que la solución ofrece una latencia y un consumo de energía más bajos que cualquier otra cosa disponible. Específicamente, se dice que el oNoC de la solución logra una relación de eficiencia energética de menos de < 1 pJ/bit.
Tal como está, Hummingbird se implementará en un factor de forma PCIe de servidor estándar. La herramienta será programable a través de Lightelligence SDK, que ofrece soporte para TensorFlow. Las primeras demostraciones del chip tendrán lugar en la conferencia Hot Chips de este año a fines de agosto.