Obtenga un 50% de escasez con aprendizaje instantáneo sin ningún tipo de reentrenamiento
Puede que te sorprenda, pero los modelos de lenguaje grande son una gran combinación para la dispersión. ¿Por qué? Dan menos precisión que la cantidad de pesos que se dejan caer (establecidos en 0). Este es un hallazgo alentador de la colaboración de Neural Magic con el Instituto de Ciencia y Tecnología de Austria (ISTA) porque permite ejecutar miles de millones de modelos de parámetros de manera más eficiente, con mucho menos hardware.
Un nuevo artículo de investigación muestra que los modelos de la familia de transformadores generativos (GPT) preentrenados a gran escala se pueden reducir a al menos un 50 % de agotamiento de una sola vez, sin ningún tipo de reentrenamiento, con una pérdida mínima de precisión. Esto se logra a través de un nuevo método de poda llamado SparseGPT, diseñado específicamente para funcionar de manera eficiente y precisa en modelos enormes de la familia GPT. Cuando ejecutamos SparseGPT en los modelos de código abierto más grandes disponibles, OPT-175B y BLOOM-176B, podemos lograr un 60 % de escasez con un aumento de perplejidad insignificante: notablemente, se pueden ignorar más de 100 000 millones de pesos de estos modelos en el momento de la inferencia. SparseGPT se generaliza a modelos semiestructurados (2:4 y 4:8) y es compatible con enfoques de cuantificación de peso.

Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW