Los perceptrones multicapa (MLP) son el tipo más fundamental de red neuronal, por lo tanto, juegan un papel importante en muchos sistemas de aprendizaje automático y son el tipo de red neuronal más estudiado teóricamente. Un nuevo artículo de investigadores de ETH Zurich supera los límites de las MLP puras y muestra que escalarlas permite un rendimiento mucho mejor de lo que las MLP habían predicho anteriormente. Estos hallazgos pueden tener implicaciones importantes para el estudio de los sesgos inductivos, la teoría del aprendizaje profundo y las leyes de escala neural. Nuestros amigos de The Gradient proporcionaron este análisis.
Descripción general
Se han desarrollado muchas arquitecturas de redes neuronales para diferentes tareas, pero la forma más simple es MLP, que consta de densas capas lineales compuestas de no linealidades elementales. Los MLP son importantes por varias razones: se usan en ciertos contextos, como representaciones neuronales implícitas y procesamiento de datos tabulares, se usan como subcomponentes dentro de modelos de última generación, como redes neuronales convolucionales, redes neuronales gráficas y transformadores. , y se estudian ampliamente en el trabajo teórico con el objetivo de comprender el aprendizaje profundo de manera más general.
Mezclador MLP (izquierda) versus MLP puro para imágenes (derecha). MLP-Mixer todavía codifica sesgos inductivos visuales, mientras que el enfoque MLP puro simplemente trata las imágenes como matrices de números.
Este trabajo actual escala MLP para tareas de clasificación de imágenes ampliamente estudiadas. Los MLP puros considerados en este trabajo difieren significativamente de los modelos de visión basados en MLP, como MLP-Mixer y gMLP. Los dos últimos trabajos usan MLP de una manera específica que codifica sesgos inductivos visuales al descomponer mapas lineales en mapas de mezcla de canales y mapas de mezcla de parches. Por el contrario, los MLP puros aplanan imágenes enteras en vectores numéricos, que luego son procesados por capas lineales densas generales.
Los autores consideran MLP isotrópicos donde cada capa oculta tiene el mismo tamaño y la norma de capa se agrega después de cada capa de activación. También experimentan con MLP de cuello de botella invertido, que expanden y contraen el tamaño de cada capa e incluyen conexiones residuales. Los MLP de cuello de botella invertido generalmente funcionan mucho mejor que los MLP isotrópicos.
Optimización del rendimiento de los MLP de cuello de botella invertido entrenados previamente en ImageNet21k.
Los experimentos en conjuntos de datos de clasificación de imágenes estándar muestran que los MLP pueden funcionar bastante bien, a pesar de su falta de sesgo inductivo. En particular, los MLP se desempeñan muy bien en la transferencia de aprendizaje: cuando se entrenan previamente en ImageNet21k, los MLP con grandes cuellos de botella invertidos pueden igualar o superar el rendimiento de ResNet18 (excepto en ImageNet). Además, al igual que con otros modelos modernos de aprendizaje profundo, el rendimiento de los MLP de cuello de botella invertido se escala de manera predecible con el modelo y el tamaño del conjunto de datos; Curiosamente, estas leyes de escala muestran que el rendimiento de MLP está más limitado por el tamaño del conjunto de datos que por el tamaño del modelo, lo que puede deberse a que las MLP tienen menos sesgos inductivos y, por lo tanto, requieren más datos para aprender bien.
¿Porque es importante?
Es importante estudiar las leyes de escalado y los beneficios de escalar el tamaño de modelos y conjuntos de datos, ya que las versiones más grandes de los modelos actuales pueden tener suficiente poder para realizar muchas tareas útiles. Este trabajo muestra que el rendimiento de MLP también sigue las leyes de escala, aunque los MLP consumen más datos que otros modelos de aprendizaje profundo. Es importante destacar que los MLP son extremadamente eficientes en términos de tiempo de ejecución para el entrenamiento: sus transiciones de ida y vuelta son rápidas y, como se muestra en este trabajo, mejoran cuando se entrenan con tamaños de lote muy grandes. Por lo tanto, los MLP se pueden usar para estudiar de manera eficiente el entrenamiento previo y el entrenamiento de grandes conjuntos de datos.
Las observaciones de los autores de que las MLP funcionan bien con lotes muy grandes son muy interesantes. Las redes neuronales convolucionales suelen funcionar mejor con tamaños de lote más pequeños. Por lo tanto, usar MLP como proxy para estudiar CNN (por ejemplo, en trabajos teóricos) puede ser erróneo en este sentido, ya que los sesgos implícitos u otras propiedades del proceso de optimización pueden diferir significativamente cuando se entrena con estas dos arquitecturas diferentes.
El hecho de que los MLP a gran escala puedan funcionar bien es aún más evidencia de que los sesgos inductivos pueden ser significativamente menos importantes que el modelo y la escala de datos en muchos contextos. Este hallazgo está en línea con el hallazgo de que, en una escala lo suficientemente grande, los transformadores de visión superan a las CNN en muchas tareas, a pesar de que las CNN tienen más sesgos inductivos visuales incorporados.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW