TecmrTecmr
  • Inicio
  • Actualidad
  • Big Data
  • Electronica
  • Realidad Virtual
  • Smart Home
  • Tecnologìa Verde
  • Polìtica de Privacidad
  • Contacto

Subscribe to Updates

Get the latest creative news from FooBar about art, design and business.

What's Hot

Los mejores sistemas de riego adaptados al clima para su jardín

julio 25, 2023

Blue Origin, Astrobotic, Varda Space y otros obtienen fondos de la NASA para desarrollar tecnologías espaciales avanzadas

julio 25, 2023

Meta lanza una nueva herramienta anti-abuso para desarrolladores de Quest

julio 25, 2023
Facebook Twitter Instagram
TecmrTecmr
  • Actualidad

    Blue Origin, Astrobotic, Varda Space y otros obtienen fondos de la NASA para desarrollar tecnologías espaciales avanzadas

    julio 25, 2023

    Arc Browser ya está disponible para que lo descarguen todos los usuarios de iOS y Mac

    julio 25, 2023

    Las olas de calor de julio son «prácticamente imposibles» sin el cambio climático

    julio 25, 2023

    Apple apunta a la demanda por daños antimonopolio de la tienda de aplicaciones en busca de $ 1B + para desarrolladores del Reino Unido

    julio 24, 2023

    Twitter eliminó la mitad del letrero de su sede, luego llegó la policía

    julio 24, 2023
  • Big Data

    Vídeos destacados: IA generativa con grandes modelos de lenguaje

    julio 25, 2023

    Aporia lanza la primera herramienta de análisis de causa raíz para analizar datos de producción en tiempo real

    julio 25, 2023

    Mitigar la exfiltración de datos: 4 formas de detectar y responder a transferencias de datos no autorizadas

    julio 24, 2023

    Revolucionando las compras: el poder de la inteligencia artificial en los sistemas de gestión de proveedores

    julio 24, 2023

    La tecnología analítica redefine el marketing en redes sociales en el deporte

    julio 24, 2023
  • Electronica

    Hardware innovador AI/ML en el SoC sub-GHz

    julio 25, 2023

    ¿Qué pasa cuando bloqueas un número?

    julio 25, 2023

    ¿Cuántas ranuras M.2 hay en una placa base?

    julio 25, 2023

    Elección de un estándar PoE para proyectos: PoE, PoE+ y PoE++

    julio 24, 2023

    En lo alto de dos montañas hawaianas, el NIST demuestra una solución de cronometraje ultraprecisa

    julio 24, 2023
  • Realidad Virtual

    Meta lanza una nueva herramienta anti-abuso para desarrolladores de Quest

    julio 25, 2023

    Apple ahora está aceptando solicitudes para los kits para desarrolladores de Vision Pro – Road to VR

    julio 25, 2023

    Este nuevo juego de lucha VR se siente casi demasiado brutal

    julio 24, 2023

    El último campo Walkabout Mini Golf VR es absolutamente perverso

    julio 24, 2023

    Apple comienza a aceptar solicitudes para kits de desarrollo de Vision Pro

    julio 24, 2023
  • Smart Home

    Cómo usar Bluetooth para conectar Amazon Echo a teléfonos o altavoces

    julio 25, 2023

    Casa automatizada 2.0 – #48 myenergi libbi battery – Casa automatizada

    julio 24, 2023

    Las mejores cosas para pedirle a Google Home

    julio 24, 2023

    Las 6 mejores grabadoras de CD y sistemas de grabación para 2023

    julio 23, 2023

    ¿Qué altavoz Bluetooth de Sonos es el adecuado para ti?

    julio 21, 2023
  • Tecnologìa Verde

    Los mejores sistemas de riego adaptados al clima para su jardín

    julio 25, 2023

    Stellantis y Samsung SDI construirán una segunda Gigafactory de baterías en EE. UU.

    julio 25, 2023

    Robyn Denholm de Tesla advierte: Australia puede no tener suerte para siempre

    julio 25, 2023

    Las regulaciones de reciclaje de baterías son importantes para los créditos fiscales de vehículos eléctricos en los Estados Unidos

    julio 24, 2023

    Superred de 12 países subsaharianos propuesta por investigadores

    julio 24, 2023
Facebook Twitter Instagram
TecmrTecmr
Inicio»Big Data»Aspectos destacados de la investigación: Escalamiento de MLP: una historia de sesgo inductivo
Big Data

Aspectos destacados de la investigación: Escalamiento de MLP: una historia de sesgo inductivo

Richard J. JohnsonPor Richard J. Johnsonjulio 5, 2023No hay comentarios5 Min Lectura
Facebook Twitter Pinterest Telegram LinkedIn Tumblr WhatsApp Email
Compartir
Facebook Twitter LinkedIn Pinterest Telegram Email


Los perceptrones multicapa (MLP) son el tipo más fundamental de red neuronal, por lo tanto, juegan un papel importante en muchos sistemas de aprendizaje automático y son el tipo de red neuronal más estudiado teóricamente. Un nuevo artículo de investigadores de ETH Zurich supera los límites de las MLP puras y muestra que escalarlas permite un rendimiento mucho mejor de lo que las MLP habían predicho anteriormente. Estos hallazgos pueden tener implicaciones importantes para el estudio de los sesgos inductivos, la teoría del aprendizaje profundo y las leyes de escala neural. Nuestros amigos de The Gradient proporcionaron este análisis.

Descripción general

Se han desarrollado muchas arquitecturas de redes neuronales para diferentes tareas, pero la forma más simple es MLP, que consta de densas capas lineales compuestas de no linealidades elementales. Los MLP son importantes por varias razones: se usan en ciertos contextos, como representaciones neuronales implícitas y procesamiento de datos tabulares, se usan como subcomponentes dentro de modelos de última generación, como redes neuronales convolucionales, redes neuronales gráficas y transformadores. , y se estudian ampliamente en el trabajo teórico con el objetivo de comprender el aprendizaje profundo de manera más general.

Mezclador MLP (izquierda) versus MLP puro para imágenes (derecha). MLP-Mixer todavía codifica sesgos inductivos visuales, mientras que el enfoque MLP puro simplemente trata las imágenes como matrices de números.

Este trabajo actual escala MLP para tareas de clasificación de imágenes ampliamente estudiadas. Los MLP puros considerados en este trabajo difieren significativamente de los modelos de visión basados ​​en MLP, como MLP-Mixer y gMLP. Los dos últimos trabajos usan MLP de una manera específica que codifica sesgos inductivos visuales al descomponer mapas lineales en mapas de mezcla de canales y mapas de mezcla de parches. Por el contrario, los MLP puros aplanan imágenes enteras en vectores numéricos, que luego son procesados ​​por capas lineales densas generales.

Los autores consideran MLP isotrópicos donde cada capa oculta tiene el mismo tamaño y la norma de capa se agrega después de cada capa de activación. También experimentan con MLP de cuello de botella invertido, que expanden y contraen el tamaño de cada capa e incluyen conexiones residuales. Los MLP de cuello de botella invertido generalmente funcionan mucho mejor que los MLP isotrópicos.

Optimización del rendimiento de los MLP de cuello de botella invertido entrenados previamente en ImageNet21k.

Los experimentos en conjuntos de datos de clasificación de imágenes estándar muestran que los MLP pueden funcionar bastante bien, a pesar de su falta de sesgo inductivo. En particular, los MLP se desempeñan muy bien en la transferencia de aprendizaje: cuando se entrenan previamente en ImageNet21k, los MLP con grandes cuellos de botella invertidos pueden igualar o superar el rendimiento de ResNet18 (excepto en ImageNet). Además, al igual que con otros modelos modernos de aprendizaje profundo, el rendimiento de los MLP de cuello de botella invertido se escala de manera predecible con el modelo y el tamaño del conjunto de datos; Curiosamente, estas leyes de escala muestran que el rendimiento de MLP está más limitado por el tamaño del conjunto de datos que por el tamaño del modelo, lo que puede deberse a que las MLP tienen menos sesgos inductivos y, por lo tanto, requieren más datos para aprender bien.

¿Porque es importante?

Es importante estudiar las leyes de escalado y los beneficios de escalar el tamaño de modelos y conjuntos de datos, ya que las versiones más grandes de los modelos actuales pueden tener suficiente poder para realizar muchas tareas útiles. Este trabajo muestra que el rendimiento de MLP también sigue las leyes de escala, aunque los MLP consumen más datos que otros modelos de aprendizaje profundo. Es importante destacar que los MLP son extremadamente eficientes en términos de tiempo de ejecución para el entrenamiento: sus transiciones de ida y vuelta son rápidas y, como se muestra en este trabajo, mejoran cuando se entrenan con tamaños de lote muy grandes. Por lo tanto, los MLP se pueden usar para estudiar de manera eficiente el entrenamiento previo y el entrenamiento de grandes conjuntos de datos.

Las observaciones de los autores de que las MLP funcionan bien con lotes muy grandes son muy interesantes. Las redes neuronales convolucionales suelen funcionar mejor con tamaños de lote más pequeños. Por lo tanto, usar MLP como proxy para estudiar CNN (por ejemplo, en trabajos teóricos) puede ser erróneo en este sentido, ya que los sesgos implícitos u otras propiedades del proceso de optimización pueden diferir significativamente cuando se entrena con estas dos arquitecturas diferentes.

El hecho de que los MLP a gran escala puedan funcionar bien es aún más evidencia de que los sesgos inductivos pueden ser significativamente menos importantes que el modelo y la escala de datos en muchos contextos. Este hallazgo está en línea con el hallazgo de que, en una escala lo suficientemente grande, los transformadores de visión superan a las CNN en muchas tareas, a pesar de que las CNN tienen más sesgos inductivos visuales incorporados.

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: https://twitter.com/InsideBigData1

Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/

Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW



Aspectos destacados Escalamiento historia inductivo investigación MLP sesgo una
Compartir. Facebook Twitter Pinterest LinkedIn Tumblr Email
Richard J. Johnson
Richard J. Johnson

Publicaciones Relacionadas

Meta lanza una nueva herramienta anti-abuso para desarrolladores de Quest

julio 25, 2023

Stellantis y Samsung SDI construirán una segunda Gigafactory de baterías en EE. UU.

julio 25, 2023

Vídeos destacados: IA generativa con grandes modelos de lenguaje

julio 25, 2023

Aporia lanza la primera herramienta de análisis de causa raíz para analizar datos de producción en tiempo real

julio 25, 2023

¿Cuántas ranuras M.2 hay en una placa base?

julio 25, 2023

Mitigar la exfiltración de datos: 4 formas de detectar y responder a transferencias de datos no autorizadas

julio 24, 2023

Deja una Respuesta Cancelar Respuesta

Recomendamos
Tecnologìa Verde

BYD Dolphin llega a Europa: precio estimado de 30 000 €

Por Willie S. Burch
Big Data

3 estrategias impulsadas por IA para desarrollar software en tiempos inciertos

Por Richard J. Johnson
Tecnologìa Verde

Empresas de EE. UU. y Corea del Sur llevarán a tierra más producción de baterías de EE. UU.

Por Willie S. Burch
Advertisement
Publicaciones Recientes

Los mejores sistemas de riego adaptados al clima para su jardín

julio 25, 2023

Blue Origin, Astrobotic, Varda Space y otros obtienen fondos de la NASA para desarrollar tecnologías espaciales avanzadas

julio 25, 2023

Meta lanza una nueva herramienta anti-abuso para desarrolladores de Quest

julio 25, 2023

Stellantis y Samsung SDI construirán una segunda Gigafactory de baterías en EE. UU.

julio 25, 2023

Arc Browser ya está disponible para que lo descarguen todos los usuarios de iOS y Mac

julio 25, 2023
Recomendamos

Canoo que también lleva astronautas de la NASA

julio 20, 2023

Cómo usar Marketing Analytics para SaaS para aumentar las conversiones

junio 12, 2023

La nueva granja solar también es un sumidero de carbono y un conservador de praderas.

febrero 11, 2023
Publicaciones Recientes

Los mejores sistemas de riego adaptados al clima para su jardín

julio 25, 2023

Blue Origin, Astrobotic, Varda Space y otros obtienen fondos de la NASA para desarrollar tecnologías espaciales avanzadas

julio 25, 2023

Meta lanza una nueva herramienta anti-abuso para desarrolladores de Quest

julio 25, 2023
Popular

La NFL hará que un juego de playoffs sea exclusivo de Peacock el próximo año

mayo 16, 2023

SoC altamente integrado para agregar carga inalámbrica en la cabina a los vehículos

junio 30, 2023

Transgrid comienza a probar la camioneta eléctrica de doble cabina LDV eT60 en Australia

febrero 12, 2023
© 2023 Tecmr | Todos los derechos reservados
  • Inicio
  • Polìtica de Privacidad
  • Contacto

Type above and press Enter to search. Press Esc to cancel.