MosaicML lanza MPT-30B LLM de código abierto, capacitado en H100 para impulsar aplicaciones de IA generativa

MosaicML ha anunciado la disponibilidad de MPT-30B Base, Instruct y Chat, los modelos más avanzados de la serie MosaicML Pretrained Transformer (MPT) de modelos de código abierto para idiomas grandes. Estos modelos de última generación, que han sido entrenados con una ventana de contexto de tokens de 8k, superan la calidad del GPT-3 original y se pueden usar directamente para inferencias y/o como puntos de partida para construir modelos propietarios. Fueron capacitados en la plataforma MosaicML utilizando, en parte, los aceleradores H100 de última generación de NVIDIA, ahora disponibles para los clientes de MosaicML. Sobre la base del MPT-30B, las empresas pueden aprovechar el poder de la IA generativa sin comprometer la seguridad o la privacidad de los datos.
Más de 3 millones de descargas MPT desde mayo
La familia de plantillas MosaicML MPT ya es una de las plantillas de lenguaje de código abierto más poderosas y populares disponibles para uso comercial en la actualidad. Desde su lanzamiento el 5 de mayo de 2023, las plantillas MPT-7B (Basic, Instruct, Chat, StoryWriter) se han descargado más de 3,3 millones de veces. La nueva versión amplía la familia MPT con modelos MPT-30B más grandes y de mayor calidad que desbloquean aún más aplicaciones. Como siempre, los modelos MPT de MosaicML están optimizados para un entrenamiento e inferencia eficientes.
MPT-30B supera a GPT-3
Al pasar el tercer aniversario del GPT-3, cabe señalar que el MPT-30B fue diseñado para superar la calidad de este modelo icónico. Cuando se mide utilizando puntos de referencia académicos estándar, el MPT-30B supera al GPT-3 publicado originalmente.
Además, MPT-30B logra este objetivo de calidad utilizando aproximadamente 1/6 de la cantidad de parámetros: GPT-3 tiene 175 000 millones de parámetros, mientras que MPT-30B tiene solo 30 000 millones de parámetros. Esto significa que MPT-30B es más fácil de ejecutar en hardware local y mucho más económico de implementar para la inferencia. A partir de hoy, los desarrolladores y las empresas pueden crear y distribuir sus propias plantillas de calidad GPT-3 de nivel empresarial comercialmente viables. También se entrenó a un costo de órdenes de magnitud inferior a las estimaciones para el GPT-3 original, poniendo la capacidad de entrenar modelos GPT-3 personalizados al alcance de las empresas.
Finalmente, MPT-30B fue entrenado en secuencias más largas (hasta 8000 tokens) que GPT-3, la popular familia de modelos LLaMA y el modelo Falcon reciente (2000 cada uno). Está diseñado para manejar incluso secuencias más largas en la práctica, lo que lo hace perfecto para aplicaciones comerciales con uso intensivo de datos.
Capacitación de GPU H100 ahora disponible para clientes de MosaicML
MPT-30B es el primer LLM conocido públicamente capacitado en GPU NVIDIA H100, gracias a la flexibilidad y confiabilidad líderes de la plataforma MosaicML. A los pocos días de la entrega del hardware, el equipo de MosaicML pudo mover sin problemas la ejecución de entrenamiento MPT-30B de su clúster A100 original a un nuevo clúster H100, aumentando el rendimiento por GPU en más de 2,4 veces y logrando un tiempo de finalización más rápido. MosaicML se compromete a poner los últimos avances en hardware y software al alcance de todas las empresas, permitiéndoles entrenar modelos más rápido y a un costo más bajo que nunca.
Tiempo y costo para pre-entrenar MPT-30B desde cero en 1 billón de tokens.

Los tiempos para H100 se extrapolan de un sistema 256xH100. Los costos se basan en el precio actual del clúster reservado de MosaicML de $2.50/A100-40GB/hora y $5.00/H100-80GB/hora a partir del 22 de junio de 2023. Los costos están sujetos a cambios.
Optimización de tiempo y costo para MPT-30B en sistemas más pequeños.

Los costos se basan en el precio actual del clúster reservado de MosaicML de $2.50/A100-40GB/hora y $5.00/H100-80GB/hora a partir del 22 de junio de 2023. Los costos están sujetos a cambios.
MosaicML MPT: impulsando una nueva generación de aplicaciones de IA
Las empresas están implementando modelos MPT para casos de uso como la finalización de código y la generación de diálogos, además de ajustar estos modelos con sus propios datos patentados.
Replit, el IDE basado en web líder en el mundo, pudo crear un nuevo modelo de generación de código utilizando sus datos patentados junto con la plataforma de capacitación MosaicML en solo tres días. Su modelo MPT personalizado, replit-code-v1-3b, ha mejorado significativamente el rendimiento de su producto GhostWriter en términos de velocidad, costo y calidad del código.
Scatter Lab, una startup de IA de vanguardia que crea «bots de chat sociales de IA» que permiten conversaciones atractivas como las de los humanos, entrenó su modelo MPT desde cero para impulsar un bot de chat personalizado. Este modelo, uno de los primeros modelos de IA multilingüe capaces de comprender tanto el inglés como el coreano, permite nuevas experiencias de chat para sus 1,5 millones de usuarios.
La empresa global de software de gestión de viajes y gastos Navan está creando sus propios LLM personalizados basados en MPT.
“En Navan, utilizamos IA generativa en todos nuestros productos y servicios, impulsando experiencias como nuestro agente de viajes virtual y nuestro agente de inteligencia comercial conversacional. Los modelos centrales de MosaicML ofrecen capacidades lingüísticas de última generación, a la vez que son muy eficientes para optimizar y ofrecer inferencias a escala. Estamos emocionados de ver cómo se desarrolla esta tecnología prometedora”, dijo Ilan Twig, cofundador y director de tecnología de Navan.
El MPT-30B está diseñado para acelerar el desarrollo de plantillas para empresas que desean crear sus propias plantillas de idioma para aplicaciones de chat, respuesta a preguntas, resumen, minería y otros idiomas.
Cómo los desarrolladores pueden usar MPT-30B hoy
MPT-30B es completamente de código abierto y está disponible para su descarga a través de HuggingFace Hub. Los desarrolladores pueden ajustar MPT-30B en sus propios datos, así como implementar el modelo para inferencia en su propia infraestructura. Para una experiencia más rápida y fácil, los desarrolladores pueden realizar inferencias de modelos utilizando el punto final administrado MosaicML MPT-30B-Instruct, que libera a los desarrolladores de la necesidad de asegurar la capacidad de la GPU y cuida la infraestructura del servicio. A un precio de $0.005/1K token, MPT-30B-Instruct es 4-6 veces más económico que puntos finales comparables como OpenAI DaVinci. Consulte el blog MPT-30B para obtener detalles técnicos completos.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW