OpenAI puede ser sinónimo de aprendizaje automático ahora y Google está haciendo todo lo posible para recuperarse, pero pronto ambos pueden enfrentar una nueva amenaza: la rápida multiplicación de proyectos de código abierto que impulsan el estado del arte y dejan grandes bolsillos pero corporaciones difíciles de manejar en el su polvo. Esta amenaza similar a la de los zerg puede no ser existencial, pero definitivamente mantendrá a los jugadores dominantes a la defensiva.
La idea no es nueva: en la comunidad de IA de rápido movimiento, uno espera ver este tipo de interrupción semanalmente, pero la situación ha sido puesta en perspectiva por un documento ampliamente compartido que supuestamente se originó dentro de Google. “No tenemos foso, y OpenAI tampoco”, dice el memorándum.
No sobrecargaré al lector con un largo resumen de este artículo interesante y perfectamente legible, pero la esencia es que, si bien el GPT-4 y otros modelos patentados han obtenido la mayor parte de la atención y los ingresos, la ventaja que han obtenido con la financiación y la infraestructura parecen más escasas día a día.
Si bien el ritmo de los lanzamientos de OpenAI puede parecer vertiginoso para los estándares de los principales lanzamientos de software, GPT-3, ChatGPT y GPT-4 ciertamente se han seguido cuando los compara con los lanzamientos de iOS o Photoshop. Pero todavía están sucediendo en la escala de meses y años.
Lo que señala el memorándum es que en marzo, una plantilla de lenguaje básico filtrada por Meta, llamada LLaMA, se filtró en una forma bastante aproximada. Dentro semanas, las personas que jugaban con computadoras portátiles y servidores de un centavo por minuto habían agregado funciones básicas como optimización de instrucciones, modos múltiples y aprendizaje reforzado a partir de comentarios humanos. OpenAI y Google probablemente también estaban hurgando en el código, pero no han podido replicar el nivel de colaboración y experimentación que ocurre en subreddits y Discord.
¿Podría ser realmente que el titánico problema computacional que parecía plantear un obstáculo insuperable, una zanja, para los retadores ya sea una reliquia de una era diferente del desarrollo de la IA?
Sam Altman ya ha señalado que deberíamos esperar rendimientos decrecientes cuando arrojamos parámetros al problema. Más grande no siempre es mejor, por supuesto, pero pocos habrían adivinado que lo más pequeño es.
GPT-4 es un Walmart y a nadie le gusta Walmart
El paradigma empresarial que persiguen OpenAI y otros en este momento es un descendiente directo del modelo SaaS. Tiene un software o servicio de alto valor y ofrece un acceso cuidadosamente controlado a través de una API o algo así. Es un enfoque simple y probado que tiene mucho sentido cuando ha invertido cientos de millones en desarrollar un único producto monolítico pero versátil como un gran modelo de lenguaje.
Si GPT-4 generaliza bien para responder preguntas sobre precedentes en derecho contractual, genial, no importa que gran parte de su «intelecto» se dedique a poder repetir el estilo de cada autor que alguna vez ha publicado un trabajo en idioma inglés. GPT-4 es como un Walmart. ninguno en realidad quiere ir allí, entonces la empresa seguro que no hay otras opciones.
Pero los clientes comienzan a preguntarse, ¿por qué estoy caminando por 50 pasillos de basura para comprar algunas manzanas? ¿Por qué estoy contratando los servicios del modelo de IA más grande y genérico jamás creado si todo lo que quiero hacer es ejercitar un poco de ingenio para hacer coincidir el lenguaje de este contrato con un par de cientos de otros? A riesgo de torturar la metáfora (sin mencionar al lector), si GPT-4 es el Walmart al que vas por manzanas, ¿qué sucede cuando aparece un puesto de frutas en el estacionamiento?
No pasó mucho tiempo en el mundo de la IA para ejecutar un modelo de lenguaje grande, obviamente en forma muy truncada, en (convenientemente) una Raspberry Pi. Para una empresa como OpenAI, su jinete Microsoft, Google o cualquier otra persona en el mundo de la IA como servicio, de hecho, se basa en toda la premisa de su negocio: que estos sistemas son tan difíciles de construir y ejecutar que tienen que hacer para ti. De hecho, parece que estas empresas han elegido y diseñado una versión de IA que se adapta a su modelo de negocio existente, ¡y no al revés!
Érase una vez que tenía que descargar el cálculo involucrado en el procesamiento de textos a una computadora central: su terminal era solo una pantalla. Por supuesto, esa era una era diferente, y hace mucho que pudimos adaptar toda la aplicación en una computadora personal. Este proceso ha ocurrido muchas veces ya que nuestros dispositivos han aumentado repetida y exponencialmente su capacidad de cómputo. En estos días, cuando se necesita hacer algo en una supercomputadora, todos entienden que es solo una cuestión de tiempo y optimización.
Para Google y OpenAI, el momento ha llegado mucho antes de lo esperado. Y no hicieron la optimización, y es posible que nunca lo hagan a este ritmo.
Ahora, eso no significa que simplemente tengan mala suerte. Google no llegó a donde está por ser el mejor, al menos no por mucho tiempo. Ser un Walmart tiene sus ventajas. Las empresas no quieren tener que encontrar la solución personalizada que haga el trabajo un 30 % más rápido si pueden obtener un precio decente de su proveedor actual y no agitar demasiado el barco. ¡Nunca subestimes el valor de la inercia en los negocios!
Claro, la gente está iterando en LLaMA tan rápido que se están quedando sin camélidos para nombrarlos. Por cierto, me gustaría agradecer a los desarrolladores por tener una excusa para desplazarse por cientos de imágenes de lindas vicuñas leonadas en lugar de trabajar. Pero pocos departamentos de TI corporativos improvisarán una implementación del derivado de código abierto en curso de Stability de un modelo Meta filtrado casi legal en la API simple y efectiva de OpenAI. ¡Tienen un negocio que administrar!
Pero al mismo tiempo, dejé de usar Photoshop hace años para editar y crear imágenes porque las opciones de código abierto como Gimp y Paint.net se han vuelto increíblemente buenas. En este punto, la discusión va en otra dirección. ¿Cuánto pagas por Photoshop? ¡De ninguna manera, tenemos un negocio que administrar!
Lo que claramente preocupa a los autores anónimos de Google es que la distancia entre la primera situación y la segunda será mucho más corta de lo que se pensaba anteriormente, y no parece haber nada que nadie pueda hacer al respecto.
Excepto, el recordatorio argumenta: acéptalo. Abrir, publicar, colaborar, compartir, comprometer. Como concluyen:
Google debe establecerse como líder en la comunidad de código abierto, tomando la iniciativa cooperando con la conversación más amplia, en lugar de ignorarla. Esto probablemente signifique tomar algunos pasos incómodos, como publicar los pesos de los modelos para las variantes pequeñas de ULM. Esto necesariamente significa renunciar a cierto control sobre nuestros modelos. Pero este compromiso es inevitable. No podemos aspirar a liderar la innovación y controlarla.