Esta semana en IA: la gran tecnología apuesta miles de millones en herramientas de aprendizaje automático


Mantenerse al día con una industria en rápida evolución como la inteligencia artificial es una tarea desalentadora. Entonces, hasta que una IA pueda hacerlo por usted, aquí hay un resumen útil de las historias de la semana pasada en el mundo del aprendizaje automático, junto con investigaciones y experimentos notables que no hemos cubierto nosotros mismos.

Si no fuera ya obvio, el panorama competitivo en IA, especialmente el subcampo conocido como IA generativa, está muy caliente. Y se está poniendo más caliente. Esta semana, Dropbox lanzó su primer fondo de capital de riesgo corporativo, Dropbox Ventures, que, según la compañía, se centrará en las nuevas empresas que crean productos impulsados ​​por IA que «dan forma al futuro del trabajo». Para no quedarse atrás, AWS lanzó un programa de $100 millones para financiar iniciativas de IA generativa lideradas por sus socios y clientes.

Se está invirtiendo mucho dinero en el espacio de la IA, claro. Salesforce Ventures, la división de capital de riesgo de Salesforce, planea invertir $ 500 millones en nuevas empresas que desarrollan tecnologías de inteligencia artificial generativa. Workday agregó recientemente $ 250 millones a su fondo de capital de riesgo existente específicamente para respaldar las nuevas empresas de inteligencia artificial y aprendizaje automático. Y Accenture y PwC han anunciado planes para invertir $ 3 mil millones y $ 1 mil millones, respectivamente, en IA.

Pero uno se pregunta si el dinero es la solución a los grandes desafíos del campo de la IA.

En un panel esclarecedor en una conferencia de Bloomberg en San Francisco esta semana, Meredith Whittaker, presidenta de la aplicación de mensajería segura Signal, dijo que la tecnología detrás de algunas de las aplicaciones de inteligencia artificial más populares de la actualidad se está volviendo peligrosamente opaca. Dio un ejemplo de alguien que va a un banco y solicita un préstamo.

A esa persona se le puede negar un préstamo y «no tener idea de que existe un sistema [the] probablemente impulsado por alguna API de Microsoft que determinó, con base en el raspado de las redes sociales, que no era solvente”, dijo Whittaker.nunca lo sabré [because] no hay ningún mecanismo para que yo sepa esto.

El capital no es el problema. Más bien, es la actual jerarquía de poder, dice Whittaker.

“He estado en la mesa durante 15 años, 20 años. Tengo estado en la mesa. Sentarse a la mesa sin luz no es nada”, continuó.

Por supuesto, lograr un cambio estructural es mucho más difícil que perseguir el dinero, particularmente cuando el cambio estructural no necesariamente favorecerá a los poderes fácticos. Y Whittaker advierte de lo que podría pasar si no hubiera suficiente resistencia.

A medida que se aceleran los avances en la IA, los impactos en la sociedad también se aceleran, y continuaremos recorriendo un «camino lleno de publicidad hacia la IA», dijo, «donde ese poder se arraiga y se naturaliza bajo la apariencia de inteligencia y estamos vigilados por el punto [of having] muy, muy poco poder sobre nuestras vidas individuales y colectivas.

Eso Debería darle un respiro a la industria. si en realidad Desear eso es otro asunto Eso es probablemente algo de lo que oiremos hablar cuando suba al escenario en Disrupt en septiembre.

Aquí están los otros títulos notables de IA de los últimos días:

  • La IA de DeepMind controla los bots: DeepMind dice que ha desarrollado un modelo de IA, llamado RoboCat, que puede realizar una variedad de tareas en diferentes modelos de brazos robóticos. Esto por sí solo no es particularmente nuevo. Pero DeepMind dice que el modelo es el primero que puede resolver y adaptarse a múltiples tareas y hacerlo utilizando diferentes robots del mundo real.
  • Los robots aprenden de YouTube: Hablando de robots, esta semana el profesor asistente del CMU Robotics Institute, Deepak Pathak, presentó VRB (Vision-Robotics Bridge), un sistema de inteligencia artificial diseñado para entrenar sistemas robóticos al observar una grabación de un ser humano. El robot observa cierta información clave, incluidos los puntos de contacto y la trayectoria, y luego intenta realizar la tarea.
  • Otter entra en el juego del chatbot: El servicio de transcripción automatizada Otter anunció esta semana un nuevo chatbot impulsado por IA que permitirá a los asistentes hacer preguntas durante y después de una reunión y ayudarlos a colaborar con sus compañeros de equipo.
  • La UE pide una regulación de la IA: Los reguladores europeos se encuentran en una encrucijada sobre cómo se regulará la inteligencia artificial y, en última instancia, se utilizará con fines comerciales y no comerciales en la región. Esta semana, el grupo de consumidores más grande de la UE, la Organización Europea de Consumidores (BEUC, por sus siglas en inglés), expresó su posición: deje de dar largas y «inicie investigaciones urgentes sobre los riesgos de la IA generativa», dijo.
  • Vimeo lanza funciones impulsadas por IA: Esta semana, Vimeo anunció un conjunto de herramientas impulsadas por IA diseñadas para ayudar a los usuarios a crear guiones, grabar imágenes usando un teleprompter incorporado y eliminar pausas largas y disfluencias no deseadas como «ahs» y «ums» de las grabaciones.
  • Capital para artículos sintéticos: ElevenLabs, la plataforma viral impulsada por IA para crear voces sintéticas, ha recaudado 19 millones de dólares en una nueva ronda de financiación. ElevenLabs se hizo popular bastante rápido después de su lanzamiento a fines de enero. Pero la publicidad no siempre ha sido buena, particularmente cuando los malos actores han comenzado a explotar la plataforma para sus propios fines.
  • Convierte el audio en texto: Gladia, una startup francesa de inteligencia artificial, ha lanzado una plataforma que aprovecha el modelo de transcripción Whisper de OpenAI para transformar cualquier audio en texto casi en tiempo real a través de una API. Gladia promete que puede transcribir una hora de audio por $ 0,61, y el proceso de transcripción demora unos 60 segundos.
  • Harness adopta la IA generativa: Harness, una startup que crea un conjunto de herramientas para ayudar a los desarrolladores a operar de manera más eficiente, inyectó algo de inteligencia artificial en su plataforma esta semana. Ahora Harness puede corregir automáticamente errores de compilación e implementación, encontrar y corregir vulnerabilidades de seguridad y brindar recomendaciones para mantener los costos de la nube bajo control.

Otro aprendizaje automático

CVPR estuvo en Vancouver, Canadá esta semana y yo quería ir porque las charlas y los artículos parecen muy interesantes. Si solo puede ver uno, consulte la charla de Yejin Choi sobre las posibilidades, imposibilidades y paradojas de la IA.

Créditos de la imagen: CVPR/YouTube

El profesor de la UW y ganador de la Beca MacArthur Genius primero abordó algunas limitaciones inesperadas de los modelos más capaces de la actualidad. En particular, GPT-4 es realmente malo en la multiplicación. No puede encontrar correctamente el producto de dos números de tres dígitos a una velocidad asombrosa, aunque con un poco de persuasión puede hacerlo bien el 95% de las veces. ¿Por qué es importante que un modelo de lenguaje no pueda hacer matemáticas? Porque todo el mercado de IA en este momento se basa en la idea de que los modelos de lenguaje se generalizan bien a muchas actividades interesantes, incluidas cosas como hacer impuestos o contabilidad. El punto de Choi fue que debemos buscar los límites de la IA y trabajar hacia adentro, no al revés, ya que nos dice más sobre sus capacidades.

Las otras partes de su discurso fueron igualmente interesantes e inspiradoras. Puedes verlo todo aquí.

Rod Brooks, anunciado como un «asesino de exageraciones», proporcionó una historia interesante de algunos de los conceptos básicos del aprendizaje automático, ¡conceptos que solo parecen nuevos porque la mayoría de las personas que los aplican no estaban presentes cuando se inventaron! Retrocediendo a través de las décadas, toca a McCulloch, Minsky, incluso Hebb y muestra cómo las ideas han seguido siendo relevantes mucho más allá de su tiempo. Es un recordatorio útil de que el aprendizaje automático es un campo que se encuentra sobre los hombros de gigantes que datan de la época de la posguerra.

Se han presentado y enviado muchos, muchos artículos al CVPR, y es un eufemismo mirar solo a los ganadores del premio, pero este es un resumen de noticias, no una revisión exhaustiva de la literatura. Entonces, esto es lo que los jueces de la conferencia encontraron más interesante:

Créditos de la imagen: AI2

VISPROG, de los investigadores de AI2, es una especie de metamodelo que realiza tareas complejas de manipulación visual utilizando una caja de herramientas de código multipropósito. Supongamos que tiene una imagen de un oso grizzly en la hierba (como se muestra en la imagen), simplemente puede decirle que «reemplace el oso con un oso polar en la nieve» y comienza a funcionar. Identifica partes de la imagen, las separa visualmente, busca y encuentra o genera un reemplazo adecuado, y une todo de manera inteligente, sin necesidad de más indicaciones por parte del usuario. La interfaz «mejorada» de Blade Runner está empezando a sentirse decididamente pedestre. Y esa es solo una de sus muchas capacidades.

La ‘Conducción autónoma orientada a la planificación’, de un grupo de investigación multiinstitucional chino, intenta unificar las diversas piezas del enfoque bastante fragmentario que hemos adoptado para los automóviles autónomos. Por lo general, hay algún tipo de proceso de «detectar, predecir y planificar» paso a paso, cada uno de los cuales puede tener una serie de subtareas (como segmentar personas, identificar obstáculos, etc.). Su modelo intenta poner todo esto en un solo modelo, algo así como los modelos multimodales que vemos que pueden usar texto, audio o imágenes como entrada y salida. De manera similar, este modelo simplifica un poco las complejas interdependencias de una pila de conducción autónoma moderna.

DynIBaR demuestra un método robusto y de alta calidad para interactuar con video utilizando «campos dinámicos de radiación neuronal» o NeRF. Una comprensión profunda de los objetos en el video permite cosas como la estabilización, los movimientos del carro y otras cosas que generalmente no espera que sean posibles una vez que el video ya se ha grabado. De nuevo…»mejorar». Este es definitivamente el tipo de cosas para las que Apple te contrata y luego se lleva el crédito en la próxima WWDC.

DreamBooth puede recordar tan recientemente como a principios de este año cuando la página del proyecto se puso en marcha. Es el mejor sistema hasta ahora para, no hay forma de decirlo, deepfaking. Por supuesto, es invaluable y poderoso realizar este tipo de operaciones en imágenes, sin mencionar la diversión, e investigadores como los de Google están trabajando para que sea más fluido y realista. Consecuencias… más tarde, tal vez.

El premio al mejor artículo de estudiante se lo lleva un método para comparar y unir mallas 3D o nubes de puntos: francamente, es demasiado técnico para mí tratar de explicarlo, pero esta es una habilidad importante para la percepción del mundo real y las mejoras son bienvenidas. Consulte el documento aquí para obtener ejemplos y más información.

Solo dos pepitas más: Intel mostró este interesante modelo, LDM3D, para generar imágenes 3D 360 como entornos virtuales. Entonces, cuando estás en el metaverso y dices «ponnos en una ruina cubierta de vegetación en la jungla», simplemente crea uno nuevo a pedido.

Y Meta ha lanzado una herramienta de texto a voz llamada Voicebox que es muy buena para extraer las características de las voces y replicarlas, incluso cuando la entrada no es limpia. Por lo general, se necesita una buena cantidad y variedad de grabaciones vocales limpias para la replicación vocal, pero Voicebox lo hace mejor que la mayoría, con menos datos (piense en 2 segundos). Afortunadamente, mantienen a este genio en la botella por ahora. Para aquellos que creen que necesitan la clonación de su voz, consulten Acapela.