La ciencia de datos se inclina ante la ingeniería rápida y el aprendizaje en unos pocos trazos


Si bien los medios de comunicación, el público en general y los profesionales de IA se deleitan con las nuevas posibilidades de Chat GPT, la mayoría se pierde lo que significa esta aplicación de tecnologías de lenguaje natural para la ciencia de datos.

No han podido ver hasta dónde ha llegado esta disciplina y lo que significa ahora para los usuarios diarios de técnicas de análisis avanzadas y arcanas que se han normalizado.

Según Abhishek Gupta, científico e ingeniero principal de datos de Talentica Software, el modelo de lenguaje subyacente para Chat GPT es GPT-3.5. Este modelo es más utilitario que Chat GPT. Es más competente en la generación de código de software y es aplicable a una variedad de tareas de tecnología de lenguaje natural distintas de la respuesta a preguntas y la generación de lenguaje, incluida la clasificación de documentos, el resumen y el análisis de la organización textual.

Por encima de todo, es muy probable que este modelo de lenguaje solicite ingeniería y aprendizaje de algunos hits, marcos que casi superan las limitaciones anteriores de la ciencia de datos relacionadas con la cantidad de ingeniería de datos y capacitación de funciones.

Al personalizar GPT-3.5 con ingeniería oportuna y poco aprendizaje, «las tareas comunes no requieren un científico de datos», enfatizó Gupta. «Una persona común solo puede hacerlo si sabe cómo crear el aviso y, hasta cierto punto, tiene algún conocimiento de GPT-3.5».

ingeniería rápida

Timely Engineering encarna cómo GPT-3.5 revolucionó la ciencia de datos, haciéndola más fácil para los usuarios no técnicos. Antes de que pudieran hacer ingeniería rápida con este modelo de lenguaje, los científicos de datos costosos y difíciles de encontrar tenían que construir modelos individuales para cada aplicación de tecnologías de lenguaje natural.

Pero con la disponibilidad de GPT-3.5, «podemos acelerar el tiempo de comercialización ahora que tenemos este modelo en el que podemos hacer una ingeniería rápida más inteligente», reveló Gupta. «Y es el mismo modelo que podemos usar para diferentes tareas». Así que no importa cuán dispares sean las tareas, como leer correos electrónicos y escribir respuestas o resumir un trabajo de investigación en cinco líneas, los usuarios simplemente tienen que diseñar el indicador lo suficiente como para enseñarle al modelo a hacerlo.

«Un indicador es un comando determinado que le damos al modelo», explicó Gupta. “Y, al modelar los comandos, también les damos algunos ejemplos que pueden identificar los modelos. Con base en estos comandos y patrones, el modelo puede comprender de qué se trata la actividad. Por ejemplo, simplemente debe dar un texto específico del modelo y escribir TL; DR (demasiado largo; sin leer) y el modelo entendería que la tarea era un resumen de texto, así que ejecútela.

Talleres de ingeniería rápidos

El beneficio clave de la ingeniería rápida es que reemplaza la necesidad de diseñar características para modelos individuales entrenados para una tarea. La ingeniería de características a menudo requiere mucho tiempo, es ardua y requiere conocimientos estadísticos y de codificación especializados. Por el contrario, cualquier usuario puede emitir un aviso en lenguaje natural, lo que hace que este aspecto de la optimización del modelo sea accesible para una base de usuarios mucho más grande, incluidos los legos. Su eficacia depende de la creación del indicador correcto.

«Si da un buen mensaje, el resultado será mucho mejor que un mensaje aleatorio», aconsejó Gupta. “Hay algunas palabras que ayudarán al modelo a comprender la tarea mejor que otras palabras. Hay algunas formas automatizadas de crear estos avisos.

Una mejor práctica para la ingeniería de solicitudes es usar una base de datos de ingeniería de solicitudes, que es más o menos equivalente a un repositorio de funciones, que alberga solicitudes que se pueden reutilizar y modificar para diferentes propósitos. «La gente ha creado una base de datos de consejos que se pueden usar para ciertas actividades que se conocen comúnmente», dijo Gupta.

Unos golpes de aprendizaje

Además de los comandos de solicitud, las organizaciones también pueden proporcionar ejemplos de solicitud para entrenar GPT-3.5 para una tarea determinada. Este último es parte del fenómeno de aprendizaje de un solo golpe donde la cantidad de datos de entrenamiento para modelos de enseñanza se reduce a unos pocos ejemplos (aprendizaje de un golpe), único (aprendizaje de un golpe) o cero (aprendizaje de golpe). . Esta reducción de ejemplo es sustancial en comparación con todos los datos de entrenamiento y las anotaciones necesarias para los datos de entrenamiento, que de lo contrario podrían dificultar las actividades de aprendizaje automático.

En este caso, uno «simplemente proporciona algunos ejemplos de los modelos al modelo y genera automáticamente tipos de modelos similares para la tarea de solución», comentó Gupta. Si la tarea es que el sistema identifique las capitales de cada país, el usuario podría dar un ejemplo de que Nueva Delhi es la capital de India antes de preguntar por las capitales de otros países. El ejemplo de este caso de uso de aprendizaje de un solo golpe entrenaría el sistema, por lo que «al darle al modelo el modelo, puede hacer cualquier pregunta basada en ese modelo», concluyó Gupta.

Aprendizaje multitarea

Si bien este ejemplo puede parecer trivial, da fe de la facilidad de uso, la falta de conocimientos especializados y la falta de conocimientos técnicos necesarios para optimizar GPT-3.5 para casi cualquier tarea de tecnología de lenguaje natural. En última instancia, esta naturaleza utilitaria de GPT-3.5 demuestra la eficacia del aprendizaje multitarea y la accesibilidad cada vez mayor de los modelos avanzados de aprendizaje automático.

Sobre el Autor

Jelani Harper es consultora editorial al servicio del mercado de la tecnología de la información. Se especializa en aplicaciones basadas en datos centradas en tecnologías semánticas, gobierno de datos y análisis.

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: https://twitter.com/InsideBigData1

Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/

Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW