Reseña del libro: libro/libro de trabajo de Kaggle

Kaggle (adquirida por Google en 20217) es un recurso increíble para todos los científicos de datos. La empresa se promociona a sí misma como «el hogar de la ciencia de datos». Aconsejo a mis estudiantes de Introducción a la ciencia de datos de UCLA que aprovechen Kaggle completando primero el venerable Titanic. Reto de predicción para empezary luego pasar a los desafíos activos. Kaggle es una excelente manera de obtener una valiosa experiencia con la ciencia de datos y el aprendizaje automático. Ahora, hay dos libros excelentes que lo guiarán a través del proceso de Kaggle. The Kaggle Book de Konrad Banachewicz y Luca Massaron publicado en 2022 y The Kaggle Workbook de los mismos autores publicado en 2023, ambos son de Packt Publishing, con sede en el Reino Unido.
Empecemos con libro kaggle. El libro es un recurso de aprendizaje invaluable para cualquier persona que participe en una competencia de Kaggle, así como para prácticamente cualquier científico de datos que busque perfeccionar sus habilidades. Leer el libro es como hacer una fusión mental vulcaniana con Kaggle Masters y Grandmasters; Obtenga una apreciación instantánea de cómo estos expertos lo han hecho tan bien en el ecosistema de Kaggle. Esto se logra de varias maneras: a través de su código Python ganador, a través de las barras laterales detalladas de las entrevistas repartidas por todo el libro y a través de enlaces cuidadosamente seleccionados que apuntan a discusiones importantes de Kaggle. Esta última característica del libro es quizás la más útil, ya que algunas de las discusiones ofrecen ideas que no encontrará en ningún otro lugar. Por ejemplo, la famosa publicación del Gran Maestro Michael Jahrer sobre la eliminación de ruido del codificador automático se presenta en el Capítulo 7. Leer sus explicaciones detalladas de cómo ganó el 1er lugar en la competencia de Predicción de Conductor Seguro en Porto Seguro es una excelente manera de agregar a su caja de herramientas de ciencia de datos. El Capítulo 7 también incluyó una entrevista perspicaz con el conocido Kaggler Bojan Tunguz, quien es un gran defensor de XGBoost en chirrido.
El libro también ofrece referencias estratégicas a muchas competencias de Kaggle que ilustran métodos críticos para garantizar el éxito del aprendizaje automático. Por ejemplo, el Capítulo 5 incluye referencias a una serie de competiciones para las que se ha utilizado AUC para determinar la precisión de la clasificación. Puede disfrutar saltando de un proyecto a otro para comprender mejor los principios importantes del aprendizaje automático. El libro sirve como un mapa guía para tales exploraciones. El resultado es una comprensión mucho mejor de cómo abordar los proyectos en el futuro.
Uno de mis capítulos favoritos es el Capítulo 5 sobre métricas porque, básicamente, necesita un conjunto sólido de técnicas para juzgar el rendimiento de sus soluciones de ML. Otro favorito es el capítulo 8 sobre el ajuste de hiperparámetros. Usar los mejores y más poderosos algoritmos es una cosa, pero saber cómo optimizar los muchos hiperparámetros de un modelo es otra. Si bien el libro no aborda los fundamentos matemáticos de los algoritmos y sus hiperparámetros, proporciona información sobre cómo encontrar los mejores hiperparámetros para sus modelos. Ver cómo los grandes maestros abordan el problema de los hiperparámetros es muy valioso. También me gustó el Capítulo 7 sobre el modelado de datos tabulares, es decir, datos comerciales. Aquí hay discusiones sobre temas importantes como la reducción de la dimensionalidad, la ingeniería de características y el uso de redes neuronales para datos tabulares.
El resto del libro incluye temas útiles como: una introducción a los conjuntos de datos de Kaggle, cómo trabajar con los cuadernos de Kaggle, cómo aprovechar los foros de discusión de Kaggle y temas populares como la visión artificial y la PNL. Este libro es una excelente manera de dominar la compleja infraestructura de Kaggle y no puedo imaginarme participar en una competencia de Kaggle sin este libro a tu lado.

Una muy buena adición a The Kaggle Book, es El libro de Kaggle que contiene solo cuatro capítulos, cada uno con una revisión en profundidad de los desafíos anteriores de Kaggle que pueden verse como ejercicios de autoaprendizaje que contienen información valiosa para las competencias de ciencia de datos de Kaggle. Cada uno de los 4 capítulos incluye el código fuente de Python para la solución. El código está diseñado para ejecutarse en un cuaderno Kaggle. Aquí hay una lista de proyectos:
- Predicción del conductor seguro de Porto Seguro: prediga si un conductor presentará un reclamo el próximo año. El proyecto incluye el uso del modelo Light GBM, la creación de un codificador automático de eliminación de ruido y cómo usarlo para cargar una red neuronal y modelos de fusión.
- M5 en Kaggle para precisión e incertidumbre: basada en la serie temporal de artículos de ventas diarias de Walmart organizadas jerárquicamente en departamentos, categorías y tiendas distribuidas en tres estados de EE. UU., la solución demuestra cómo usar LightGBM para este problema de serie temporal.
- Clasificación de enfermedades de la hoja de yuca: clasifique fotos de plantas de yuca de colaboración colectiva. Este problema multiclase demuestra cómo construir una canalización completa para la clasificación de imágenes.
- Etiquetado de preguntas y respuestas de Google Quest: predicción de la evaluación del respondedor humano de los aspectos subjetivos de un par de preguntas y respuestas donde la comprensión del contexto era crucial. Considerado como un problema de clasificación multiclase, la solución explora las características semánticas de un corpus.
Conclusión
Ya sea que esté pensando en competir en el desafío de Kaggle o simplemente quiera impulsar sus habilidades de ciencia de datos, le recomiendo este tándem de libros de Kaggle. No puedo ver la inversión en un libro y no en el otro. Necesitas ambos. Son un excelente doble golpe para obtener una valiosa experiencia en la resolución de problemas de aprendizaje automático.

Contribuido por Daniel D. Gutiérrez, editor en jefe y científico de datos residente de insideBIGDATA. Además de ser periodista de tecnología, Daniel también es consultor científico de datos, autor, educador y forma parte de numerosos consejos asesores para varias empresas emergentes.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW