Shopify lanzó recientemente un Blog de tecnología Acerca de algunos de sus procesos internos de aprendizaje automático sobre cómo obtener información más procesable basada en las señales de sus clientes. Uno de los principales desafíos para cualquier negocio en línea es obtener información útil a partir de sus datos para la toma de decisiones. Shopify comparte su metodología y experiencia para resolver este problema agregando diversos conjuntos de datos a través de un método único que incluye reducción de dimensionalidad, redundancia y aprendizaje automático supervisado. Este enfoque produce resultados sólidos y proporciona mejores conocimientos e interpretación. Ayuda a los investigadores de usuarios y a los científicos de datos a mejorar su comprensión, mejorar sus soluciones e iterar de manera más eficiente hasta la solución final. Además, este método incluye una capa interpretativa, que facilita la validación de resultados para la comunicación con las partes interesadas. El siguiente diagrama ilustra este método de alto nivel.
Diagrama de flujo de trabajo completo
Basado en la publicación del blog, el autor propuso un método con 4 simples pasos:
- Haga que los datos sean manejables.
- Recógelo.
- Compréndelo (y espéralo).
- Comunicarse al respecto.
El primer paso en este proceso es encontrar una manera de visualizar los datos para gestionarlos mejor. El principal desafío es que en la práctica necesitamos lidiar con datos de alta dimensión. Un enfoque práctico es utilizar técnicas de reducción de dimensionalidad, como el análisis de componentes principales o… PCA. El principal desafío que enfrenta la PCA es que en muchos casos no toda la información se puede presentar en dos dimensiones. El autor sugirió utilizar las últimas técnicas para aproximar y proyectar la variedad unificada o UMAP En lugar de PCA La principal diferencia entre PCA y UMAP es que UMAP es un método de proyección que preserva la similitud local y global de puntos en la dimensión inferior y no es lineal en comparación con PCA. Esto capturará relaciones no lineales entre datos. Como ejemplo, el autor mostró la diferencia en los resultados al usar mnist (Conjunto de datos modificado del Instituto Nacional de Estándares y Tecnología). MNIST tiene 784 dimensiones para representar números escritos del 0 al 9 Los siguientes números Muestra las diferencias.
Una vez que visualizamos los datos y tenemos una idea inicial, necesitamos crear algunas agrupaciones significativas. Como se menciona en el artículo, este grupo debe tener las siguientes características para facilitar la explicación:
- Un punto pertenece a un bloque si el bloque existe.
- Si necesita parámetros para su grupo, hágalos intuitivos.
- Los grupos deben ser estables, incluso cuando el orden de los datos o las condiciones iniciales cambian.
Muchos algoritmos de agrupamiento, por ejemplo K-medias Y HDBSCAN (Agrupación espacial jerárquica de aplicaciones con ruido basada en densidad), existe en esta área. HDBSCAN aprovecha un enfoque jerárquico que combina métodos de agrupación con métodos DBSCAN para producir agrupaciones más sólidas y significativas. Amplios experimentos realizados en Shopify han demostrado que HDBSCAN produce constantemente resultados más claros y estables.
En la búsqueda de una comprensión más profunda del comportamiento grupal, la aplicación recursiva de técnicas de agrupamiento se vuelve esencial. Este proceso iterativo permite comprender mejor la dinámica compleja dentro de los grupos. Luego, una vez que se genera un número suficiente de clusters, se vuelve aplicable la aplicación de técnicas supervisadas, en particular la clasificación. Metodologías de clasificación establecidas, p. ej. XGBoostse puede utilizar como un modelo único para cada grupo.
Además, fusionar hombre joven Mejora la interpretabilidad y aclara las motivaciones subyacentes dentro de cada grupo. Este enfoque dual, que combina HDBSCAN para la agrupación inicial y la clasificación posterior a través de XGBoost, mejorado por SHAP para la interpretabilidad, constituye una metodología integral para obtener conocimientos profundos sobre el comportamiento de diversos grupos.
En la etapa final, es necesario comunicar los resultados al grupo de ciencia de datos y otras partes interesadas y repetir el proceso para llegar a la solución final si es necesario.
Una metodología similar también se ha utilizado con éxito en otras disciplinas como Detección de anomalías en datos de salud.
Muchos ingenieros de aprendizaje automático encuentran este trabajo apasionante. Como alguien comentó en LinkedIn Comparte este trabajo :
Umap y Shap son verdaderos revolucionarios y componentes esenciales de los flujos de trabajo de análisis avanzados.
«Adicto a la música. Gurú del café. Especialista en zombis. Defensor de las redes sociales. Introvertido. Aficionado extremo a la comida. Evangelista del alcohol».