Data mining o minería de datos

11 de octubre de 2006



¿A quién se le ocurriría basar una de tantas estrategias comerciales para incrementar las ventas de una compañía de retail, en una correlación de consumo nada obvia entre pañales y cerveza?

La mayoría de nosotros que no estamos en ese negocio, y hasta los especialistas de productos de las grandes compañías de retail colombianas se aventurarían a invertirle tiempo y dinero en estrategias comerciales sobre esta premisa si y solo sí, ésta esté fundamentada en las transacciones de venta almacenadas en sus bases de datos.

¿Como identificar esta correlación en un mar de datos? La única forma es con procesos de minería de datos o data mining.

El objetivo principal de este artículo es compartir de manera clara la definición de minería de datos, las soluciones de negocios que se pueden abarcar, y por donde comenzar un proceso de minería de datos.

Primero que todo empecemos ampliando el caso de los pañales y la cerveza, que nos dará una perspectiva más amplia sobre los objetivos que persigue la minería de datos. El caso lo he leído de diferentes autores y el supermercado que inicialmente publicó este caso realmente no ha sido determinado, lo conozco de dos supermercados de los Estados Unidos que son 7 Eleven, y Wal-Mart.

Hace algunos años uno de estos supermercados se hizo la pregunta sobre qué productos se vendían con mayor frecuencia en compañía de los pañales. Pues bien, ellos “minearon” la base de datos y vaya sorpresa, encontraron que en asociación con los pañales se vendían muy frecuentemente las cervezas. Además, se dieron cuenta que ambos productos se vendían principalmente los viernes en la tarde y eran comprados por hombres con edades entre los 25 y 35 años de edad. Después de cierto tiempo descubrieron la razón de este hallazgo. El caso es que los paquetes de pañales son voluminosos, y las esposas, que en muchos casos hace el mercado de la casa, deja los pañales para que el esposo los compre. El esposo y padre, compraba los pañales especialmente los viernes, en compañía de las cervezas para el fin de semana.

Como consecuencia de esto, que hizo el supermercado. Puso en la góndola la cerveza al lado de los pañales. El resultado fue que los padres que normalmente llegaban a comprar los pañales y la cerveza, compraron más cervezas, y los que antes no compraban cerveza, empezaron a comprarla por la proximidad de ésta con los pañales. Finalmente las ventas de cerveza se dispararon.

Como el caso de los pañales y la cerveza, existen innumerables casos donde un proceso de minería de datos podría encontrar patrones escondidos que son de gran utilidad para plantear estrategias que apunten a los objetivos del negocio, por ejemplo incrementar las ventas, aumentar la rentabilidad, disminuir los costos, mejorar la eficiencia en algunas áreas, etc.

Imaginémonos una compañía del sector financiero tratando de identificar los clientes que se pasarían para la competencia (churning) basado en los patrones de consumo de sus diferentes servicios, ó una compañía de venta directa que pueda predecir que cantidad de X producto comprará un cliente dadas sus compras durante los últimos tres años, su información demográfica (la edad, el sueldo, la ciudad, etc.), y el precio del producto. O una compañía productora de automóviles identificando los problemas mas frecuentes en sus vehículos asociados al uso de estos, a través de procesos de text mining. Todas estas estrategias serían imposibles de llevar a cabo efectivamente sin un proceso de minería de datos.

¿Usted podría encontrar la relación de consumo entre cerveza y pañales conociendo un poco del negocio y utilizando una herramienta de análisis que cree reportes dinámicos? Yo estoy seguro que sí, pero creo que el tiempo en llegar a la conclusión sería mayor. Además, no es fácil encontrar personas que tengan alto conocimiento del negocio y sean efectivas en el uso de herramientas de reportes avanzado. Claro que de lo que no estoy seguro es que sea capaz de encontrar las horas de consumo (viernes en la tarde), y la demografía de los clientes (entre 25 y 35 años) de forma eficiente, entendiendo que existe un gran esfuerzo cerebral para comprender las relaciones de dos o mas variables entre millones de datos y cientos de variables. Lo que hace minería de datos es automatizar estos procesos reduciendo los tiempos hasta llegar a una conclusión.

Es sorprendente que la minería de datos no haya despegado todavía en Colombia como una herramienta de apoyo a la toma de decisiones en nuestras compañías. Encontramos que todavía organizaciones en mercados altamente competidos como telecomunicaciones, retail, automotriz, financiera, consumo masivo y otras, siguen tomando decisiones a ciegas sobre procesos de fidelización de clientes, up-selling, cross-selling, performance management, y retención de clientes infieles. Siguen preguntándose por qué sus procesos de pronóstico de la demanda periódicamente tienen una confiabilidad baja. La tecnología de minería datos está madura.

Los algoritmos más utilizados fueron creados hace 30 años, lo cual hace que hoy existen productos de software para minería de datos que generan resultados de alta confiabilidad. Varios componentes de software pueden ser descargados por Internet sin costo. Los grandes vendedores de software para bases de datos, caso Microsoft, Oracle, IBM, Teradata, llevan alrededor de 6 años incluyendo software para minería de datos y cada nueva versión incluyen modelos mas sofisticados y fáciles de manejar. Es el caso de Microsoft SQL Server 2005 que ya incluye 9 modelos sin costo adicional del licenciamiento de la base de datos y todo el software que soporta los procesos de inteligencia de negocios. Les aseguro que la mayoría de ustedes que leen este artículo tienen ya licenciado al interior de su organización el software para empezar a generar conocimiento relevante a su negocio a partir de minería de datos.

¿Será que no creemos que necesitamos procesos automatizados que nos ayuden a generar conocimiento relevante de cómo van y cómo mejoramos nuestros negocios? Yo me niego a creer esto, más bien puede ser que estamos viendo los proyectos de minería de datos como proyectos de una alta inversión, con un alto riesgo, que necesita personas que tengan un Ph.D., y que posiblemente la organización no sepa más adelante qué hacer con el conocimiento generado. Creo que tenemos miopía si estamos de acuerdo con lo anterior porque existe una metodología ya madura, el software fácilmente adquirible, las personas altamente conocedoras en sus negocios, y compañías colombianas como iGerencia que les ayudan a que sus proyectos sean exitosos.

Director Arquitectura de Soluciones
iGerencia S.A.




Noticias Destacadas