IT Industry Tutoriales de Programación
Con Data Mining los gigantes TI te conocen mejor que tu madre

Con Data Mining los gigantes TI te conocen mejor que tu madre

por Benjamín Arredondo   |   March 24, 2021   |     4 min. de lectura

Te has preguntado ¿cómo hacen plataformas como Spotify o Amazon para  sugerirte s música o productos que son exactamente lo que te interesa en ese momento? 

No es porque Mark Zuckerberg, Daniel Ek o sus empleados sean brujos, adivinos o telépatas, el secreto son  las diferentes técnicas de análisis que aplican y les permiten dar en el clavo con tus intereses, , y una de esas técnicas es Data Mining o Minería de Datos.  Pero ¿qué es data mining?  Es el análisis automático de grandes cantidades de datos con el fin de encontrar patrones y tendencias.

 ¿De dónde salen los datos que se analizan con data mining?

 El origen de estos datos es diverso, pues cada vez es más fácil recolectarlos a través de diferentes redes sociales  ̶  al darle like a una foto o guardar una canción  ̶ , de Internet of Things (IoT)  ̶  cuando conectas tu reloj, tu refrigerador o cualquier dispositivo  ̶  e incluso a través de encuestas que respondes para algún establecimiento. 

En realidad generamos datos extremadamente valiosos durante todo el día sin darnos cuenta. Este gran cúmulo de datos es conocido como Big Data, y este es el combustible con el que funciona el data mining.

La cantidad masiva de datos que genera la población se almacena en diferentes bases de datos en distintos formatos,   lo importante es la calidad y relevancia de la información. Si quieres saber el tipo de café que más consumen los hombres un miércoles a las 10 de la mañana, no sirve de nada tener un almacén lleno de datos sobre la raza de perros más comprada por niñas. Es necesario hacer un proceso de data wrangling y verificar que los datos tengan la misma estructura (para comparar manzanas con manzanas) y relevancia. Esto debe hacerse antes de ingresar los datos al sistema de análisis o el resultado será basura.

A la  hora del análisis ¿describir o predecir? Tener un volumen masivo de datos no es suficiente, es el análisis de esta data el verdadero tesoro, una tarea imposible de lograr a mano, pues se requieren técnicas de análisis de datos -descriptivas o predictivas-  para crear modelos y automatizar el proceso. 

El data mining con fines descriptivos  busca obtener información de lo que ha ocurrido en el pasado, mientras que con fines predictivos busca revelar patrones y tendencias.

Las 3  técnicas más comunes para obtener valor de tus datos

No ahondaremos demasiado en la ciencia detrás de todo, pero mencionaré algunas de las técnicas más comunes para obtener valor de los datos una vez que han sido limpiados y procesados.

1. Clasificaciones: en este método se etiquetan datos para segmentarlos y clasificarlos.
Por ejemplo, si tus patrones de compra en línea indican que frecuentemente compras juguetes, escuchas soundtracks de películas infantiles y sigues perfiles de personajes ficticios -a través de técnicas de data mining- te podrían clasificar como “niño” o como “padre de hijos pequeños”. Así es como algunas plataformas saben qué productos sugerirte.

2. Regresiones: son modelos matemáticos basados en ecuaciones que dependiendo de los parámetros que se le proporcionen arrojarán una respuesta. Esta técnica no busca responder con un booleano (sí o no), sino con un número.
Por ejemplo, responde preguntas como ¿cuánto tardará un cliente en volver a comprar leche?  

3. Agrupamientos (clustering): busca encontrar conjuntos de ítems que tienen características en común.
Por ejemplo, una taza de porcelana y una mesa de bebé se pueden agrupar bajo el término “cocina”, pero no bajo el término “bebés”. Con esto se puede saber qué producto sugerirle a alguien que ha sido clasificado como “padre de hijos pequeños” usando la técnica de clasificaciones.

Los 2 básicos del data mining

Para implementar las diferentes técnicas de data mining es importante dominar al menos dos cosas:

  1. Entender las diferencias entre los conceptos de las distintas técnicas, ya que algunas son parecidas pero definitivamente no hacen lo mismo ni se hacen de la misma manera; algunas requieren de más conocimientos matemáticos que otras.
  2. Dominar algún lenguaje de programación que te permita manipular y analizar los datos de la manera óptima. Mi recomendación sería utilizar Python style=”font-weight: 400;”> o JavaScript, ya que son lenguajes muy versátiles, sencillos y poderosos. Si ya sabes JavaScript porque lo has utilizado para desarrollo front-end o de lado del cliente, puedes utilizar Node.js para ejecutar algún script fuera del navegador web.

Ser un experto en data mining lleva tiempo y práctica, sin embargo, existen herramientas de minería de datos que se usan en la industria para facilitar la práctica de esta disciplina, como  Rapid Miner, Weka y Orange. Cada herramienta tiene diferentes fortalezas, por lo que es recomendable usarlas en paralelo.

Deja un comentario