Según lo expresado por Fayyaad (1996: 19) La minería de datos es “un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”.
Minería de datos es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto, esto surge para intentar ayudar a comprender el contenido de un repositorio de datos. La minería de datos está dividida en predictiva y descubrimiento, la predictiva se usa primordialmente para técnicas estadísticas y la minería del descubrimiento del conocimiento es utilizada para las técnicas de inteligencia artificial.
Etapas principales del proceso de minería de datos
- Determinación de los objetivos: delimitar los objetivos que el cliente desea bajo la orientación del especialista en minería de datos.
- Pre-procesamiento de los datos: se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de minería de datos.
- Determinación del modelo: se comienza realizando un análisis estadístico de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
- Análisis de los resultados: verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por el análisis estadístico y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.