Metodologia CRISP-DM
Proceso de Norma Transversal para la Minería de Datos (CRISP-DM) en Ciencias de los Datos
El Proceso de Norma Transversal para la Minería de Datos (CRISP-DM) es un modelo de proceso probado que proporciona una estructura para la minería de datos y el análisis de datos. Es utilizado por muchas organizaciones en diversas industrias.
Read more:
Entendimiento del Negocio
Esta fase inicial se centra en comprender los objetivos y requisitos del proyecto desde una perspectiva empresarial, y luego convertir este conocimiento en una definición del problema de la minería de datos y un plan preliminar para alcanzar las metas.
Read more:
Definir el problema
Se necesita comprender y definir el problema desde una persepectiva de negocio.
Evaluar situación actual
Evaluar los recursos, las limitaciones, las suposiciones y las condiciones de la situación de negocio actual also son pasos esenciales en esta fase.
Meta del negocio
Se debe definir claramente el objetivo del negocio, cómo la solución de minería de datos puede contribuir al logro de este objetivo.
Understanding the Data The data understanding phase begins with an initial collection of data and proceeds with activities to become familiar with the data, identify data quality issues, discover initial insights in the data, or detect interesting subsets to form hypotheses about hidden aspects of the data. Data Collection Data Description Data Exploration Data Quality Verification
Colección de los datos
Identificar y recopilar los datos necesarios para el proyecto.
Descripción de los datos
Describir los datos reunidos en términos de formato, cantidad, identidad de los campos y cualquier otra característica relevante.
Exploración de los datos
Explorar los datos para encontrar características y propiedades útiles o únicas. Esto puede implicar el uso de técnicas de visualización de datos.
Verificación de la calidad de los datos
Verificar la calidad de los datos en términos de completitud, consistencia, precisión y relevancia.
Preparación de los Datos
La fase de preparación de los datos cubre todas las actividades necesarias para construir el conjunto de datos final a partir de los datos sin procesar iniciales. Las tareas incluyen la limpieza de datos, la integración de datos, la construcción de datos y la formatación de datos.
Read more:
Limpieza de datos
Debe realizar un proceso para identificar y corregir o eliminar datos corruptos o inexactos.
Integración de datos
Los datos de diversas fuentes se combinan en un conjunto de datos coherente.
Construcción de Datos
Este proceso puede involucrar la generación de nuevos atributos útiles o la reducción de dimensiones.
Modelado
En esta fase, selecciona y aplica diversas técnicas de modelado y calibras los parámetros del modelo a los parámetros óptimos. Por lo general, también se realizan múltiples técnicas en esta etapa.
Read more:
Seleccionar la técnica de modelado
Seleccionar la técnica de modelado
Elegir la técnica de modelado que mejor se adecue al problema y el tipo de datos disponibles.
Generación del modelo
Construir uno o más modelos a partir de los datos utilizando la técnica seleccionada.
Evaluación del modelo
Evaluar la calidad del modelo y su utilidad para el problema.
Evaluación
En la etapa de evaluación, el modelo desarrollado se prueba y se evalúa con base en los criterios de éxito predefinidos. También se evalúa su utilidad para resolver el problema del negocio.
Read more:
Pruebas del modelo
Verificar el modelo con nuevos datos para evaluar su rendimiento.
Evaluación de los resultados
Determinar en qué medida ha logrado los objetivos del negocio definidos en la etapa de entendimiento del negocio.
Revisión del proceso
Revisar todo el proceso de minería de datos para asegurarse de que es correcto y completo.
Despliegue
Los modelos de minería de datos que cumplen con los criterios de éxito se utilizan en operaciones comerciales y se actualizan a medida que cambian las condiciones.
Read more:
Producción de la solución final
Planificar el despliegue
Crear un plan para la implementación del modelo en el entorno operativo.
Seguimiento y mantenimiento
Una vez desplegado, el modelo necesita ser monitoreado para asegurarse de que funciona como se espera, y se puede necesitar mantenimiento para asegurarse de que sigue proporcionando las respuestas correctas.
Producción de la solución final
Una vez que el modelo ha sido probado y validado, se puede producir la solución final.