Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.cetys.mx/handle/60000/1509
Título : Construcción de modelos predictivos de la deserción universitaria utilizando minería de datos, caso de estudio: CETYS Universidad campus Ensenada
Autor : Beltrán Rocha, Lucía
Palabras clave : Deserción Universitaria;Minería de datos;Aprendizaje de máquina;Modelos predictivos;Minería de datos educativa
Sede: Campus Ensenada
Fecha de publicación : may-2022
Resumen : El propósito del estudio es diseñar y construir un modelo que permita predecir la deserción, a través de herramientas de minería de datos y de algoritmos predictivos. El caso de estudio es en uno de los campus de un Sistema Universitario (IES) multicampus privado en el noroeste del país. Los datos que se analizaron fue la información cuantitativa y cualitativa histórica de los estudiantes que se dieron de baja del campus del 2008 al 2018. Se diseñó y construyó un modelo lógico de una base de datos, a través de un proceso de ETL se almacenaron un total de 355 instancias, cada una representando a un desertor con 102 atributos personales y académicos, que los caracterizaron antes y durante su estancia en la IES. Se aplicaron algoritmos supervisados como regresión logística (RL) y bosque de árboles (RF), para la construcción de modelos predictivos, demostrando que hay una correlación entre las variables que estos modelos identificaron como predictoras. Se puede concluir que los desertores entraron con un desempeño regular, la mayoría eligieron programas académicos de la escuela de Administración y Negocios y obtuvieron una beca no asociada a la excelencia académica, una gran proporción de estos desertores son de los primeros semestres. Ambos modelos coinciden en su capacidad de predecir aquellos estudiantes que se convertirán en desertores, mejor que la capacidad para detectar a los que se dieron de baja para migrar a otros campus y por consecuencia se quedaron en el Sistema CETYS. Se considera la métrica de Recall o sensibilidad como la más relevante; 95.45% para el modelo de RL y de 94.93% para el modelo de RF, no así la capacidad de predecir a los que permanecerán en el Sistema, con una métrica de especificidad del 40% para el modelo de RL y de 53.3% para el modelo de RF. La métrica de armonía F1, es del 85.13% para el modelo de RL y de 87.33% para el modelo de RF, es una buena métrica para ambos modelos. ABSTRACT The study aims to design and build a model that allows for predicting desertion through data mining tools and predictive algorithms. The case study is on one campus of a private multicampus University System (IES) in the northwest Mexico country. The analyzed data was historical quantitative and qualitative information of the students who dropped out of the campus from 2008 to 2018. A logical model database was designed and built, through an ETL process, 355 instances, each representing a dropout with 102 personal and academic attributes which 4 characterized them before and during their stay at the IES. Applied supervised algorithms such as logistic regression (RL), and forest of trees (RF) were applied to build predictive models, demonstrating a correlation between the variables that these models identified as predictors. Can be concluded that the dropouts entered with a regular performance; the majority chose academic programs from the Business and Administration school and obtained a scholarship not associated with academic excellence. A large proportion of these dropouts are from the first semesters. Both models coincide in their ability to predict those students who will become dropouts, better than their ability to detect those who dropped out to migrate to other campuses and consequently stayed in the CETYS System. Recall or sensitivity metric is considered the most relevant; 95.45% for RL model and 94.93% for the RF model, but not the ability to predict those who will remain in the System, with a specificity metric of 40% for the RL model and 53.3% for the RF model. The harmony metric F1, which is 85.13% for the RL model and 87.33% for the RF model, is a good metric for both models.
Grado Académico : Dra. Tecnologías de Información y Negocios Electrónicos
URI : https://repositorio.cetys.mx/handle/60000/1509
Aparece en las colecciones: Tesis y Monografías

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
6543_D_TINE_Beltran_Rocha_L.pdf4.79 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons