Contenidos teóricos y prácticos de la asignatura
Módulo 1. Fundamentos del proceso de extracción de conocimiento desde fuentes de datos
- Tema 1. Introducción a la extracción de conocimiento: ciclo KDD, fuentes de datos tradicionales y modernas
- (Incluye: ciclo CRISP-DM, calidad del dato, scraping básico, APIs públicas y datos abiertos institucionales como ISTAC y datos.gob.es)
Módulo 2. Aprendizaje supervisado: clasificación y regresión
- Tema 2. Árboles de decisión, Random Forest y Gradient Boosting en entornos R y Python
- (Incluye XGBoost, LightGBM, y herramientas de visualización de árboles y SHAP)
- Tema 3. Clasificadores probabilísticos: Naive Bayes, regresión logística y clasificación textual en redes sociales
- (Aplicado a análisis de sentimiento, detección de bots y polarización política en Twitter/X)
- Tema 4. Reglas de clasificación y aprendizaje automático interpretativo (IA explicable)
- (Incluye uso de reglas de asociación para auditoría de decisiones automáticas, fairness y detección de sesgos)
- Tema 5. Evaluación de modelos de clasificación: métricas, validación cruzada, matrices de confusión y curvas ROC-AUC
- (Análisis comparativo aplicado sobre datasets abiertos reales)
Módulo 3. Aprendizaje no supervisado: agrupamiento y minería de estructuras ocultas
- Tema 6. Métodos de agrupamiento: k-means, k-medoids y clustering en datos geoespaciales y demográficos
- (Aplicado a datos del ISTAC y movilidad urbana)
- Tema 7. Agrupamiento avanzado: DBSCAN, OPTICS y algoritmos basados en densidad para detección de comunidades
- (Uso en datos abiertos y sociales; análisis de foros, chats y redes)
- Tema 8. Agrupamiento jerárquico, dendrogramas y reducción de dimensionalidad (PCA, t-SNE, UMAP)
- (Aplicado a datos heterogéneos; análisis exploratorio visual en plotly, seaborn y ggplot2)
Módulo 4. Detección de anomalías y patrones no evidentes
- Tema 9. Detección de anomalías con algoritmos de distancia, densidad y autoencoders
- (Aplicación en fraudes, ciberseguridad y vigilancia epidemiológica con datos abiertos)
Módulo 5. Reglas de asociación y minería de patrones complejos
- Tema 10. Minería de patrones frecuentes y algoritmos Apriori/FP-Growth en comercio, redes y comportamiento
- (Incluye extracción de relaciones en logs, historiales y secuencias temporales)
- Tema 11. Evaluación de reglas de asociación y visualización interactiva con dashboards (Shiny, Dash, Power BI)
- (Proyectos finales con informes automatizados y orientados a la toma de decisiones)
Actividades a desarrollar en otro idioma
En esta asignatura se contempla la impartición de 1,5 horas de docencia en lengua inglesa. Asimismo, el software empleado durante las sesiones prácticas de laboratorio dispone de documentación técnica en inglés, al igual que los manuales y tutoriales que el alumnado utilizará para la realización de las prácticas correspondientes. De igual modo, una parte sustancial de la bibliografía y de los materiales de trabajo está redactada en este idioma, favoreciendo así la adquisición y consolidación de la comprensión lectora en lengua inglesa.
Por otra parte, de forma análoga a lo que se exige en el Trabajo Fin de Grado (TFG), la memoria del proyecto —descrita en el apartado relativo a la Metodología y volumen de trabajo del estudiante— deberá incluir una sección redactada en inglés que resuma los aspectos esenciales del mismo. Asimismo, los estudiantes deberán exponer oralmente las conclusiones de su trabajo en este idioma. La valoración de estas actividades se integrará en la evaluación del proyecto, conforme a lo establecido en el apartado correspondiente al Sistema de evaluación y calificación.
Por otra parte, de forma análoga a lo que se exige en el Trabajo Fin de Grado (TFG), la memoria del proyecto —descrita en el apartado relativo a la Metodología y volumen de trabajo del estudiante— deberá incluir una sección redactada en inglés que resuma los aspectos esenciales del mismo. Asimismo, los estudiantes deberán exponer oralmente las conclusiones de su trabajo en este idioma. La valoración de estas actividades se integrará en la evaluación del proyecto, conforme a lo establecido en el apartado correspondiente al Sistema de evaluación y calificación.