
Please use this identifier to cite or link to this item:
https://repositorio.uide.edu.ec/handle/37000/8537
Title: | Análisis de anomalías en datos climáticos con aprendizaje no supervisado en la ciudad de Cuenca |
Authors: | Altamirano Lopez, Pedro Andres Aviles Gonzalez, Jonnatan Fernando Baldeon Egas, Paul Francisco Delgado Pozo, Joselyn Ivone Cortés López, Alejandro (tutor) Reyes Chacón, Iván (tutor) |
Keywords: | APREDIZAJE NO SUPERVISADO;CLUSTERING;ANOMALÍAS;DATOS CLIMÁTICOS |
Issue Date: | 2025 |
Publisher: | QUITO/UIDE/2025 |
Citation: | Altamirano Lopez, Pedro Andres; Aviles Gonzalez, Jonnatan Fernando; Baldeon Egas, Paul Francisco; Delgado Pozo, Joselyn Ivone. (2025). Análisis de anomalías en datos climáticos con aprendizaje no supervisado en la ciudad de Cuenca. Maestría en ciencia de datos y máquinas de aprendizaje. UIDE. Quito. 84 p. |
Abstract: | El presente estudio aborda el análisis de registros climáticos de la ciudad de Cuenca, utilizando algoritmos de aprendizaje no supervisado para descubrir posibles anomalías que puedan alterar la calidad de la información meteorológica. La motivación principal radica en que, sin un control riguroso, errores de medición o fenómenos atípicos pueden distorsionar los datos y afectar decisiones sobre prevención de riesgos y planificación ambiental. Para responder a esta necesidad, se estructuró un diseño metodológico de enfoque cuantitativo, con carácter exploratorio y descriptivo, que abarca desde la limpieza y transformación de datos hasta la validación de resultados. Una parte esencial fue la transformación de la variable hora, tratándola como variable cíclica mediante funciones seno y coseno, considerando que indicadores como la radiación solar y el índice ultravioleta presentan comportamientos periódicos que se analizan preferentemente por hora. Para segmentar y verificar estacionalidad se aplicaron técnicas como DBSCAN y modelos SARIMA, elegidos por su flexibilidad para detectar agrupaciones en conjuntos de datos sin etiquetas. La validación combinó de análisis de error y comportamiento interno de grupos. Además, se propone algunos modelos para realizar la predicción del índice de radiación ultravioleta. Los hallazgos muestran trayectorias diarias de aumento y disminución de radiación, junto con registros que alertan sobre valores anómalos, además se muestra que modelos como Random Forest y SVM permiten predecir sin caer en el sobreajuste, y bajo criterios de datos anómalos. Con esta investigación se aporta una base metodológica para optimizar datos meteorológicos y se abre camino a nuevas aplicaciones que fortalezcan sistemas de monitoreo, predicción y gestión de riesgos climáticos en la región del Azuay. The present study deals with the analysis of climate records from the city of Cuenca, using unsupervised learning algorithms to discover possible anomalies that may alter the quality of meteorological information. The main motivation lies in the fact that, without a rigorous control, measurement errors or atypical phenomena can distort the data and affect decisions on risk prevention and environmental planning. To respond to this need, a methodological design with a quantitative approach was structured, with an exploratory and descriptive character, ranging from data cleaning and transformation to validation of results. An essential part was the transformation of the hour variable, treating it as a cyclic variable by means of sine and cosine functions, considering that indicators such as solar radiation and the ultraviolet index present periodic behaviors that are preferably analyzed hourly. To segment and verify seasonality, techniques such as DBSCAN and SARIMA models, chosen for their flexibility in detecting clusters in unlabeled data sets, were applied. Validation combined error analysis and internal behavior of clusters. In addition, some models are proposed to perform ultraviolet radiation index prediction. The findings show daily trajectories of radiation increase and decrease, together with records that alert about anomalous values, and it is also shown that models such as Random Forest and SVM allow prediction without falling into over-fitting, and under anomalous data criteria. This research provides a methodological basis for optimizing meteorological data and opens the way for new applications to strengthen monitoring, prediction and climate risk management systems in the Azuay region. |
URI: | https://repositorio.uide.edu.ec/handle/37000/8537 |
ISSN: | UIDE-Q-TCDM-2025-12 |
Appears in Collections: | Tesis - Maestría - en Ciencia de Datos y Máquinas de Aprendizaje |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
UIDE-Q-TCDM-2025-12.pdf | TESIS A TEXTO COMPLETO | 3.24 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.