
Please use this identifier to cite or link to this item:
https://repositorio.uide.edu.ec/handle/37000/8540
Title: | Detección de emociones en voz |
Authors: | Andrade Sanchez, Maria Augusta Arevalo Muñoz, Rosa Elena Masabanda Vinocuna, Carla Maria Narvaez Gomez, Giovanny Vizcaíno Imacaña, Paulina (tutor) Cortés López, Alejandro (tutor) |
Keywords: | RECONOCIMIENTO DE EMOCIONES;DEEP LEARNING;MODELOS DE CLASIFICACIÓN;PROCESAMIENTO DE AUDIO |
Issue Date: | 2025 |
Publisher: | QUITO/UIDE/2025 |
Citation: | Andrade Sanchez, Maria Augusta; Arevalo Muñoz, Rosa Elena; Masabanda Vinocuna, Carla Maria; Narvaez Gomez, Giovanny. (2025). Detección de emociones en voz. Maestría en Ciencia de datos y maquinaria de aprendizaje. UIDE. Quito. 100 p. |
Abstract: | Este trabajo aborda el problema de detección de emociones en voz a través de su clasiĮcación en seis categorías: enojado, desagrado, miedo, tristeza, felicidad y neutral. Los análisis se realizaron con un conjunto de datos balanceado de grabaciones de voz eƟquetadas por emoción, de los cuales se extrajeron caracterísƟcas acúsƟcas uƟlizando la biblioteca Librosa. Se aplicaron disƟntos modelos de clasiĮcación, desde algoritmos tradicionales como Random Forest, SVM y XGBoost, hasta los basados en redes neuronales como MLP, CNN. Las métricas de evaluación calculadas como el accuracy, precision, recall, F1-score y balanced accuracy alcanzaron valores de alrededor del 76%, indicando en general un desempeño equilibrado.El análisis por clase evidenció que la emoción "enojado" fue la mejor clasiĮcada por todos los modelos, con un F1-score máximo del 85% en el modelo basado en MLP, lo cual sugiere que sus caracterísƟcas vocales son más diferenciables. Por el contrario, las emociones como "desagrado", "tristeza" y "miedo" presentaron valores de F1 más bajos. Las matrices de confusión mostraron patrones recurrentes de error, especialmente entre emociones de tono bajo o acƟvación similar, como triste neutral y miedo triste. Los mejores resultados se obtuvieron con modelos basados en redes neuronales profundas, parƟcularmente MLP y CNN, lo que demuestra la efecvidad de estas arquitecturas para capturar patrones en señales de voz. En conclusión, el sis tema desarrollado muestra un desempeño aceptable para tareas de reconocimiento emocional por voz, aunque aún enfrenta desaİos en la discriminación de emociones de baja intensidad. This work addresses the problem of voice emoƟon detecƟon by classifying them into six categories: anger, disgust, fear, sadness, happiness, and neutrality. The analyses were performed on a balanced dataset of emoƟon-labeled voice recordings, from which acousƟc features were extracted using the Librosa library.Diīerent classiĮcaƟon models were applied, ranging from tradiƟonal algorithms such as Random Forest, SVM, and XGBoost, to neural network-based models such as MLP and CNN. EvaluaƟon metrics such as accuracy, precision, recall, F1 score, and balanced accuracy achieved values of around 76%, indicaƟng overall balanced performance.The class analysis showed that the "angry" emoƟon was the best classiĮed by all models, with a maximum F1 score of 85% in the MLP-based model, suggesƟng that its vocal characterisƟcs are more disƟnguishable. In contrast, emoƟons such as "disgust," "sadness," and "fear" had lower F1 values. The confusion matrices showed recurring error paƩerns, especially between emoƟons of low pitch or similar acƟvaƟon, such as sad-neutral and fear-sad. |
URI: | https://repositorio.uide.edu.ec/handle/37000/8540 |
Appears in Collections: | Tesis - Maestría - en Ciencia de Datos y Máquinas de Aprendizaje |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
UIDE-Q-TCDM-2025-15.pdf | TESIS A TEXTO COMPLETO | 2.3 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.