Análisis Semántico y de Tendencias Investigativas: Modelado  Interactivo con Procesamiento de Lenguaje Natural

Haro Sarango, Alexander Fernando; Moya González, Viviana Isabel; Salazar Mendizábal, Gabriel Ignacio; Quito Carrión, Fabián Darío; Reyes Chacón, Iván (tutor); Cortés López, Alejandro (tutor)

Please use this identifier to cite or link to this item: https://repositorio.uide.edu.ec/handle/37000/8550

Title:	Análisis Semántico y de Tendencias Investigativas: Modelado Interactivo con Procesamiento de Lenguaje Natural
Authors:	Haro Sarango, Alexander Fernando Moya González, Viviana Isabel Salazar Mendizábal, Gabriel Ignacio Quito Carrión, Fabián Darío Reyes Chacón, Iván (tutor) Cortés López, Alejandro (tutor)
Keywords:	BIBLIOMETRÍA;SCOPUS;MINERÍA DE TEXTO;TÓPICOS EMERGENTES
Issue Date:	2025
Publisher:	QUITO/UIDE/2025
Citation:	Haro Sarango, Alexander Fernando; Moya González, Viviana Isabel; Salazar Mendizábal, Gabriel Ignacio; Quito Carrión, Fabián Darío. (2025). Análisis Semántico y de Tendencias Investigativas: Modelado Interactivo con Procesamiento de Lenguaje Natural. Maestría en Ciencia de datos y maquinaria de aprendizaje. UIDE. Quito. 83 p.
Abstract:	Esta plataforma web de análisis bibliométrico, construida íntegramente en Python y desplegada en Streamlit, automatiza la exploración de metadatos descargados exclusivamente de Scopus y guía al usuario a través de seis módulos interdependientes que cubren el ciclo analítico completo. Tras un acceso autenticado, la Sección 1 permite cargar archivos CSV, obtener estadísticas descriptivas, aplicar filtros dinámicos y exportar subconjuntos limpios. La Sección 2 calcula indicadores clásicos de productividad, genera gráficas interactivas con Plotly y construye, mediante NetworkX, una red de coautoría centrada en los veinte autores más prolíficos. En la Sección 3 se ejecuta un flujo de PLN: los resúmenes se normalizan con NLTK, se vectorizan con TF-IDF y se modelan con NMF para descubrir temas; los documentos se proyectan sobre un mapa t-SNE que facilita la inspección visual de clústeres. La Sección 4 incorpora análisis afectivo usando VADER y TextBlob y ofrece histogramas, heatmaps año-polaridad y diagramas 3-D querelacionan sentimiento, subjetividad y fecha de publicación. La Sección 5 mide la similitud global entre artículos, produce nubes de palabras, agrupa con K-Means y PCA y despliega un explorador LDA interactivo basado en PyLDAvis. Posteriormente, la Sección 6 rastrea términos emergentes: calcula pendientes de TF-IDF por año, sugiere líneas de investigación prometedoras y visualiza tendencias mediante gráficas lineales y nubes enfocadas en los tres años recientes. El empleo exclusivo de Scopus garantiza consistencia de cobertura y simplifica la gestión de licencias. Su interfaz responsiva promueve adopción institucional y fomenta la práctica colaborativa de ciencia abierta regional en Latinoamérica. This bibliometric-analysis web platform, built entirely in Python and deployed with Streamlit, automates the exploration of metadata extracted exclusively from Scopus and guides the user through six interconnected modules that embrace the full analytical cycle. After an authenticated login, Section 1 enables CSV upload, delivers descriptive statistics, offers dynamic filters, and exports clean subsets. Section 2 computes classical productivity indicators, draws interactive Plotly charts, and, with NetworkX, constructs a co-authorship network focused on the twenty most prolific authors. Section 3 runs an NLP pipeline: abstracts are normalized with NLTK, vectorized through TF-IDF, and modelled with NMF to uncover topics; the resulting documents are projected onto a t-SNE map for intuitive cluster inspection. Section 4 performs affective analysis using VADER and TextBlob and provides histograms, year-polarity heatmaps, and three dimensional scatterplots linking sentiment, subjectivity, and publication date. Section 5 measures global article similarity, generates word clouds, groups papers with K-Means and PCA, and displays an interactive LDA explorer via PyLDAvis. Finally, Section 6 tracks emerging terms: it calculates yearly TF-IDF slopes, suggests promising research lines, and visualises trends through line charts and word clouds focused on the last three years. The Scopus-only approach guarantees consistent coverage, avoids cross-database duplication, and simplifies licence management, while the modular architecture based on free-software libraries secures scalability, reproducibility, and future adaptability. Integrated export links generate ready-to-share PDFs, DOCX spreadsheets, and CSV archives for downstream quantitative or qualitative assessment and decision-making.
URI:	https://repositorio.uide.edu.ec/handle/37000/8550
Appears in Collections:	Tesis - Maestría - en Ciencia de Datos y Máquinas de Aprendizaje

Files in This Item:

File	Description	Size	Format
UIDE-Q-TCDM-2025-25.pdf	TESIS A TEXTO COMPLETO	2.59 MB	Adobe PDF	View/Open

Show full item record