Página |
197
Revista
C
ientífica Zambos
ISSN:
3028
-
8843
Vol.
4
-
Núm.
2
/
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
Optimización de Criterios de Búsqueda avanzada
para Nuevas Tendencias en la Académica mediante
Machine Learning
Optimization of Advanced Search Criteria for New Trends in
Academia through Machine Learning
Sangacha
-
Tapia, Lady
1
González
-
Cañizalez, Yomar
2
https://orcid.org/0000
-
0002
-
5169
-
8918
https://orcid.org/0000
-
0002
-
6348
-
866X
lmst0004@red.ujaen.es
yomar.gonzalezc@ug.edu.ec
España, Jaén
,
Universidad de Jaén
Ecuador
,
Guayaquil
,
Universidad de Guayaquil
Rivas
-
Herrera, John
3
https://orcid.org/0009
-
0001
-
8640
-
0106
john.rivas.est@tecazuay.edu.ec
Ecuador
,
Cuenca
,
Instituto Superior Tecnológico del
Azuay
Autor de correspondencia
1
DOI /
URL:
https://doi.org/10.69484/rcz/v4/n2/114
Resumen:
La creciente disponibilidad de grandes
volúmenes de datos ha generado nuevos activos para
diversas industrias. Esto plantea un desafío clave para la
educación superior: medir, definir y estructurar dichos activos
mediante la identificación de líneas de inv
estigación
relevantes. Estas líneas deben servir de guía en la formación
de nuevos profesionales, atendiendo a la creciente demanda
de competencias tecnológicas dentro de la Industria 4.0. El
presente estudio tiene como objetivo establecer criter
ios
sólidos que permitan identificar áreas de investigación
aplicables a este contexto. Para lograrlo, se ha empleado el
modelo Muestrear, Explorar, Modificar, Modelar y Evaluar, el
cual abarca todas las etapas del proceso de minería de datos,
desde la rec
opilación inicial hasta la evaluación final de los
modelos. Mediante un análisis bibliométrico, basado en cuatro
características clave, se identificaron campos de conocimiento
esenciales para el desarrollo de líneas de investigación por el
análisis de 1,30
0 artículos científicos de alto impacto. Como
resultado, la aplicación del algoritmo Near Zero automatizó la
clasificación de criterios de búsqueda. Este enfoque no solo
facilita la identificación de áreas emergentes, sino que también
abre nuevas oportunid
ades en sectores industriales diversos,
relevancia de la académica para el avance tecnológico como
parte de las transformaciones digitales.
Palabras clave:
máquina; industria; líneas de investigación;
Productores de bases de datos bibliográficas.
Research Article
Recibido:
20/Mar/2025
Aceptado:
09/Abr2025
Publicado:
31/May/2025
Cita:
Sangacha
-
Tapia, L., González
-
Cañizalez, Y., & Rivas
-
Herrera, J. (2025).
Optimización de Criterios de Búsqueda
avanzada para Nuevas Tendencias en la
Académica mediante Machine Learning.
Revista Científica Zambos
, 4(2), 197
-
211.
https://doi.org/10.69484/rcz/v4/n2/114
Ecuador, Santo Domingo, La Concordia
Universidad Técnica Luis Vargas Torres
de Esmeraldas
–
Sede Santo Domingo
Revista
Científica Zambos
(
RCZ
)
https://revistaczambos.utelvtsd.edu.ec
Este artículo es un documento de acceso
abierto distribuido bajo los términos y
condiciones de la
Licencia Creative
Commons, Atribución
-
NoComercial
4.0 Internacional.
Página |
198
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
Abstract:
The growing availability of large volumes of data has generated new assets for various
industries. This poses a key challenge for higher education: measuring, defining, and
structuring these assets by identifying relevant lines of research. These lines sho
uld
serve as a guide in the training of new professionals, responding to the growing
demand for technological skills within Industry 4.0. The present study aims to establish
solid criteria for identifying areas of research applicable to this context. To ac
hieve this,
the Sample, Explore, Modify, Model, and Evaluate model has been used, which covers
all stages of the data mining process, from initial collection to final evaluation of the
models. Through a bibliometric analysis based on four key characteristi
cs, essential
fields of knowledge for the development of lines of research were identified by
analyzing 1,300 high
-
impact scientific articles. As a result, the application of the Near
Zero algorithm automated the classification of search criteria. This app
roach not only
facilitates the identification of emerging areas but also opens up new opportunities in
diverse industrial sectors, highlighting the relevance of academia to technological
advancement as part of digital transformations.
Keywords:
machine; industry; lines of research; bibliographic database producers.
1.
Introducción
La optimización de criterios de búsqueda avanzada para la
identificación de nuevas
tendencias en la investigación académica mediante machine learning, es una
alternativa en los diferentes campos de conocimientos de la investigación científica
por su continua evolución como parte de su transformación digital. Se h
a
descubrimiento los nuevos enfoques como tecnologias transformadas que surgen a
un ritmo acelerado, lo que representa un desafío para científicos e investigadores que
deben esforzarse por mantenerse actualizados (
Sandoval
-
Almazán
, 2011). Blanch et
al.
(
20
16
)
consideró que, durante la última década las organizaciones han
experimentado un proceso de cambio con escasos o inexistentes precedentes en la
historia debido al acelerado ritmo de crecimiento de la competencia a nivel global,
surgen nuevos retos y a gran
velocidad en el enfoque tecnologicos, todo para
adaptarse a los cambios
,
el entorno cambiante y la identificación de nuevas líneas de
investigación prometedoras, para el progreso del conocimiento y la innovación, para
la definición de una nueva línea d
e investigación puede llegar a ser relativamente
compleja por el gradiente que puede existir en función de su generalidad o
especialización.
Como se mencionó anteriormente en el trabajo la identificación de nuevas líneas de
investigación han sido dependiente en gran medida del juicio, experiencia y
recomendaciones de investigadores individuales, empresarios educadores, si bien
este enfoque es v
alioso para
crear e identificar de las mismas también presentan
limitaciones claras como la subjetividad y la variabilidad entre las consideraciones de
Página |
199
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
los expertos que pueden estar orientadas a sesgos y omisiones de características y
hasta líneas de investigación completas, lo que vuelve más tedioso el proceso de
identificación y creación, por lo que se propon la reduccción de manera significativa
la ca
pacidad de una identificación oportuna de nuevas líneas y áreas de investigación.
En respuesta a estas múltiples limitaciones hemos propuesto un nuevo enfoque
basado en el procesamiento de lenguaje natural, según
(Augusto et al., 2009)
El
lenguaje natural (LN) es uno de los medios que usamos cotidianamente para
mantener comunicación. Mientras que (PLN) según se entiende como la capacidad
de una máquina para procesar la información comunicada, no solo las letras y sus
sonidos.
En palabras de (Augusto et al., 2009) el procesamiento de lenguaje natural (PLN)
consiste en la utilización de un lenguaje natural para comunicarnos con la
computadora, debiendo ésta entender las oraciones que le sean proporcionadas, el
uso de estos lengua
jes naturales, facilita el desarrollo de programas que realicen
tareas relacionadas con el lenguaje o bien, desarrollar modelos que ayuden a
comprender los mecanismos humanos relacionados con el lenguaje. Por medio de
esta investigación aporta la optimizac
ión de criterios de búsquedas avanzadas para
minimizar de manera significativa la inversión de tiempo y esfuerzo requerida por parte
de expertos en la creación de nuevas líneas de investigación.
2.
Metodología
Se pretende en este articulo como propuesta
la identificación de
indicadores para la
revisión periódica de líneas de investigación
de forma automatizada
como
caso
; en
carreras de ingeniería industrial
. Para ello se ha considero aplicar el
modelo SEMMA,
que permite abarcar todas las etapas del proceso de minería de datos. El enfoque del
modelo incluye
3
etapas, desde la fase inicial de recolección de datos hasta la
evaluación final de los modelos resultantes. A lo largo del proceso, se
realizó
un
análisis bi
bliométrico, centrándose en cuatro características clave para identificar los
campos de conocimiento esenciales que guiarían el desarrollo de nuevas líneas de
investigación. Para este análisis, se utilizaron datos que sumaban más de 2500
registros de artíc
ulos científicos con alto impacto en sus respectivas áreas de estudio.
C
on la selección
de
instrumentos de procesamiento la información
que soporte
Python
,
para
el análisis descriptivo de los datos,
aplicando
técnicas de machine
learning
para mejorar la calidad de los datos, experimentación y evaluación de los
diferentes modelos y finalmente la implementación del modelo de mejor desempeño
basada en machine learning.
El Machine Learning proporciona
a la
herramienta de
procesamiento de información útil para enriquecer y transformar adecuadamente los
materiales en aras a mejoras en los procesos productivos e industriales;
puntualmente, el machine Learning aporta a las máquinas una capacidad para generar
pa
tones o describir relaciones, adaptar
se a los cambios y resolver problemas sin
programación previa. (López et al., 2024)
.
Con la intención de potenciar nuestros
Página |
200
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
resultados se analizaron 4 características cruciales dentro de los criterios de búsqueda
bibliográficos las cuales son la ocurrencia, coocurrencia, el impacto y los campos de
conocimiento.
En palabras de Estrella & Lastra
-
Bravo
(
201
9
)
,
e
l análisis bibliométrico
es útil para analizar la cantidad y la calidad de las publicaciones científico
-
técnicas,
como las temáticas y áreas de estudio.
En el estudio presentado por (Angarita
-
Becerra, 2014)
los
bibliométricos facilitan no solo conocer más acerca de un tema
p
articular sino cualificar internamente el proceso científico, brindando información
importante sobre la producción científica en cuanto tal, que puede abrir otras líneas
de investigación mediante ideas de investigación que surgen de la misma reflexión
infe
rida desde la cuantificación y reflexión acerca de lo que se produce.
Para alimentar nuestra data nos dimos a la tarea de aplicar metodología cualitativa en
la revisión de cada uno de los artículos recolectados para el desarrollo de la
arquitectura de nuestro modelo predictivo, en cuanto a los procesos de recopilación,
debe ser de
fuentes fiables basadas en artículos científicos publicados en revistas de
alto impacto indexadas en bases de datos electrónicas las cuales constan en el
sistema regional de información en línea para revistas científicas del Caribe España y
Portuga
l (latindex) Scientific Electronic Library Online (Scielo), Red de revistas
científicas de América Latina y el Caribe, España y Portugal (Redalyc) y Scopus.
El
fin de esta recopilación de datos tenía como objetivo el conocer nuevas tendencias
creando un metadato en la cual se contengan datos como el tema, años de
publicación, códigos ISBN/ISSN, el enlace de publicación, la sección de resumen y
conclusión del a
rticulo las cuales fueron indispensables en el proceso de etiquetación
para la correcta identificac
ión de los paradigmas y criterios asociados al área de
interés.
(Rojas et al., 2023) Menciono que la metodología SEMMA es más que un
método de minería de datos, es un conjunto de herramientas funcionales que se
enfocan en los aspectos de autodesarrollo de los modelos de minería.
Para la
justificación de la aplicación de la metodología SEMMA se preparó un cuadro
comparativo encargado de justificar su importancia:
Tabla 1
Cuadro comparativo para la selección del proceso de minería de datos
Metodo
l
o
g
í
a
Descripción
Pasos
Mode
lo
%
KDD
Identificar patrones
implícitos en los
grandes volúmenes de datos y
convertirlos en conocimiento, filtrando y
descartando aquellos hallazgos que no
resulten útiles para los objetivos fijados
Selección
Preprocesamiento
Transforma
-
cion
Minería de datos
Interpretación
60%
SEMMA
Desarrollada por el SAS Institute. Va en
consonancia con el sistema de trabajo
de SAS Enterprise Miner, su software
de minería de datos
Muestreo
Exploración
Modificación
Modelado
Evaluación
100%
Página |
201
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
CRISP
-
DM
Un avance con respecto a KDD y
SEMMA en el
campo de los procesos
de minería de datos para el análisis en
Big Data, en el sentido de que anticipa
la repercusión de los hallazgos
Comprensión del
negocio
Comprensión del
negocio
Preparación de los
datos
Modelado
Evaluación
Despliegue
80%
CATAL
YST
C
onocido como P3TQ significa Product
place price time quality, se encuentra
conformada por dos modelos que es el
modelo de negocio y la de explotación
de información
Los datos son para
encontrar patrones
Cada problema es
una identificación de
oportunidad
Identificar donde
aplicar la minería de
datos
85%
FOLKS
OMIA
La folksomia ha recopilado los datos
necesarios para su uso y los ha
publicado en una plataforma web para
que puedan consultarlos, modificarlos o
usarlos
Comparación para
la extracción
50%
MAM
Es para uso de plataforma en
multimedia, para técnicas
convencionales
Transformación
Aplicación de
técnicas de minería
con
preprocesamiento
Procesamiento de
las imágenes
Análisis de
multimedia
20%
Nota:
Las diferentes metodologías de minería de datos donde se indica por qué la selección el método
SEMMA. Lady Sangacha (2025).
Variables identificadas:
Se utilizo la columna de Abstract como nuestra variable independiente tanto de
nuestra dataset 1 como de la dataset 2.
Cumpliendo el proceso considerando las 4 características de gran relevancia en los
criterios de búsqueda bibliográfica que son la ocurrencia, coocurrencia, el impacto y
los campos de conocimiento.
A continuación, te doy a conocer el desarrollo de cada etapa a través del modelo
SEMMA (Rojas et al., 2023).
Página |
202
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
3.
Resultados
3.1. Etapa 1: Proceso de muestreo
Se fortaleció la recopilación de los productos científicos (papel, libro o articulo) de
impacto, para ello se preseleccionó todo producto que
provenga de una fuente
confiable considerando las siguientes fuentes de base científica:
Tabla 2
Fuentes confiables usadas para el desarrollo del proyecto
Bases de datos científicas
Bibliotecas virtuales UG
https://scielo.org/
https://link.springer.com/
https://dialnet.unirioja.es/
elibro
https://www.redalyc.org/
https://www.sciencedirect.com/
https://www.sciencedirect.com/
https://scholar.google.com/
Nota
:
Listado corto de las bases de datos científicos. Lady Sangacha (2025).
Además de aplicar una rápida lectura
se considera 3 pasos, el primero es en leer el
titulo del documento hallado, debe estar relacionado al tema de la propuesta. El
segundo es
leer el resumen del documento
, esto proporciona partes del tema en
interés y finalmente leer las conclusiones ya que proporciona resultados de interés.
Para asegurar el impacto de los productos, según los expertos académicos y
científicos es necesario asegurarse de que los productos de base científica cumplan
con los criterios de preselección para su posterior
adición a la metadata para luego
realizar un meta análisis adecuado al momento de identificar el muestreo con sus
variables como se da a conocer a continuación:
Tabla 3
Elementos necesarios del articulo para su registro en el dataset
Elementos considerados para la metadata
AUTOR PRINCIPAL
Apellido del primer autor del Paper/Libro/Tesis
CITAS APA 7
REFERENCIA APA 7
FECHA DE PUBLICACION
(DD/MM/AAAA)
AÑO DE PUBLICACION
ISBN/ISSN
TITULO DEL ARTICULO
NOMBRE DE LA REVISTA O FUENTE DONDE FIE
PUBLICADO
URL
Resumen que trae el articulo
Descarga directa desde la fuente oficial (SI/NO)
Descarga indirecta por SCI
-
hub (SI/NO)
Página |
203
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
Idioma original del Paper/Libro/Tesis
Tipo de documento
Paper/Libro/Tesis
NOMBRE DEL ARCHIVO.pdf
Hallazgos del
articulo usando palaras, indicadores p variables destacadas, Evites
redacciones vacías o generalizaciones
Construya varios criterios o palabras claves que definan los hallazgos del articulo
(Ej. Canonical Polyadic Descomposition (CPD), Trensor
-
Train Network (TT), etc).
Abstract traducido al español usando Deepl.com
Conclusiones que trae el artículo en español usando Deepl.com
Nota
:
Criterios para el cumplimiento de productos de calidad. Lady Sangacha
(
2025
).
3.2. Etapa 2: Proceso de
exploración
Una vez asegurado la preselección de los productos, es sometido a la meta análisis
anteriormente mencionada visualizando los datos de la dataset para determinar las
líneas de investigación de la Universidad de Guayaquil enfocando únicamente la línea
de inv
estigación de “operaciones, algoritmos de automatización y aplicación”,
orientadas a la industria 4.0.
La industria 4.0 y la manufactura inteligente son parte de
una transformación, en la que las tecnologías de fabricación y de la información se
han integr
ado para crear innovadores sistemas de manufactura, gestión y formas de
hacer negocios, que permiten optimizar los procesos de fabricación. Se vio la
necesidad de dividir en 2 la dataset, con el propósito de cargar la primera data con las
palabras clave cl
asificadas en base a la variable de la columna de “Abstract traducido
al español con Deepl.com” mientras que la segunda dataset fue cargada en base a
los campos de educación y capacitación 2013 de la CINE
a)
La primera dataset es etiquetada con la identificación de palabras clasificadas que
se encuentren orientadas a la industria 4.0 en la automatización, control y supervisión
de procesos se partió desde las áreas y líneas de investigación de la Universidad de
Guayaquil, pero enfocados únicamente a la línea de investigación de “operaciones de
automatización y aplicación”, orientadas a la industria 4.0
(
Solano
-
Gutiérrez
,
2024)
.
b)
En la segunda dataset con los mismos criterios del paso 1 con una creación de
columnas en los distintos campos de educación y capacitación 2013 de la CINE que
constan en
1)
Educación
; 2)
Artes y humanidades
; 3)
Ciencias sociales, periodismo e
información
;
4)
Administración de empresas y derecho
; 5)
Ciencias naturales,
matemáticas y estadística
; 6)
Tecnologías de la
información y comunicación
; 7)
Ingeniería, industria y construcción
; 8)
Agricultura, silvicultura, pesca y veterinaria
; 9)
Salud y Bienestar
; 10)
Servicios
.
Como parte del proceso de exploración se identificó la necesidad de la aplicación del
diccionario de datos puesto que esto facilitaría los procesos de modelamiento por lo
que se pudo realizar a través de líneas de comando del lenguaje Python o de forma
man
ual donde al final llamaremos preprocesamiento en el proceso de modelamiento
Página |
204
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
de la metodología SEMMA para luego ser procesado a través de la máquina virtual de
google colab.
Además de la identificación de variables para alcanzar el objetivo de la propuesta se
consideró la columna de “Abstract traducido a español usando Deepl.com” para su
aplicación en la arquitectura del modelo de aprendizaje supervisado en procesamiento
de le
nguaje natural con la segunda dataset de áreas de conocimiento, en palabras de
(Camacho
et al.
, 2013) Un sistema de PLN se basa en el reconocimiento de conceptos
en el texto y la comprensión de las relaciones entre esos conceptos.
Procesamiento
natural del
lenguaje (PNL) es el campo de estudio que busca entender cómo funciona
el lenguaje, su construcción, la generación de nuevo lenguaje, así como todas las
tareas que tienen relación con el tratamiento del
lenguaje. (
Beltrán & Rodriguez,
2021)
.
La etiquetación de la dataset ha sido 26 columnas clasificadas creadas
detectadas como se da a conocer en la tabla a continuación y en la dataset 2 con 10
campos de conocimiento:
Tabla 4
Columnas identificando los elementos de coocurrencia e impacto de las palabras
clasificadas en 26 columnas
Palabras clasificadas de impacto
Inteligencia Computacional, (2) Procesamiento de Datos, (3) Creación de
algoritmos, (4) Inteligencia Artificial, (5) Búsquedas Automatizadas, (6) Machine
Learning, (7) Industria 4.0, (8) Modelos Predictivos, (9) Internet de las Cosas, (10)
Seguridad y Salu
d, (11) Control de Sistemas, (12) Data Mining, (13) Sistema
Eléctrico, (14) Motor de Control, (15) Supervisado, (16) Aplicación Empresarial, (17)
Utilización de Datos, (18) Mantenimiento de Sistema, (19) Indicadores de
Rendimiento, (20) Diagnósticos Indust
riales, (21) (22) Predicción de Datos, (23) Big
Data, (24) Robótica, (25) Cuántica, Aprendizaje Automático, (26) Deep Learning.
Nota:
Los campos detallados se diferencian en función de los métodos, técnicas, herramientas e
instrumentos.” (
UNESCO, 2014
.)
Tabla 5
Columnas identificando los campos de conocimiento de la CINE 2013
ÁREAS DE CONOCIMIENTO
(1)
educación
, (2)
artes
y
humanidades
, (3)
ciencias sociales
,
periodismo e
información
, (4)
administración de empresas
y
derecho
, (5)
ciencias naturales
,
matemáticas
y
estadística
, (6)
tecnologías
d
e
l
a información
y
comunicación
, (7
)
INGENIERÍA INDUSTRIA
y
construcción
, (8)
agricultura,
silvicultura
,
pesca
y
veterinaria
, (9)
salud
y
bienestar
, (10)
servicios
Nota:
Autores (2025).
Los estudios bibliométricos pertenecen a un campo de investigación interdisciplinario
que tiene el potencial de extenderse a casi todos los campos científicos. La
metodología de la Bibliometría comprende componentes de la Matemática, las
Página |
205
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
Ciencias Sociales, las Ciencias Naturales, la Ingeniería, la Informática, la estadística,
entre otras
(
Romaní
et al
.
,
2011)
.
3.3. Etapa 3: Proceso de
modificación y modelado
En este paso se aplicaron los 5 pasos de la creación de una arquitectura de modelo
algorítmico basado en machine learning que se mencionan a continuación:
Fase 1:
La recopilación de datos, luego este proceso, la metadata será sometida a un
proceso de meta análisis en donde se identifican claramente las variables
independientes y dependientes, para su proceso de modelamiento en la arquitectura
respectiva, en este pr
oceso de verifica que los datos necesarios se encuentren dentro
de la dataset 1 y 2.
Fase 2:
La aplicación del preprocesamiento envuelve todos los procesos de data
cleaning, data transformación, data reduction, para este caso se aplicó data cleaning
y data transformation por medio de la ejecución de líneas de comando de lenguaje de
programación l
lamado Python. Un lenguaje de programación es un lenguaje formal
definido como un conjunto de elementos (componentes léxicos) organizados a través
de constructores (reglas gramaticales) que permiten escribir un programa y que éste
sea entendido por
el computador y pueda ser trasladado a computadores similares
para su funcionamiento en otros sistemas.(Augusto et al., 2009)
Esta preparación es crucial antes de darle un entrenamiento a la maquina los datos
deben ser preprocesados, una vez terminado este proceso se logró actualizar un
aproximado de 1300 instancias correspondientes a los artículos científicos que
cumplían con s
er producciones de alto impacto relacionadas a la industria 4.0 con
algoritmos de operaciones, algoritmos de optimización y sus aplicaciones, para esta
fase se eliminan los registros que incumplen con esta norma además de campos
innecesarios y/o incompleto
s. La Industria 4.0 es la revolución más reciente de la
industria, que se centra en gran medida en la interconectividad, los macrodatos, los
sistemas ciberfísicos y la inteligencia artificial. centrada en la interconectividad, los
macrodatos, los sistemas
ciberfísicos y el ML, también se conoce como Internet
Industrial de las Cosas (IIoT), que significa el proceso de fabricación inteligente, que
fusiona las operaciones físicas con procesos inteligentes impulsados por la
inteligencia artificial y la automat
ización. Una vez terminado el proceso se procede
con la carga de los dataset 1 y 2, para continuar el proceso utilizamos el lenguaje
Python con una herramienta científica de datos para el debido proceso de exploración,
preprocesamiento y procesamiento.
Se presenta una sección de los datos utilizando comando de Python para facilitar la
exploración directa e indirecta de los datos y llevar a cabo una exploración EDA
(Exploración de Análisis de Datos)” El análisis permite recopilar y evaluar información
rel
evante para identificar oportunidades y desafíos
marcando el comienzo de la
búsqueda de correlaciones en los datos y la aplicación de métodos de
preprocesamiento, durante la exploración se identificaron aquellos valores vacíos
Página |
206
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
dentro de la matriz, los cuales se procedió a dar su correspondiente tratamiento,
durante este proceso se tuvieron en cuenta las variables dependientes e
independientes considerando el modelo algorítmico diseñado para la clasificación de
texto y la columna
que permitiría aplicarlo.
Fase 3:
Una vez listas las datasets aplicadas se contempla la identificación de la
muestra parta su proceso de modificación y modelado, es necesario haberse aplicado
el preprocesamiento, posteriormente se realiza una última exploración así asegurando
que todos los
datos estén correctamente tratados y no existan cabos sueltos “La
Visualización es generalmente utilizada para obtener un entendimiento preliminar de
los datos al inicio del proceso de KDD, y con esto se logra refinar los objetivos y tareas
defin
idas inicialmente en la fase de formulación del problema.
Fase 4:
Aplicación del modelo de aprendizaje supervisado multietiqueta basado en
machine learning, para concluir con este paso se realizaron varias pruebas de
arquitectura hasta dar con la final.
Tabla 6
Resultados de la aplicación de modelos
Modelo
Precisión final del
modelo
% de precisión final del modelo
MultinomialNB
0.47
47%
Logistic Regression
0.42
42%
Random Forest
0.40
40%
SVC
0.81
81%
Nota:
Se obtiene los resultados de los diferentes modelos basado en machine learning. Lady
Sangacha. 2025
La clasificación multietiqueta es una variante de la clasificación tradicional de etiqueta
única, en la que un objeto ya no se clasifica exclusivamente por una etiqueta. En su
lugar, este aprendizaje pretende asignar a un objeto una o más clases de etiquet
as
de un conjunto predefinido de clases. (Bello et al., 202
3
)
Fase 5:
La aplicación de las métricas de evaluación correspondientes al modelo final
ya que “El proceso científico requiere de una serie de repeticiones o replicaciones que
permitan una acumulación de observaciones para expresar un juicio de probabilidad
de la
existencia de dichas relaciones entre variables o conceptos.” para asegurar su
calidad finalmente obteniéndose los siguientes resultados:
Página |
207
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
Figura 1
Matriz de confusión del modelo con la dataset 1
Nota
: Resultados de los modelos. Lady Sangacha. 2025
Se procede a correlacionar con el campo de conocimiento de ingeniería, industria y
construcción para proponer líneas de investigación obteniendo lo siguiente:
Tabla 8
Tabla De Correlación
Resultados
Bibliométricos
Utilización De
Datos
Predicción De
Datos
Supervisado
Registros
27%
26%
25%
Campos De
Conocimiento O
Áreas De
Conocimiento
Ingenieria,
Industria Y
Construccion.
Ingenieria,
Industria Y
Construccion.
Ingenieria,
Industria Y
Construccion.
Tecnologias De La
Informacion Y
Comunicacion.
Tecnologias De La
Informacion Y
Comunicacion.
Tecnologias De La
Informacion Y
Comunicacion.
Educacion.
Ciencias Sociales,
Periodismo E
Informacion.
Ciencias Sociales,
Periodismo E
Informacion.
Salud Y Bienestar.
Salud Y Bienestar.
Salud Y Bienestar.
Educacion.
Nota:
Resultados correlaciones. Lady Sangacha
(
2025
).
4.
Discusión
El presente estudio utilizó motores de búsqueda como SciELO y ScienceDirect, entre
otros, para la creación de un conjunto de datos compuesto por más de
25
00 registros
de las cuales se logró disernir a 1300 registros adecuados
, permitiendo un análisis
exhaustivo de la literatura disponible enfocando únicamente la línea de investigación
de “operaciones, algoritmos de automatización y aplicación” aplicado a la Industria
4.0, en un
a
primer
a
a
dataset se etiquetaron 26 clasificaciones relacionadas la línea
de inv
estigación de “operaciones, algoritmos de automatización y aplicación” y 10
Página |
208
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
clasificaciones adicionales en un segundo dataset que abarcan los campos del
conocimiento reconocidos por la CINE en 2013.
La investigación identificó cuatro criterios esenciales de búsqueda bibliométrica:
coocurrencia, impacto, campos de conocimiento y visitas del artículo.
Existe la
bibliométria como tecnica cuantitativa en los respectivos del analisis para la
investigación de la académica educativa superior.
Estos criterios permitieron una
evaluación detallada de las tendencias y la relevancia de los estudios en la disciplina.
Los indicadores bibliométricos son datos numéricos calculados a partir de las
características bibliográficas observadas en los documentos publicados en el mundo
científico y académico, y
el analisis para su producción
(Flores
-
Fernández & Aguilera
-
Eguía, 2019), en palabras de (Arbeláez Gómez & Onrubia Goñi, 2014) la bibliometría
o los estudios bibliométricos se utilizan para analizar la información relacionada con
la producción científica.
Menciona
Escorcia
-
Otalora
(
2008)
que el uso en la
bibliometría se
buscan calcular los
diferentes indicadores
en base
al tipo o diversidad de documento como es el caso de
los artículos
cientificos
publicados en revistas de investigación los cuales pueden
analizarse bibliométricamente
. Estos estudios
a partir de bases de datos
, puede ser
contable con
la producción científica por
distintos
países y, además la identificación
de grupos de trabajo, áreas de excelencia,
en
asociaciones
de
temáticas,
la
interdiscip
linariedad,
la
disciplinas
en
emergentes,
las
prioridades en la ciencia,
etc
.
(
Alonso
& Reyna
, 2005)
Como
lo indica
(Espinosa
-
Castro
et al.
, 2019) los indicadores bibliométricos
es el uso
de
herramientas
de mayor frecuencia
para la medición del producto de la investigación
científica, porque la documentación (independientemente del tipo de soporte) es el
vehículo más prolífico y exitoso para la transferencia del conocimiento científico,
conjuntamente con su por medio de conf
erencias y comunicaciones personales.
Los
resultados indican que las principales líneas de investigación emergentes se centran
en 'Uti
lización de Datos', 'Predicción de Datos' y 'Supervisados'. El análisis
bibliométrico reveló nuevas aplicaciones de machine learning en la enseñanza para la
Industria 4.0, destacando la evolución del conocimiento y su impacto en la formación
académica y pr
ofesional.
El análisis de contenidos, realizado con Python utilizando algoritmos de
procesamiento de lenguaje natural, confirmó la efectividad del enfoque supervisado
en la clasificación y comprensión de grandes volúmenes de datos textuales. Este
método no solo facil
itó el descubrimiento de nuevas aplicaciones, sino que también
puede ser replicado en otras líneas de investigación, como el Internet de las Cosas
(IoT).
Página |
209
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
5.
Conclusiones
Este estudio ha realizado un
análisis exhaustivo de la literatura científica relacionada
con la aplicación de operaciones, algoritmos de automatización y machine learning en
el contexto de la Industria 4.0. A través de técnicas bibliométricas y análisis de
contenido
recopilando más de 2500 registros por la metodologia SEMMA idoneo para
el proceso
, se ha logrado identificar las tendencias emergentes, los actores clave y
las áreas de mayor interés en esta disciplina.
Los resultados obtenidos evidencian un
creciente interés en la utilizac
ión de datos para la toma de decisiones, la predicción
de eventos y el desarrollo de modelos supervisados.
La implementación de algoritmos
de procesamiento de lenguaje natural ha sido fundamental para clasificar y
comprender grandes volúmenes de texto científico
por el modelo SVC
, lo que ha
facilitado la identificación de patrones y tendencias. Este enfoque no solo es aplicable
a la Industria 4.0, sino que también puede ser extendido a otros campos de
conocimiento.
Referencias
B
ibliográficas
Alonso Gamboa, J. O., & Reyna Espinosa, F. R. (2005).
Compilación de datos
bibliométricos regionales usando las bases de datos clase y periódica.
Revista
Interamericana de Bibliotecología
, 28(1), 63
-
78.
https://doi.org/10.17533/udea.rib.8596
Angarita Becerra, L. D. (2014). Estudio bibliométrico sobre uso de métodos y técnicas
cualitativas en investigación publicada en bases de datos de uso común entre
el 2011
-
2013.
Revista Iberoamericana de Psicología
,
7
(2), 67
–
76.
https://doi.org/10.33881/2027
-
1786.rip.7207
Arbeláez Gómez, M. C., & Onrubia Goñi, J. (2016). Análisis bibliométrico y de
contenido. Dos metodologías complementarias para el análisis de la revista
colombiana Educación y Cultura.
Revista De Investigaciones · UCM
,
14
(23),
14
–
31.
https://doi.org/10.22383/ri.v14i1.5
Augusto Cortez Vásquez, M., Hugo Vega Huerta, M., Jaime, L., & Quispe, P. (2009).
Procesamiento de lenguaje natural
.
Revista de Ingeniería de Sistemas e
Informática
, 6(2), 45
-
54.
https://sisbib.unmsm.edu.pe/bibvirtual/publicaciones/risi/2009_n2/v6n2/a06v6n
2.pdf
Bello García, M., Bello Pérez, R., Nápoles, G., Vanhoof, K., García Lorenzo, M., &
Aguilera Calzadilla, Y. (2023). Desarrollo de técnicas para el preprocesamiento
y la predicción de problemas de clasificación multietiqueta.
Anales de la
Academia de Ciencias de Cuba, 13
(3), e1344.
https://revistaccuba.sld.cu/index.php/revacc/article/view/1344
Beltrán Beltrán, N. C., y Rodríguez Mojica, E. C. (2021). Procesamiento del lenguaje
natural (PLN)
-
GPT
-
3.: Aplicación en la Ingeniería de Software .
Tecnología
Página |
210
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
Investigación y Academia
,
8
(1), 18
–
37.
https://revistas.udistrital.edu.co/index.php/tia/article/view/17323
Blanch, J., Gil, F., Antino, M., & Rodríguez
-
Muñoz, A. (2016). Modelos De Liderazgo
Positivo: Marco Teórico Y Líneas De Investigación. In
Papeles del Psicólogo /
Psychologist Papers,
37(3).
https://www.papelesdelpsicologo.es/pdf/2772.pdf
Camacho, J., Moreno, S., Suarez
‐
Obando, F., Puyana, J. C., & Gómez
‐
Restrepo, C.
(2013). El procesamiento de lenguaje natural y su relación con la investigación
en salud mental.
Revista Colombiana de Psiquiatría, 42
(2), 227
-
233.
https://www.redalyc.org/articulo.oa?id=80629187011
Escorcia, T. A. (2008).
Análisis bibliométrico como herramienta para el seguimiento
de publicaciones científicas, tesis y trabajos de grado
. Recuperado de:
http://hdl.handle.net/10554/8212
Espinosa
-
Castro, J.F., Hernández
-
Lalinde, J., Rodríguez, J. E., Chacín, M., &
Bermúdez
-
Pirela, V. (2019). Indicadores bibliométricos para investigadores y
revistas de impacto en el área de la salud.
AVFT
–
Archivos Venezolanos De
Farmacología Y Terapéutica
,
38
(3).
http://saber.ucv.ve/ojs/index.php/rev_aavft/article/view/16806
Estrella, N., & Lastra
-
Bravo, X. B. (2019). Análisis bibliométrico de los trabajos de
titulación de ocho Universidades de Pichincha, Napo y Orellana
(Ecuador).
Siembra
,
6
(1), 050
–
067.
https://doi.org/10.29166/siembra.v6i1.1720
Flores
-
Fernández, C., & Aguilera
-
Eguía, R. (2019).
Bibliometric indicators and their
importance in clinical research.
Why know them?,
Revista de la Sociedad
Espanola del Dolor
26
(5). (315
–
316).
https://doi.org/10.20986/resed.2018.3659/2018
López Telenchana, L. S. L., Serrano Torres, G. J., Quintana López, X. A., & Reina
Haro, D. M. (2024).
Machine Learning in Industry 4.0: a systematic review.
Salud, Ciencia y Tecnología
,
4
, 1068.
https://doi.org/10.56294/saludcyt20241068
Muñoz
-
Estrada, G. K., Chumpitaz Caycho, H. E., Barja
-
Ore, J., Valverde
-
Espinoza,
N., Verde
-
Vargas, L., & Mayta
-
Tovalino, F. (2022).
Bibliometric analysis of the
world scientific production on the flipped classroom in medical education.
Educacion Medica
,
23
(5).
https://doi.org/10.1016/j.edumed.2022.100758
Rojas, G. C., Carreño, S. C., Ovalle, C., & Chávez, E. H. R. (2023).
Intelligent
predictive model applying Data Mining strategies for a credit evaluation of a
commercial company.
Proceedings of the LACCEI International Multi
-
Conference for Engineering, Education and Technology
,
2023
-
July
.
https://doi.org/10.18687/laccei2023.1.1.1148
Romaní, F., Huamaní, C., & González
-
Alcaide, G. (2011).
Estudios bibliométricos
como línea de investigación en las ciencias biomédicas: Una aproximación para
el pregrado
.
CIMEL Ciencia e Investigación Médica Estudiantil
Latinoamericana, 16
(1), 52
-
62.
http://www.redalyc.org/articulo.oa?id=71723602008
Página |
211
Research Article
Mayo
–
Agosto
202
5
Revista Científica Zambos / Vol. 0
4
/ Num. 0
2
/ www. revistaczambos.utelvtsd.edu.ec
Sandoval
-
Almazán, Rodrigo. (2011). Mentes en peligro: El daño de internet en nuestro
cerebro.
Convergencia
,
18
(56), 241
-
248. Recuperado en 31 de mayo de 2025,
de
http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405
-
14352011000200010&lng=es&tlng=es
.
Solano
-
Gutiérrez, G. A. (2024). La Tecnología en la Educación a Distancia: Revisión
de Progresos y Obstáculos a Superar.
Revista Científica Zambos
,
3
(2), 48
-
73
.
https://doi.org/10.69484/rcz/v3/n2/17
Unesco (2014),
La Clasificación Internacional Normalizada de la Educación (CINE)
forma parte de la familia internacional de Clasificaciones Manual que acompaña
la Clasificación Internacional Normalizada de la Educación 2011
Campos de
educación
y
capacitación
2013
de
la CINE (IsCEd
-
F 2013).
https://doi.org/10.15220/978
-
92
-
9189
-
157
-
3
-
sp