doi: 10.47460/uct.v25i110.481
Predicción del corte de la hoja de celulosa mediante el uso de Machine
Learning
Luis Andrés Martínez Flores
lamartinez@ubiobio.cl
Departamento de Ingeniería Industrial, Facultad de
Ingeniería, Universidad del
Concepción, Chile
Recibido (12/04/21 ) Aceptado (09/06/21)
Resumen:La celulosa es la principal materia prima para la producción de papel. Empresas que la producen presentan en su línea de producción el corte de la hoja de celulosa. Esta falla es esporádica y de alto impacto económico dado a que paraliza por varias horas la línea de producción, incurriéndose en horas improductivas y un gran despliegue de recursos humanos y financieros. En esta investigación se propone uso de Minería de Datos para definir un algoritmo de machine learning que permita predecir el corte de la hoja de celulosa en una línea de producción de una planta de celulosa en Chile. Los resultados muestran que mediante la aplicación de esta técnica es posible predecir el corte de la hoja de celulosa con la suficiente antelación como para tomar acciones correctivas que permitan evitar el corte y así minimizar el impacto económico asociado a la falla.
Palabras Clave: Minería de Datos, Machine Learning, Celulosa, Productividad.
Prediction of cellulose sheet cutting using Machine Learning
Abstract: Cellulose is the main raw material for the production of paper. Companies that produce it present in their production line the cutting of the cellulose sheet. This failure is sporadic and has a high economic impact since it paralyzes the production line for several hours, incurring unproductive hours and a large deployment of human and financial resources. In this research, the use of Data Mining is proposed to define a machine learning algorithm that allows predicting the cutting of the cellulose sheet in a production line of a cellulose plant in Chile. The results show that by applying this technique it is possible to predict the cutting of the cellulose sheet well in advance to take corrective actions to avoid cutting and thus minimize the economic impact associated with the failure.
Keywords: Data Mining, Machine Learning, Cellulose, Productivity.
109
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine
I. INTRODUCCIÓN
El proceso de producción de celulosa está sujeto a varios requisitos que son determinantes para tener una producción de calidad óptima. En tal contexto, existe una falla sin solución y de alto costo económico para las empresas relacionadas a esta industria: el corte de hoja de celulosa. Esta falla afecta considerablemente el proceso productivo en términos de tiempo, dinero, ma- teriales, entre otros. A raíz de lo anterior, es que se hace latente la necesidad contar con un sistema de predicción de fallas para este proceso [1].
La predicción de fallas es una temática que ha ido cobrando mayor relevancia para las empresas duran- te las últimas décadas. Si la predicción es confiable y cumple con los objetivos planteados por parte de los interesados, es posible emplear medidas correctivas para evitar potenciales problemas, haciendo del proce- so de producción un sistema más tolerante a las fallas. Entre las principales consecuencias de estas fallas se encuentran: Disminución de los indicadores claves de rendimiento, pérdidas de producción y económicas, e incumplimiento en el plan operativo de producción de las empresas [2].
Para el análisis de fallas, las empresas productivas almacenan grandes volúmenes de datos obtenidos des- de el proceso productivo, junto a otros datos caracte- rísticos propios de los productos. Estos datos son útiles para la gestión de sus operaciones e inspección de sus productos. En este contexto, las herramientas tradicio- nales de análisis de datos han sido utilizadas con cierto éxito para predecir fallas en este tipo de sistemas. De-
bido al crecimiento masivo de los datos y complejidad de los procesos, los analistas han requerido técnicas más sofisticadas para enfrentar la predicción de fallas
[3][4]. Frente a este escenario de crecimiento de datos y complejidad de los procesos, la minería de datos se presenta como una alternativa útil para el apoyo a la toma de decisiones y una herramienta crucial en la pre- dicción de fallas de sistemas productivos [5]. En el caso específico de la producción de celulosa, el proceso es complejo e involucra un volumen considerable de datos que representan muchas variables de entrada y salida. Además, se presenta cierto grado de dificultad para res- catar los datos del proceso, para que estos puedan ser aplicados a modelos predictivos y de optimización.
Esta investigación utilizó minería de datos para en- trena un conjunto de algoritmos de machine learning y se selecciona el de mejor desempeño para la predic- ción de fallas para el corte de hoja de celulosa en la Planta de Celulosa Nueva Aldea (PCNA) perteneciente al Holding Arauco, ubicada en la Región del Biobío, Chile. Específicamente, se analizó la parte del proceso asociada a la formación y secado de hoja de celulosa de la Línea 2 en el área de máquinas (ver figura 1). El pe- riodo de estudio fue de 17 meses, desde enero de 2017 a mayo de 2018. Según lo observado durante este pe- riodo, las constantes fallas disminuyeron los niveles de productividad, donde las pérdidas promediaron hasta en un 25% en los meses más críticos. Las pérdidas totales del periodo equivalen a 16.944 ADt (Air dry ton), que corresponden a 20,4 MM US$.
Fig. 1. Área de máquinas en PCNA, proceso de formación y secado de hoja de celulosa en línea final del proceso.
110
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine
II.MACHINE LEARNING EN LA PREDICCION DE FALLAS
La minería de datos es la parte del proceso Knowle- dge Discovery in Databases (KDD) donde se aplican los algoritmos necesarios para la identificación de pa- trones válidos, comprensibles, novedosos y potencial- mente útiles en los datos [6]. Los algoritmos utilizados son conocidos como machine learning. La minería de datos ha sido aplicada con éxito a datos derivados de procesos productivos en la industria manufacturera para la prevención de fallas en maquinarias o partes del pro- ceso productivo.
En [7] se muestra el desarrolló un enfoque hibrido del algoritmo de machine learning red Neuronal artifi- cial y lógica difusa para predecir el ancho de ranura en el proceso de corte por rayo láser en láminas de acero delgadas. Los resultados permitieron minimizar poten- ciales fallas haciendo del sistema un proceso más tole- rante a los errores. Por otro lado, en [8] se desarrolló un método para la preparación y transformación de datos de fallas de sistemas de control para la industria auto- motriz. Luego se aplicaron algoritmos de clústers para encontrar relaciones en los datos de fallas emergentes del sistema, detectando que el agrupamiento jerárquico produce agrupaciones de mejor calidad en la predicción de fallas. En [9] se emplearon técnicas de minería de datos para predecir y clasificar los modos de fallas de dos placas compuestas tipo sándwich fijadas/atornilla- das. Específicamente, se utilizaron máquina de vectores de soporte, métodos bayesianos,
sultados permitieron reducir costos de mantenimiento, una mayor vida útil de las máquinas excavadoras y un aumento en la producción.
Por otra parte, en [13] se investigó la predicción de fallas en el proceso de mantenimiento de aeronaves. Para lo anterior, se empleó un modelo de agrupamiento de red de fallas bayesiano en tiempo real. Este modelo demostró una alta tasa de precisión y la investigación contribuyó considerablemente al proceso de manteni- miento, protección y conservación de los sistemas aero- náuticos. En [14] se desarrolló un modelo de predicción de fallas en los sistemas de nube y de computación de alto rendimiento. Para esto se aplicaron algoritmos de machine learning tales como máquina de vectores de soporte (SVM),
Dada esta revisión bibliográfica se determinaron los algoritmos generales de machine learning que se utili- zaron en esta investigación. Estos algoritmos se descri- ben a continuación:
Clasificador Bayesiano: Este es un clasificador es- tadístico que estima la probabilidad de pertenencia de un individuo a una clase o no, dado un conjunto de va- riables que lo caracteriza. Está basado en el teorema de Bayes y muestra un alto accuracy y rapidez cuando es aplicado a grandes bases de datos [9] [13].
Árbol de Decisión: un árbol de decisión es un dia- grama de flujo con una estructura de árbol en forma je- rárquica [11] [17] donde:
•Cada nodo denota un atributo sobre el que se realiza
111
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine
una prueba.
•Cada rama derivada de un nodo representa las cate- gorías del atributo como resultado de la prueba.
•Cada hoja representa una clase que se asigna a un registro.
Support Vector Machine (SVM): Es un modelo de clasificación y regresión de la teoría de aprendizaje es- tadístico. La metodología se basa en minimizar el error cuadrático de la clasificación, construyendo un hiper- plano que separa los datos de la forma más precisa po- sible [10] [16].
Rede Neuronal: Este algoritmo imita el cerebro hu- mano en la transformación de entradas en una o más salidas como un conjunto de neuronas [7] [18]. Una red neuronal está compuesta por una capa de entrada y de salida que están conectadas a través de un conjunto de nodos interconectados, conocido como capa oculta. La capa oculta procesa la información utilizando un con- junto de ponderaciones, asignadas a cada conexión. El proceso de aprendizaje de la red neuronal consiste en asignar estas ponderaciones a través del conjunto de en- trenamiento [19].
Para el entrenamiento de estos algoritmos de ma- chine learning se aplicó la técnica de entrenamiento y prueba llamada validación cruzada. Esta técnica con- siste en separar el conjunto de datos en k subconjuntos de la misma cantidad de registros, utilizando
El resultado de este proceso de entrenamiento y prueba fue representado mediante una matriz llamada Matriz de Confusión [21]. La Matriz de Confusión cla- sifica la predicción de un modelo en cuatro categorías: verdaderos positivos (VP) que son los elementos de la clase positiva (Corte de hoja) correctamente predichos por el modelo, los falso negativo FN que representa los elementos de la clase positiva incorrectamente predi- chos por el modelo, los verdaderos negativos VN que representa los elementos de la clase negativa (No corte de la hoja) correctamente predichos por el modelo y la tasa falso positivo FP que representa los elementos de la clase negativa incorrectamente predichos. Mediante estos cuatro valores se definen las siguientes medidas de desempeño predictivo:
Accuracy: mide el desempeño general del modelo y representa la proporción total de predicciones que fue- ron correc¬tamente clasificadas y se obtiene la suma de VP y VN dividido por el total de datos en la matriz.
Recall: representa la tasa de elementos pertenecien-
112
te a la clase positiva que fueron clasificadas co¬rrecta- mente y se obtiene al dividir VP entre la suma de VP y FN.
Precision: representa la tasa de elementos de la cla- se positiva entre el total de ele¬mentos predichos como clase 1. Se obtiene al dividir VP entre la suma de VP y FP.
A continuación, se muestra la metodología utilizada para búsqueda de patrones de corte de la hoja de celulo- sa mediante minería de datos y su posterior aplicación a la predicción y prevención del corte.
III. METODOLOGÍA
Como se mencionó anteriormente, la minería de datos es la parte del proceso Knowledge Discovery in Databases (KDD) [22]. Este proceso es el fundamento metodológico mediante el cual se desarrolla esta inves- tigación. Esta metodología o proceso explora de forma iterativa grandes volúmenes de datos y está compuesta por cinco etapas:
•Selección de datos, donde se determinan las fuentes de datos y el tipo de información con la cual se trabajará [23] [24].
•Pre procesamiento y transformación de los datos, con el fin de tener información más confiable y que aporte mayor valor a la predicción. En esta etapa se pre- paran y limpian los datos extraídos para aplicar de ma- nera correcta las siguientes etapas. Se utiliza el análisis de datos faltantes, el análisis de datos inconsistentes, y el análisis de datos fuera de rango [25]. También, si es necesario, se modifica la naturaleza de los datos y se ge- neran nuevas variables para obtener patrones de mejor calidad [8] [26].
•Selección de variables, donde se identifican las va- riables redundantes y las de mayor poder predictivo so- bre la variable dependiente o variable a predecir. Esta selección permite la obtención de modelos más sesillos y explicables. También permite obtener patrones más robustos y de mejor calidad [8] [26].
•Minería de datos, etapa en la cual se aplican los al- goritmos de machine learning que permiten extraer pa- trones relevantes desde los datos [19] [27].
•Evaluación de los algoritmos e interpretación de los resultados, donde se evalúan los algoritmos respecto a la búsqueda de patrones. Para esto se realiza una com- paración de sus desempeños. Luego se interpretan los patrones obtenidos y se evalúa el impacto de la imple- mentación del algoritmo seleccionado [28].
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine
Tabla 1. Síntesis extracción de datos.
N° Total de variables
N° de variables consideradas Periodo de estudio Extracción de datos Registros Línea 2
Registros asociados a 47 Cortes
500
53
17 meses
Extracción de datos cada 1 minuto 77.800 5.640
B.Identificación de variables con mayor poder predictivo
En esta etapa, a cada una de las variables seleccio- nadas se le midió la capacidad predictiva respecto a la variable dependiente. Esta variable dependiente es co- nocida como “label” y se asocia a cada registro. Esta variable toma la categoría “si sucedió” o la categoría
“no sucedió” el evento de corte de la hoja de celulosa. Esta capacidad predictiva fue medida mediante la Ga- nancia de Información. Esta técnica mide la cantidad de información contenida en una variable y que explica el label. La tabla 2 muestra los 20 atributos con mayor poder predictivo según esta técnica.
Tabla 2. Los 20 atributos con mejor capacidad predictiva según su Ganancia de Información.
113
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine
Tabla 3. Descripción de algoritmos de RapidMiner y ajuste de parámetros.
Para el entrenamiento, ajuste y prueba de los algorit- mos se utilizó el proceso que se muestra en la figura 2. Se observa que la base de datos pre procesada pasa por una etapa de normalización para ajustar los datos a una misma escala, luego se seleccionan las variables rele-
vantes para pasar a la etapa de entrenamiento y prueba mediante validación cruzada con k=10 folders. El deta- lle de la etapa de validación cruzada la muestra la flecha en color azul.
114
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine
Fig. 2. Proceso de entrenamiento y prueba de algoritmos en RapidMiner.
D.Evaluación de los modelos e interpretación económica de los resultados
La tabla 4 muestra el desempeño general promedio y la desviación estándar de los algoritmos de machine
learning entrenados con las 53 variables consideradas. El de mayor accuracy fue AutoMLP, por lo que fue el elegido para predecir el corte de la hoja de celulosa.
Tabla 4. Desempeño predictivo de los algoritmos de RapidMiner para 53 atributos.
La tabla 5 muestra el desempeño del algoritmo Au- toMLP en diferentes pruebas, las que consideran dis- tintos subconjuntos de atributos, priorizados según su
capacidad predictiva. Este desempeño fue medido me- diante accuracy, precission y recall.
Tabla 5. Accuracy, precission y recall para Red Neuronal y distintos subconjuntos de variables.
115
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine
Dado a que el corte de la hoja de celulosa es una falla crítica, por su gran impacto económico, se decide priorizar el desempeño predictivo del algoritmo por so- bre un ajuste más sencillo con una menor cantidad de variables. Por esta razón se elige la prueba 1, AutoMLP con 53 variables como el mejor algoritmo entrenado. La utilización de este algoritmo para la predicción del corte de la hoja de celulosa implica una reducción con- siderable del impacto económico al evitar la falla. Para evaluar el impacto de su implementación, se evaluó el caso hipotético en que el algoritmo hubiese estado im- plementado para predecir los 47 cortes de hoja de celu- losa considerados en el periodo de estudio. Para esto, se consideró el valor del recall que representa el número de cortes de hoja correctamente predichos. Este valor fue de 99,82% considerando 53 atributos. Por lo que la reducción estimada de costos en los 47 cortes, dado este nivel de recall, es de 20,4 MM US$ * 0,9982 = 20,3 MM US$.
Para comprender de manera general el patrón de cor- te de la hoja de celulosa, en la figura 3 se muestra un
árbol construido con los resultados obtenidos mediante al algoritmo Decision Tree. Este árbol contribuye a un mejor control de las variables más importantes para im- pedir que ocurran nuevos cortes de hojas de celulosa. Su análisis muestra que la variable que más influye en el corte de la hoja de celulosa es Combi Press Top Felt Suction Box. Si esta variable se mantiene sobre
63.3y 126.7 metros/minuto se produce el corte. Si la velocidad es superior a 126.7 metros/minuto y la va- riable Temperatura Vapor a Secador está por debajo de
163.1°C existe alta probabilidad de corte. En términos generales, basado en las tres variables más relevantes, si la variable Combi Press Top Felt Suction Box se man- tiene bajo 46.4 kPa, la Velocidad de Foudrinier sobre
126.7metros/minuto y la Temperatura Vapor a Secador sobre 163.1 °C, debería evitarse a lo menos el 50% de los cortes de hoja de celulosa.
Fig. 3. Árbol de decisión asociado al corte de la hoja de celulosa.
116
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine
V. CONCLUSIONES
No se encontró un método para la predicción de fa- llas en el corte de hoja de celulosa en la literatura por lo que se puede considerar esta investigación como in- édita.
Los algoritmos de machine learning utilizados fue- ron capaces de identificar el patrón para la predicción del corte de la hoja de celulosa. El algoritmo de mayor desempeño predictivo fue AutoMLP. El algoritmo De- cision Tree permitió analizar el patrón más general en base a las tres variables más importantes, lo que garan- tiza la reducción de a lo menos un 50% de los cortes de hoja.
Dado el alto valor de Recall del algoritmo AutoMLP entrenado con 53 variables, bajo el supuesto que este se hubiese implementado durante los 17 meses de estudio, la reducción del impacto económico de la falla hubiese bajado en 20.3 MM US$.
Como la implementación de este algoritmo permi- tirá la predicción de esta falla con una ahora de antici- pación, se podrán generar alertas preventivas en tiempo real y un plan de acción para prevenir los cortes.
El patrón general para prevenir los cortes, dada una alerta preventiva, será mantener Combi Press Top Felt Suction Box bajo
REFERENCIAS
[1]B. Ranaganth y G. Viswanath, «Application of arti- ficial neural network for optimizing cutting variables in laser cutting of 304 grade stainless steel,» International Journal of Applied Engineering and Technology, vol. 1, nº 1, pp.
[2]M. Durica, J. Frnda y L. Svabova, «Decision tree based model of business failure prediction for Polish companies,» Oeconomia Copernicana, vol. 10, nº 3, pp.
[3]G. Köksal, İ. Batmaz y M. C. Testik, «A review of data mining applications for quality improvement in manufacturing industry,» Expert systems with Applica- tions, vol. 38, nº 10, pp.
[4]H. Poblete y R. Vargas, «Relacion entre densidad y propiedades de tableros HDF producidos por un proce- so seco,» Maderas. Ciencia y tecnología, vol. 8, nº 3, pp.
[5]B. Kovalerchuk y E. Vityaev, «Data mining for fi- nancial applications,» Data Mining and Knowledge Discovery Handbook, pp.
[6]U. Fayyad, G.
lligence, 1996.
[7]A. K. Pandey y A. K. Dubey, «Neuro fuzzy modeling of laser beam cutting process,» Applied Mechanics and Materials, vol. 110, pp.
[8]M. Németh y G. Michaľčonok, «Preparation and cluster analysis of data from the industrial production process for failure prediction,» Research Papers Faculty of Materials Science and Technology Slovak University of Technology, vol. 24, nº 39, pp.
[9]S. Ballı, «A data mining approach to the diagnosis of failure modes for two serial fastened sandwich compo- site plates,» Journal of Composite Materials, vol. 51, nº 20, pp.
[10]S. Dindarloo y E.
[11]E. e Oliveira, V. Miguéis, L. Guimarães y J. L. Bor- ges, «Power Transformer Failure Prediction: Classifi- cation in Imbalanced Time Series,» U. Porto Journal of Engineering, vol. 3, nº 2, pp.
[12]A. Taghizadeh y N. Demirel, «Application of Ma- chine Learning for Dragline Failure Prediction,» E3S Web of Conferences, vol. 15, p. 03002, 2017.
[13]W. Chang, Z. Xu, M. You, S. Zhou, Y. Xiao y Y. Cheng, «A Bayesian Failure Prediction Network Based on Text Sequence Mining and Clustering,» Entropy, vol. 20, nº 12, p. 923, 2018.
[14]K. Halteh, K. Kumar y A. Gepp, «Financial distress prediction of Islamic banks using
[16]B. Mohammed, I. Awan, H. Ugail y M. Younas, «Failure prediction using machine learning in a virtua- lised HPC system and application,» Cluster Computing, vol. 22, nº 2, pp.
[17]O. Sukhbaatar, T. Usagawa y L. Choimaa, «An artificial neural network based early prediction of fai-
[18]Z. Wang, W. Zhao y X. Hu, «Analysis of predic- tion model of failure depth of mine floor based on fuzzy neural network,» Geotechnical and Geological Engi- neering, vol. 37, nº 1, pp.
[19]V. S. Gujre y R. Anand, «Machine learning algo- rithms for failure prediction and yield improvement
117
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine
during electric resistance welded tube manufacturing,» Journal of Experimental \& Theoretical Artificial Inte- lligence, vol. 32, nº 4, pp.
[20]P. du Jardin, «Forecasting corporate failure using ensemble of
[21]R. Brachman y T. Anand, «The process of knowle- dge discovery in databases,» Advances in knowledge discovery and data mining, pp.
[22]W. Frawley, G.
[23]F. H. Troncoso Espinosa y J. V. Ruiz Tapia, «Pre- dicción de fuga de clientes en una empresa de distribu- ción de gas natural mediante el uso de minería de da- tos,» Universidad Ciencia y Tecnología, vol. 24, nº 106, pp.
RESUMEN CURRICULAR
[24]F. H. Troncoso, «Prediction of Recidivism in Thefts and Burglaries Using Machine Learning,» Indian Jour- nal of Science and Technology, vol. 13, nº 6, pp. 696- 711, March 2020.
[25]M. Kantardzic, Data mining: concepts, models, me- thods, and algorithms, John Wiley & Sons, 2011. [26]F. H. Troncoso Espinosa, P. G. Fuentes Figueroa y I. R. Belmar Arriagada, «Predicción de fraudes en el consumo de agua potable mediante el uso de Minería de Datos,» Universidad Ciencia y Tecnología, vol. 24, nº 104, pp.
[27]C. Romero y S. Ventura, «Data mining in educa- tion,» Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, vol. 3, nº 1, pp.
Fredy Troncoso Espinosa, Doctor en Sistemas de
Ingeniería, Universidad de Chile, Ingeniero Civil
Industrial Universidad del
Académico e Investigador Departamento de
Ingeniería Industrial, Universidad del
Concepción, Chile
Yamil Avello Betancur, Magíster en Ingeniería
Industrial, Universidad del
Constructor, Universidad del
Departamento de Ingeniería, Planta de Celulosa Arauco
Nueva Aldea, Concepción, Chile
Luis Martínez Flores, Ingeniero Civil Industrial, Magíster en Ingeniería Industrial, Universidad del Bío- Bío, Chile. Ayudante de investigación y docente tiempo parcial departamento Ingeniería Industrial, Universidad del
118
Troncoso et al., Prediccion del Corte de la Hoja de la Celulosa Mediante el Uso de Machine