Stash Contacto
Blog

Data Science: análisis de datos explicativo y exploratorio

27 de junio 10 min. de leitura

Data Science: análisis de datos explicativo y exploratorio

Exploratory data analysis

Copyright: ST-One

El avance de las Industrias Inteligentes es inevitable y tiene el poder de revolucionar todo el estado del arte de la tecnología industrial ya conocido hoy en día. Aun con su aparente crecimiento, la implementación de este nuevo modelo productivo debe hacerse de manera estratégica para poder generar resultados. Según el artículo “Calidad 4.0: una revisión de los desafíos de big data en la fabricación” (2021), el 92% de los líderes entrevistados están invirtiendo en Big Data e Inteligencia Artificial. Sin embargo, muchos de ellos están haciendo esta implementación con falta de estructura, y, como consecuencia, reportan problemas para aprovechar adecuadamente estas tecnologías.

Para mantenerse al día con estos cambios, se han creado nuevos conceptos para mejorar aún más el rendimiento de las industrias en estos tiempos de transformación digital. La “Calidad 4.0” es un ejemplo, ya que mejora la gestión de la calidad, mediante la supervisión de los tipos de fabricación y distribución, utilizando la ciencia de datos. Esta idea se basa en descubrir mejoras de forma analítica y recopilar datos en tiempo real, lo que se traduce en decisiones estratégicas.

La ciencia de datos juega un papel esencial en estos y otros procesos, sirviendo como base para nuevos conocimientos. Para identificar posibles mejoras, los científicos de datos utilizan diferentes métodos de análisis, como los que se explican en este artículo. Estos diferentes métodos de análisis allanan el camino para resultados asertivos, formando la base para la implementación de conceptos disruptivos en la industria, como la “Calidad 4.0”.

En resumen, los métodos de análisis que se abordarán con más detalle serán:

  • Análisis Exploratorio de Datos (EDA): es el uso de técnicas gráficas o cuantitativas para obtener una mejor percepción de un conjunto de datos;
  • Análisis Explicativo de Datos: viene después del análisis exploratorio, y abarca la confirmación de teorías o hipótesis existentes;

Análisis exploratorio de datos: desbloqueo de resultados en la industria

Aunque la implementación de la cultura de datos en las industrias ha experimentado un mayor crecimiento en los últimos años, su creación no es reciente. El término “Análisis Exploratorio de Datos” fue introducido por John W. Tukey, un estadístico de renombre, en la década de 1970. Con la llegada del Big Data, su aplicación en la industria se ha vuelto más frecuente en las últimas dos décadas, lo que resulta en una fase importante para el análisis de datos.

El Análisis Exploratorio de Datos (EDA) ayuda a encontrar la mejor manera de manipular la información recopilada para llegar a las respuestas necesarias en cada caso. Esto facilita que los científicos de datos identifiquen anomalías y patrones, prueben hipótesis o comprueben suposiciones. Se utiliza para explorar lo que los datos pueden revelar más allá de su modelado formal, así como para comprender las variables del conjunto y cómo se relacionan entre sí.

Los pasos para aplicar EDA en la industria son:

  • Recopilación y limpieza de datos: Los datos se recopilan directamente de máquinas o procesos industriales.  Después de eso, antes de comenzar el análisis, es importante limpiarlo, eliminando los valores faltantes, los valores atípicos y corrigiendo posibles errores. Este proceso garantiza la precisión del análisis.
  • Exploración de variables: Análisis de las características de la variable, como la distribución, la tendencia central y la dispersión de los datos. Esto se hace a través de estadísticas descriptivas como la media aritmética, la mediana, la moda y la desviación estándar.
  • Identificación de valores atípicos: Los valores atípicos son valores extremos o inusuales que distorsionan el análisis y los resultados. El EDA permite identificar si estos deben ser retirados, tratados o conservados, dependiendo del contexto de la planta industrial y del propósito de su análisis.
  • Análisis de correlación: Al aplicar el EDA, es posible notar la relación entre las variables e identificar conexiones que pueden ser útiles en la construcción de modelos predictivos. Esta información puede proporcionar información importante a la hora de desarrollar nuevas estrategias.
  • Visualización de resultados: A partir de este método de análisis, es posible crear una visualización gráfica de los datos, que es más accesible y fácil de entender. Los gráficos, como los histogramas, los diagramas de dispersión y los diagramas de caja, pueden revelar patrones y tendencias que antes se habían ocultado.

Exploratory data analysisCopyright: ST-One

Diferentes técnicas de análisis

Hay 4 tipos principales de EDA:

  • Univariante no gráfica: Es la forma más sencilla de análisis de datos, ya que analiza una variable a la vez para entender su distribución e identificar patrones o anomalías. No se ocupa de causas ni conexiones, y su objetivo principal es describir los datos y monitorizar su comportamiento;
  • Multivariante no gráfica: Análisis de dos o más variables juntas para comprender sus complejas conexiones. Las técnicas EDA no gráficas suelen mostrar la interacción entre variables mediante el cruce de tablas o estadísticas;
  • Gráficos univariantes: Los métodos no gráficos no proporcionan una imagen completa de los datos recopilados, por lo que se requieren métodos gráficos. Los tipos comunes de gráficos univariados incluyen histogramas, diagramas de caja y diagramas de tallos u hojas;
  • Gráficos multivariantes: Los datos multivariantes utilizan gráficos para mostrar las conexiones entre dos o más conjuntos de datos. El tipo más utilizado es el gráfico de barras agrupadas o gráfico de barras, donde cada grupo de barras representa un valor de una variable y cada barra dentro del grupo representa un valor de la otra variable;

También es posible utilizar técnicas estadísticas y de visualización como una forma de exploración flexible y amplia que permite a los científicos de datos profundizar en los datos más allá de las ideas preconcebidas. Algunos ejemplos son:

  • Estadística descriptiva: Esta técnica consiste en calcular medidas de tendencia central (como la media), dispersión (amplitud, varianza, desviación estándar) y forma (asimetría, curtosis) para cada variable del conjunto de datos;
  • Agrupación: Se utilizan técnicas de agrupación en clústeres, como la agrupación en clústeres K-means, la agrupación jerárquica y DBSCAN, para agrupar puntos de datos similares;
Exploratory data analysis

Copyright: Analytics Vidhya

  • Detección de valores atípicos: se utilizan técnicas como la puntuación Z y el método IQR para detectar valores atípicos en los datos;
Data analysis

Copyright: Analytics Vidhya

Métodos analíticos que dan resultados

El análisis exploratorio de datos es un paso importante para la implementación de la ciencia de datos en la industria, y su impacto positivo puede percibirse de diferentes formas.

Los datos recopilados en tiempo real se utilizan como base para obtener información significativa que va más allá de los métodos tradicionales de optimización de la producción. Como resultado, se incrementa la eficiencia debido a la calidad de los datos recopilados, que se visualizan de forma inteligente en el momento de su análisis. Además, esta técnica permite un análisis más asertivo, lo que reduce el desperdicio de insumos utilizados en la operación.

Además, EDA puede predecir fallos de las máquinas y mejorar los programas de mantenimiento, lo que reduce el tiempo de inactividad de las operaciones y aumenta la producción. Esta actualización es posible porque, a través del análisis de datos, es posible implementar un mantenimiento predictivo, en lugar de un mantenimiento correctivo. Este proceso ayuda a una mejor planificación de la linea de producción, al tiempo que apoya a los gerentes en la toma de mejores decisiones. Esto se refleja tanto en un control optimizado de la cadena de suministro como en implementar paradas programadas, que no dañen la producción.

Por último, el análisis exploratorio, utilizado para identificar patrones y anomalías, permite la rápida identificación de inestabilidades, lo que contribuye a aumentar la calidad del producto.

Varias industrias ya están haciendo uso de este método de análisis de datos, cada una de las cuales se centra en diferentes propósitos. General Electric utiliza esta tecnología principalmente para mejorar la experiencia de sus clientes, gracias a la reducción del número de productos defectuosos. En una escala más amplia, Nike utiliza el análisis de datos para realizar un seguimiento del rendimiento de los atletas durante el entrenamiento, ayudando a su mejora.

Data science

Copyright: ST-One

Análisis exhaustivo de los datos: explicación de los datos encontrados

El análisis exhaustivo de datos (o “análisis explicativo de datos”) es una técnica que se ocupa de hacer inferencias a partir de los datos recopilados, con el objetivo de explicar los patrones de los datos después de la prueba de hipótesis. Se utiliza cuando el científico de datos identifica un problema específico que debe comunicarse al público. En resumen, este tipo de análisis es un enfoque estadístico que implica explicar los conocimientos de un conjunto de datos. En el contexto de la industria, se utiliza para explicar datos y proporcionar nuevos conocimientos, lo que ayuda a mejorar el rendimiento, la eficiencia y la productividad.

Este proceso ocurre después del análisis exploratorio de datos y utiliza  métodos de visualización de datos, estadísticas y transformación para explicar las características principales encontradas. En esta fase explicativa, el científico puede utilizar muchas técnicas para aclarar cómo se relacionan las variables de entrada (o características) con su variable de salida (consigna). Algunos ejemplos son:

  • Análisis de regresión: Se utiliza para modelar la conexión entre una variable dependiente y una o más variables independientes. Es útil para comprender qué factores influyen en el resultado de un proceso;
Data analysis

Copyright: Presententioneze

  • Análisis de series temporales: Se utiliza para analizar datos recopilados a lo largo del tiempo, como tasas de producción o mediciones de calidad;
  • Análisis de Pareto: Esta técnica se utiliza para identificar los factores más significativos en un conjunto de datos;
  • Control estadístico de procesos (SPC): los métodos SPC, como los gráficos de atributos y variables, el intervalo individual y móvil, la ejecución y el control previo, se utilizan para supervisar y explicar el proceso de fabricación;
data analysis

Copyright: Presententioneze

El proceso de prueba de hipótesis y medición de los resultados también puede implicar significación estadística (lo que indica si los resultados son fiables). Además, su impacto (la magnitud de la diferencia o relación) es otra medida importante en el análisis explicativo.

Análisis de datos utilizados en diferentes tipos de industria

Como se mencionó anteriormente, la aplicación de ambas técnicas de análisis es ampliamente utilizada en la industria, y su impacto positivo puede variar según el sector. Por ejemplo, en la industria automotriz, se puede aplicar el análisis exploratorio de datos para monitorear el estado de los equipos y predecir fallas. Al mismo tiempo, el tipo explicativo se utiliza para identificar el impacto de las diferentes configuraciones de la línea de montaje en las tasas de defectos de los vehículos.

En la industria de alimentos y bebidas, el análisis exploratorio de datos puede identificar variaciones en la consistencia de los ingredientes. Por otro lado, la técnica explicativa puede explicar la relación entre los parámetros de procesamiento (como la temperatura, la velocidad de mezcla) y la calidad del producto final.

Por último, en la fabricación de productos electrónicos, el análisis exploratorio de datos permite a la industria visualizar las tasas de fallo de los componentes a lo largo del tiempo para identificar tendencias. Y el análisis explicativo ayuda a comprender cómo las variaciones en las condiciones ambientales (como la humedad y la temperatura) afectan la calidad de la soldadura.

Como se ha visto, estos dos métodos de análisis de datos juegan un papel crucial en la industria, ya que proporcionan información que contribuye a la optimización de los procesos. Con ellos, los científicos de datos pueden identificar patrones y promover la productividad y la gestión estratégica de la línea. El análisis exploratorio actúa en la comprensión y visualización de datos, mientras que el análisis integral explica las interacciones entre las variables y prueba las hipótesis. Juntas, estas técnicas forman parte de un proceso de digitalización en constante crecimiento y ayudan a hacer realidad las llamadas industrias inteligentes. Descubra más sobre nosotros.

Array

ST-One Ltda © 2024

Política de privacidadTermos de Uso

Utilizamos cookies para mejorar su experiencia en nuestro sitio web. Al continuar navegando aceptas nuestras política de privacidad.