Comprender estas 5 métricas clave de clasificación del aprendizaje profundo para un mejor éxito de las aplicaciones
La calidad del producto es vital para la mayoría de las empresas. Hacerlo bien una y otra vez genera la confianza de los clientes, los comentarios positivos, menos retiros costosos y, en última instancia, mejores resultados comerciales. En una fábrica o línea de producción, confiar en sistemas de visión artificial en cada paso de la producción es una de las mejores inversiones para brindar productos de calidad. Específicamente, herramientas de aprendizaje profundo como un clasificador ayudan a los fabricantes a identificar posibles problemas de control de calidad en la línea de producción para limitar los defectos generales en los productos terminados.
El clasificador es una herramienta de inspección importante porque no es suficiente con identificar defectos o piezas dañadas en la línea de producción y retirarlos de producción. Estos defectos también se deben clasificar para que el sistema de inspección pueda identificar patrones para determinar si, por ejemplo, un defecto es un rayón u otro es una abolladura. Clasificar estas fallas de producción correctamente evita que los malos productos lleguen al mercado, mientras que las predicciones erróneas evitan que los buenos estén disponibles, lo que atasca la producción y aumenta los costos.
En el mundo de la industria 4.0 —donde las grandes bases de datos son fundamentales para el proceso y el control de calidad— contar con las métricas adecuadas de los datos permite a las organizaciones saber si sus inspecciones de clasificación de aprendizaje profundo tienen un desempeño óptimo. Las aplicaciones de clasificación se basan en cuatro resultados principales para generar estos datos:
- Positivo verdadero: Tanto la verdad fundamental como la clase predicha son positivas.
- Falso positivo: La verdad fundamental es negativa y la clase predicha es positiva.
- Negativo verdadero: Tanto la verdad fundamental como la clase predicha son negativas.
- Falso negativo: La verdad fundamental es positiva y la clase predicha es negativa.
La verdad fundamental es el resultado real de la inspección, como identificar una abolladura en el parachoques (defensa) de un automóvil. Los desarrolladores e ingenieros buscan que sus aplicaciones de aprendizaje profundo&nsbp;predigan y clasifiquen defectos correctamente, por ejemplo, para acoplar la verdad fundamental con el defecto detectado en la pieza real.
Si bien existen múltiples métricas que pueden utilizar las organizaciones para medir el éxito de su aplicación de clasificación, nos centraremos en cinco.
Precisión y tasa de error
La métrica más utilizada en las aplicaciones de aprendizaje profundo para fabricación es la precisión de clasificación debido a su simplicidad y efectividad en transmitir el mensaje subyacente con un único número. La tasa de error es un buen complemento de la precisión.
Estas son las principales métricas porque identifican la efectividad fundamental de una aplicación de aprendizaje profundo.
Medir la precisión es bastante sencillo: se divide la cantidad de predicciones correctas por la cantidad total de predicciones realizadas. La tasa de error es la cantidad de predicciones incorrectas divididas por la cantidad total de predicciones.
Cabe destacar que, para las aplicaciones de clasificación, las predicciones correctas incluyen todos los resultados positivos y negativos verdaderos.
Tasa de escape
Una aplicación de clasificación que predice en forma incorrecta que una pieza defectuosa es correcta se denomina escape. Permitir que productos dañados o fallidos “escapen” al mercado sin ser detectados pone en riesgo la reputación de la empresa respecto a la calidad de sus productos. Además, retirar del mercado estos productos puede costar millones de dólares.
Para medir la tasa de escape se divide la cantidad de falsos negativos por la cantidad total de predicciones.
Tasa de sobrecarga&nsbp;
Una aplicación de clasificación que produce predicciones de tipo falso positivo genera una sobrecarga, es decir, productos o piezas adecuadas sin defectos que se retiran de la línea de fabricación por error. Las piezas no defectuosas que se retiran de la línea pueden convertirse en desechos o ser reprocesadas manualmente. En cualquier caso, el fabricante tiene un mayor costo en piezas y mano de obra.
Para medir la tasa de sobrecarga se divide la cantidad de falsos positivos por la cantidad total de predicciones.
Precisión
La precisión responde a la pregunta de qué proporción de las predicciones positivas fue correcta. Es decir, ¿la aplicación de clasificación predice la clase correcta sin afectar los falsos positivos?
Un valor de 1 indica que el modelo de clasificación es muy bueno para predecir la clase correcta y alcanzar un 0% de sobrecarga. Un valor de 0 indica que el modelo no es capaz de hacer lo que debería.
Valor F1
El valor F1 se define como la media armónica de precisión y recuperación. Es una medida de la precisión de una prueba. El valor más alto posible es 1, que indica una perfecta precisión y recuperación.
Como mencionamos anteriormente, la precisión es la cantidad de resultados positivos identificados correctamente divididos por la cantidad de todos los resultados positivos, incluidos aquellos identificados incorrectamente. Recuperación es la cantidad de resultados positivos identificados correctamente divididos por la cantidad de todas las muestras que deberían haberse identificado como positivas.
Así, el valor F1 es el porcentaje de predicciones correctas generadas por la aplicación de clasificación.
Medir lo que importa
Estos ejemplos se han mantenido rudimentarios para simplificarlos. Un algoritmo de aprendizaje profundo real puede tener media docena de clasificaciones o más. Esto sería una matriz de confusión mucho más sofisticada. Existen también fórmulas más complejas para evaluar, por ejemplo, la precisión y recuperación de los algoritmos de aprendizaje.
En última instancia, estas métricas de clasificación les permiten a las empresas crear una base de éxito y aplicar mecanismos de puntuación, como maestros calificando a sus estudiantes. Con el tiempo, los desarrolladores de aprendizaje profundo pueden utilizar estas métricas para ayudar a ajustar sus aplicaciones y generar evaluaciones más precisas de qué funciona y qué no.
En la automatización industrial, los fabricantes necesitan comprender mejor qué funciona y qué no respecto a las aplicaciones que hayan implementado. Seleccionar en qué métricas centrarse va a depender de la línea de producción única de cada organización, los problemas que intentan resolver y los resultados comerciales que más importan.