Métrica de evaluación R2
Las métricas de clasificación permiten evaluar el rendimiento de los modelos de aprendizaje automático, pero hay muchas, cada una tiene sus ventajas e inconvenientes, y seleccionar una métrica de evaluación que funcione para tu problema a veces puede ser realmente complicado.
A continuación, entrené varios clasificadores lightGBM con diferentes hiperparámetros. Sólo utilicé los parámetros learning_rate y n_estimators porque quería tener una intuición sobre qué modelos son «realmente» mejores. En concreto, sospecho que el modelo con sólo 10 árboles es peor que un modelo con 100 árboles. Por supuesto, a medida que se utilizan más árboles y menores tasas de aprendizaje la cosa se complica, pero creo que es una aproximación decente.
Es una forma habitual de presentar predicciones positivas verdaderas (tp), negativas verdaderas (tn), positivas falsas (fp) y negativas falsas (fn). Estos valores se presentan en forma de matriz en la que el eje Y muestra las clases verdaderas, mientras que el eje X muestra las clases predichas.
Para todos los modelos, las alertas de error de tipo 1 son bastante bajas, pero ajustando el umbral podemos obtener una proporción aún menor. Dado que tenemos verdaderos negativos en el denominador, nuestro error tenderá a ser bajo simplemente porque el conjunto de datos está desequilibrado.
Ks métrica aprendizaje automático
Las métricas de rendimiento forman parte de todos los procesos de aprendizaje automático. Te dicen si estás progresando y le ponen un número. Todos los modelos de aprendizaje automático, ya se trate de regresión lineal o de una técnica SOTA como BERT, necesitan una métrica para juzgar el rendimiento.
Cada tarea de aprendizaje automático puede dividirse en regresión o clasificación, al igual que las métricas de rendimiento. Hay docenas de métricas para ambos problemas, pero vamos a discutir las más populares junto con la información que proporcionan sobre el rendimiento del modelo. Es importante saber cómo ve su modelo los datos.
Las métricas son diferentes de las funciones de pérdida. Las funciones de pérdida muestran una medida del rendimiento del modelo. Se utilizan para entrenar un modelo de aprendizaje automático (mediante algún tipo de optimización, como el Gradient Descent) y suelen ser diferenciables en los parámetros del modelo.
El error cuadrático medio es quizás la métrica más popular utilizada para los problemas de regresión. Básicamente, calcula la media de la diferencia al cuadrado entre el valor objetivo y el valor predicho por el modelo de regresión.
Métricas de evaluación
Los modelos predictivos se han convertido en un asesor de confianza para muchas empresas y por una buena razón. Estos modelos pueden «prever el futuro», y hay muchos métodos diferentes disponibles, lo que significa que cualquier industria puede encontrar uno que se adapte a sus retos particulares.
Cuando hablamos de modelos predictivos, nos referimos a un modelo de regresión (salida continua) o a un modelo de clasificación (salida nominal o binaria). En los problemas de clasificación, utilizamos dos tipos de algoritmos (en función del tipo de salida que genere):
Aunque la preparación de los datos y el entrenamiento de un modelo de aprendizaje automático es un paso clave en el proceso de aprendizaje automático, es igualmente importante medir el rendimiento de este modelo entrenado. Lo bien que el modelo generaliza en los datos no vistos es lo que define los modelos de aprendizaje automático adaptativos frente a los no adaptativos.
Si no se realiza una evaluación adecuada del modelo de ML utilizando diferentes métricas y se depende únicamente de la precisión, puede surgir un problema cuando el modelo respectivo se despliega en datos no vistos y puede dar lugar a predicciones deficientes.
Métricas de regresión logística
El término «hemorragia uterina anómala» engloba las hemorragias cíclicas y no cíclicas. La hemorragia anovulatoria es el tipo más frecuente de hemorragia uterina no cíclica. La menorragia se define como una hemorragia uterina cíclica excesiva que se produce a intervalos regulares durante varios ciclos, o una hemorragia prolongada que dura más de siete días.1 La hemorragia anovulatoria y la menorragia, aunque a menudo se agrupan en los debates sobre el tratamiento, no tienen la misma etiología ni requieren las mismas pruebas diagnósticas.
La pérdida media de sangre menstrual oscila entre 30 y 40 ml por ciclo.2 En un primer estudio poblacional se llegó a la conclusión de que el límite superior de la pérdida normal de sangre menstrual se situaba entre 60 y 80 ml, y este límite superior se adoptó posteriormente como la definición clásica de menorragia.3,4 Se observó una mayor prevalencia de alteración del estado del hierro con una pérdida superior a 60 ml.3 Esta definición del volumen presenta deficiencias, ya que la pérdida real de sangre es en gran medida subjetiva y difícil de cuantificar objetivamente.
En el 34% de las mujeres, la queja subjetiva de «menstruaciones abundantes» parece correlacionarse con una pérdida media de sangre cuantificada significativamente mayor.5 Sin embargo, algunas mujeres no consideran que el flujo menstrual abundante sea anormal. De las mujeres que calificaron su flujo como muy abundante, el 25% tenían pérdidas inferiores a 35 ml por ciclo, y el 25% de las que calificaron sus menstruaciones como abundantes tenían pérdidas superiores a 82 ml.6 Los médicos pueden ser incapaces de juzgar el volumen a partir del historial de la paciente o pueden considerar que las mediciones no son importantes a la hora de decidir el tratamiento.5 Es posible que las tablas gráficas de evaluación de la pérdida de sangre no reflejen con exactitud los productos de higiene utilizados.5 Además, las mujeres cambian los productos de higiene con una frecuencia variada, tanto si se ha producido la saturación como si no. Por lo tanto, el criterio de pérdida de más de 80 ml tiene un significado clínico dudoso.4