SBN. Investigadores del grupo Data Analytics Science & Engineering, liderado por el catedrático de Lenguajes y Sistemas Informáticos de la Universidad Pablo de Olavide (UPO) Jesús Aguilar, en colaboración con Marcin Michalak, investigador de la Silesian University of Technology (Polonia), han propuesto un método innovador para la evaluación de sistemas de diagnóstico, denominado curva IMCP, que muestra el rendimiento de la clasificación y, por otro lado, identifica para qué valores de la variable objetivo el modelo está ofreciendo mejor o peor calidad en la predicción.
La curva IMPC (Imbalanced Multiclass Classification Performance) ha sido evaluada en la predicción de 35 tipos de tumores a partir de una colección de 6.756 muestras de tumores metastásicos y primarios obtenidos por la Hartwig Medical Foundation (Países Bajos) y el Pan-Cancer Analysis of Whole Genomes Consortium, analizando un total de 511 características, según ha detallado la UPO en un comunicado.
Como resultado, se revela que un modelo predictivo para tumores aparentemente fiable (92,4% de exactitud en la predicción), podría mostrar un comportamiento desigual para diferentes tipos de tumores –bueno en la predicción de melanoma, pero malo en el caso de sarcoma– lo que necesariamente debería conducir a un examen humano más detallado en el caso de ciertos tipos de tumores, en consonancia con la fiabilidad del sistema de diagnóstico para esos casos.
El análisis propuesto por Aguilar y Michalak permite evaluar el rendimiento para cada valor por separado. De este modo, revela en qué casos el rendimiento global oculta distintos resultados para diferentes tipos de valores (multiclase). Así, si el rendimiento global es del 92,4%, podría darse el caso en que el sistema diagnostique el melanoma con una exactitud del 98,6%, pero el sarcoma con 17,5%. Por tanto, la curva IMCP posibilita identificar la fiabilidad de la predicción a partir de conjuntos de datos de distinta clase.
El método, basado en el cálculo de distancias de funciones de distribución de probabilidad, es aplicable en contextos en donde la curva ROC no puede usarse, cubriendo un vacío existente en la actualidad en el campo de ‘machine learning’, con utilidad en multitud de disciplinas.
La curva IMCP puede visualizarse con facilidad a partir de las probabilidades de asignación a cada valor de la variable objetivo proporcionadas por el sistema de diagnóstico, mediante el uso de una librería implementada en Python, de acceso libre y código abierto, publicada en ‘https://github.com/adaa-polsl/imcp’. El trabajo ha sido publicado por la editorial ‘Springer-Nature’.