Estudio desarrollado por Mg. Jorge Mario Noga
ABSTRACT
El objetivo principal de este estudio es estimar la incidencia de diabetes en un conjunto de pacientes de una Obra Social de la región de Cuyo. Para ello se desarrollan dos modelos de regresión para predecir el nivel de glucemia en ayunas en pacientes con riesgo de desarrollar diabetes tipo 2. La ausencia de este valor en las encuestas y en las bases de datos de laboratorio limita la capacidad de los profesionales de la salud para tomar decisiones adecuadas y precisas relativas a la prevención y al tratamiento de la diabetes tipo 2.
Este estudio presenta dos modelos de regresión que permiten estimar el valor de glucemia en ayunas, que pretenden contribuir significativamente en la detección temprana de esta enfermedad en pacientes en los que este valor no se encuentra disponible. Los modelos se construyeron utilizando datos de laboratorio y de la encuesta Findrisc, y se evaluaron mediante validación cruzada y otras métricas de desempeño. Asimismo, se espera que este estudio pueda contribuir con la práctica clínica, proporcionando a los profesionales de la salud una herramienta valiosa para mejorar la precisión del diagnóstico de diabetes tipo 2 y mejorar la calidad de vida de los pacientes afectados por esta enfermedad ayudándolos en su detección temprana.
CONCLUSIONES Y TRABAJOS FUTUROS
En este trabajo se utilizaron diversas estrategias con el objetivo de abordar las dificultades derivadas de la escasez de registros y la alta incidencia de valores nulos presentes en ambos conjuntos de datos, generando estrategias que resultaran eficientes y que contribuyeran en la generación de modelos de predicción del valor de Glucemia tan precisos como fuera posible. Asimismo, se aprovechó la información de la encuesta Findrisc, la información recogida en conjunto con la toma de la encuesta y se integró estos datos con los provenientes de análisis de laboratorio, donde algunos pacientes eran comunes a ambas bases. En este camino se exploraron estrategias propias del campo médico para el análisis de la consistencia de la información y metodologías del aprendizaje automático y el análisis estadístico multivariado para detectar anomalías en las bases de datos disponibles. Se presentó un conjunto de métricas para evaluar el desempeño de los modelos que se construyeran y se trabajó con la metodología de validación cruzada, que en una segunda etapa se enriqueció. Inicialmente, los modelos propuestos en el ámbito de la estadística clásica, como la regresión, no lograban cumplir con los cuatro supuestos fundamentales requeridos para respaldar una inferencia robusta. Como respuesta a esta limitación, se produjo un giro hacia enfoque de modelado más contemporáneos, como las técnicas de aprendizaje automático. Los primeros modelos del campo del machine learning propuestos tampoco resultaron adecuados ya que no alcanzaban eficiencias aceptables en la precisión de sus predicciones, a pesar de que se propusieron una variedad amplia de estrategias de regresión del campo del machine learning.
Se trabajó entonces con ingeniería de atributos y esto condujo al descubrimiento de asociaciones interesantes entre la glucemia y otras variables disponibles en la base que en general permite descubrir patrones de asociación no necesariamente elementales o lineales. Sin embargo, estos descubrimientos interesantes para el campo de la salud no se tradujeron en mejoras significativas en relación con la precisión de las predicciones. Para optimizar los hiperparámetros de los modelos se utilizaron diferentes algoritmos evaluando secuencialmente la mejora que cada uno de ellos aporta sobre el objetivo de predicción. En algunos casos el aporte de estas estrategias de optimización de los modelos no condujo a mejoras significativas en ninguno de los criterios presentados para la evaluación del desempeño de los modelos. Los resultados alcanzados, sin embargo, lograron mejoras altamente significativas respecto de los modelos propuestos inicialmente. Considerando la métrica del coeficiente de determinación ajustado para el modelo de regresión basado en las variables de laboratorio se logró alcanzar un valor del 0.75 seleccionando el algoritmo CATBOOST Regressor mientras que en el caso de la base de Findrisc mediante el Gradient Boosting Regressor se alcanzó un valor de 0.86 para el coeficiente de determinación ajustado. Cabe destacar que en ambos casos la optimización de hiperparámetros se realizó mediante una búsqueda de grilla o Grid Search. Estos resultados resultan alentadores en este campo del conocimiento porque además de tener un alto poder predictivo se convierten en una herramienta valiosa para estimar el valor de la glucemia en los pacientes.
Esta estimación es de bajo costo y el uso de estos modelos permite a los médicos estimar cuidadosamente el riesgo de padecer diabetes a diez años, pero también permite instrumentar estrategias que hagan posible demorar la declaración de esta enfermedad. Asimismo esta herramienta también tiene valor para la OSEP en tanto le proporciona una estimación del riesgo de sus pacientes, le permite definir un subgrupo de pacientes que podrían estar cursando ya la enfermedad y no haber sido diagnosticados y fundamentalmente le permite realizar la previsiones económicas necesarias para afrontar el gasto que puede estimarse a partir del gasto histórico que esta patología insume y la estimación de la prevalencia de diabetes en la base de pacientes de la que dispone.
Si esta estrategia se extrapola a diversas instituciones de salud podría ser de valor para el sistema de salud nacional que podría, a partir de mejores y más tempranos diagnósticos, evitar un gran número de complicaciones derivadas del padecimiento de esta enfermedad. En trabajos futuros se podrían extender estos resultados al conjunto de afiliados en su totalidad para poder construir una estimación adecuada del número de pacientes que padecen diabetes mellitus tipo 2, que podrían padecerla en los próximos años por estar en un estado prediabético y que tienen alta probabilidad de padecerla en función de sus registros actuales de glucemia y las respuestas recogidas por el cuestionario autoadministrado de Findrisc.
Además, podrían extenderse los resultados de este trabajo a la estimación de riesgos competitivos con el de diabetes entre los que podemos mencionar el deterioro de la función renal, el riesgo cardiovascular, las patologías oculares como la retinopatía diabética y la maculopatía diabética entre otras complicaciones frecuentes entre los pacientes diagnosticados con diabetes.
Estas estimaciones podrían realizarse basándose en bases de laboratorio similares a la que se analizó en este trabajo y complementarse con imágenes oftalmológicas que podrían revisarse mediante la aplicación de redes neuronales capaces de detectar el avance de la patología sobre la visión.

