Hoy vamos a hablar de un tema que no es en concreto sobre salud visual. Es sobre el concepto de tratamiento y cuándo podemos considerar un tratamiento como seguro y confiable para proponerlo en el uso práctico. Lo que vamos a decir hoy me servirá para sentar unas bases comunes cuando discutamos sobre temas polémicos. Y aunque posteriormente yo lo aplicaré al tema de la salud visual, en el fondo son conceptos generales de la medicina, y hasta cierto punto compartidos con cualquier profesión sanitaria.
Justificación
La evidencia científica es la base de la medicina moderna. Para justificar la recomendación y el uso de un tratamiento (entendiéndolo de forma amplia como cualquier medida o recomendación para intentar curar, mejorar, aliviar o prevenir una enfermedad o efecto nocivo a nuestra salud), nos servimos de estudios científicos para probar su eficacia y garantizar un riesgo asumible.
No toda la evidencia científica es igual. Hay estudios de mayor y de menor calidad. Estudios que luego posteriori se han demostrado sesgados. Resultados que no se han reproducido posteriormente en otros estudios. Existen muchas variables que pueden confundirnos, elementos que no se han tenido en cuenta y que nos hacen llegar a conclusiones equivocadas. También existen los conflictos de intereses, la no publicación de resultados negativos, y el fraude científico.
Disponemos de varias escalas y clasificaciones con las que evaluar los diferentes experimentos y artículos científicos que avalan el uso de un tratamiento concreto. Así podemos valorar hasta qué punto nos podemos fiar de dicha evidencia científica. De estas dos escalas, quizás las más utilizas en nuestro medio son las llamadas GRADE y SIGN. La escala SIGN clasifica las publicaciones entre el tipo I (más fiables) al tipo III (menos fiables). Tenemos subdivisiones, de forma que de mayor a menor calidad, sería: I++, I+, I-, II++, II+, II- y III. Por otra parte, el sistema GRADE mide la calidad de la evidencia como el «grado de confianza» que tenemos en la estimación del efecto. Hay cuatro niveles de confianza: alto, moderado, bajo y muy bajo.
De la evidencia científica a la práctica
Estas dos escalas y otras similares evalúan, como decimos, la calidad de los estudios científicos. En este sentido son similares; el uso de una u otra es más un tema de nomenclaturas que otra cosa. Pero hay más. Con estas clasificaciones no tenemos toda la información para decidir cuándo está justificado utilizar una medida como tratamiento. Basándonos en los datos obtenidos a partir de la literatura científica, hay que hacer un análisis: debemos razonar si los resultados positivos de un grupo de investigaciones ofrecen garantías suficientes para aplicar el tratamiento en la asistencia clínica.
El sistema GRADE, como una segunda fase, también ofrece este análisis posterior, y describe los diferentes aspectos que hay que tener en cuenta en dicho análisis. Si en la primera parte, GRADE estudia la evidencia científica y la clasifica dentro de uno de los cuatro niveles de confianza, en esta segunda parte nos ofrece un «grado de recomendación». Ésta recomendación puede ser «fuerte» (o bien para recomendar el tratamiento o bien para desaconsejarlo), o «débil».
Hay otros sistemas similares al GRADE, que estudian tanto la calidad de las pruebas científicas como su aplicabilidad en la práctica. Tenemos por ejemplo el propio sistema SIGN, que divide el grado de recomendación en cuatro niveles (A, B, C y D). Aunque por lo que he podido leer en la web de la red escocesa de guías clínicas (los autores del sistema SIGN), parece que se han pasado al GRADE. Hay otros, como el propuesto en Oxford (CEBM), uno más antiguo de los servicios preventivos de Estados Unidos (USPSTF). Todos son similares, y son herramientas muy útiles en la medicina moderna.
Qué hay que tener en cuenta
Los sistemas que he enumerado describen unos factores que hay que tener en cuenta para dar un grado de recomendación. De ellos hay algunos de los que no voy a hablar, como el consumo de recursos y costes, y los valores y preferencias de los pacientes. No digo que no sean elementos a tener en cuenta, pero podemos considerarlos «externos».
Si el resto de variables, las que podemos llamar «internas», nos llevan a concluir que un tratamiento es eficaz en la práctica con un riesgo asumible, podemos decir que el tratamiento está preparado para su uso en la práctica. Si por las preferencias del paciente o por su coste no se lleva a cabo, eso no cambia que el tratamiento en sí es confiable.
De lo que sí voy a hablar son de tres aspectos fundamentales.
1. Relevancia clínica
La mayoría de estudios científicos tienen un término clave: estadísticamente significativo. Realizar un experimento implica medir unos efectos en un entorno controlado. Investigar es medir para conocer de verdad. El problema es que los sistemas biológicos son complejos y variables. Un efecto de un posible tratamiento en el fondo es un cambio. Si encontramos dicho cambio en el experimento, para que podamos atribuirlo al tratamiento, para que podamos afirmar de forma razonable que no se debe al azar o a otros factores, se utilizan herramientas estadísticas. Cuando el análisis estadístico del experimento concluye que el efecto probablemente no se produzca por el azar, hablamos de que el resultado es estadísticamente significativo. Es el término técnico que nos dice que sí, que el resultado es positivo, que el tratamiento funciona, que produce de verdad el efecto deseado.
Por lo tanto, nos podemos fiar del resultado, con dos advertencias:
- El resultado es fiable en la misma medida en la que sea fiable el experimento. Si se trata de un experimento mal diseñado, con pocos sujetos/muestras/etc, con poco seguimiento, sin grupo control, etc, existe el riesgo de sesgos, de variables de confusión, etc. Una vez existe un sesgo, la significancia estadística no sirve de nada. De ahí que sea tan importante evaluar la calidad de la evidencia científica.
- El propio término de estadísticamente significativo solo nos da una probabilidad. Normalmente hablamos de un 5% de que el resultado sea explicado por el azar. O sea, 1 de cada 20 estudios de tratamientos ineficaces darán un resultado positivo. De ahí que sea tan importante reproducir los resultados en otros estudios. Y de tener en cuenta los conflictos de intereses y la posibilidad del llamado sesgo de publicación (si una industria con interés en comerciar un tratamiento tiene resultados negativos, puede que no los publique. Por azar, si sigue haciendo estudios, alguno saldrá positivo, y sólo publica ese).
Pero vamos a suponer que hemos superado estas dos dificultades. Que la evidencia científica es sólida, que hemos reproducido los resultados con experimentos y ensayos de gran calidad. Vamos a dar por supuesto que un resultado estadísticamente significativo es cierto. ¿Qué significa exactamente eso?
Pues que hemos sido capaces de medirlo de forma experimental. Lo que en sí mismo es un logro a nivel puramente científico. Daremos el hecho como probado (por lo menos de forma temporal, como lo es todo en ciencia), y avanzamos en nuestro conocimiento.
Pero todavía no tenemos un logro para la terapéutica, no podemos decir que hemos avanzado en el tratamiento de nuestros pacientes. Para que un tratamiento sea útil en la práctica, su efecto tiene que ser clínicamente relevante. Eso quiere decir que el tratamiento tiene que ser capaz de producir un cambio que sea apreciable, una mejoría que efectivamente se vaya a notar en la vida de la persona a la que vayamos a tratar. Porque a nivel experimental somos capaces de medir efectos muy pequeños, pero que pueden ser irrelevantes en la enfermedad y la salud de un sujeto. Se trata de evaluar el beneficio en condiciones prácticas, en trasladar un efecto del campo de la investigación y la experimentación a la realidad de los pacientes.
De esta manera, podemos tener un resultado estadísticamente significativo, pero clínicamente irrelevante. Y acumular una gran evidencia científica que apoya el efecto positivo, no le da más relevancia clínica. Si la magnitud del efecto no ofrece un beneficio sustancial, no es un tratamiento que deba llegar a la realidad asistencial.
2. Riesgo plausible
Los estudios científicos de mejor calidad, en los que podemos realizar el análisis del «grado de recomendación», analizan la seguridad y los riesgos del tratamiento. Suelen realizar una medición y seguimiento minuciosos de los posibles efectos adversos. Esto es tan importante como el propio efecto beneficioso que buscamos demostrar. Por lo tanto, la propia experimentación nos ofrece, no sólo información sobre los beneficios, sino de los riesgos.
Eso es información de gran utilidad. Pero para el análisis que debemos hacer, antes de aplicar el tratamiento desde la investigación a la práctica, debemos tener en cuenta otros riesgos además de los medidos. ¿Cómo es esto?. La capacidad de medir efectos adversos en cualquier experimento es limitada. El seguimiento no es indefinido, pueden existir problemas que tardan en aparecer, y no serán detectados. También hay riesgos de baja prevalencia, que pueden no haber sido encontrados en los grupos estudiados.
¿Como podemos estimar estos riesgos que no se detectan?. Los tratamientos consisten en elementos químicos o físicos en un sistema o tejido, elementos que raramente nos son totalmente desconocidos. Las moléculas, las prótesis o dispositivos, el calor o la radiación que estamos evaluando como tratamiento, ya están probado de forma más o menos similar en otros contextos. Podemos esperar que ciertas dosis de un compuesto químico produzcan ciertos efectos adversos, aunque no los hayamos detectado en el estudio. Y lo mismo pasa con la aplicación de calor, presión, o elemento físico.
El conocimiento de los sistemas y órganos implicados nos da una base para sospechar riesgos adicionales a los que un estudio puede encontrar. Es el concepto de plausibilidad biológica del que ya hemos hablado, esta vez aplicado a los riesgos. El conocimiento de la anatomía, la fisiología y la fisiopatología nos permite encontrar riesgos plausibles. Y aunque para ellos no tenemos una medición exacta, como los riesgos medidos en el experimento, hay que tenerlos en cuenta. Es algo que los mejores artículos científicos, los mejor redactados, lo contemplan. En el apartado de «conclusiones», cuando el autor enumera las limitaciones de su estudio, suele repasar los posibles riesgos que pueden haber pasado por alto.
Por lo tanto, a la hora de valorar el riesgo, contemplamos en total tanto los riesgos medidos, los que nos evidencian los estudios experimentales, como los riesgos plausibles.
3. Balance riesgo/beneficio
Ésta es la conclusión final, el resumen. Estimar la relevancia clínica del efecto beneficioso por una parte, y una recopilación exhaustiva de los riesgos (no solo los medidos, sino también los plausibles) por la otra, sirve para realizar un análisis prudente y adecuado del balance riesgo/beneficio.
Sintetizando, el análisis este de «segunda fase», el grado de recomendación para realizar un tratamiento (siguiendo la escala GRADE o la que queramos), consiste en poner en una balanza los riesgos, en la otra los beneficios, y decidir si compensa tratar. Si los beneficios pesan más que los riesgos.
Sin embargo, habréis podido comprobar que la consideración de los dos elementos de la balanza no es imparcial. Por una parte, para analizar el beneficio, somos muy escépticos y exigentes. Antes de hacer caso a la significación estadística de un resultado experimental exigimos gran calidad de la evidencia científica. Todos los parámetros que analizan la potencia de los estudios es una condición previa: hasta que no acumulamos evidencia científica de gran calidad, ni nos planteamos hacer este balance de riesgos y beneficios. Y después, le exigimos relevancia clínica, una potencia suficiente del efecto.
Por otra parte, con el análisis de los riesgos nos vamos al otro lado. No solo damos por ciertos los resultados medidos, sino que además tenemos en cuenta los riesgos razonablemente posibles, aunque no se hayan encontrado en la investigación.
Parece que evaluamos los beneficios «a la baja» y los riesgos «al alza». ¿Por qué esta asimetría?. Pues ni más ni menos que por el principio básico de la Medicina: primum non nocere. Primero no dañar. Si vamos a ofrecer un tratamiento a un paciente con ciertas garantías, primero asegurarnos que no le vamos a hacer daño.
Por otra parte, si le decimos que el tratamiento es eficaz, tenemos que saber que el beneficio es cierto y además relevante. Si no es así, no debemos decir que el tratamiento funciona. Podemos creer que funciona, podemos confiar en el tratamiento, pero no es cierto que esté demostrado. Entonces estamos sometiendo al paciente a un tratamiento que realmente es experimental, porque todavía le queda por demostrar su eficacia. Y si es experimental, el paciente tiene que ser consciente que es un sujeto de un experimento clínico. Deberá dar su consentimiento informado, debe ser un ensayo monitorizado y aprobado por el comité pertinente, etc.
El balance riesgo/beneficio en los sistemas médicos
Decíamos al principio que tanto GRADE como otros sistemas (CEMB, USPSTF) estudian el balance riesgo/beneficio de acuerdo a estos aspectos y algunos más, y concluyen con un grado de recomendación. El problema es que, si bien estas escalas son útiles en el ámbito científico y biomédico, son complejas para explicar estos conceptos y hacerlos llegar al público general. Por lo tanto, hacer divulgación se vuelve difícil. Pero debemos encontrar alguna forma de hacerlo, porque de lo contrario no podemos explicar adecuadamente por qué un tratamiento que parece eficaz en el ámbito experimental no debe aplicarse en la práctica.
Además de su complejidad, estos sistemas de evaluación internacionales tienen el problema de que separan la valoración de la evidencia científica del grado de recomendación. Es difícil de ver el proceso evolutivo de una investigación, desde niveles bajos de evidencia, hacia niveles altos, hasta conseguir un balance riesgo/beneficio favorable que permita llevar el tratamiento a la práctica.
Por lo tanto, aunque evidentemente no voy a criticar el uso de estas escalas, ni proponer una alternativa para el uso profesional y científico, me parece oportuno ofrecer una versión simplificada y accesible que permita hacer accesible estos análisis al público general.
La propuesta simplificada
Así que en este (largo) artículo, después de la justificación que he ofrecido, propongo una escala simplificada de «certeza terapéutica». Es una clasificación que reúne en 5 pasos y de forma muy resumida tanto la evaluación de la evidencia científica como el balance riesgo/beneficio. Además de ser una suerte de «versión divulgativa» de sistemas tipo GRADE, también incluyo la valoración de la experiencia posterior a la comercialización del tratamiento, y hago una equivalencia con las fases de la investigación clínica.
Mi intención al crear y proponer esta escala es aplicarla para valorar tratamientos novedosos o polémicos. En este artículo y con esta escala resumo conceptos que tengo que estar constantemente repitiendo: los resultados positivos de estudios de baja calidad no son significativos, la relevancia clínica es tan importante como la significación estadística, los riesgos plausibles se deben tener en cuenta aunque no estén descritos, etc.
Sin embargo, aunque ese es el uso particular e inmediato para mí, se trata de una escala de propósito general que no está circunscrita a la salud visual. Cualquiera que le interese es libre de utilizarla y aplicarla. A ese respecto he hecho una versión resumida en una tabla en un documento PDF que está disponible para descargar.
La escala de certeza terapéutica
Y sin más dilación, paso a describir los cinco niveles de la clasificación.
Nivel 0
No hay estudios científicos positivos en humanos.
En este nivel no tenemos datos positivos que avalen el tratamiento en humanos. Puede ser que haya una investigación prometedora, pero en fase preclínica (estudios in vitro o en modelos animales). O puede ser que sea una hipótesis plausible, pero sin ninguna investigación que la avale.
También podemos hablar de una hipótesis que además de carecer de pruebas científicas, no es plausible, y directamente hablamos de pseudociencia, pseudomedicina o pseudoterapia.
Nivel 1
Estudios positivos en humanos, de calidad y potencia limitadas.
Equivale a investigación valorada con el sistema GRADE como evidencia moderada o baja. En el sistema SIGN sería evidencia II ó III. Lo componen estudios clínicos de fase I y II.
Nivel 2
Estudios positivos en humanos, de gran potencia y calidad.
Equivale a un GRADE con nivel de evidencia alto y a SIGN I. Si es aplicable, estamos hablando de ensayos clínicos prospectivos, aleatorizados y enmascarados; con un número alto de pacientes y un seguimiento prolongado. Se tratarían de estudios clínicos de fase III.
Nivel 3
Justificación de una indicación terapéutica razonable y realista, que cumpla tres criterios:
- Evidencia científica de nivel 2
- Eficacia clínicamente relevante en un contexto práctico
- Riesgos cuantificados y plausibles que son asumibles en el balance riesgo/beneficio
Partiendo de una evidencia científica sólida (el nivel 2), hacemos un análisis del balance riesgo/beneficio, y la conclusión es que es favorable para llevar a la práctica el tratamiento. Se tienen en cuenta los conceptos de eficacia clínicamente relevante, riesgos plausibles, y la propia potencia del beneficio que nos permita asumir una cuantía razonable de riesgo.
Nivel 4
Experiencia documentada de uso clínico, que implica:
- Evidencia y justificación de nivel 3
- Estudios postcomercialización, farmacovigilancia o similares.
Se han realizado análisis a posteriori de seguridad y eficacia en la población y en el ámbito clínico. Estos análisis corroboran que el balance riesgo/beneficio es favorable. En el ámbito de la investigación clínica estaríamos en la fase IV.
Escala ampliada
Soy consciente de que en mi esfuerzo para simplificar al máximo, cada nivel reúne categorías de evidencia y aplicabilidad diferentes entre sí. Así que cada uno de los cinco niveles los he subdividido, en el caso de que queramos discriminar un poco más.
Así, he puesto un menos (-) después del nivel para describir las condiciones que reducen la certeza, y un más (+) cuando hay elementos que la aumentan. También he puesto una «efe» (f) tras el número cuando los resultados limitan las posibilidades de que la hipótesis terapéutica pueda pasar el siguiente nivel (sería una «efe» de final). Así tenemos los subniveles 0-, 0+, 0f, 1-, 1+, 1f, etc.
La explicación concreta de cada subnivel la he descrito en el documento PDF. Creo que no merece la pena describirlo en detalle aquí. A los interesados en el tema, animo a leerlo. Por supuesto, cualquier aclaración, corrección o propuesta, lo podéis poner en los comentarios del post.
El camino desde hipótesis hasta tratamiento válido
Tanta simplificación tiene como fin entender que la evidencia científica, el rigor en la evaluación, y los principios éticos de la Medicina configuran un camino lleno de obstáculos que tiene que recorrer una idea, una hipótesis sobre un posible tratamiento, hasta que llega a la práctica.
Con esta escala, una idea sobre un posible tratamiento va desde la fase cero hasta la cuatro. Si realmente es un tratamiento eficaz y razonablemente aplicable. La realidad es que la mayoría de las propuestas se quedan en el camino. Pero creo que es un sistema más fácil que el GRADE u otros para que podamos «clasificar mentalmente» una propuesta terapéutica. Nuevamente, no sustituye nada a nivel profesional, simplemente es una reorganización de los conceptos que creo que es más accesible.
Los falsos niveles
Lo he avisado explícitamente en cada nivel, pero conviene insistir en ello. No puedes pasar a un nivel superior si no cumples los requisitos del anterior. Que algunas personas hayan considerado que un tratamiento ya se puede utilizar no quiere decir que esté en el nivel 3. Que un tratamiento se esté utilizando en la práctica clínica no quiere decir que esté en el nivel 4.
Por desgracia, no hace falta consenso científico para que un sector concreto de la industria o los profesionales saquen adelante tratamientos particulares que no deberían llegar. Las regulaciones protegen este sistema de forma razonable cuando hablamos de medicamentos, pero los complementos nutricionales y dispositivos como lentes evaden fácilmente la regulación estricta (y necesaria) que protege la investigación farmacológica.
La recomendación terapéutica
En función del nivel de certeza en el que se encuentre un posible tratamiento, podemos deducir qué recomendación razonable deberíamos realizar sobre éste. Esta recomendación excluye el estudio experimental, me ciño a la recomendación para la práctica clínica.
- Nivel 0: No tratar. No hay experiencia en humanos.
- Nivel 1: No tratar. Experiencia insuficiente en humanos.
- Nivel 2: No tratar. El balance riesgo/beneficio no es favorable.
- Nivel 3: Plantear tratamiento, con reservas. Disponemos de datos clínicos limitados. Puede haber riesgos no considerados o limitaciones imprevistas en la eficacia.
- Nivel 4: Plantear tratamiento, con garantías. Se reúne buena evidencia científica tanto experimental como clínica.
Idealmente, el mejor tratamiento es el que es altamente eficaz y además con un nivel 4 de certeza terapéutica. Eso evidentemente excluye los tratamientos novedosos. Por definición, para reunir todos los requisitos para este último nivel se requieren años de antigüedad de uso. Incluso un tratamiento con la más alta evidencia científica y con un análisis razonable de riesgos y beneficios, se debe ofrecer sólo con reservas.
Este punto de vista choca de frente con algunas tendencias modernistas de «traer lo último» de la investigación a disposición de la población general. Lo que he planteado en este escrito parece una postura excesivamente conservadora o cauta. Pero en el fondo se trata de aplicar la humildad, la prudencia y la ética. Si hay un campo en el que debemos ser exquisitamente prudentes y honestos, es en la salud. Y no se trata de «mi versión» de cuándo llevar un tratamiento a la práctica. Intento trasladar en un lenguaje más accesible lo que es la evaluación rigurosa que hay en el ámbito profesional de la salud. Aunque esta forma de trabajar se enfrenta contra intereses comerciales. Y sale perdiendo en muchas ocasiones.
Conclusión
Posiblemente este artículo ha sido largo y aburrido para una parte importante de mis queridos lectores. Pido disculpas por ello. Lo necesitaba escribir, porque lo voy a referenciar muchas veces en futuros posts.
Quería hacer una petición a aquellos más metidos en el mundo de la salud, en especial a colegas médicos que saben igual o más que yo sobre estos temas de ética y análisis de tratamiento. Os rogaría que me dierais vuestra opinión sobre la escala que presento. Cualquier sugerencia, corrección y posible modificación y mejora, la agradeceré. De hecho, en el documento PDF la he etiquetado como versión 1.0 en vistas que la tendré que mejorar en función de vuestras aportaciones. Gracias por adelantado.
El documento
Aquí está enlazado el documento PDF con la escala de evidencia terapéutica para descargarlo.
26 febrero, 2017
[…] Hemos hecho un análisis de este ensayo clínico que ha medido la eficacia de la atropina para frenar la miopía. ¿Tenemos suficiente certeza y seguridad para usar este medicamento en la práctica?. Para ayudarnos a responder la pregunta, tenemos la escala de certeza terapéutica que propuse en el último artículo. […]