Prévia do material em texto
173© 2018. Elsevier España, S.L.U. Reservados todos los derechos Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica Vlad V. Simianu, Farhood Farjah, David R. Flum Í N D I C E ¿Cuál es el propósito del estudio? ¿El estudio utiliza los datos correctos? ¿El estudio hace una comparación equitativa? ¿Qué es el resultado de interés? ¿Cuál es el diseño del estudio? ¿Se realizó el análisis correcto? ¿Cómo se debe usar esta información en la práctica? Conclusiones Cada vez se reconoce más que casi todas las personas necesitarán la cirugía en algún momento de sus vidas, por lo que las enfermedades quirúrgicas se consideran cada vez más desde la perspectiva de las poblaciones que usan las herramientas de investigación y el vocabulario de la sanidad pública. Durante la última década, los servicios sanitarios quirúrgicos y la investigación de los resultados han surgido como un abordaje esencial para aportar una base de evidencias más rigurosa al campo de la cirugía. En los estudios quirúrgicos actuales se utiliza una amplia gama de métodos de investigación con el objetivo de integrar más rápidamente la mejor evidencia disponible en la práctica de los cirujanos en todas las comunidades. En una era en la que cada vez se exigen más la supervisión reguladora y el enfoque en los cuidados más responsables, es esencial que los ciruja- nos entiendan la evidencia (o la falta de ella) que impulsa sus decisiones sobre quién debe someterse a una intervención quirúrgica, las técnicas utilizadas y los resultados esperados para que puedan optimizar el cuidado de sus pacientes y dirigir las políticas sanitarias y las actividades de mejora de la calidad. En este capítulo se ofrece una guía práctica para la evaluación crítica de los estudios publicados relacionados con la cirugía para utilizar mejor la evidencia en la práctica quirúrgica. Con este fin, este capítulo está estructurado alrededor de las preguntas que debe hacerse un lector crítico cuando lee un estudio de investigación y de los aspectos que debe tener en cuenta como parte de la evaluación. ¿CUÁL ES EL PROPÓSITO DEL ESTUDIO? El propósito de un estudio debe guiar la selección de los grupos de estudio, los resultados de interés, el origen de los datos, el diseño del estudio y el plan de análisis. La falta de claridad en el propósito o los objetivos del estudio puede confundir la interpretación posterior de los datos y llevar a conclusiones sin fundamento. El propósito de un estudio se divide en dos categorías generales: de generación de hipótesis o de comprobación de hipótesis (fig. 8-1). Los estudios descriptivos deben considerarse de generación de hipótesis (identificar posibles asociaciones y servir de impulso para futuras inves- tigaciones). En los estudios de comprobación de hipótesis debe hacerse todo lo posible para excluir la influencia del azar y el sesgo en la eva- luación de una hipótesis discreta, y aclarar si la hipótesis se refiere a la superioridad, inferioridad o equivalencia (no inferioridad). Los estudios en los que el propósito y la metodología no están bien relacionados no solo son confusos, sino que también pueden dar lugar a interpretaciones erróneas de los resultados. Por ejemplo, en un estudio se pretendía des- cribir las tendencias en el diagnóstico erróneo de apendicitis y el uso de pruebas de imagen. Una disminución de los errores de diagnóstico coincidente con un aumento del uso de estas pruebas podría dar lugar a la hipótesis de que las pruebas reducen el diagnóstico erróneo de apendicitis. Sin embargo, debido a que el estudio no fue diseñado para descartar el sesgo (es decir, otras variables no medidas que podrían afec- tar al uso de pruebas de imagen y al diagnóstico erróneo de apendicitis), hay que evitar la tentación de llegar a la conclusión de que el aumento del uso de las pruebas a través del tiempo está relacionado causalmente con las tasas decrecientes del diagnóstico erróneo de apendicitis.1 ¿EL ESTUDIO UTILIZA LOS DATOS CORRECTOS? Existen muchas fuentes de información diversas para llevar a cabo la investigación clínica, y todas tienen ventajas e inconvenientes. La selección adecuada del origen de los datos debe basarse en el equilibrio entre el propósito del estudio, los recursos (es decir, económicos) y la viabilidad (es decir, la aceptación, la ética y el tiempo). En la tabla 8-1 se proporciona una sinopsis de las ventajas y los inconvenientes de algunas fuentes de datos de uso habitual, y ejemplos de ellas. Los estudios en los que se utilizan datos administrativos, como las reclamaciones de Medicare, se han hecho especialmente frecuentes debido a la disponibilidad y la asequibilidad de estos grandes conjuntos de datos. Sin embargo, esta información se recoge para la facturación, no para la investigación, y suele plantear problemas importantes con la exhaustividad (posiblemente porque solo incluyen indicadores fiables relacionados con Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org I Principios básicos en cirugía174 aspectos facturables de la atención de forma discreta) y las especificaciones (variables clínicas, como la lateralidad en una operación o la intención de un tratamiento). Además, los datos administrativos no suelen estar rela- cionados longitudinalmente, por lo que es difícil medir los resultados más allá de un acontecimiento índice. Cuando los datos están relacio nados lon- gitudinalmente, suelen ser representativos de poblaciones únicas, como individuos asegurados por el mismo pagador, dentro de un sistema único de prestación de servicios sanitarios o, inusualmente, de edades similares (p. ej., Medicare) o del mismo sexo (p. ej., Department of Veterans Affairs). ¿EL ESTUDIO HACE UNA COMPARACIÓN EQUITATIVA? En muchos estudios se comparan los resultados quirúrgicos o los criterios de valoración a través de grupos de pacientes, cirujanos u hospitales. La mayoría de las veces es sencillo definir los grupos de comparación, pero en ocasiones puede ser una tarea difícil; si no se presta atención a los matices, pueden producirse sesgos en el estudio. A continuación se des- criben algunas dificultades que suelen encontrarse cuando se definen los grupos de comparación. Es frecuente que se produzcan problemas en las comparaciones con los «cuidados habituales», que comprenden un gru- po mal definido de actividades que, cuando no se especifican, pueden reflejar o no la atención en una comunidad determinada. También puede haber circunstancias en las que la asignación al azar de un paciente a los «cuidados habituales» plantea un desafío ético, especialmente si estos cuidados comprenden un número menor de controles de seguridad y se considera firmemente que son inferiores a la intervención. Clasificación errónea La clasificación errónea es la asignación incorrecta de un sujeto a un grupo de estudio, y puede dar lugar a un sesgo aunque el diseño y el análisis del estudio sean los adecuados. Hay dos tipos de errores de clasificación: no diferenciales y diferenciales. La clasificación errónea no diferencial indica una probabilidad igual y aleatoria de que cualquier sujeto se haya clasificado erróneamente (o forme parte del grupo de estudio incorrecto). Si realmente existe una diferencia del resultado en todos los grupos, la clasificación errónea no diferencial sesga los resultados hacia la hipótesis nula, un sesgo conservador. La clasificación errónea diferencial se refiere a un error de clasificación no aleatorio. Cuando existen errores de clasificación diferenciales, el sesgo puede ser conservador o anticonservador, dependiendo de la forma en que se hayan clasificado mal los pacientes y la relación real entre la asignacióna los grupos y el resultado. La clasificación errónea diferencial es el problema más grave y no siempre es predecible (detectable). El fenómeno de Will Rogers, basado en la famosa cita: «Cuando los habitantes de Oklahoma dejaron Oklahoma y se trasladaron a California, aumentó el nivel medio de inteligencia en ambos estados», es más conoci- do como migración de estadio y es un ejemplo clásico de clasificación errónea.2 El estadio del cáncer predice la supervivencia a largo plazo. Los pacientes pueden estadificarse por la exploración clínica, por las pruebas de imagen o por ambas, aunque estos métodos no son tan precisos como el análisis del tejido patológico (la técnica de referencia). Algunos pacien- tes pueden ser subestadificados (su enfermedad se clasifica en un estadio temprano cuando realmente está en una fase avanzada o tardía) y otros pueden ser sobreestadificados, por lo que el estadio de su cáncer estaría mal clasificado. Si la estadificación no se realiza correctamente en todos los pacientes de un estudio, la clasificación errónea se produce al azar (no diferencial). La comparación de la supervivencia a través del estadio estaría equivocada, a pesar de que el estadio del cáncer es uno de los fac- tores predictivos más sólidos de la supervivencia. La migración de estadio también puede conducir a una clasificación errónea no diferencial. En un estudio de generación de hipótesis se comparó la supervivencia basada en el estadio en pacientes con cáncer de pulmón en los que se utilizaron más o menos métodos de estadificación diagnósticos.3 Podría esperarse que en los pacientes a los que se realizaron más intervenciones de diagnóstico la estadificación fuera más precisa y hubiera menos errores de clasificación. Se observó una fuerte asociación entre el mayor uso de los métodos de estadificación diagnósticos y la mayor duración de la supervivencia basada en el estadio. En este caso, la clasificación errónea no diferencial era predecible. Los autores citan adecuadamente la migración de estadio como una posible explicación, entre otras, de sus hallazgos. Exposiciones que varían con el tiempo Las exposiciones que varían con el tiempo (o dependientes del tiempo) se refieren a grupos cuyas poblaciones cambian a lo largo del tiempo. No tener en cuenta las exposiciones que varían en el tiempo puede dar lugar a resultados sesgados y conclusiones incorrectas. Un ejemplo de FIGURA 8-1 Jerarquía de los diseños de los estudios. El asterisco indica que se aplican los mismos diseños de los estudios que se encuentran en la otra rama. Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org 8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 175 © E lse vi er . F ot oc op ia r s in a ut or iza ci ón e s u n de lit o. un sesgo potencial originado por covariables que varían en el tiempo es un análisis de los datos de la supervivencia tras un trasplante de corazón.4 El impacto del trasplante de corazón sobre la supervivencia se evaluó comparando a los pacientes que recibieron un trasplante con los que no lo recibieron. Aunque el análisis inicial reveló un beneficio de la supervivencia asociado al trasplante, la manera en que se agruparon los pacientes (tratamiento de trasplante como una variable fija) condujo a un sesgo a favor de los pacientes con trasplantes. Los tiempos de espera para los trasplantes suelen ser largos y muchos pacientes mueren mientras esperan un órgano, por lo que los pacientes de la lista de espera para el trasplante que murieron poco después de entrar en ella no tuvieron la oportunidad de recibirlo. Cuando los inves- tigadores asignaron a los pacientes de forma retrospectiva a estos dos grupos de estudio (trasplantados frente a no trasplantados), los pacientes que sobrevivieron lo suficiente para recibir un nuevo corazón introdujeron un sesgo de selección a favor del trasplante, porque su supervivencia fue de media superior a la del grupo de no trasplantados. En realidad, el estado de exposición del sujeto (trasplantado frente a no trasplantado) depende del tiempo. Mientras estaba en la lista de espera y antes del trasplante, un sujeto podría contribuir al tiempo de supervivencia en el grupo sin trasplante; después del trasplante, el mismo sujeto podría contribuir al tiempo de supervivencia del grupo de trasplante. Un nuevo análisis de los datos evaluando el estado de exposición de una forma dependiente del tiempo no reveló ninguna asociación entre el trasplante y la supervivencia.5 ¿QUÉ ES EL RESULTADO DE INTERÉS? La conclusión de que la intervención A es mejor que la intervención B debe apoyarse en la evidencia de una diferencia de los resultados. Pero ¿qué significa «mejor»? ¿Qué pasa si la operación A es mejor con respecto a un tipo de resultado, pero peor con respecto a otro? La evaluación de los resultados no puede determinar qué intervención es mejor para el paciente, pero puede informar a los pacientes y los profesionales sobre las diferencias entre dos o más opciones terapéuticas o de diagnóstico posibles. Los lectores que juzgan el valor de un estudio deben determinar qué resultados se evaluaron, desde qué perspectiva y si los resultados elegidos son coherentes con el propósito del estudio. Los resultados pueden ser objetivos (p. ej., la muerte) o subjetivos (p. ej., la satisfacción del paciente). TABLA 8-1 Fuentes de datos para la investigación de los servicios sanitarios y los resultados FUENTE DE DATOS VENTAJAS INCONVENIENTES EJEMPLO Historiales clínicos Facilidad para conseguirlos Datos perdidos Informes de casos Utilidad para la generación de hipótesis Se requiere mucho tiempo Series de casos Incapacidad para medir cierta información (p. ej., intención) Valor científico limitado RCP Datos únicos sobre los síntomas, la función y el estado de salud Se requiere mucho tiempo: entrevistas o cuestionarios SF-36 Health Survey Globales (multidimensionales) o específicos (unidimensionales) Los instrumentos únicos pueden tener problemas de validez cuando se amplía la población PROMIS Puede ser difícil interpretar el cambio/efecto Administrativos Un gran número Variables clínicas limitadas Medicare Datos del mundo real Datos obtenidos de la facturación, no de la investigación Datos de alta estatales Suelen ser generalizables Fáciles de obtener Asequibles Registro Suelen contener datos clínicos Realizados por motivos limitados, por lo que tienen datos restringidos SEER Suelen faltar datos, porque la información se recoge en la atención habitual en lugar de en las visitas de investigación National Cancer Database Suelen comprender solo datos transversales y es necesario relacionarlos con otras fuentes de datos para hacer el seguimiento Registro de dispositivos (SVAT) Datos del mundo real basados en la población que no se limitan a los centros terciarios o de referencia Conjuntos de datos relacionados Fuente de datos más rica que los registros o los datos administrativos solos Datos perdidos SEER-Medicare Permite la evaluación longitudinal de episodios de asistencia Incapacidad para captar la intención del tratamiento Proyecto de seguimiento y mejora de la calidad Datos recogidos de forma prospectiva Sobrerrepresentación de centros terciarios o de referencia National Surgical Quality Improvement Project Rico en datos clínicos, de laboratorio y demográficos del paciente Muestra aleatoria de pacientes, no exhaustiva Base de datos de la Society of Thoracic Surgeons Encuestas nacionales Muestra nacional En la muestra de las encuestas pueden estar sobrerrepresentados algunos grupos raciales Encuesta del panel de gastos médicos Algunos datos de reclamaciones de la asistenciasanitaria y diagnósticos longitudinales Adaptado de Rosenthal R, Schafer J, Briel M, et al: How to write a surgical clinical research protocol: Literature review and practical guide. Am J Surg 207:299–312, 2014. PROMIS, Patient-Reported Outcomes Measurement Information System; RCP, resultados comunicados por el paciente; SEER, Surveillance, Epidemiology and End Results; SF-36, 36-item short-form; SVAT, sustitución de la válvula aórtica transcatéter. Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org I Principios básicos en cirugía176 Resultados comunicados por el paciente Los resultados comunicados por el paciente (RCP) miden las expe- riencias o acontecimientos que son mejor referidos por el paciente. A veces, los RCP se llaman resultados subjetivos, porque la respuesta no puede ser verificada por un profesional sanitario o un investigador. Algunos ejemplos de conceptos de RCP frecuentes son la calidad de vida relacionada con la salud, la satisfacción con la atención, el estado funcional, el bienestar y el estado de salud. Generalmente, los RCP consisten en varios conceptos (o dominios) más discretos. Por ejemplo, la calidad de vida relacionada con la salud mide dominios como el funcionamiento físico (p. ej., dolor), psicológico (p. ej., depresión) y social (p. ej., la capacidad para desempeñar las actividades de la vida diaria). Ejemplos específicos de elementos contenidos dentro de estos dominios podrían ser el dolor, los problemas del sueño, la función sexual, la vitalidad y la energía, y el dolor. Los datos de los RCP se recogen mediante el uso de instrumentos de encuesta y pueden volver a medirse a lo largo del tiempo. Estos ins- trumentos están compuestos por preguntas individuales, declaraciones o tareas evaluadas por el paciente; usan un método claramente definido por la administración; los datos se recogen utilizando un formato estan- darizado; y la puntuación, el análisis y la interpretación de los resultados deben haber sido validados en la población de estudio. En general, se recomienda a los investigadores que utilicen los instrumentos exis- tentes para medir los RCP (en lugar de crear los suyos propios), porque el desarrollo adecuado de un instrumento requiere mucho tiempo, recursos, pruebas y validación antes de su aplicación.6 Se clasifican en instrumentos generales (p. ej., la encuesta de salud de formato corto de 36 preguntas), porque describen en términos generales la salud física, mental y social, o instrumentos específicos de la enfermedad (p. ej., instrumento de la calidad de vida en la diverticulitis), porque se dirigen a un trastorno único. Muchos médicos confunden los RCP y los resultados centrados en el paciente. Un resultado centrado en el paciente es el que es importante para un paciente. Por ejemplo, la supervivencia a largo plazo y la recu- rrencia son muy importantes para las personas con cáncer, pero otras personas además del paciente pueden observar que se producen estos resultados. La supervivencia y la recurrencia son resultados centrados en el paciente, pero no RCP. Costes, precios y utilización de recursos El precio es la cantidad de dinero solicitada por los servicios y los sumi- nistros sanitarios, mientras que los costes son la cantidad real de dinero gastado para prestar la asistencia. La perspectiva del estudio define qué costes deben determinarse e incluirse en el análisis. Por ejemplo, aunque una perspectiva social incluiría los costes de la atención y los costes monetarios directos e indirectos asociados a la atención (p. ej., gastos de viaje y de desplazamiento, pérdida de productividad en el trabajo, gastos en un cuidador), la perspectiva de un hospital sería más selectiva, no tendría en cuenta los gastos personales del paciente, pero incluiría el reembolso del pagador. Hay tres métodos habituales para comparar los resultados de los costes. El análisis de rentabilidad cuantifica el beneficio para la salud en términos de dólares. El gran desafío de este enfoque es la asignación de un valor en dólares a una vida o a un resultado sanitario específico. El análisis de coste-utilidad cuantifica los beneficios para la salud en términos de años de vida ajustados por calidad (AVAC). Las utilidades son una medida de la calidad de vida en general, habitualmente en una escala entre 0 y 1, donde 1 es un estado de salud perfecto, y se multiplican por el tiempo de supervivencia para determinar los AVAC. Cuando esta medida del resultado se evalúa como un coste por AVAC, es fácilmente comparable entre las intervenciones. Generalmente, una intervención con un coste asociado de 50.000 dólares o menos por AVAC se considera rentable, aunque existe un debate acerca de la validez de esta medida, y se ha propuesto un rango de costes/AVAC de 20.000 a 100.000 dólares como más razonable.7 Los análisis de rentabilidad miden el beneficio para la salud en términos de una medida del resultado denominada relación coste-efectividad incremental, que es la diferencia de los costes entre dos opciones tera- péuticas posibles dividida por la diferencia de los resultados sanitarios. Si la relación coste-efectividad incremental cuando se compara un nuevo tratamiento con un tratamiento estándar revela que el nuevo tratamiento es más caro y menos eficaz, se considera que está dominado por el estándar y no se favorece, mientras que un tratamiento nuevo más barato y más eficaz domina el estándar y se ve favorecido. Las circunstancias en las que una intervención es más cara y más eficaz o más barata y menos eficaz representan «disyuntivas» y no están tan claras para los legisladores. La utilización de recursos se refiere al uso de servicios sanitarios relacionados con una intervención. En el contexto de la asistencia quirúrgica, esto abarca la utilización de recursos prehospitalarios: visitas en la clínica, pruebas preoperatorias, optimización y diagnóstico; así como de recursos hospitalarios: duración de la estancia; reingreso hospitalario; uso de recursos ambulatorios, farmacia y equipo médico duradero (como sillas de ruedas y oxígeno), y uso del servicio de urgen- cias después de la hospitalización, centros de enfermería especializados y atención domiciliaria. Puede ser difícil determinar en qué medida la utilización de los recursos está relacionada con la intervención o la técnica que se está estudiando y en qué medida puede atribuirse a las condiciones clínicas de referencia de un paciente (p. ej., enfermedad crónica, acontecimientos adversos) y a factores no clínicos (p. ej., apoyo social al paciente, preferencia del paciente sobre la atención ambulatoria u hospitalaria, seguro que excluye el uso de la atención domiciliaria). Por ejemplo, un investigador podría estudiar los reingresos después de una resección pancreática por un cáncer. Aunque los reingresos son fáciles de identificar, puede ser imposible saber (dependiendo de la fuente de datos) si el reingreso estaba planificado (p. ej., para la administración de quimioterapia) o no (p. ej., debido a una com- plicación) o si era adecuado (p. ej., debido a una complicación que requiere tratamiento hospitalario). Seguridad Los criterios de valoración de la seguridad pretenden abordar los riesgos de una técnica de diagnóstico o una intervención (p. ej., lesión de las vías biliares o infección del sitio quirúrgico) o de la prestación de la atención (p. ej., cirugía en el sitio incorrecto). La mortalidad quirúrgica y las complicaciones postoperatorias (morbilidad) son los marcadores de la seguridad que se miden con más frecuencia. Los criterios de valoración de la seguridad suelen utilizarse en los estudios, porque son relativamente fáciles de medir y requieren solo un cortoperíodo de seguimiento. Generalmente, los estudios de la seguridad tienen que tener un tamaño bastante grande debido a la escasa frecuencia relativa del suceso. La mayoría de los estudios controlados aleatorizados (ECA) y las series pequeñas no son suficientes para evaluar los resultados poco frecuentes. Adecuación Debido al aumento de los gastos en atención sanitaria, se están hacien- do cada vez más esfuerzos para centrarse en la proporción de pacientes que no cumplen las indicaciones «apropiadas» para una técnica de intervención, determinadas por las sociedades profesionales y los estu- dios de investigación. En una serie de estudios de cohortes realizados en la década de los noventa y repetidos en la primera década del siglo xxi, se analizaron los historiales clínicos y los registros de las pruebas de imagen diagnósticas buscando evidencias de las indicaciones estándar para la endoarterectomía carotídea, el injerto de derivación arterial coronaria y la revascularización percutánea, y se descubrió que uno de cada tres no cumplía los criterios estándar.8,9 En respuesta, muchos grupos aumentaron su producción de directrices y criterios de adecua- ción.10 El cumplimiento de las directrices establecidas para la asistencia quirúrgica adecuada es un resultado que cada vez se observa más, aunque el impacto de dichas directrices en la disminución de las tasas de las intervenciones que realmente son innecesarias ha sido mixto.11 Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org 8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 177 © E lse vi er . F ot oc op ia r s in a ut or iza ci ón e s u n de lit o. Criterios de valoración indirectos Ha surgido un interés en los criterios de valoración indirectos debido a que algunos resultados clínicos pueden ser difíciles de evaluar por la escasa frecuencia del acontecimiento clínico, el coste de su comproba- ción o la existencia de un lapso de tiempo largo hasta su aparición. Los criterios de valoración indirectos se usan con frecuencia en estudios de nuevas intervenciones farmacológicas cuando es esencial obtener datos eficaces sobre el efecto terapéutico para comercializar un producto con rapidez.12 Los verdaderos beneficios clínicos de una intervención pueden tardar años en reconocerse, y puede ser deseable identificar un resultado intermedio que pueda servir de sustituto del efecto clínico real. Un problema del uso de criterios de valoración indirectos es que una intervención puede influir en un resultado a través de varias vías potencialmente no deseadas ni previstas. Cuando evalúa un estudio, el lector no solo debe preguntarse si el resultado seleccionado puede responder a la pregunta de investigación, sino también si ese resultado es un criterio de valoración clínico significativo o simplemente un sus- tituto más fácil de medir. Se han propuesto criterios para validar los criterios de validación indirectos: el criterio de validación indirecto debe estar relacionado con el criterio de valoración clínico de interés y captar plenamente el efecto neto de la intervención sobre el criterio de valoración de interés. A no ser que un resultado alternativo elegido se haya validado e investigado en otros estudios quirúrgicos, los resultados y las conclusiones deben interpretarse con precaución. Un ejemplo clásico de un criterio de valoración indirecto es la detec- ción de la tromboembolia venosa (TEV).13 En este ECA, los autores trataron de evaluar la eficacia y seguridad de la tromboprofilaxis con dalteparina administrada durante 28 días después de la cirugía abdo- minal mayor en comparación con 7 días de tratamiento. El criterio de valoración primario de la eficacia fue la TEV verificada objetivamente en la venografía (no necesariamente sintomática, y la mayoría no lo era) que se produjo entre los días 7 y 28 después de la cirugía. En el grupo de dalteparina de 7 días se identificaron 29 episodios de TEV (4 eran sintomáticos y 25 se detectaron solo con pruebas de imagen). En el grupo de dalteparina de 28 días se produjeron 12 episodios de TEV, todos asintomáticos. En esto radica el principal problema de este estudio; la TEV asintomática, identificada únicamente por pruebas de imagen, es un criterio de valoración indirecto. Aunque biológicamente es posible que la TEV asintomática progrese a TEV sintomática, no se conoce la probabilidad de que esto suceda y, más importante aún, no se conocen las tasas subyacentes de TEV asintomática. La medida ade- cuada habría sido la eficacia en la disminución de la TEV sintomática. Este es un acontecimiento infrecuente (4 de 178 [2%] en el grupo de 7 días y 0 de 165 [0%] en el grupo de 28 días), y este estudio no tiene suficiente potencia para mostrar esta diferencia. Criterios de valoración combinados A veces no hay un único resultado óptimo o, como acabamos de anali- zar, los episodios son infrecuentes, por lo que la potencia es insuficiente para evaluar los resultados. En estas situaciones, los estudios pueden informar de los criterios de valoración combinados. Por ejemplo, un criterio de valoración combinado para medir la eficacia en la TEV sin- tomática puede comprender la trombosis venosa profunda sintomática, la embolia pulmonar sintomática, las complicaciones principales y la muerte por cualquier causa durante el tratamiento. Sin embargo, para que los criterios de valoración combinados sean significativos, deben tener una importancia y una frecuencia similares. El desequilibrio de los componentes no permite a los revisores juzgar qué resultado individual contribuyó más al criterio de valoración combinado. ¿CUÁL ES EL DISEÑO DEL ESTUDIO? En la investigación quirúrgica se utilizan con frecuencia varios diseños de los estudio. La selección del diseño adecuado depende del propósito del estudio (de generación de hipótesis frente a de comprobación de hipótesis, como se muestra en la figura 8-1) y de la disponibilidad de recursos para llevar a cabo la investigación y su viabilidad. El lector informado debe asegurarse de que los investigadores hayan usado un diseño del estudio aceptable para abordar la pregunta de investigación. En la tabla 8-2 se proporciona un resumen de los diseños de los estudios más frecuentes en la bibliografía quirúrgica. TABLA 8-2 Consideraciones importantes en los tipos de diseños TIPO DE ESTUDIO RELACIÓN EXPOSICIÓN/ RESULTADO CONSIDERACIONES EJEMPLO Estudio controlado aleatorizado Asignación aleatoria de una exposición y seguimiento del resultado ¿Equilibrio? Estudio aleatorizado de espera vigilante frente a la reparación de la hernia inguinal en hombres adultos17Elección del control (p. ej., placebo frente a los cuidados estándar) ¿Validez externa? ¿Es ciego? ¿Intención de tratar? Superioridad frente a no inferioridad Transversal La exposición y los resultados se evalúan en el mismo punto de tiempo No es adecuado si la enfermedad es de corta duración o poco frecuente Estudio transversal para evaluar la variación en la recepción de profilaxis para la TEV en pacientes médicos y quirúrgicos hospitalizados en 32 países26 Cohortes Identificado por la exposición, seguido por el resultado (prospectivo o retrospectivo) Una exposición, múltiples resultados Cohortes de pacientes que se sometieron a la extracción de vena safena endoscópica frente a abierta durante el IDAC, seguidos a través del tiempo por la mortalidad y los acontecimientos adversos compuestos27 Confusión No es eficaz para los resultados poco frecuentes o los que se producen mucho después de la exposición Casos y controles Identificado por el resultado, evaluado por la exposición (prospectivo o retrospectivo) Un resultado,múltiples exposiciones Estudio de la identificación de factores de riesgo (exposiciones) asociados a cuerpos extraños retenidos después de la cirugía (casos) frente a los controles que no tenían cuerpos extraños retenidos28 ¿Cómo se eligió el grupo de control? Confusión Sesgo de memoria Informes/series de casos Validez externa Series de casos de metástasis en el lugar de apoyo que destacan un riesgo poco frecuente, pero potencialmente grave29 IDAC, injerto de derivación arterial coronaria; TEV, tromboembolia venosa. Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org I Principios básicos en cirugía178 Estudios controlados aleatorizados Los ECA proporcionan el máximo grado de evidencia que apoya la causalidad. Si la aleatorización se realiza correctamente y el número de personas asignadas al azar es suficientemente grande, las variables de confusión se distribuyen por igual entre los grupos, que es la principal ventaja de un ECA. Es decir, los resultados entre los dos o más grupos pueden compararse sin problemas de sesgo. Sin embargo, es difícil realizar un ECA debido a cuestiones relativas al equilibrio, la ética, la disposición para ser asignados al azar, los costes y la validez externa. En un ECA, los sujetos se asignan de forma aleatoria a un grupo de intervención, donde reciben una intervención experimental (en un estudio determinado pueden asignarse al azar los sujetos a una o más intervenciones), o a un grupo de control, donde reciben una alternativa medible controlada (placebo o una forma estándar de tratamiento exis- tente). Se hace el seguimiento de los sujetos para medir cómo se pro- ducen los resultados de interés. La aleatorización con éxito elimina las diferencias sistemáticas en las posibles variables de confusión entre los grupos de estudio. Los sujetos (ciego sencillo) y, en algunos casos, los investigadores (doble ciego) pueden desconocer a qué intervención del estudio se ha asignado a cada sujeto. En los estudios abiertos, tanto los sujetos como los investigadores conocen esta información. El des- conocimiento de los sujetos de estudio pretende mitigar la influencia de un efecto placebo, mientras que el desconocimiento de los inves- tigadores reduce el sesgo por la administración diferente de la asistencia y la evaluación de los resultados entre los grupos de estudio. El cega- miento en la cirugía puede ser un reto. La cirugía simulada o placebo se ha realizado antes,14 pero requiere una justificación ética especial. Un aspecto analítico importante de los ECA es la intención de tratar (IT). Cuando se realiza un análisis siguiendo el principio de la IT, las comparaciones del resultado entre los grupos de control y de tratamiento se basan en la asignación aleatoria inicial y se descarta cualquier entrecruzamiento, es decir, los sujetos asignados al azar al grupo de control pero que recibieron la intervención del estudio, o los asignados a una intervención pero que recibieron el control. Si se utilizan enfoques analíticos diferentes a la IT, no puede garantizarse un equilibrio igual de los factores de confusión entre los grupos de com- paración, y los beneficios de la asignación al azar pueden perderse. Por ejemplo, un investigador que aconseja una intervención podría preferir que solo los pacientes de un ECA que se sometieron a la intervención se incluyeran en el análisis (conocido como análisis por protocolo), excluyendo a los asignados al azar al tratamiento pero que se pasaron al grupo de control, o agrupando a los que se intercambiaron con el grupo de control. El análisis de la IT es esencial, porque permite a los cirujanos y a los pacientes analizar si es mejor elegir esa intervención para ese paciente en particular. Cuando se considera si un paciente debe someterse o no a una intervención, ni el paciente ni el cirujano saben si el primero será capaz de completar la intervención o la estrategia, o si requerirá un enfoque más convencional, quizás por su incapacidad para tolerar la intervención. La IT proporciona información sobre cómo se compara la intervención en el momento en que se toma la decisión. El propósito del ECA (superioridad, equivalencia o no inferioridad) tiene especial importancia cuando se interpretan sus resultados. Si se comparan dos intervenciones bajo una hipótesis de superioridad y no se identifica una diferencia estadísticamente significativa, el lector puede verse tentado a llegar a la conclusión de que los dos tratamientos son equivalentes en términos de ese resultado. Sin embargo, la ausencia de una diferencia observable en los resultados no es lo mismo que tener pruebas de que los resultados son idénticos entre dos grupos.15 Es matemáticamente imposible diseñar un estudio con la potencia suficiente para demostrar que no existen diferencias entre los resultados. En lugar de ello, los investigadores especifican a priori la mínima diferencia en el resultado que tendría importancia clínica. Después se diseña el análisis para determinar si las diferencias en los resultados son mayores de esta diferencia mínimamente importante. Aunque los diseños de no inferioridad tienen un claro valor en la investigación quirúrgica, son poco frecuentes. Para descartar pequeñas diferencias en los resultados, debe inscribirse un número muy grande de pacientes para asegurar la suficiente potencia estadística.16 En un ECA de no inferioridad se evaluó si la espera vigilante en la hernia con síntomas mínimos proporcionaba resultados equivalentes de la puntuación del dolor en comparación con la reparación.17 En los pacientes con síntomas mínimos, la base de la recomendación de la reparación quirúrgica es prevenir las complicaciones relacionadas con la hernia (incarceración, estrangulación o ambas), aunque son infrecuentes. Los resultados de la IT del estudio demostraron que no se cumplían las diferencias significativas mínimamente importantes del 10% entre las actividades que limitan el dolor y una mejoría de 8 puntos en la escala del dolor respecto al valor de referencia a los 2 años. Los autores llegaron a la conclusión de que retrasar la reparación quirúr- gica hasta que los síntomas aumentan es igual de eficaz, especialmente porque las incarceraciones agudas de las hernias eran muy infrecuentes. Eficacia y efectividad Es importante distinguir entre eficacia y efectividad. La eficacia se refiere a la medida en que se consigue el beneficio que se persigue con una intervención de tratamiento y la durabilidad de ese resultado. Generalmente, se relaciona con los resultados en el contexto de los estudios de investigación controlados (p. ej., ECA) y las condiciones ideales para el cuidado de los pacientes, mientras que la eficacia se refiere a los resultados en la práctica habitual. Muchos pacientes de los que se encuentran en la práctica habitual no se considerarían ade- cuados para ser incluidos en un ECA debido a la edad, los trastornos comórbidos, la disposición para ser asignado al azar, el cumplimiento u otras razones. Los estudios de efectividad se realizan entre poblacio- nes de mayor tamaño que, idealmente, contengan la heterogeneidad suficiente para evaluar la forma en que se lleva a cabo una intervención en la comunidad promedio, con pacientes y médicos promedio. Los mejores estudios de efectividad deberían incluir a todos los pacientes de una población muy grande, pero esto no suele ser factible, por lo que los investigadores de la efectividad deben equilibrar las cuestiones sobre la generalización de los resultados con las cuestiones prácticas de la realización de estudios de gran tamaño. Sin embargo, es funda- mental realizar estudios de efectividad, porque las evaluaciones del mundo real cambian nuestracomprensión de lo que observamos en un ECA. Por ejemplo, en un ECA de más de 800 pacientes se llegó a la conclusión de que la limpieza preoperatoria de la piel con clorhexidina era más eficaz que la limpieza con yodo para la prevención de las infecciones del sitio quirúrgico.18 Estos resultados no pudieron repetirse en los estudios de efectividad, tal vez debido a la selección diferencial de los agentes limpiadores de la piel y a los métodos distintos para medir las infecciones en la práctica real.19,20 Variaciones en los estudios aleatorizados Aunque los ECA pueden ofrecer la evidencia más sólida con respecto a la causalidad, no son ideales para todas las preguntas que se investigan. Existen numerosas variaciones en el diseño de los ECA para poder evaluar la efectividad de una intervención en amplias poblaciones de pacientes y diversos entornos prácticos. Los ECA pragmáticos, en los que el grupo tradicional «de control» se sustituye por la «prácti- ca habitual», es una metodología contemporánea que aprovecha los beneficios de la asignación al azar y a la vez representa los entornos y parámetros variables de la práctica. En los ensayos aleatorizados grupales, los grupos de sujetos, en lugar de los individuos, se asignan al azar. Permiten a los investigadores estudiar las intervenciones que no pueden dirigirse hacia individuos seleccionados (p. ej., la aplicación de una lista de comprobación de la seguridad quirúrgica como una política del hospital) y pueden controlarse por la «contaminación» entre los individuos del mismo grupo (p. ej., el uso de un cirujano de antibióticos preoperatorios puede influir en que otro cirujano haga lo mismo). En los estudios aleatorizados estratificados, la intervención de estudio se pone en marcha de forma secuencial para los sujetos o los grupos de participantes. El orden en el que los participantes reciben Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org 8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 179 © E lse vi er . F ot oc op ia r s in a ut or iza ci ón e s u n de lit o. la intervención es aleatorio, pero todos ellos la habrán recibido al final del estudio. Este diseño se utiliza en situaciones en las que un diseño paralelo del ECA real puede ser poco práctico por razones logísticas o económicas, o si se considera que la intervención causa más bien que mal (por lo que no aplicarla en un ECA real no sería ético). En los ECA factoriales, los participantes son asignados a un grupo que recibe una combinación de intervenciones (o no intervenciones), lo que permite a los investigadores comparar múltiples efectos con una muestra de menor tamaño que en un ECA tradicional. Por último, los estudios adaptativos permiten que las características clave del estudio (p. ej., grupos de tratamiento, elegibilidad y tamaño de la muestra) evolucionen en respuesta a la información obtenida del propio estudio. Esta metodología (que a veces se denomina estudios de medicina persona- lizados) cada vez se está aplicando más a la investigación de resultados centrados en el paciente, donde el enfoque en ciertas subpoblaciones puede evolucionar a lo largo del estudio. Para aumentar la calidad y la transparencia de los estudios, es esencial registrar el estudio en línea con el International Standard Randomized Controlled Trial Number, de manera que las preguntas, la población y el plan analítico se detallen antes de empezar el estudio, lo que evita el sesgo de publicación de que se comuniquen solo los estudios positivos. El registro también requiere el uso de métodos y normas de información establecidos. Por ejemplo, los Consolidated Standards of Reporting Trials (CONSORT) exigen que se incluyan los detalles acerca de varios aspectos metodológicos pertinentes para la realización de los ECA (p. ej., la asignación aleatoria, el cegamiento, la IT) en el artículo final.21,22 Metaanálisis Un estudio aislado puede no tener potencia para responder a una pregunta de investigación dada o reflejar un grado determinado de heterogeneidad que podría confundir al lector. El metaanálisis es una técnica que agrupa los datos publicados disponibles con el fin de aumentar la potencia estadística de un análisis. El metaanálisis no solo es aplicable a los datos de los ECA, también puede usarse para reunir resultados de estudios observacionales. De forma parecida a los criterios CONSORT para los estudios aleatorizados, se han desarrollado las directrices Quality for Reporting of Meta-Analyses23 y Meta-Analysis of Observational Studies in Epidemiology24 para asegurar la calidad y la validez de los resultados obtenidos por medio de metaanálisis. Estas directrices deben tenerse en cuenta cuando se evalúa la calidad de las pruebas proporcionadas por un análisis agrupado. Por ejemplo, en varios estudios clínicos aleatorizados se ha cues- tionado el dogma quirúrgico de la preparación intestinal mecánica (PIM) intensiva antes de la cirugía colorrectal. Varios ECA pequeños indicaron que la PIM se asociaba a un mayor riesgo de filtración anas- tomótica y que debía abandonarse (N = 47-380 sujetos en los estudios publicados). En los ECA más recientes y más grandes se ha observado un riesgo similar de filtración de la anastomosis con la PIM, pero también un riesgo mayor de absceso abdominal profundo sin la PIM (aproximadamente, 1.350 sujetos). Sin embargo, no se diseñó ningún estudio para analizar todos los resultados de interés. En un metaanálisis que combinaba todos los estudios (4.859 pacientes, 2.452 en los que se había realizado la PIM y 2.407 en los que no se había hecho) no se observaron diferencias entre los grupos en cuanto a la filtración de la anastomosis o los abscesos profundos, y se observó una tasa significativamente más baja de todas las infecciones del sitio quirúrgico cuando se omitió la PIM.25 Independientemente del tipo de datos agrupados, en todos los casos, una consideración importante cuando se analiza un metaanálisis es la homogeneidad de todos los estudios. Si los estudios incluidos evalúan criterios de valoración, poblaciones de pacientes y grupos de comparación similares, usando definiciones de variables y métodos de evaluación del resultado similares, los resultados agrupados pueden ser informativos. La heterogeneidad significativa indica más variación en los resultados del estudio de lo que el azar solo puede explicar, un signo de que los diseños o los resultados de los estudios incluidos pue- den no ser compatibles y no deben agruparse. Esto es particularmente importante cuando se han agregado datos observacionales, porque estos estudios tienden a tener menor control de la variabilidad y un mínimo control de los factores de confusión y los sesgos. Un enfoque para aumentar la transparencia de los resultados agrupados de los estudios observacionales es agrupar también las características de referencia de los grupos de comparación. Estudios transversales Los estudios transversales comprenden datos recogidos en un único punto de tiempo. Estos datos son los más utilizados para explorar las relaciones entre las variables y la carga patológica o se agrupan en el tiempo para observar las tendencias temporales. Estos estudios son los más utilizados para la generación de hipótesis. Las limitaciones que derivan de la forma en que se muestrea una población, la falta de múltiples puntos de tiempo y la detección o el sesgo de memoria no permiten establecer relaciones causales en este tipo de estudio. Por ejemplo, en el estudio Epidemiologic International Day for the Eva- luation of Patients at Risk for Venous Thromboembolism in the Acute Hospital Care Setting (ENDORSE) se evaluóla variación de la pro- filaxis de la TEV en más de 68.000 pacientes de 32 países. Se observó que 35.000 pacientes (52%) estaban en riesgo de TEV. De ellos, el 59% de los pacientes quirúrgicos y el 40% de los pacientes médicos recibieron profilaxis adecuada.26 La descripción de la variación en la práctica motivó la realización de estudios posteriores para comparar los diferentes tipos de profilaxis de la TEV y las intervenciones para mejorar el cumplimiento de las directrices establecidas. Estudios de cohortes En los estudios de cohortes se hace el seguimiento de pacientes asig- nados de forma no aleatoria a diferentes grupos para determinar si los resultados varían entre los grupos. Los datos pueden analizarse de forma prospectiva o retrospectiva, pero la observación se inicia con la expo- sición (es decir, asignación al grupo) y se extiende a través del tiempo para determinar si un acontecimiento en particular se produce o no. Las ventajas de los estudios de cohortes son la capacidad para estimar la incidencia (o tasa) de la exposición y los resultados, evaluar resultados múltiples de forma simultánea y estudiar exposiciones infrecuentes. Los estudios de cohortes no pueden evaluar resultados que son infrecuentes o que se producen mucho tiempo después de la exposición. Por ejemplo, en un análisis secundario de los datos del estudio PREVENTION VI se evaluaron diferencias en el resultado entre pacientes en los que se obtuvieron venas safenas con endoscopia o con una intervención abierta durante la colocación de un injerto de derivación arterial coronaria.27 Después de ajustar en función de los posibles factores de confusión, los autores observaron que la mortalidad y dos criterios de valoración combinados eran más frecuentes en el grupo de obtención endoscópica. Este estudio subraya dos ventajas del diseño de cohortes: permite una estimación de la frecuencia de los acontecimientos adversos asociados a las intervenciones que se comparan y la evaluación simultánea de múltiples resultados. Estudios de casos y controles Los estudios de casos y controles comparan la frecuencia de las expo- siciones entre pacientes que han experimentado o no un resultado de interés. Estos estudios comienzan reclutando sujetos con y sin el resultado de interés y después buscan en el pasado las diferencias en los posibles factores de riesgo. Los diseños de casos y controles se usan pocas veces en la bibliografía quirúrgica. Un ejemplo consistió en una evaluación de los factores de riesgo asociados a los cuerpos extraños retenidos después de una intervención quirúrgica.28 Los investigadores revisaron los historiales clínicos de todos los pacien- tes que presentaron reclamaciones o proporcionaron informes de incidentes a una gran aseguradora estatal de mala práctica (n = 54). Todos los casos se compararon con cuatro pacientes de control Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org I Principios básicos en cirugía180 (n = 235) que no plantearon estas reclamaciones. Los factores de riesgo de la retención de cuerpos extraños fueron la intervención quirúrgica urgente, cambios no planificados en la operación y el índice de masa corporal. Este estudio destacó dos ventajas del diseño de casos y controles: la capacidad para evaluar los factores de riesgo de un resultado infrecuente y la evaluación simultánea de múltiples factores de riesgo. Los estudios de casos y controles se confunden a veces con los estudios de cohortes, quizás por la dificultad relacionada con el sig- nificado de casos y controles en el contexto de la investigación. En la investigación epidemiológica y de los servicios sanitarios, un caso se refiere a un sujeto que ha experimentado un resultado de interés, mientras que un control se refiere a un paciente que no ha experimen- tado ese resultado. Todos los pacientes que experimentan el resultado deben incluirse en un estudio de casos y controles, particularmente cuando ese resultado es infrecuente, pero es innecesario incluir a todos los pacientes sin el resultado, porque no supone ningún beneficio estadístico incluir más de cuatro controles por caso. Sin embargo, los pacientes sin el resultado que se incluyan en la muestra deben ser representativos de la población general a la que pertenecen. Debido a la forma en que se muestrean los sujetos, no es posible estimar la fre- cuencia de la exposición en la población a partir de un estudio de este tipo. Las ventajas del diseño de casos y controles son la eficacia de la evaluación de los factores asociados a los resultados infrecuentes o los resultados que se producen mucho tiempo después de la exposición, y la capacidad para evaluar múltiples exposiciones a la vez. Cuando la medida de una exposición es cara o requiere mucho tiempo (p. ej., análisis de laboratorio costosos, entrevistas detalladas), esta puede ser una forma mucho más eficaz de usar los recursos, porque solo es necesario utilizarlos en los sujetos con el resultado de interés y en el número limitado de controles. Informes de casos y series de casos Un informe de casos pretende destacar una técnica o acontecimiento inusual o inesperado, mientras que una serie de casos demuestra que estos acontecimientos pueden suceder más de una vez. Un beneficio de estos estudios es que pueden revelar un posible beneficio o efecto adverso no reconocido de un tratamiento quirúrgico y generar nuevas hipótesis, lo que promueve una evaluación científica más rigurosa. La prostatectomía radical laparoscópica es un método establecido para tratar el cáncer de próstata localizado y, según los informes, ofrece beneficios oncológicos equivalentes a los de la resección abierta. Sin embargo, desde 1994, los cirujanos han publicado un total de 14 casos de metástasis en el puerto, lo que subraya un riesgo infrecuente, pero potencialmente grave, de un abordaje quirúrgico mínimamente invasivo (AQMI) de la prostatectomía.29 Estos estudios son diferentes de los de cohortes porque no se comparan estrategias o intervenciones que compiten entre sí. ¿SE REALIZÓ EL ANÁLISIS CORRECTO? El análisis estadístico de cualquier estudio debe partir de los objetivos, el diseño y las fuentes de datos del estudio. Conocer varios conceptos metodológicos sirve de base para revisar la bibliografía de forma crítica. Tipos de variables y estadísticas descriptivas En la tabla 8-3 se ofrece un resumen de las variables y las medidas asociadas de la tendencia central que más se utilizan y las pruebas estadísticas. Una variable continua es la que puede tomar cualquier número de valores dentro de un rango determinado de posibilidades. La edad y la estancia son ejemplos de variables continuas. Las estadís- ticas descriptivas se usan para explicar la tendencia central de las varia- bles continuas. La media aritmética proporciona una buena estimación de la tendencia central de datos con una distribución normal (gaussiana o en forma de campana). Si los datos están sesgados (no se distribuyen de forma normal), la media será un estimador sesgado de la tendencia central. En estos casos, la mediana o la media geométrica proporcionan una estimación mejor. Las variables categóricas tienen valores discretos. La variable cate- górica más simple es una variable binaria que solo puede tomar uno de dos valores, como el sexo (masculino, femenino). Las variables ordinales son variables categóricas ordenadas. El estadio del cáncer es un ejemplo clásico de una variable categórica ordinal. Las variables nominales son variables categóricas sin ordenar, como la raza. Las variables categóricas se describen en términos de proporciones. Las variables del tiempo transcurrido hasta el acontecimiento cons- tan de dos variables,una variable continua que mide el intervalo de tiempo desde un punto de inicio establecido (p. ej., la fecha del diagnós- tico o del tratamiento) hasta un fracaso (p. ej., la muerte o la recidiva de la enfermedad) o el final del período de observación, y una variable binaria que indica si se produjo el fracaso. La supervivencia a largo pla- zo es un ejemplo clásico de variable de tiempo hasta el acontecimiento. El método de Kaplan-Meier es la forma más frecuente de describir la probabilidad de que un acontecimiento ocurra en un cierto momento (p. ej., la supervivencia a los 5 años). Este método tiene en cuenta que el número de pacientes con riesgo de sufrir un acontecimiento disminuye con el tiempo; a medida que los pacientes se retiran de un estudio o experimentan el acontecimiento resultado, habrá cada vez menos pacientes con riesgo de sufrir el resultado (un paciente que muere no puede morir otra vez). El método de Kaplan-Meier puede sobrestimar el riesgo en el marco de los riesgos en comparación. Por ejemplo, el tiempo hasta la reintervención tiene riesgos en competición: el proceso patológico puede evolucionar y provocar la reintervención; con el tiempo puede surgir una contraindicación para la reintervención, o puede producirse la muerte, en cuyo caso el paciente ya no está en riesgo. Sin embargo, hay métodos para manejar las variables del tiempo hasta los acontecimientos en el marco de los riesgos en competición.30 TABLA 8-3 Parámetros usados con frecuencia en la investigación de los servicios sanitarios y los resultados quirúrgicos TIPO DE VARIABLE MEDIDA ESTADÍSTICA DESCRIPTIVA MODELO DE REGRESIÓN MULTIVARIABLE Continua Media Prueba de la t para datos independientes Lineal Mediana Prueba de la t para datos emparejados para medidas repetidas ANOVA para dos o más grupos Categórica Proporción Posibilidades de la prueba de χ2 de Mantel-Haenszel Logístico Tiempo hasta el acontecimiento Kaplan-Meier Prueba de rangos logarítmicos Riesgo Cox ANOVA, análisis de la varianza. Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org 8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 181 © E lse vi er . F ot oc op ia r s in a ut or iza ci ón e s u n de lit o. Comprobación de hipótesis La comprobación de hipótesis usa estadísticas para determinar si las diferencias observadas entre dos o más grupos son reales o pueden atribuirse al azar. Ante todo, el lector debe saber si el objetivo es mostrar la superioridad, la equivalencia o la no inferioridad de los tratamientos que se comparan, porque esto guía el tipo de prueba de hipótesis reali- zado (equivalencia = hipótesis de dos brazos; no inferioridad = hipótesis de un brazo). El valor P es una medida resumen estadística para la prueba de hipótesis. Se utiliza mucho un nivel de significación del 5% (P = 0,05) para indicar un resultado estadísticamente significativo, aunque el umbral del 5% es arbitrario, y para algunas medidas puede ser apropiado un nivel inferior (con grandes bases de datos donde deben evitarse los resultados falsos positivos) o superior (cuando es aceptable una proporción ruido:señal, como en las evaluaciones de seguridad). El valor de P se interpreta como la probabilidad de que la diferencia observada de los resultados entre los grupos se deba al azar (es decir, la diferencia no se basa en el efecto de la intervención). Cuanto menor es el valor de P, menos probable es que la diferencia pueda representar un hallazgo positivo falso. Como regla general, cuanto mayor es la diferencia que se compara y mayor es el tamaño de la muestra en una comparación dada, menor es el valor de P y es menos probable que el hallazgo sea solo resultado del azar. En la comprobación de hipótesis pueden producirse dos tipos de errores. Se produce un error α (o de tipo I) cuando se observa una diferencia en los resultados que en realidad no existe. Si la pregunta que se va a investigar y el análisis no se han especificado a priori o se han realizado numerosas pruebas estadísticas sobre muchos subgrupos, puede producirse un error de tipo I. Por ejemplo, si un umbral del 5% se considera estadísticamente significativo, 5 de cada 100 pruebas esta- dísticas podrían demostrar un hallazgo estadísticamente significativo atribuible solo a la casualidad (un hallazgo falso positivo). Si se repite un análisis comparativo de diferentes subgrupos (es decir, múltiples comparaciones), hay más oportunidades para observar un resultado falso positivo.31 Cuando son necesarias múltiples comparaciones, pue- den hacerse correcciones (p. ej., la corrección de Bonferroni) del valor de P para intentar evitar los errores de tipo I. Un error β (o de tipo II) se produce cuando no se observa ninguna diferencia en los resultados cuando realmente sí existe (un hallazgo falso negativo). Este tipo de error se produce cuando un estudio no tiene potencia suficiente para detectar las diferencias reales en los resultados entre los grupos. La potencia está directamente relacionada con el tamaño de la muestra y el tamaño de la diferencia observada. La prueba de hipótesis también es posible mediante el análisis del intervalo de confianza (IC). Las mediciones resumen de la diferencia entre los grupos se proporcionan como un cociente estimado (resul- tados en el grupo de estudio divididos por los resultados en el grupo estándar o de control) o como una diferencia absoluta, con un IC al 95%. El IC proporciona una estimación de la incertidumbre en torno a un valor dado; un IC amplio indica una falta de precisión, mientras que un intervalo estrecho (pequeño) sería indicativo de una mínima incertidumbre. Cuando la medida resumen es un cociente de posibilidades o de riesgo relativo, un CI que incluya el 1 indica que no hay diferencia estadística en los resultados. Si la medida resumen es la diferencia absoluta o el riesgo relativo, un CI que incluya el 0 indica que no hay diferencias estadísticamente significativas. En la tabla 8-3 se proporciona un resumen de las pruebas estadís- ticas que suelen utilizarse en la prueba de hipótesis por el tipo de variable. La prueba de la t para datos independientes se utiliza para comparar dos grupos independientes que tienen variables de resultado continuas. La prueba de la t para datos emparejados se utiliza dos grupos dependientes que tienen variables de resultado continuas. Un ejemplo de una comparación de un grupo dependiente es la medición en serie de la presión arterial en la misma persona. El análisis de la varianza (ANOVA) se utiliza cuando se comparan más de dos grupos con una variable de resultado continua. La prueba de χ2 suele utilizarse para comparar las distribuciones de dos o más grupos con variables de resultado categóricas. La prueba exacta de Fisher es más adecuada para estas comparaciones cuando el tamaño de la muestra es pequeño. La prueba de rangos logarítmicos se usa para comparar dos grupos con variables de resultado de tiempo hasta el acontecimiento. Análisis multivariable Los modelos de regresión multivariable se encuentran entre los métodos más utilizados para evaluar la relación entre las variables y los resul- tados mientras se controla la influencia de otras variables medidas. La regresión lineal se utiliza para evaluar la relación entre los factores potencialmente asociados a una variable de resultado continua, como la duración de la estancia. El resultado es una diferencia del riesgo. Este modelo supone que la variable de resultado tiene una distribución normal. En la mayoría de los criterios de valoración de los servicios sanitarios, como la duración de la estancia, la distribución normal no es el caso. Para tratar los resultadosque no son normales podría usarse una «transformación» matemática de los datos para crear una nueva variable que se aproximara más a una distribución normal, como, por ejemplo, tomar el logaritmo de la duración de la estancia. La regresión logística se utiliza cuando la variable de resultado es binaria (p. ej., mortalidad quirúrgica). Las probabilidades y los cocientes de posibilidades, aunque se calculan de forma diferente, son medidas del riesgo y se presentan habitualmente en forma de cociente (el cociente de posibilidades o el riesgo del grupo de estu- dio dividido por el del grupo de control). Comprender la diferencia entre estas medidas es importante, porque el cociente de posibilidades sobrestimará la probabilidad si el resultado se produce con frecuencia en la población. Cuando el resultado es infrecuente, el cociente de posibilidades generalmente proporciona una buena aproximación de la probabilidad. Es especialmente relevante cuando se realizan análisis multivariable que comprenden un número mínimo de acontecimientos para conseguir una estimación fiable. Como regla general, se requiere un mínimo de 10 acontecimientos (y un número equivalente de no acontecimientos) por variable para la regresión logística (resultado binario),32 y de 10 a 15 observaciones por variable para la regresión lineal (resultado continuo).33 La regresión de riesgos proporcional Cox se utiliza para evaluar resultados de tiempo transcurrido hasta el acontecimiento. La medi- da resumen del riesgo proporcionada por este modelo está también en forma de cociente. Un riesgo se refiere al riesgo instantáneo de un acontecimiento en cualquier momento. La suposición de riesgos proporcionales debe ser válida para interpretar los resultados de este tipo de regresión y requiere que las diferencias de los riesgos de un acontecimiento entre los grupos permanezcan constantes con el tiempo. Análisis de puntuación de la propensión El análisis de puntuación de la propensión es un método alternativo de ajuste del riesgo. Cuando se comparan dos grupos, se usa la regre- sión logística para calcular la probabilidad de un sujeto de tener una exposición de interés (p. ej., AQMI comparado con cirugía abierta). La probabilidad es la puntuación de la propensión (propensión de someterse a una intervención quirúrgica mínimamente invasiva). Los resultados de interés de los pacientes que se han sometido a una inter- vención quirúrgica mínimamente invasiva y que no se han sometido a ella (pero que tienen una propensión similar) pueden compararse entonces mediante cotejo, análisis estratificado o regresión (ajustándose solo para la propensión). Los análisis de puntuación de la propensión son atractivos, porque parecen intuitivos; comparan los resultados entre grupos con una probabilidad similar de recibir el tratamiento de interés. Este análisis se describe con frecuencia como «análogo a un ECA» en el sentido de que compara los resultados entre grupos con igual propensión a recibir el tratamiento de interés. Esta analogía suele llevar a las personas a creer que los análisis de puntuación de la propensión tienen ventajas en el ajuste del riesgo sobre las técni- cas estándar, como la regresión. Generalmente, esta creencia es Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org I Principios básicos en cirugía182 infundada, porque el enfoque analítico no tiene relación con una cuestión de medida clave: la capacidad para medir todos los factores de confusión, conocidos o no, usando datos observacionales. El lector informado debe ser consciente de las tres circunstancias en las que puede ser adecuado el uso de las puntuaciones de propensión: 1) hay muchos factores de confusión con respecto al número de acontecimientos (es decir, < 10 acontecimientos por covariable), lo que da lugar a un análisis de regresión sin potencia suficiente; 2) no hay interés en la asociación entre los factores de ajuste y el resultado, y 3) la relación entre la exposición y la propensión al tratamiento puede calcularse de forma más precisa que la relación entre la exposición y el resultado.34 Por ejemplo, en un estudio de cohortes en el que se analizó la mortalidad y el reingreso asociados al cáncer hepatocelular, los pacientes se agruparon según el tratamiento en someterse a la resección, ablación por radiofrecuencia o ningún tratamiento. Debido a los múltiples factores de confusión, los autores utilizaron los trastornos comórbidos asociados al hígado para crear una puntuación de la propensión para recibir el tratamiento. Los tres grupos de pacientes se compararon para determinar los cocientes del riesgo ajustados para la mortalidad y el reingreso en función de cada grupo de tratamiento.35 Análisis instrumental de variables El análisis de la variable instrumental es otro método de control del sesgo. El principio que subyace a este tipo de análisis es que hay factores de confusión no medidos que pueden sesgar los resultados de un estudio. La selección de una variable exógena al sujeto de estudio, sobre la que no tenga control y que esté fuertemente asociada a la exposición, pero no asociada al resultado (excepto posiblemente a través de la vía causal que implica la exposición) controla todos y cada uno de los factores de confusión asociados al resultado y la exposición de interés. Como ejemplo, considere la distancia a un centro de cardiología como variable instrumental. En este caso, la variable instrumental está fuertemente asociada a la exposición en estudio (es menos probable que los pacientes que viven más lejos se sometan a un cateterismo cardíaco), pero no se asocia al resultado medido (tener un infarto de miocardio). Los mejores instrumentos son los que actúan como un sustituto para la aleatorización. Sin embargo, las variables ins- trumentales bien seleccionadas son difíciles de encontrar en la inves- tigación quirúrgica. Por ejemplo, la asociación entre el tratamiento y el resultado es confusa si las causas de la falta de cumplimiento de un tratamiento también son factores de riesgo independientes para el resultado, y el sesgo puede acentuarse realmente.36 Los lectores deben decidir si están de acuerdo con la elección de la variable ins- trumental y si van a creerse los resultados. Un artículo en el que se evalúe la asociación entre el cateterismo cardíaco y la mortalidad proporciona una buena demostración de la utilización de una variable instrumental en comparación con otras técnicas de ajuste del riesgo frecuentes.37 Datos perdidos Un problema frecuente en la investigación son los datos perdidos, especialmente cuando se utilizan datos observacionales. Si el estudio es pequeño y el investigador ignora (desecha) los sujetos con datos perdi- dos, la potencia del estudio se ve afectada y, lo que es más importante, si los datos se pierden de forma sistemática (p. ej., los relacionados con la exposición y el resultado), excluir a los sujetos con datos perdidos probablemente sesgará el análisis. Los datos perdidos pueden pertenecer a una de estas tres categorías: perdidos completamente al azar (PCA), perdidos al azar (PA) y perdidos no al azar (PNA). Los datos PCA se pierden por razones aleatorias no relacionadas con la exposición, las covariables ni el resultado. Un buen ejemplo de cómo puede producirse una PCA es cuando un ayudante de investigación deja caer accidentalmente un tubo de sangre de un sujeto del estudio. La razón de la pérdida de los datos no tiene nada que ver con el tratamiento que recibió el paciente, el resultado que pueda experimentar, ni su sexo, raza o posición social. Cuando los datos son PA, los datos se pierden condicionados a algún otro valor medido. Por ejemplo, las mujerespueden ser más reacias a dar información sobre su peso, por lo que podría predecirse la probabilidad de perder datos del peso en función del sexo. Cuando los datos son PNA, los datos se pierden condicionados a un valor no medido. Por ejemplo, un paciente puede no desear ofrecer información sobre sus ingresos, quizás porque considera que son demasiado bajos o demasiado altos. En este caso, la razón de la pérdida de la información sobre los ingresos es la cuantía del propio ingreso. Es difícil establecer si los datos perdidos son PCA, PA o PNA, por lo que los investigadores deben hacer suposiciones informadas. Si los datos perdidos no varían a través de factores asociados a un resultado y los autores no son conscientes de ninguna razón sis- temática para los datos perdidos, sería razonable suponer que son PCA. Si los datos perdidos son más frecuentes en ciertos grupos de pacientes, podría suponerse que son PA, aunque no puede excluirse la posibilidad de que sean PNA. Si el investigador es consciente de PNA, no hay ninguna buena solución para manejar los datos per- didos. En el caso de las PCA y PA hay varios métodos para manejar estos datos, como el método del indicador de datos perdidos (en el que se codifican en una categoría aparte en lugar de darse por perdidos), así como varios métodos de imputación o el uso de modelos para estimar el valor de los datos perdidos. De estos, parece que la imputación múltiple introduce el menor sesgo.38 Por último, con los PCA podría realizarse un análisis de casos completos (es decir, desechar a los sujetos con datos perdidos), aunque expulsar a los pacientes puede reducir el tamaño del estudio lo suficiente como para afectar a otros análisis. Datos correlacionados Los datos correlacionados tienen implicaciones para la inferencia estadística en estudios que realizan medidas repetidas de un resultado en el tiempo (estudio longitudinal) y en los estudios que analizan sujetos que se distribuyen en grupos. En general, los métodos utiliza- dos para manejar datos correlacionados en el contexto de las medidas de resultado repetidas explican la similitud de las características, el resultado o ambos en un sujeto y entre los sujetos. Por ejemplo, la agrupación se refiere a la idea de que es probable que los pacientes tratados por el mismo cirujano o en el mismo centro médico sean más similares entre sí que los pacientes tratados por un cirujano diferente. De forma similar, es más probable que los cirujanos que trabajan en un tipo particular de hospital sean más parecidos entre sí que los cirujanos que trabajan en un hospital diferente. En estas circuns- tancias, los resultados de un paciente bajo los cuidados de un cirujano en particular y un cirujano que trabaja en un hospital en concreto tienen más probabilidades de ser similares (o de correlacionarse). Los métodos estadísticos que tienen en cuenta los datos correlacionados pueden incluir modelos de regresión jerárquicos, el análisis bayesiano o el ajuste en función del agrupamiento. Por ejemplo, los investigadores analizaron la relación entre el volumen de intervenciones del cirujano y la mortalidad operatoria para varias técnicas diferentes, después de ajustar por las características del paciente y el volumen del hospital.39 Su análisis comprendía tres niveles de variables: relativas a los pacientes (edad, sexo, comorbilidad), los cirujanos (volumen de intervenciones) y los hospitales (volumen de intervenciones). Para la mayoría de las intervenciones, un mayor volumen del cirujano se asoció a tasas de mortalidad operatoria ajustadas inferiores. Los autores usaron un modelo estadístico (efectos binarios mixtos) para tener en cuenta la agrupación de los pacientes según los cirujanos y la agrupación de los cirujanos según los hospitales. Los cirujanos que leen los estudios publicados deben conocer las situaciones en las que puede haber datos correlacionados y buscar cómo los autores eligieron manejar la correlación. Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org 8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 183 © E lse vi er . F ot oc op ia r s in a ut or iza ci ón e s u n de lit o. ¿CÓMO SE DEBE USAR ESTA INFORMACIÓN EN LA PRÁCTICA? Para resumir la pregunta de investigación que el estudio pretende abordar, el lector puede encontrar útil el uso del «marco PICOT», un acrónimo que significa para la población de estudio, las variables independientes (es decir, intervención/exposición, covariables), un grupo de comparación si es aplicable, la variable dependiente (es decir, resultado [outcome], criterio de valoración) y el marco de tiempo de la evaluación de los resultados. Pensar en los estudios de investigación a través de una lente PICOT guía una evaluación sistemática de la calidad del estudio,40,41 y todos los puntos pertinentes necesarios para apoyar el marco PICOT deben estar fácilmente disponibles para guiar al lector a través de la valoración del estudio (tabla 8-4).17,42 Factores de confusión Uno de los aspectos más importantes que hay que tener en cuenta cuando se evalúa y se realiza el estudio de los resultados usando datos observacionales es el de los factores de confusión. Un factor de confu- sión es una variable, medida o no, asociada a la exposición de interés y asociada al resultado. Esta relación dual puede influir en el grado y la dirección de una asociación observada entre la exposición y el resultado, o incluso mitigarla completamente. Como ejemplo, puede considerarse un estudio hipotético dirigido a determinar si hay una asociación entre el estar o no asegurado y la supervivencia a largo plazo en los pacientes en los que se ha extirpado un cáncer de colon. Los resultados demues- tran una supervivencia significativamente inferior entre los pacientes no asegurados comparados con los asegurados. Sin embargo, los autores no midieron el estadio del cáncer y no realizaron un ajuste en función de él, un determinante fuerte y bien conocido de la supervivencia a largo plazo. Los pacientes sin seguro pueden presentarse con un cáncer en un estadio superior debido a su acceso limitado a la asistencia. Si no se controla la mayor proporción de pacientes con un estadio superior del cáncer en los grupos no asegurados, probablemente los resultados estarán sesgados, de manera que parecerá que los no asegurados tienen peores resultados de los que realmente tienen. Hay disponible un artículo exhaustivo sobre la dirección del sesgo debido a los factores de confusión.43 En los ECA, si la aleatorización se realiza correctamente y el número de sujetos asignados al azar es grande, los factores de confusión deben estar equilibrados en los diferentes grupos de tratamiento.44 Los inves- tigadores que realizan estudios observacionales pueden abordar los factores de confusión con métodos analíticos y en su valoración de las limitaciones del estudio. La regresión multivariable, la puntuación de la propensión y el análisis de variables instrumental son todos ellos métodos analíticos para abordar los factores de confusión usando variables medidas. Cuando existen variables que no se midieron o que no pueden medirse, los autores de un estudio deberían describir estas variables y su relación con la exposición y el resultado, y analizar la posible dirección y la magnitud del sesgo por los factores de confusión. Validez externa La validez externa (o generabilidad) se refiere a la capacidad de aplicar los hallazgos de la investigación a la práctica clínica. Por ejem- plo, los ECA se realizan en un entorno muy controlado, con estrictos criterios de inclusión y exclusión, personal dedicado al seguimiento y un protocolode cumplimiento. Aunque los ECA proporcionan el más alto nivel de pruebas sobre la eficacia de las intervenciones que se comparan, el entorno en el que tienen lugar puede limitar la capacidad de otros profesionales de reproducir la prestación de la asistencia y sus resultados en un marco clínico (no de investigación). Las cuestiones respecto a la validez externa también se asocian a los estudios observacionales. Por ejemplo, los datos de Medicare se limitan a pacientes de edad avanzada o incapacitados. Los patrones de práctica y TABLA 8-4 Pregunta de investigación PICOT ¿CUÁL ES…? CONSIDERACIONES EJEMPLO17 E IMPLICACIONES El Paciente/población ¿Edad? ¿Sexo? ¿Diagnóstico? ¿Paciente ambulatorio/paciente ingresado? ¿Urgencia/programado? Hombres ≥ 18 años de edad, se presentan con hernia inguinal asintomática o con síntomas mínimos Centrarse en los pacientes con síntomas mínimos afecta a la validez externa del estudio y a la selección del diseño de investigación adecuado La Intervención/exposición ¿Quirúrgica? ¿Farmacéutica? ¿Diagnóstica? ¿Profiláctica? ¿Procesos de tratamiento? Espera vigilante La «espera vigilante» para la hernia es una descripción de la atención quirúrgica, pero el estudio tiene que especificar otras intervenciones, como las pruebas de diagnóstico, el seguimiento que solicita los síntomas o el seguimiento pasivo que se basa en los pacientes que inician una queja La Comparación ¿Otra intervención? ¿Estándar de cuidados? ¿No intervención? ¿Placebo? Reparación abierta sin tensión de Lichtenstein ¿Cómo se manejan en el estudio los pacientes que se cruzaron entre los grupos? El resultado (Outcome) Seguridad (p. ej., infección en el sitio quirúrgico) Efectividad frente a eficacia (p. ej., recurrencia) Resultado comunicado por el paciente (p. ej., puntuación del dolor) Utilización de recursos (p. ej., duración de la estancia) Coste Primario: puntuaciones del dolor y las molestias Secundario: complicaciones, estado funcional, satisfacción con la atención Algunos de estos resultados son «subjetivos», y es importante saber lo que se considera una diferencia importante El marco de Tiempo para la evaluación ¿Uno frente a varios puntos de tiempo? ¿Continuo? ¿Importa el tiempo hasta el punto final? Al principio, 6 meses y anualmente Si los resultados cambian con el tiempo, ¿a qué momento debería prestarse atención? Adaptado de Richardson WS, Wilson MC, Nishikawa J, et al: The well-built clinical question: A key to evidence-based decisions. ACP J Club 123:A12–13, 1995; y Rosenthal R, Schafer J, Briel M, et al: How to write a surgical clinical research protocol: Literature review and practical guide. Am J Surg 207:299–312, 2014. Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org I Principios básicos en cirugía184 los resultados entre los pacientes de Medicare pueden ser generalizables o no a los pacientes que no son de Medicare. Los lectores críticos deben considerar por qué los patrones asistenciales y los resultados descritos en los estudios de investigación podrían no ser reproducibles en otros entornos clínicos y poblaciones de pacientes. Determinación de la causalidad usando datos observacionales Los datos observacionales pueden revelar asociaciones entre las expo- siciones (es decir, tratamientos en competición) y los resultados. Los investigadores suelen deducir una relación causal entre las exposiciones y los resultados basada en estas asociaciones.45 Se han propuesto varios criterios para deducir la causalidad en los estudios observacionales, que suelen denominarse criterios de Bradford Hill. Un criterio para deducir la causalidad es que la exposición debe tener lugar antes del resultado, si no, la exposición no puede llevar de un modo plausible al resultado. Aunque es un criterio obvio, con frecuencia se omite. A continuación, la asociación y la relación causal hipotética también deben ser biológicamente (clínicamente) plausibles. Por último, la magnitud de la asociación entre la exposición y el resultado debe ser grande, y, si hay diferentes grados de exposición, debe haber además magnitudes variables de asociación entre la exposición y el resultado (p. ej., relación dosis-respuesta). Por ejemplo, en un estudio de cohortes en el que se evaluó la relación entre los valores preoperatorios del hematocrito y los acontecimientos adversos se observó un mayor riesgo de muerte y episodios cardíacos postoperatorios cuando los valores del hematocrito estaban por debajo de los umbrales normales. Aunque los autores reconocieron de forma adecuada que no se pudo establecer una relación causal a partir de su estudio observacional, su exposición (bajo hematocrito preoperatorio) precedió al resultado (episodio cardíaco postoperatorio), hubo una fuerte asociación «dosis-respuesta» entre el valor del hematocrito y los acontecimientos, y existía un mecanismo biológicamente plausible de alteración de la fisiología cardíaca.46,47 ¿Existe conflicto de intereses? Los cirujanos y los investigadores suelen actuar como asesores para las empresas farmacéuticas o los fabricantes de dispositivos. Estas asociaciones pueden afectar a la objetividad del investigador si una hipótesis del estudio aborda el efecto de los productos de esa compa- ñía, lo que constituye un conflicto de intereses. Estas consideraciones adquieren más importancia en los estudios patrocinados por la indus- tria. Cuando se lee un ECA apoyado por la empresa que produce un fármaco o un dispositivo dado, es crucial leer los métodos, los resultados y las conclusiones con un ojo crítico para asegurarse de que cualquier posible influencia del patrocinador no ha afectado a la validez del estudio. Además, es responsabilidad de todos los investigadores revelar todas las asociaciones (de ellos mismos o de sus familiares) que podrían dar lugar a un conflicto de intereses. Sin estas revelaciones, la objetividad y la validez de un determinado estudio deben analizarse aún más minuciosamente. Como parte de la Affordable Care Act, la Physician Payments Sunshine Act obliga a los fabricantes a revelar los pagos realizados a los médicos y los hospitales. Esta información está disponible públicamente en http://cms.gov/openpayments/. Evolución con la evidencia La «sobrecarga de información» asociada a las evidencias nuevas y en evolución plantea un desafío único para los cirujanos, que durante mucho tiempo se han considerado líderes en la adaptación y la mejora de su práctica (p. ej., conferencias semanales sobre morbilidad y mor- talidad). Existen numerosas estrategias de gestión de los conocimientos para ayudar a hacer frente a la creciente cantidad de datos. Cuando es adecuado, los cirujanos pueden participar en equipos multidisciplina- rios, en conferencias o en la formación centrada en la difusión de la evidencia actual más importante. Las sociedades profesionales (locales, nacionales o internacionales) son una buena fuente de la «mejor» evidencia, y la pertenencia a estos grupos permite a los cirujanos acceder a la práctica basada en la evidencia e incorporarla de forma oportuna. Por ejemplo, el American College of Surgeons publica una revisión de la bibliografía de gran prestigio llamada Selected Readings in General Surgery. Además, la participación en un número creciente de «portales web» de uso gratuito (p. ej., General Surgery-Medscape, disponible en http://www.medscape.com/generalsurgery/) y medios de comunicación médicos (p. ej., General Surgery News, disponible en http://www. generalsurgerynews.com/) puede destacar la evidencia más reciente. Por último, los cirujanos forman parte cada vez más de «sistemas de aten- ción sanitaria de aprendizaje», ya sea mediante la práctica ensistemas integrados de prestación de atención sanitaria (p. ej., Kaiser, Geisinger) o a través de colaboraciones comunitarias (p. ej., Surgical Care and Outcomes Assessment Program). Estos sistemas de atención sanitaria de aprendizaje crean la vigilancia del cambio de la práctica y dan más evidencias en tiempo real sobre lo que es más eficaz en el cuidado de la salud. A través de estos métodos, los cirujanos pueden crear la «cultura basada en la evidencia» necesaria para lograr los mejores resultados en las generaciones futuras. CONCLUSIONES La atención del paciente utilizando las mejores evidencias disponi- bles es responsabilidad de todos los cirujanos. La interpretación de la evidencia de los informes publicados requiere comprender los términos y los métodos de investigación de los resultados clínicos y los servicios sanitarios. Las preguntas planteadas en este capítulo deben servir como guía para el análisis crítico de la bibliografía quirúrgica. Los lectores críticos de la bibliografía quirúrgica son más capaces de aceptar la promesa de la cirugía basada en la evidencia. BIBLIOGRAFÍA SELECCIONADA Austin PC: An introduction to propensity score methods for redu- cing the effects of confounding in observational studies, Multiva- riate Behav Res 46:399-424, 2011. La puntuación de la propensión es esencialmente una pun- tuación de equilibrio que permite el diseño y el análisis de un estudio observacional, de forma que imite las características de un estudio controlado aleatorizado. Este artículo proporcio- na una valoración práctica de diferentes métodos de análisis basados en la puntuación de la propensión y su interpretación. Bridges JF, Onukwugha E, Mullins CD: Healthcare rationing by proxy: Cost-effectiveness analysis and the misuse of the $50,000 threshold in the US, Pharmacoeconomics 28:175-184, 2010. La referencia de 50.000 dólares por año de vida ajustado a la calidad suele utilizarse en las evaluaciones de la rentabilidad. Este artículo proporciona una excelente revisión de la exacti- tud y la pertinencia de esta medida del coste por año de vida ajustado a la calidad e incluye un análisis oportuno sobre la investigación de la rentabilidad de la atención sanitaria. Brookhart MA, Rassen JA, Schneeweiss S: Instrumental variable methods in comparative safety and effectiveness research, Pharma- coepidemiol Drug Saf 19:537-554, 2010. Este estudio proporciona varios ejemplos que incluyen la comparación y el análisis de diversas técnicas metodológicas de variables instrumentales de uso frecuente en la inves- tigación de los servicios sanitarios. Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org 8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 185 © E lse vi er . F ot oc op ia r s in a ut or iza ci ón e s u n de lit o. Fleming TR, Powers JH: Biomarkers and surrogate endpoints in clinical trials, Stat Med 31:2973-2984, 2012. La selección de los criterios de valoración adecuados es quizás el aspecto más importante del diseño de cualquier estudio de investigación, en particular de los estudios controlados aleato- rizados. Este artículo proporciona un análisis contemporáneo exhaustivo de los criterios de valoración indirectos y de cómo estos criterios pueden influir en los resultados del estudio. Mehio-Sibai A, Feinleib M, Sibai TA, et al: A positive or a negative confounding variable? A simple teaching aid for clinicians and students, Ann Epidemiol 15:421-423, 2005. Los factores de confusión pueden introducir sesgos conser- vadores (se acepta la hipótesis nula de manera inapropiada) o anticonservadores (se rechaza la hipótesis nula de forma inapropiada). Este sencillo modelo puede ayudar al lector a pensar en la direccionalidad del sesgo de confusión y facilitar la interpretación de los efectos observados de la magnitud. Rubin DB: The design versus the analysis of observational studies for causal effects: Parallels with the design of randomized trials, Stat Med 26:20-36, 2007. Aunque los estudios controlados aleatorizados se consideran el modelo de referencia para la estimación de los efectos causales, con frecuencia no son factibles debido al tiempo, cuestiones éticas o el coste. Los estudios observacionales pueden y deben ser utilizados en las situaciones apropiadas para deducir la causalidad, y este artículo proporciona el sis- tema para estructurar los estudios para conseguirlo. BIBLIOGRAFÍA 1. Drake FT, Florence MG, Johnson MG, et al: Progress in the diagnosis of appendicitis: A report from Washington State’s Surgical Care and Outcomes Assessment Program, Ann Surg 256:586-594, 2012. 2. Basu S, Alavi A: Staging with PET and the “Will Rogers” effect: Redefining prognosis and survival in patients with cancer, Eur J Nucl Med Mol Imaging 35:1-4, 2008. 3. Farjah F, Flum DR, Ramsey SD, et al: Multi-modality medias- tinal staging for lung cancer among Medicare beneficiaries, J Thorac Oncol 4:355-363, 2009. 4. Clark DA, Stinson EB, Griepp RB, et al: Cardiac transplan- tation in man. VI. Prognosis of patients selected for cardiac transplantation, Ann Intern Med 75:15-21, 1971. 5. Crowley J, Hu M: Covariance analysis of heart-transplant survival data, J Am Stat Assoc 72:27-36, 1977. 6. Spiegel BM, Reid MW, Bolus R, et al: Development and validation of a disease-targeted quality of life instrument for chronic diverticular disease: The DV-QOL, Qual Life Res 24:163-179, 2015. 7. Bridges JF, Onukwugha E, Mullins CD: Healthcare rationing by proxy: Cost-effectiveness analysis and the misuse of the $50,000 threshold in the US, Pharmacoeconomics 28:175-184, 2010. 8. Brook RH, Park RE, Chassin MR, et al: Predicting the appropriate use of carotid endarterectomy, upper gastrointes- tinal endoscopy, and coronary angiography, N Engl J Med 323:1173-1177, 1990. 9. Kahan JP, Park RE, Leape LL, et al: Variations by specialty in physician ratings of the appropriateness and necessity of indications for procedures, Med Care 34:512-523, 1996. 10. Coronary Revascularization Writing Group, Patel MR, Deh- mer GJ, et al: ACCF/SCAI/STS/AATS/AHA/ASNC/HFSA/ SCCT 2012 appropriate use criteria for coronary revascula- rization focused update: A report of the American College of Cardiology Foundation Appropriate Use Criteria Task Force, Society for Cardiovascular Angiography and Interven- tions, Society of Thoracic Surgeons, American Association for Thoracic Surgery, American Heart Association, American Society of Nuclear Cardiology, and the Society of Cardio- vascular Computed Tomography, J Thorac Cardiovasc Surg 143:780-803, 2012. 11. Brodie BR, Stuckey T, Downey W, et al: Outcomes and complications with off-label use of drug-eluting stents: Results from the STENT (Strategic Transcatheter Eva- luation of New Therapies) group, JACC Cardiovasc Interv 1:405-414, 2008. 12. Fleming TR, Powers JH: Biomarkers and surrogate endpoints in clinical trials, Stat Med 31:2973-2984, 2012. 13. Rasmussen MS, Jorgensen LN, Wille-Jorgensen P, et al: Pro- longed prophylaxis with dalteparin to prevent late thromboem- bolic complications in patients undergoing major abdominal surgery: A multicenter randomized open-label study, J Thromb Haemost 4:2384-2390, 2006. 14. Moseley JB, O’Malley K, Petersen NJ, et al: A controlled trial of arthroscopic surgery for osteoarthritis of the knee, N Engl J Med 347:81-88, 2002. 15. Alderson P, Roberts I: Should journals publish systematic reviews that find no evidence to guide practice? Examples from injury research, BMJ 320:376-377, 2000. 16. Farjah F, Flum DR: When not being superior may not be good enough, JAMA 298:924-925, 2007. 17. Fitzgibbons RJ Jr, Giobbie-HurderA, Gibbs JO, et al: Watch- ful waiting vs repair of inguinal hernia in minimally sympto- matic men: A randomized clinical trial, JAMA 295:285-292, 2006. 18. Darouiche RO, Wall MJ Jr, Itani KM, et al: Chlorhexidine- alcohol versus povidone-iodine for surgical-site antisepsis, N Engl J Med 362:18-26, 2010. 19. Swenson BR, Hedrick TL, Metzger R, et al: Effects of preoperative skin preparation on postoperative wound infection rates: A prospective study of 3 skin preparation protocols, Infect Control Hosp Epidemiol 30:964-971, 2009. 20. Hakkarainen TW, Dellinger EP, Evans HL, et al: Comparative effectiveness of skin antiseptic agents in reducing surgical site infections: A report from the Washington State Surgical Care and Outcomes Assessment Program, J Am Coll Surg 218:336- 344, 2014. 21. Turner L, Shamseer L, Altman DG, et al: Consolidated stan- dards of reporting trials (CONSORT) and the completeness of reporting of randomised controlled trials (RCTs) published in medical journals, Cochrane Database Syst Rev 11:MR000030, 2012. 22. Nagendran M, Harding D, Teo W, et al: Poor adherence of randomised trials in surgery to CONSORT guidelines for non-pharmacological treatments (NPT): A cross-sectional study, BMJ Open 3:e003898, 2013. 23. Moher D, Cook DJ, Eastwood S, et al: Improving the quality of reports of meta-analyses of randomised controlled trials: The QUOROM statement. Quality of Reporting of Meta-analyses, Lancet 354:1896-1900, 1999. Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017. Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados. http://booksmedicos.org http://booksmedicos.org Push Button1: Push Button0: