Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

173© 2018. Elsevier España, S.L.U. Reservados todos los derechos
Cirugía basada en la evidencia: 
evaluación crítica 
de la bibliografía quirúrgica
Vlad V. Simianu, Farhood Farjah, David R. Flum
Í N D I C E
¿Cuál es el propósito del estudio?
¿El estudio utiliza los datos correctos?
¿El estudio hace una comparación equitativa?
¿Qué es el resultado de interés?
¿Cuál es el diseño del estudio?
¿Se realizó el análisis correcto?
¿Cómo se debe usar esta información en la práctica?
Conclusiones
Cada vez se reconoce más que casi todas las personas necesitarán la 
cirugía en algún momento de sus vidas, por lo que las enfermedades 
quirúrgicas se consideran cada vez más desde la perspectiva de las 
poblaciones que usan las herramientas de investigación y el vocabulario 
de la sanidad pública. Durante la última década, los servicios sanitarios 
quirúrgicos y la investigación de los resultados han surgido como un 
abordaje esencial para aportar una base de evidencias más rigurosa al 
campo de la cirugía. En los estudios quirúrgicos actuales se utiliza una 
amplia gama de métodos de investigación con el objetivo de integrar 
más rápidamente la mejor evidencia disponible en la práctica de los 
cirujanos en todas las comunidades.
En una era en la que cada vez se exigen más la supervisión reguladora 
y el enfoque en los cuidados más responsables, es esencial que los ciruja-
nos entiendan la evidencia (o la falta de ella) que impulsa sus decisiones 
sobre quién debe someterse a una intervención quirúrgica, las técnicas 
utilizadas y los resultados esperados para que puedan optimizar el 
cuidado de sus pacientes y dirigir las políticas sanitarias y las actividades 
de mejora de la calidad. En este capítulo se ofrece una guía práctica 
para la evaluación crítica de los estudios publicados relacionados con 
la cirugía para utilizar mejor la evidencia en la práctica quirúrgica. Con 
este fin, este capítulo está estructurado alrededor de las preguntas que 
debe hacerse un lector crítico cuando lee un estudio de investigación y 
de los aspectos que debe tener en cuenta como parte de la evaluación.
¿CUÁL ES EL PROPÓSITO DEL ESTUDIO?
El propósito de un estudio debe guiar la selección de los grupos de 
estudio, los resultados de interés, el origen de los datos, el diseño 
del estudio y el plan de análisis. La falta de claridad en el propósito o 
los objetivos del estudio puede confundir la interpretación posterior 
de los datos y llevar a conclusiones sin fundamento.
El propósito de un estudio se divide en dos categorías generales: de 
generación de hipótesis o de comprobación de hipótesis (fig. 8-1). Los 
estudios descriptivos deben considerarse de generación de hipótesis 
(identificar posibles asociaciones y servir de impulso para futuras inves-
tigaciones). En los estudios de comprobación de hipótesis debe hacerse 
todo lo posible para excluir la influencia del azar y el sesgo en la eva-
luación de una hipótesis discreta, y aclarar si la hipótesis se refiere a la 
superioridad, inferioridad o equivalencia (no inferioridad). Los estudios 
en los que el propósito y la metodología no están bien relacionados no 
solo son confusos, sino que también pueden dar lugar a interpretaciones 
erróneas de los resultados. Por ejemplo, en un estudio se pretendía des-
cribir las tendencias en el diagnóstico erróneo de apendicitis y el uso 
de pruebas de imagen. Una disminución de los errores de diagnóstico 
coincidente con un aumento del uso de estas pruebas podría dar lugar 
a la hipótesis de que las pruebas reducen el diagnóstico erróneo de 
apendicitis. Sin embargo, debido a que el estudio no fue diseñado para 
descartar el sesgo (es decir, otras variables no medidas que podrían afec-
tar al uso de pruebas de imagen y al diagnóstico erróneo de apendicitis), 
hay que evitar la tentación de llegar a la conclusión de que el aumento 
del uso de las pruebas a través del tiempo está relacionado causalmente 
con las tasas decrecientes del diagnóstico erróneo de apendicitis.1
¿EL ESTUDIO UTILIZA LOS DATOS CORRECTOS?
Existen muchas fuentes de información diversas para llevar a cabo 
la investigación clínica, y todas tienen ventajas e inconvenientes. La 
selección adecuada del origen de los datos debe basarse en el equilibrio 
entre el propósito del estudio, los recursos (es decir, económicos) y la 
viabilidad (es decir, la aceptación, la ética y el tiempo). En la tabla 8-1 
se proporciona una sinopsis de las ventajas y los inconvenientes de 
algunas fuentes de datos de uso habitual, y ejemplos de ellas.
Los estudios en los que se utilizan datos administrativos, como las 
reclamaciones de Medicare, se han hecho especialmente frecuentes debido 
a la disponibilidad y la asequibilidad de estos grandes conjuntos de datos. 
Sin embargo, esta información se recoge para la facturación, no para la 
investigación, y suele plantear problemas importantes con la exhaustividad 
(posiblemente porque solo incluyen indicadores fiables relacionados con 
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
I Principios básicos en cirugía174
aspectos facturables de la atención de forma discreta) y las especificaciones 
(variables clínicas, como la lateralidad en una operación o la intención de 
un tratamiento). Además, los datos administrativos no suelen estar rela-
cionados longitudinalmente, por lo que es difícil medir los resultados más 
allá de un acontecimiento índice. Cuando los datos están relacio nados lon-
gitudinalmente, suelen ser representativos de poblaciones únicas, como 
individuos asegurados por el mismo pagador, dentro de un sistema único 
de prestación de servicios sanitarios o, inusualmente, de edades similares 
(p. ej., Medicare) o del mismo sexo (p. ej., Department of Veterans Affairs).
¿EL ESTUDIO HACE UNA COMPARACIÓN 
EQUITATIVA?
En muchos estudios se comparan los resultados quirúrgicos o los criterios 
de valoración a través de grupos de pacientes, cirujanos u hospitales. La 
mayoría de las veces es sencillo definir los grupos de comparación, pero 
en ocasiones puede ser una tarea difícil; si no se presta atención a los 
matices, pueden producirse sesgos en el estudio. A continuación se des-
criben algunas dificultades que suelen encontrarse cuando se definen los 
grupos de comparación. Es frecuente que se produzcan problemas en las 
comparaciones con los «cuidados habituales», que comprenden un gru-
po mal definido de actividades que, cuando no se especifican, pueden 
reflejar o no la atención en una comunidad determinada. También puede 
haber circunstancias en las que la asignación al azar de un paciente a los 
«cuidados habituales» plantea un desafío ético, especialmente si estos 
cuidados comprenden un número menor de controles de seguridad y se 
considera firmemente que son inferiores a la intervención.
Clasificación errónea
La clasificación errónea es la asignación incorrecta de un sujeto a un 
grupo de estudio, y puede dar lugar a un sesgo aunque el diseño y el 
análisis del estudio sean los adecuados. Hay dos tipos de errores de 
clasificación: no diferenciales y diferenciales. La clasificación errónea 
no diferencial indica una probabilidad igual y aleatoria de que cualquier 
sujeto se haya clasificado erróneamente (o forme parte del grupo de 
estudio incorrecto). Si realmente existe una diferencia del resultado 
en todos los grupos, la clasificación errónea no diferencial sesga los 
resultados hacia la hipótesis nula, un sesgo conservador. La clasificación 
errónea diferencial se refiere a un error de clasificación no aleatorio. 
Cuando existen errores de clasificación diferenciales, el sesgo puede 
ser conservador o anticonservador, dependiendo de la forma en que se 
hayan clasificado mal los pacientes y la relación real entre la asignacióna los grupos y el resultado. La clasificación errónea diferencial es el 
problema más grave y no siempre es predecible (detectable).
El fenómeno de Will Rogers, basado en la famosa cita: «Cuando los 
habitantes de Oklahoma dejaron Oklahoma y se trasladaron a California, 
aumentó el nivel medio de inteligencia en ambos estados», es más conoci-
do como migración de estadio y es un ejemplo clásico de clasificación 
errónea.2 El estadio del cáncer predice la supervivencia a largo plazo. Los 
pacientes pueden estadificarse por la exploración clínica, por las pruebas 
de imagen o por ambas, aunque estos métodos no son tan precisos como 
el análisis del tejido patológico (la técnica de referencia). Algunos pacien-
tes pueden ser subestadificados (su enfermedad se clasifica en un estadio 
temprano cuando realmente está en una fase avanzada o tardía) y otros 
pueden ser sobreestadificados, por lo que el estadio de su cáncer estaría 
mal clasificado. Si la estadificación no se realiza correctamente en todos 
los pacientes de un estudio, la clasificación errónea se produce al azar 
(no diferencial). La comparación de la supervivencia a través del estadio 
estaría equivocada, a pesar de que el estadio del cáncer es uno de los fac-
tores predictivos más sólidos de la supervivencia. La migración de estadio 
también puede conducir a una clasificación errónea no diferencial. En un 
estudio de generación de hipótesis se comparó la supervivencia basada en 
el estadio en pacientes con cáncer de pulmón en los que se utilizaron más 
o menos métodos de estadificación diagnósticos.3 Podría esperarse que en 
los pacientes a los que se realizaron más intervenciones de diagnóstico la 
estadificación fuera más precisa y hubiera menos errores de clasificación. 
Se observó una fuerte asociación entre el mayor uso de los métodos 
de estadificación diagnósticos y la mayor duración de la supervivencia 
basada en el estadio. En este caso, la clasificación errónea no diferencial 
era predecible. Los autores citan adecuadamente la migración de estadio 
como una posible explicación, entre otras, de sus hallazgos.
Exposiciones que varían con el tiempo
Las exposiciones que varían con el tiempo (o dependientes del tiempo) 
se refieren a grupos cuyas poblaciones cambian a lo largo del tiempo. 
No tener en cuenta las exposiciones que varían en el tiempo puede dar 
lugar a resultados sesgados y conclusiones incorrectas. Un ejemplo de 
FIGURA 8-1 Jerarquía de los diseños de los estudios. El asterisco indica que se aplican los mismos diseños 
de los estudios que se encuentran en la otra rama.
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 175
©
 E
lse
vi
er
. F
ot
oc
op
ia
r s
in
 a
ut
or
iza
ci
ón
 e
s u
n 
de
lit
o.
un sesgo potencial originado por covariables que varían en el tiempo 
es un análisis de los datos de la supervivencia tras un trasplante de 
corazón.4 El impacto del trasplante de corazón sobre la supervivencia se 
evaluó comparando a los pacientes que recibieron un trasplante con los 
que no lo recibieron. Aunque el análisis inicial reveló un beneficio de la 
supervivencia asociado al trasplante, la manera en que se agruparon los 
pacientes (tratamiento de trasplante como una variable fija) condujo a 
un sesgo a favor de los pacientes con trasplantes.
Los tiempos de espera para los trasplantes suelen ser largos y muchos 
pacientes mueren mientras esperan un órgano, por lo que los pacientes 
de la lista de espera para el trasplante que murieron poco después de 
entrar en ella no tuvieron la oportunidad de recibirlo. Cuando los inves-
tigadores asignaron a los pacientes de forma retrospectiva a estos dos 
grupos de estudio (trasplantados frente a no trasplantados), los pacientes 
que sobrevivieron lo suficiente para recibir un nuevo corazón introdujeron 
un sesgo de selección a favor del trasplante, porque su supervivencia fue de 
media superior a la del grupo de no trasplantados. En realidad, el estado 
de exposición del sujeto (trasplantado frente a no trasplantado) depende 
del tiempo. Mientras estaba en la lista de espera y antes del trasplante, 
un sujeto podría contribuir al tiempo de supervivencia en el grupo sin 
trasplante; después del trasplante, el mismo sujeto podría contribuir al 
tiempo de supervivencia del grupo de trasplante. Un nuevo análisis de los 
datos evaluando el estado de exposición de una forma dependiente del 
tiempo no reveló ninguna asociación entre el trasplante y la supervivencia.5
¿QUÉ ES EL RESULTADO DE INTERÉS?
La conclusión de que la intervención A es mejor que la intervención 
B debe apoyarse en la evidencia de una diferencia de los resultados. 
Pero ¿qué significa «mejor»? ¿Qué pasa si la operación A es mejor con 
respecto a un tipo de resultado, pero peor con respecto a otro? La 
evaluación de los resultados no puede determinar qué intervención 
es mejor para el paciente, pero puede informar a los pacientes y los 
profesionales sobre las diferencias entre dos o más opciones terapéuticas 
o de diagnóstico posibles. Los lectores que juzgan el valor de un estudio 
deben determinar qué resultados se evaluaron, desde qué perspectiva y 
si los resultados elegidos son coherentes con el propósito del estudio. 
Los resultados pueden ser objetivos (p. ej., la muerte) o subjetivos 
(p. ej., la satisfacción del paciente).
TABLA 8-1 Fuentes de datos para la investigación de los servicios sanitarios y los resultados
FUENTE DE DATOS VENTAJAS INCONVENIENTES EJEMPLO
Historiales clínicos Facilidad para conseguirlos Datos perdidos Informes de casos
Utilidad para la generación de hipótesis Se requiere mucho tiempo Series de casos
Incapacidad para medir cierta información (p. ej., intención)
Valor científico limitado
RCP Datos únicos sobre los síntomas, la 
función y el estado de salud
Se requiere mucho tiempo: entrevistas o cuestionarios SF-36 Health Survey
Globales (multidimensionales) o 
específicos (unidimensionales)
Los instrumentos únicos pueden tener problemas de validez 
cuando se amplía la población
PROMIS
Puede ser difícil interpretar el cambio/efecto
Administrativos Un gran número Variables clínicas limitadas Medicare
Datos del mundo real Datos obtenidos de la facturación, no de la investigación Datos de alta estatales
Suelen ser generalizables
Fáciles de obtener
Asequibles
Registro Suelen contener datos clínicos Realizados por motivos limitados, por lo que tienen datos 
restringidos
SEER
Suelen faltar datos, porque la información se recoge en la 
atención habitual en lugar de en las visitas de investigación
National Cancer Database
Suelen comprender solo datos transversales y es necesario 
relacionarlos con otras fuentes de datos para hacer el seguimiento
Registro de dispositivos 
(SVAT)
Datos del mundo real basados en la 
población que no se limitan a los 
centros terciarios o de referencia
Conjuntos de datos 
relacionados
Fuente de datos más rica que los registros 
o los datos administrativos solos
Datos perdidos SEER-Medicare
Permite la evaluación longitudinal de 
episodios de asistencia
Incapacidad para captar la intención del tratamiento
Proyecto de seguimiento 
y mejora de la calidad
Datos recogidos de forma prospectiva Sobrerrepresentación de centros terciarios o de referencia National Surgical Quality 
Improvement Project
Rico en datos clínicos, de laboratorio 
y demográficos del paciente
Muestra aleatoria de pacientes, no exhaustiva Base de datos de la Society 
of Thoracic Surgeons
Encuestas nacionales Muestra nacional En la muestra de las encuestas pueden estar 
sobrerrepresentados algunos grupos raciales
Encuesta del panel de 
gastos médicos
Algunos datos de reclamaciones de la 
asistenciasanitaria y diagnósticos 
longitudinales
Adaptado de Rosenthal R, Schafer J, Briel M, et al: How to write a surgical clinical research protocol: Literature review and practical guide. Am J 
Surg 207:299–312, 2014.
PROMIS, Patient-Reported Outcomes Measurement Information System; RCP, resultados comunicados por el paciente; SEER, Surveillance, 
Epidemiology and End Results; SF-36, 36-item short-form; SVAT, sustitución de la válvula aórtica transcatéter.
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
I Principios básicos en cirugía176
Resultados comunicados por el paciente
Los resultados comunicados por el paciente (RCP) miden las expe-
riencias o acontecimientos que son mejor referidos por el paciente. 
A veces, los RCP se llaman resultados subjetivos, porque la respuesta 
no puede ser verificada por un profesional sanitario o un investigador. 
Algunos ejemplos de conceptos de RCP frecuentes son la calidad de 
vida relacionada con la salud, la satisfacción con la atención, el estado 
funcional, el bienestar y el estado de salud. Generalmente, los RCP 
consisten en varios conceptos (o dominios) más discretos. Por ejemplo, 
la calidad de vida relacionada con la salud mide dominios como el 
funcionamiento físico (p. ej., dolor), psicológico (p. ej., depresión) y 
social (p. ej., la capacidad para desempeñar las actividades de la vida 
diaria). Ejemplos específicos de elementos contenidos dentro de estos 
dominios podrían ser el dolor, los problemas del sueño, la función 
sexual, la vitalidad y la energía, y el dolor.
Los datos de los RCP se recogen mediante el uso de instrumentos 
de encuesta y pueden volver a medirse a lo largo del tiempo. Estos ins-
trumentos están compuestos por preguntas individuales, declaraciones 
o tareas evaluadas por el paciente; usan un método claramente definido 
por la administración; los datos se recogen utilizando un formato estan-
darizado; y la puntuación, el análisis y la interpretación de los resultados 
deben haber sido validados en la población de estudio. En general, se 
recomienda a los investigadores que utilicen los instrumentos exis-
tentes para medir los RCP (en lugar de crear los suyos propios), porque 
el desarrollo adecuado de un instrumento requiere mucho tiempo, 
recursos, pruebas y validación antes de su aplicación.6 Se clasifican en 
instrumentos generales (p. ej., la encuesta de salud de formato corto de 
36 preguntas), porque describen en términos generales la salud física, 
mental y social, o instrumentos específicos de la enfermedad (p. ej., 
instrumento de la calidad de vida en la diverticulitis), porque se dirigen 
a un trastorno único.
Muchos médicos confunden los RCP y los resultados centrados en 
el paciente. Un resultado centrado en el paciente es el que es importante 
para un paciente. Por ejemplo, la supervivencia a largo plazo y la recu-
rrencia son muy importantes para las personas con cáncer, pero otras 
personas además del paciente pueden observar que se producen estos 
resultados. La supervivencia y la recurrencia son resultados centrados 
en el paciente, pero no RCP.
Costes, precios y utilización de recursos
El precio es la cantidad de dinero solicitada por los servicios y los sumi-
nistros sanitarios, mientras que los costes son la cantidad real de dinero 
gastado para prestar la asistencia. La perspectiva del estudio define 
qué costes deben determinarse e incluirse en el análisis. Por ejemplo, 
aunque una perspectiva social incluiría los costes de la atención y los 
costes monetarios directos e indirectos asociados a la atención (p. ej., 
gastos de viaje y de desplazamiento, pérdida de productividad en el 
trabajo, gastos en un cuidador), la perspectiva de un hospital sería más 
selectiva, no tendría en cuenta los gastos personales del paciente, pero 
incluiría el reembolso del pagador.
Hay tres métodos habituales para comparar los resultados de los 
costes. El análisis de rentabilidad cuantifica el beneficio para la salud en 
términos de dólares. El gran desafío de este enfoque es la asignación 
de un valor en dólares a una vida o a un resultado sanitario específico. 
El análisis de coste-utilidad cuantifica los beneficios para la salud en 
términos de años de vida ajustados por calidad (AVAC). Las utilidades 
son una medida de la calidad de vida en general, habitualmente 
en una escala entre 0 y 1, donde 1 es un estado de salud perfecto, 
y se multiplican por el tiempo de supervivencia para determinar 
los AVAC. Cuando esta medida del resultado se evalúa como un 
coste por AVAC, es fácilmente comparable entre las intervenciones. 
Generalmente, una intervención con un coste asociado de 50.000 
dólares o menos por AVAC se considera rentable, aunque existe un 
debate acerca de la validez de esta medida, y se ha propuesto un rango 
de costes/AVAC de 20.000 a 100.000 dólares como más razonable.7 Los 
análisis de rentabilidad miden el beneficio para la salud en términos 
de una medida del resultado denominada relación coste-efectividad 
incremental, que es la diferencia de los costes entre dos opciones tera-
péuticas posibles dividida por la diferencia de los resultados sanitarios. 
Si la relación coste-efectividad incremental cuando se compara un 
nuevo tratamiento con un tratamiento estándar revela que el nuevo 
tratamiento es más caro y menos eficaz, se considera que está dominado 
por el estándar y no se favorece, mientras que un tratamiento nuevo 
más barato y más eficaz domina el estándar y se ve favorecido. Las 
circunstancias en las que una intervención es más cara y más eficaz 
o más barata y menos eficaz representan «disyuntivas» y no están tan 
claras para los legisladores.
La utilización de recursos se refiere al uso de servicios sanitarios 
relacionados con una intervención. En el contexto de la asistencia 
quirúrgica, esto abarca la utilización de recursos prehospitalarios: 
visitas en la clínica, pruebas preoperatorias, optimización y diagnóstico; 
así como de recursos hospitalarios: duración de la estancia; reingreso 
hospitalario; uso de recursos ambulatorios, farmacia y equipo médico 
duradero (como sillas de ruedas y oxígeno), y uso del servicio de urgen-
cias después de la hospitalización, centros de enfermería especializados 
y atención domiciliaria. Puede ser difícil determinar en qué medida 
la utilización de los recursos está relacionada con la intervención o la 
técnica que se está estudiando y en qué medida puede atribuirse a las 
condiciones clínicas de referencia de un paciente (p. ej., enfermedad 
crónica, acontecimientos adversos) y a factores no clínicos (p. ej., apoyo 
social al paciente, preferencia del paciente sobre la atención ambulatoria 
u hospitalaria, seguro que excluye el uso de la atención domiciliaria). 
Por ejemplo, un investigador podría estudiar los reingresos después 
de una resección pancreática por un cáncer. Aunque los reingresos 
son fáciles de identificar, puede ser imposible saber (dependiendo 
de la fuente de datos) si el reingreso estaba planificado (p. ej., para 
la administración de quimioterapia) o no (p. ej., debido a una com-
plicación) o si era adecuado (p. ej., debido a una complicación que 
requiere tratamiento hospitalario).
Seguridad
Los criterios de valoración de la seguridad pretenden abordar los riesgos 
de una técnica de diagnóstico o una intervención (p. ej., lesión de las 
vías biliares o infección del sitio quirúrgico) o de la prestación de la 
atención (p. ej., cirugía en el sitio incorrecto). La mortalidad quirúrgica 
y las complicaciones postoperatorias (morbilidad) son los marcadores 
de la seguridad que se miden con más frecuencia. Los criterios de 
valoración de la seguridad suelen utilizarse en los estudios, porque 
son relativamente fáciles de medir y requieren solo un cortoperíodo 
de seguimiento. Generalmente, los estudios de la seguridad tienen que 
tener un tamaño bastante grande debido a la escasa frecuencia relativa 
del suceso. La mayoría de los estudios controlados aleatorizados (ECA) 
y las series pequeñas no son suficientes para evaluar los resultados poco 
frecuentes.
Adecuación
Debido al aumento de los gastos en atención sanitaria, se están hacien-
do cada vez más esfuerzos para centrarse en la proporción de pacientes 
que no cumplen las indicaciones «apropiadas» para una técnica de 
intervención, determinadas por las sociedades profesionales y los estu-
dios de investigación. En una serie de estudios de cohortes realizados 
en la década de los noventa y repetidos en la primera década del siglo 
xxi, se analizaron los historiales clínicos y los registros de las pruebas de 
imagen diagnósticas buscando evidencias de las indicaciones estándar 
para la endoarterectomía carotídea, el injerto de derivación arterial 
coronaria y la revascularización percutánea, y se descubrió que uno 
de cada tres no cumplía los criterios estándar.8,9 En respuesta, muchos 
grupos aumentaron su producción de directrices y criterios de adecua-
ción.10 El cumplimiento de las directrices establecidas para la asistencia 
quirúrgica adecuada es un resultado que cada vez se observa más, 
aunque el impacto de dichas directrices en la disminución de las tasas 
de las intervenciones que realmente son innecesarias ha sido mixto.11
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 177
©
 E
lse
vi
er
. F
ot
oc
op
ia
r s
in
 a
ut
or
iza
ci
ón
 e
s u
n 
de
lit
o.
Criterios de valoración indirectos
Ha surgido un interés en los criterios de valoración indirectos debido 
a que algunos resultados clínicos pueden ser difíciles de evaluar por la 
escasa frecuencia del acontecimiento clínico, el coste de su comproba-
ción o la existencia de un lapso de tiempo largo hasta su aparición. Los 
criterios de valoración indirectos se usan con frecuencia en estudios de 
nuevas intervenciones farmacológicas cuando es esencial obtener datos 
eficaces sobre el efecto terapéutico para comercializar un producto 
con rapidez.12 Los verdaderos beneficios clínicos de una intervención 
pueden tardar años en reconocerse, y puede ser deseable identificar un 
resultado intermedio que pueda servir de sustituto del efecto clínico 
real. Un problema del uso de criterios de valoración indirectos es que 
una intervención puede influir en un resultado a través de varias vías 
potencialmente no deseadas ni previstas. Cuando evalúa un estudio, 
el lector no solo debe preguntarse si el resultado seleccionado puede 
responder a la pregunta de investigación, sino también si ese resultado 
es un criterio de valoración clínico significativo o simplemente un sus-
tituto más fácil de medir. Se han propuesto criterios para validar los 
criterios de validación indirectos: el criterio de validación indirecto 
debe estar relacionado con el criterio de valoración clínico de interés y 
captar plenamente el efecto neto de la intervención sobre el criterio de 
valoración de interés. A no ser que un resultado alternativo elegido se 
haya validado e investigado en otros estudios quirúrgicos, los resultados 
y las conclusiones deben interpretarse con precaución.
Un ejemplo clásico de un criterio de valoración indirecto es la detec-
ción de la tromboembolia venosa (TEV).13 En este ECA, los autores 
trataron de evaluar la eficacia y seguridad de la tromboprofilaxis con 
dalteparina administrada durante 28 días después de la cirugía abdo-
minal mayor en comparación con 7 días de tratamiento. El criterio de 
valoración primario de la eficacia fue la TEV verificada objetivamente 
en la venografía (no necesariamente sintomática, y la mayoría no lo 
era) que se produjo entre los días 7 y 28 después de la cirugía. En el 
grupo de dalteparina de 7 días se identificaron 29 episodios de TEV 
(4 eran sintomáticos y 25 se detectaron solo con pruebas de imagen). 
En el grupo de dalteparina de 28 días se produjeron 12 episodios de 
TEV, todos asintomáticos. En esto radica el principal problema de este 
estudio; la TEV asintomática, identificada únicamente por pruebas de 
imagen, es un criterio de valoración indirecto. Aunque biológicamente 
es posible que la TEV asintomática progrese a TEV sintomática, no se 
conoce la probabilidad de que esto suceda y, más importante aún, no 
se conocen las tasas subyacentes de TEV asintomática. La medida ade-
cuada habría sido la eficacia en la disminución de la TEV sintomática. 
Este es un acontecimiento infrecuente (4 de 178 [2%] en el grupo de 
7 días y 0 de 165 [0%] en el grupo de 28 días), y este estudio no tiene 
suficiente potencia para mostrar esta diferencia.
Criterios de valoración combinados
A veces no hay un único resultado óptimo o, como acabamos de anali-
zar, los episodios son infrecuentes, por lo que la potencia es insuficiente 
para evaluar los resultados. En estas situaciones, los estudios pueden 
informar de los criterios de valoración combinados. Por ejemplo, un 
criterio de valoración combinado para medir la eficacia en la TEV sin-
tomática puede comprender la trombosis venosa profunda sintomática, 
la embolia pulmonar sintomática, las complicaciones principales y la 
muerte por cualquier causa durante el tratamiento. Sin embargo, para 
que los criterios de valoración combinados sean significativos, deben 
tener una importancia y una frecuencia similares. El desequilibrio de los 
componentes no permite a los revisores juzgar qué resultado individual 
contribuyó más al criterio de valoración combinado.
¿CUÁL ES EL DISEÑO DEL ESTUDIO?
En la investigación quirúrgica se utilizan con frecuencia varios diseños 
de los estudio. La selección del diseño adecuado depende del propósito 
del estudio (de generación de hipótesis frente a de comprobación de 
hipótesis, como se muestra en la figura 8-1) y de la disponibilidad de 
recursos para llevar a cabo la investigación y su viabilidad. El lector 
informado debe asegurarse de que los investigadores hayan usado un 
diseño del estudio aceptable para abordar la pregunta de investigación. 
En la tabla 8-2 se proporciona un resumen de los diseños de los estudios 
más frecuentes en la bibliografía quirúrgica.
TABLA 8-2 Consideraciones importantes en los tipos de diseños
TIPO DE ESTUDIO
RELACIÓN EXPOSICIÓN/
RESULTADO CONSIDERACIONES EJEMPLO
Estudio controlado 
aleatorizado
Asignación aleatoria de una 
exposición y seguimiento del 
resultado
¿Equilibrio? Estudio aleatorizado de espera vigilante frente a la 
reparación de la hernia inguinal en hombres adultos17Elección del control (p. ej., placebo 
frente a los cuidados estándar)
¿Validez externa?
¿Es ciego?
¿Intención de tratar?
Superioridad frente a no inferioridad
Transversal La exposición y los resultados 
se evalúan en el mismo punto 
de tiempo
No es adecuado si la enfermedad es de 
corta duración o poco frecuente
Estudio transversal para evaluar la variación en la 
recepción de profilaxis para la TEV en pacientes 
médicos y quirúrgicos hospitalizados en 32 países26
Cohortes Identificado por la exposición, 
seguido por el resultado 
(prospectivo o retrospectivo)
Una exposición, múltiples resultados Cohortes de pacientes que se sometieron a la 
extracción de vena safena endoscópica frente a 
abierta durante el IDAC, seguidos a través del tiempo 
por la mortalidad y los acontecimientos adversos 
compuestos27
Confusión
No es eficaz para los resultados poco 
frecuentes o los que se producen 
mucho después de la exposición
Casos y controles Identificado por el resultado, 
evaluado por la exposición 
(prospectivo o retrospectivo)
Un resultado,múltiples exposiciones Estudio de la identificación de factores de riesgo 
(exposiciones) asociados a cuerpos extraños 
retenidos después de la cirugía (casos) frente a los 
controles que no tenían cuerpos extraños retenidos28
¿Cómo se eligió el grupo de control?
Confusión
Sesgo de memoria
Informes/series de casos Validez externa Series de casos de metástasis en el lugar de 
apoyo que destacan un riesgo poco frecuente, pero 
potencialmente grave29
IDAC, injerto de derivación arterial coronaria; TEV, tromboembolia venosa.
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
I Principios básicos en cirugía178
Estudios controlados aleatorizados
Los ECA proporcionan el máximo grado de evidencia que apoya la 
causalidad. Si la aleatorización se realiza correctamente y el número de 
personas asignadas al azar es suficientemente grande, las variables de 
confusión se distribuyen por igual entre los grupos, que es la principal 
ventaja de un ECA. Es decir, los resultados entre los dos o más grupos 
pueden compararse sin problemas de sesgo. Sin embargo, es difícil 
realizar un ECA debido a cuestiones relativas al equilibrio, la ética, la 
disposición para ser asignados al azar, los costes y la validez externa.
En un ECA, los sujetos se asignan de forma aleatoria a un grupo 
de intervención, donde reciben una intervención experimental (en un 
estudio determinado pueden asignarse al azar los sujetos a una o más 
intervenciones), o a un grupo de control, donde reciben una alternativa 
medible controlada (placebo o una forma estándar de tratamiento exis-
tente). Se hace el seguimiento de los sujetos para medir cómo se pro-
ducen los resultados de interés. La aleatorización con éxito elimina las 
diferencias sistemáticas en las posibles variables de confusión entre los 
grupos de estudio. Los sujetos (ciego sencillo) y, en algunos casos, 
los investigadores (doble ciego) pueden desconocer a qué intervención 
del estudio se ha asignado a cada sujeto. En los estudios abiertos, tanto 
los sujetos como los investigadores conocen esta información. El des-
conocimiento de los sujetos de estudio pretende mitigar la influencia 
de un efecto placebo, mientras que el desconocimiento de los inves-
tigadores reduce el sesgo por la administración diferente de la asistencia 
y la evaluación de los resultados entre los grupos de estudio. El cega-
miento en la cirugía puede ser un reto. La cirugía simulada o placebo 
se ha realizado antes,14 pero requiere una justificación ética especial.
Un aspecto analítico importante de los ECA es la intención de 
tratar (IT). Cuando se realiza un análisis siguiendo el principio de la 
IT, las comparaciones del resultado entre los grupos de control y de 
tratamiento se basan en la asignación aleatoria inicial y se descarta 
cualquier entrecruzamiento, es decir, los sujetos asignados al azar al 
grupo de control pero que recibieron la intervención del estudio, o 
los asignados a una intervención pero que recibieron el control. Si se 
utilizan enfoques analíticos diferentes a la IT, no puede garantizarse un 
equilibrio igual de los factores de confusión entre los grupos de com-
paración, y los beneficios de la asignación al azar pueden perderse. Por 
ejemplo, un investigador que aconseja una intervención podría preferir 
que solo los pacientes de un ECA que se sometieron a la intervención 
se incluyeran en el análisis (conocido como análisis por protocolo), 
excluyendo a los asignados al azar al tratamiento pero que se pasaron 
al grupo de control, o agrupando a los que se intercambiaron con el 
grupo de control. El análisis de la IT es esencial, porque permite a los 
cirujanos y a los pacientes analizar si es mejor elegir esa intervención 
para ese paciente en particular. Cuando se considera si un paciente debe 
someterse o no a una intervención, ni el paciente ni el cirujano saben si 
el primero será capaz de completar la intervención o la estrategia, o si 
requerirá un enfoque más convencional, quizás por su incapacidad para 
tolerar la intervención. La IT proporciona información sobre cómo se 
compara la intervención en el momento en que se toma la decisión.
El propósito del ECA (superioridad, equivalencia o no inferioridad) 
tiene especial importancia cuando se interpretan sus resultados. Si se 
comparan dos intervenciones bajo una hipótesis de superioridad y no se 
identifica una diferencia estadísticamente significativa, el lector puede 
verse tentado a llegar a la conclusión de que los dos tratamientos son 
equivalentes en términos de ese resultado. Sin embargo, la ausencia 
de una diferencia observable en los resultados no es lo mismo que 
tener pruebas de que los resultados son idénticos entre dos grupos.15 
Es matemáticamente imposible diseñar un estudio con la potencia 
suficiente para demostrar que no existen diferencias entre los resultados. 
En lugar de ello, los investigadores especifican a priori la mínima 
diferencia en el resultado que tendría importancia clínica. Después 
se diseña el análisis para determinar si las diferencias en los resultados 
son mayores de esta diferencia mínimamente importante. Aunque los 
diseños de no inferioridad tienen un claro valor en la investigación 
quirúrgica, son poco frecuentes. Para descartar pequeñas diferencias 
en los resultados, debe inscribirse un número muy grande de pacientes 
para asegurar la suficiente potencia estadística.16
En un ECA de no inferioridad se evaluó si la espera vigilante en la 
hernia con síntomas mínimos proporcionaba resultados equivalentes 
de la puntuación del dolor en comparación con la reparación.17 En 
los pacientes con síntomas mínimos, la base de la recomendación de 
la reparación quirúrgica es prevenir las complicaciones relacionadas 
con la hernia (incarceración, estrangulación o ambas), aunque son 
infrecuentes. Los resultados de la IT del estudio demostraron que no 
se cumplían las diferencias significativas mínimamente importantes 
del 10% entre las actividades que limitan el dolor y una mejoría de 8 
puntos en la escala del dolor respecto al valor de referencia a los 2 años. 
Los autores llegaron a la conclusión de que retrasar la reparación quirúr-
gica hasta que los síntomas aumentan es igual de eficaz, especialmente 
porque las incarceraciones agudas de las hernias eran muy infrecuentes.
Eficacia y efectividad
Es importante distinguir entre eficacia y efectividad. La eficacia se 
refiere a la medida en que se consigue el beneficio que se persigue con 
una intervención de tratamiento y la durabilidad de ese resultado. 
Generalmente, se relaciona con los resultados en el contexto de los 
estudios de investigación controlados (p. ej., ECA) y las condiciones 
ideales para el cuidado de los pacientes, mientras que la eficacia se 
refiere a los resultados en la práctica habitual. Muchos pacientes de 
los que se encuentran en la práctica habitual no se considerarían ade-
cuados para ser incluidos en un ECA debido a la edad, los trastornos 
comórbidos, la disposición para ser asignado al azar, el cumplimiento 
u otras razones. Los estudios de efectividad se realizan entre poblacio-
nes de mayor tamaño que, idealmente, contengan la heterogeneidad 
suficiente para evaluar la forma en que se lleva a cabo una intervención 
en la comunidad promedio, con pacientes y médicos promedio. Los 
mejores estudios de efectividad deberían incluir a todos los pacientes 
de una población muy grande, pero esto no suele ser factible, por lo 
que los investigadores de la efectividad deben equilibrar las cuestiones 
sobre la generalización de los resultados con las cuestiones prácticas 
de la realización de estudios de gran tamaño. Sin embargo, es funda-
mental realizar estudios de efectividad, porque las evaluaciones del 
mundo real cambian nuestracomprensión de lo que observamos en 
un ECA. Por ejemplo, en un ECA de más de 800 pacientes se llegó a la 
conclusión de que la limpieza preoperatoria de la piel con clorhexidina 
era más eficaz que la limpieza con yodo para la prevención de las 
infecciones del sitio quirúrgico.18 Estos resultados no pudieron repetirse 
en los estudios de efectividad, tal vez debido a la selección diferencial de 
los agentes limpiadores de la piel y a los métodos distintos para medir 
las infecciones en la práctica real.19,20
Variaciones en los estudios aleatorizados
Aunque los ECA pueden ofrecer la evidencia más sólida con respecto a 
la causalidad, no son ideales para todas las preguntas que se investigan. 
Existen numerosas variaciones en el diseño de los ECA para poder 
evaluar la efectividad de una intervención en amplias poblaciones 
de pacientes y diversos entornos prácticos. Los ECA pragmáticos, en 
los que el grupo tradicional «de control» se sustituye por la «prácti-
ca habitual», es una metodología contemporánea que aprovecha los 
beneficios de la asignación al azar y a la vez representa los entornos 
y parámetros variables de la práctica. En los ensayos aleatorizados 
grupales, los grupos de sujetos, en lugar de los individuos, se asignan 
al azar. Permiten a los investigadores estudiar las intervenciones que 
no pueden dirigirse hacia individuos seleccionados (p. ej., la aplicación 
de una lista de comprobación de la seguridad quirúrgica como una 
política del hospital) y pueden controlarse por la «contaminación» 
entre los individuos del mismo grupo (p. ej., el uso de un cirujano de 
antibióticos preoperatorios puede influir en que otro cirujano haga lo 
mismo). En los estudios aleatorizados estratificados, la intervención de 
estudio se pone en marcha de forma secuencial para los sujetos o los 
grupos de participantes. El orden en el que los participantes reciben 
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 179
©
 E
lse
vi
er
. F
ot
oc
op
ia
r s
in
 a
ut
or
iza
ci
ón
 e
s u
n 
de
lit
o.
la intervención es aleatorio, pero todos ellos la habrán recibido al final 
del estudio. Este diseño se utiliza en situaciones en las que un diseño 
paralelo del ECA real puede ser poco práctico por razones logísticas 
o económicas, o si se considera que la intervención causa más bien 
que mal (por lo que no aplicarla en un ECA real no sería ético). En 
los ECA factoriales, los participantes son asignados a un grupo que 
recibe una combinación de intervenciones (o no intervenciones), lo 
que permite a los investigadores comparar múltiples efectos con una 
muestra de menor tamaño que en un ECA tradicional. Por último, los 
estudios adaptativos permiten que las características clave del estudio 
(p. ej., grupos de tratamiento, elegibilidad y tamaño de la muestra) 
evolucionen en respuesta a la información obtenida del propio estudio. 
Esta metodología (que a veces se denomina estudios de medicina persona-
lizados) cada vez se está aplicando más a la investigación de resultados 
centrados en el paciente, donde el enfoque en ciertas subpoblaciones 
puede evolucionar a lo largo del estudio.
Para aumentar la calidad y la transparencia de los estudios, es 
esencial registrar el estudio en línea con el International Standard 
Randomized Controlled Trial Number, de manera que las preguntas, 
la población y el plan analítico se detallen antes de empezar el estudio, 
lo que evita el sesgo de publicación de que se comuniquen solo los 
estudios positivos. El registro también requiere el uso de métodos y 
normas de información establecidos. Por ejemplo, los Consolidated 
Standards of Reporting Trials (CONSORT) exigen que se incluyan 
los detalles acerca de varios aspectos metodológicos pertinentes para 
la realización de los ECA (p. ej., la asignación aleatoria, el cegamiento, 
la IT) en el artículo final.21,22
Metaanálisis
Un estudio aislado puede no tener potencia para responder a una 
pregunta de investigación dada o reflejar un grado determinado de 
heterogeneidad que podría confundir al lector. El metaanálisis es 
una técnica que agrupa los datos publicados disponibles con el fin de 
aumentar la potencia estadística de un análisis. El metaanálisis no solo 
es aplicable a los datos de los ECA, también puede usarse para reunir 
resultados de estudios observacionales. De forma parecida a los criterios 
CONSORT para los estudios aleatorizados, se han desarrollado las 
directrices Quality for Reporting of Meta-Analyses23 y Meta-Analysis 
of Observational Studies in Epidemiology24 para asegurar la calidad y 
la validez de los resultados obtenidos por medio de metaanálisis. Estas 
directrices deben tenerse en cuenta cuando se evalúa la calidad de las 
pruebas proporcionadas por un análisis agrupado.
Por ejemplo, en varios estudios clínicos aleatorizados se ha cues-
tionado el dogma quirúrgico de la preparación intestinal mecánica 
(PIM) intensiva antes de la cirugía colorrectal. Varios ECA pequeños 
indicaron que la PIM se asociaba a un mayor riesgo de filtración anas-
tomótica y que debía abandonarse (N = 47-380 sujetos en los estudios 
publicados). En los ECA más recientes y más grandes se ha observado 
un riesgo similar de filtración de la anastomosis con la PIM, pero 
también un riesgo mayor de absceso abdominal profundo sin la PIM 
(aproximadamente, 1.350 sujetos). Sin embargo, no se diseñó ningún 
estudio para analizar todos los resultados de interés. En un metaanálisis 
que combinaba todos los estudios (4.859 pacientes, 2.452 en los que 
se había realizado la PIM y 2.407 en los que no se había hecho) no 
se observaron diferencias entre los grupos en cuanto a la filtración 
de la anastomosis o los abscesos profundos, y se observó una tasa 
significativamente más baja de todas las infecciones del sitio quirúrgico 
cuando se omitió la PIM.25
Independientemente del tipo de datos agrupados, en todos los 
casos, una consideración importante cuando se analiza un metaanálisis 
es la homogeneidad de todos los estudios. Si los estudios incluidos 
evalúan criterios de valoración, poblaciones de pacientes y grupos de 
comparación similares, usando definiciones de variables y métodos 
de evaluación del resultado similares, los resultados agrupados pueden 
ser informativos. La heterogeneidad significativa indica más variación 
en los resultados del estudio de lo que el azar solo puede explicar, un 
signo de que los diseños o los resultados de los estudios incluidos pue-
den no ser compatibles y no deben agruparse. Esto es particularmente 
importante cuando se han agregado datos observacionales, porque estos 
estudios tienden a tener menor control de la variabilidad y un mínimo 
control de los factores de confusión y los sesgos. Un enfoque para 
aumentar la transparencia de los resultados agrupados de los estudios 
observacionales es agrupar también las características de referencia de 
los grupos de comparación.
Estudios transversales
Los estudios transversales comprenden datos recogidos en un único 
punto de tiempo. Estos datos son los más utilizados para explorar las 
relaciones entre las variables y la carga patológica o se agrupan en el 
tiempo para observar las tendencias temporales. Estos estudios son 
los más utilizados para la generación de hipótesis. Las limitaciones 
que derivan de la forma en que se muestrea una población, la falta 
de múltiples puntos de tiempo y la detección o el sesgo de memoria 
no permiten establecer relaciones causales en este tipo de estudio. Por 
ejemplo, en el estudio Epidemiologic International Day for the Eva-
luation of Patients at Risk for Venous Thromboembolism in the Acute 
Hospital Care Setting (ENDORSE) se evaluóla variación de la pro-
filaxis de la TEV en más de 68.000 pacientes de 32 países. Se observó 
que 35.000 pacientes (52%) estaban en riesgo de TEV. De ellos, el 
59% de los pacientes quirúrgicos y el 40% de los pacientes médicos 
recibieron profilaxis adecuada.26 La descripción de la variación en la 
práctica motivó la realización de estudios posteriores para comparar 
los diferentes tipos de profilaxis de la TEV y las intervenciones para 
mejorar el cumplimiento de las directrices establecidas.
Estudios de cohortes
En los estudios de cohortes se hace el seguimiento de pacientes asig-
nados de forma no aleatoria a diferentes grupos para determinar si los 
resultados varían entre los grupos. Los datos pueden analizarse de forma 
prospectiva o retrospectiva, pero la observación se inicia con la expo-
sición (es decir, asignación al grupo) y se extiende a través del tiempo 
para determinar si un acontecimiento en particular se produce o no. 
Las ventajas de los estudios de cohortes son la capacidad para estimar la 
incidencia (o tasa) de la exposición y los resultados, evaluar resultados 
múltiples de forma simultánea y estudiar exposiciones infrecuentes. Los 
estudios de cohortes no pueden evaluar resultados que son infrecuentes 
o que se producen mucho tiempo después de la exposición.
Por ejemplo, en un análisis secundario de los datos del estudio 
PREVENTION VI se evaluaron diferencias en el resultado entre 
pacientes en los que se obtuvieron venas safenas con endoscopia o 
con una intervención abierta durante la colocación de un injerto de 
derivación arterial coronaria.27 Después de ajustar en función de los 
posibles factores de confusión, los autores observaron que la mortalidad 
y dos criterios de valoración combinados eran más frecuentes en el 
grupo de obtención endoscópica. Este estudio subraya dos ventajas 
del diseño de cohortes: permite una estimación de la frecuencia de 
los acontecimientos adversos asociados a las intervenciones que se 
comparan y la evaluación simultánea de múltiples resultados.
Estudios de casos y controles
Los estudios de casos y controles comparan la frecuencia de las expo-
siciones entre pacientes que han experimentado o no un resultado 
de interés. Estos estudios comienzan reclutando sujetos con y sin el 
resultado de interés y después buscan en el pasado las diferencias en 
los posibles factores de riesgo. Los diseños de casos y controles se 
usan pocas veces en la bibliografía quirúrgica. Un ejemplo consistió 
en una evaluación de los factores de riesgo asociados a los cuerpos 
extraños retenidos después de una intervención quirúrgica.28 Los 
investigadores revisaron los historiales clínicos de todos los pacien-
tes que presentaron reclamaciones o proporcionaron informes de 
incidentes a una gran aseguradora estatal de mala práctica (n = 54). 
Todos los casos se compararon con cuatro pacientes de control 
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
I Principios básicos en cirugía180
(n = 235) que no plantearon estas reclamaciones. Los factores de 
riesgo de la retención de cuerpos extraños fueron la intervención 
quirúrgica urgente, cambios no planificados en la operación y el 
índice de masa corporal. Este estudio destacó dos ventajas del diseño 
de casos y controles: la capacidad para evaluar los factores de riesgo 
de un resultado infrecuente y la evaluación simultánea de múltiples 
factores de riesgo.
Los estudios de casos y controles se confunden a veces con los 
estudios de cohortes, quizás por la dificultad relacionada con el sig-
nificado de casos y controles en el contexto de la investigación. En 
la investigación epidemiológica y de los servicios sanitarios, un caso 
se refiere a un sujeto que ha experimentado un resultado de interés, 
mientras que un control se refiere a un paciente que no ha experimen-
tado ese resultado. Todos los pacientes que experimentan el resultado 
deben incluirse en un estudio de casos y controles, particularmente 
cuando ese resultado es infrecuente, pero es innecesario incluir a todos 
los pacientes sin el resultado, porque no supone ningún beneficio 
estadístico incluir más de cuatro controles por caso. Sin embargo, 
los pacientes sin el resultado que se incluyan en la muestra deben ser 
representativos de la población general a la que pertenecen. Debido a 
la forma en que se muestrean los sujetos, no es posible estimar la fre-
cuencia de la exposición en la población a partir de un estudio de este 
tipo. Las ventajas del diseño de casos y controles son la eficacia de la 
evaluación de los factores asociados a los resultados infrecuentes o los 
resultados que se producen mucho tiempo después de la exposición, 
y la capacidad para evaluar múltiples exposiciones a la vez. Cuando 
la medida de una exposición es cara o requiere mucho tiempo (p. ej., 
análisis de laboratorio costosos, entrevistas detalladas), esta puede 
ser una forma mucho más eficaz de usar los recursos, porque solo es 
necesario utilizarlos en los sujetos con el resultado de interés y en el 
número limitado de controles.
Informes de casos y series de casos
Un informe de casos pretende destacar una técnica o acontecimiento 
inusual o inesperado, mientras que una serie de casos demuestra que 
estos acontecimientos pueden suceder más de una vez. Un beneficio 
de estos estudios es que pueden revelar un posible beneficio o efecto 
adverso no reconocido de un tratamiento quirúrgico y generar nuevas 
hipótesis, lo que promueve una evaluación científica más rigurosa. La 
prostatectomía radical laparoscópica es un método establecido para 
tratar el cáncer de próstata localizado y, según los informes, ofrece 
beneficios oncológicos equivalentes a los de la resección abierta. Sin 
embargo, desde 1994, los cirujanos han publicado un total de 14 
casos de metástasis en el puerto, lo que subraya un riesgo infrecuente, 
pero potencialmente grave, de un abordaje quirúrgico mínimamente 
invasivo (AQMI) de la prostatectomía.29 Estos estudios son diferentes 
de los de cohortes porque no se comparan estrategias o intervenciones 
que compiten entre sí.
¿SE REALIZÓ EL ANÁLISIS CORRECTO?
El análisis estadístico de cualquier estudio debe partir de los objetivos, 
el diseño y las fuentes de datos del estudio. Conocer varios conceptos 
metodológicos sirve de base para revisar la bibliografía de forma crítica.
Tipos de variables y estadísticas descriptivas
En la tabla 8-3 se ofrece un resumen de las variables y las medidas 
asociadas de la tendencia central que más se utilizan y las pruebas 
estadísticas. Una variable continua es la que puede tomar cualquier 
número de valores dentro de un rango determinado de posibilidades. 
La edad y la estancia son ejemplos de variables continuas. Las estadís-
ticas descriptivas se usan para explicar la tendencia central de las varia-
bles continuas. La media aritmética proporciona una buena estimación 
de la tendencia central de datos con una distribución normal (gaussiana 
o en forma de campana). Si los datos están sesgados (no se distribuyen 
de forma normal), la media será un estimador sesgado de la tendencia 
central. En estos casos, la mediana o la media geométrica proporcionan 
una estimación mejor.
Las variables categóricas tienen valores discretos. La variable cate-
górica más simple es una variable binaria que solo puede tomar uno de 
dos valores, como el sexo (masculino, femenino). Las variables ordinales 
son variables categóricas ordenadas. El estadio del cáncer es un ejemplo 
clásico de una variable categórica ordinal. Las variables nominales son 
variables categóricas sin ordenar, como la raza. Las variables categóricas 
se describen en términos de proporciones.
Las variables del tiempo transcurrido hasta el acontecimiento cons-
tan de dos variables,una variable continua que mide el intervalo de 
tiempo desde un punto de inicio establecido (p. ej., la fecha del diagnós-
tico o del tratamiento) hasta un fracaso (p. ej., la muerte o la recidiva 
de la enfermedad) o el final del período de observación, y una variable 
binaria que indica si se produjo el fracaso. La supervivencia a largo pla-
zo es un ejemplo clásico de variable de tiempo hasta el acontecimiento. 
El método de Kaplan-Meier es la forma más frecuente de describir la 
probabilidad de que un acontecimiento ocurra en un cierto momento 
(p. ej., la supervivencia a los 5 años). Este método tiene en cuenta que el 
número de pacientes con riesgo de sufrir un acontecimiento disminuye 
con el tiempo; a medida que los pacientes se retiran de un estudio 
o experimentan el acontecimiento resultado, habrá cada vez menos 
pacientes con riesgo de sufrir el resultado (un paciente que muere no 
puede morir otra vez). El método de Kaplan-Meier puede sobrestimar 
el riesgo en el marco de los riesgos en comparación. Por ejemplo, el 
tiempo hasta la reintervención tiene riesgos en competición: el proceso 
patológico puede evolucionar y provocar la reintervención; con el 
tiempo puede surgir una contraindicación para la reintervención, o 
puede producirse la muerte, en cuyo caso el paciente ya no está en 
riesgo. Sin embargo, hay métodos para manejar las variables del tiempo 
hasta los acontecimientos en el marco de los riesgos en competición.30
TABLA 8-3 Parámetros usados con frecuencia en la investigación de los servicios sanitarios 
y los resultados quirúrgicos
TIPO DE VARIABLE MEDIDA ESTADÍSTICA DESCRIPTIVA
MODELO DE REGRESIÓN 
MULTIVARIABLE
Continua Media Prueba de la t para datos independientes Lineal
Mediana Prueba de la t para datos emparejados 
para medidas repetidas
ANOVA para dos o más grupos
Categórica Proporción Posibilidades de la prueba de χ2 
de Mantel-Haenszel
Logístico
Tiempo hasta el acontecimiento Kaplan-Meier Prueba de rangos logarítmicos Riesgo Cox
ANOVA, análisis de la varianza.
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 181
©
 E
lse
vi
er
. F
ot
oc
op
ia
r s
in
 a
ut
or
iza
ci
ón
 e
s u
n 
de
lit
o.
Comprobación de hipótesis
La comprobación de hipótesis usa estadísticas para determinar si las 
diferencias observadas entre dos o más grupos son reales o pueden 
atribuirse al azar. Ante todo, el lector debe saber si el objetivo es mostrar 
la superioridad, la equivalencia o la no inferioridad de los tratamientos 
que se comparan, porque esto guía el tipo de prueba de hipótesis reali-
zado (equivalencia = hipótesis de dos brazos; no inferioridad = hipótesis 
de un brazo). El valor P es una medida resumen estadística para la 
prueba de hipótesis. Se utiliza mucho un nivel de significación del 
5% (P = 0,05) para indicar un resultado estadísticamente significativo, 
aunque el umbral del 5% es arbitrario, y para algunas medidas puede 
ser apropiado un nivel inferior (con grandes bases de datos donde deben 
evitarse los resultados falsos positivos) o superior (cuando es aceptable 
una proporción ruido:señal, como en las evaluaciones de seguridad). 
El valor de P se interpreta como la probabilidad de que la diferencia 
observada de los resultados entre los grupos se deba al azar (es decir, la 
diferencia no se basa en el efecto de la intervención). Cuanto menor 
es el valor de P, menos probable es que la diferencia pueda representar 
un hallazgo positivo falso. Como regla general, cuanto mayor es la 
diferencia que se compara y mayor es el tamaño de la muestra en una 
comparación dada, menor es el valor de P y es menos probable que el 
hallazgo sea solo resultado del azar.
En la comprobación de hipótesis pueden producirse dos tipos de 
errores. Se produce un error α (o de tipo I) cuando se observa una 
diferencia en los resultados que en realidad no existe. Si la pregunta 
que se va a investigar y el análisis no se han especificado a priori o se 
han realizado numerosas pruebas estadísticas sobre muchos subgrupos, 
puede producirse un error de tipo I. Por ejemplo, si un umbral del 5% 
se considera estadísticamente significativo, 5 de cada 100 pruebas esta-
dísticas podrían demostrar un hallazgo estadísticamente significativo 
atribuible solo a la casualidad (un hallazgo falso positivo). Si se repite 
un análisis comparativo de diferentes subgrupos (es decir, múltiples 
comparaciones), hay más oportunidades para observar un resultado 
falso positivo.31 Cuando son necesarias múltiples comparaciones, pue-
den hacerse correcciones (p. ej., la corrección de Bonferroni) del valor 
de P para intentar evitar los errores de tipo I. Un error β (o de tipo II) 
se produce cuando no se observa ninguna diferencia en los resultados 
cuando realmente sí existe (un hallazgo falso negativo). Este tipo de 
error se produce cuando un estudio no tiene potencia suficiente para 
detectar las diferencias reales en los resultados entre los grupos. La 
potencia está directamente relacionada con el tamaño de la muestra y 
el tamaño de la diferencia observada.
La prueba de hipótesis también es posible mediante el análisis del 
intervalo de confianza (IC). Las mediciones resumen de la diferencia 
entre los grupos se proporcionan como un cociente estimado (resul-
tados en el grupo de estudio divididos por los resultados en el grupo 
estándar o de control) o como una diferencia absoluta, con un IC 
al 95%. El IC proporciona una estimación de la incertidumbre en 
torno a un valor dado; un IC amplio indica una falta de precisión, 
mientras que un intervalo estrecho (pequeño) sería indicativo de una 
mínima incertidumbre. Cuando la medida resumen es un cociente de 
posibilidades o de riesgo relativo, un CI que incluya el 1 indica que no 
hay diferencia estadística en los resultados. Si la medida resumen es la 
diferencia absoluta o el riesgo relativo, un CI que incluya el 0 indica 
que no hay diferencias estadísticamente significativas.
En la tabla 8-3 se proporciona un resumen de las pruebas estadís-
ticas que suelen utilizarse en la prueba de hipótesis por el tipo de 
variable. La prueba de la t para datos independientes se utiliza para 
comparar dos grupos independientes que tienen variables de resultado 
continuas. La prueba de la t para datos emparejados se utiliza dos 
grupos dependientes que tienen variables de resultado continuas. Un 
ejemplo de una comparación de un grupo dependiente es la medición 
en serie de la presión arterial en la misma persona. El análisis de la 
varianza (ANOVA) se utiliza cuando se comparan más de dos grupos 
con una variable de resultado continua. La prueba de χ2 suele utilizarse 
para comparar las distribuciones de dos o más grupos con variables de 
resultado categóricas. La prueba exacta de Fisher es más adecuada para 
estas comparaciones cuando el tamaño de la muestra es pequeño. La 
prueba de rangos logarítmicos se usa para comparar dos grupos con 
variables de resultado de tiempo hasta el acontecimiento.
Análisis multivariable
Los modelos de regresión multivariable se encuentran entre los métodos 
más utilizados para evaluar la relación entre las variables y los resul-
tados mientras se controla la influencia de otras variables medidas. 
La regresión lineal se utiliza para evaluar la relación entre los factores 
potencialmente asociados a una variable de resultado continua, como 
la duración de la estancia. El resultado es una diferencia del riesgo. 
Este modelo supone que la variable de resultado tiene una distribución 
normal. En la mayoría de los criterios de valoración de los servicios 
sanitarios, como la duración de la estancia, la distribución normal no 
es el caso. Para tratar los resultadosque no son normales podría usarse 
una «transformación» matemática de los datos para crear una nueva 
variable que se aproximara más a una distribución normal, como, por 
ejemplo, tomar el logaritmo de la duración de la estancia.
La regresión logística se utiliza cuando la variable de resultado 
es binaria (p. ej., mortalidad quirúrgica). Las probabilidades y los 
cocientes de posibilidades, aunque se calculan de forma diferente, 
son medidas del riesgo y se presentan habitualmente en forma de 
cociente (el cociente de posibilidades o el riesgo del grupo de estu-
dio dividido por el del grupo de control). Comprender la diferencia 
entre estas medidas es importante, porque el cociente de posibilidades 
sobrestimará la probabilidad si el resultado se produce con frecuencia 
en la población. Cuando el resultado es infrecuente, el cociente de 
posibilidades generalmente proporciona una buena aproximación de 
la probabilidad. Es especialmente relevante cuando se realizan análisis 
multivariable que comprenden un número mínimo de acontecimientos 
para conseguir una estimación fiable. Como regla general, se requiere 
un mínimo de 10 acontecimientos (y un número equivalente de no 
acontecimientos) por variable para la regresión logística (resultado 
binario),32 y de 10 a 15 observaciones por variable para la regresión 
lineal (resultado continuo).33
La regresión de riesgos proporcional Cox se utiliza para evaluar 
resultados de tiempo transcurrido hasta el acontecimiento. La medi-
da resumen del riesgo proporcionada por este modelo está también 
en forma de cociente. Un riesgo se refiere al riesgo instantáneo de 
un acontecimiento en cualquier momento. La suposición de riesgos 
proporcionales debe ser válida para interpretar los resultados de este 
tipo de regresión y requiere que las diferencias de los riesgos de un 
acontecimiento entre los grupos permanezcan constantes con el tiempo.
Análisis de puntuación de la propensión
El análisis de puntuación de la propensión es un método alternativo 
de ajuste del riesgo. Cuando se comparan dos grupos, se usa la regre-
sión logística para calcular la probabilidad de un sujeto de tener una 
exposición de interés (p. ej., AQMI comparado con cirugía abierta). 
La probabilidad es la puntuación de la propensión (propensión de 
someterse a una intervención quirúrgica mínimamente invasiva). Los 
resultados de interés de los pacientes que se han sometido a una inter-
vención quirúrgica mínimamente invasiva y que no se han sometido 
a ella (pero que tienen una propensión similar) pueden compararse 
entonces mediante cotejo, análisis estratificado o regresión (ajustándose 
solo para la propensión).
Los análisis de puntuación de la propensión son atractivos, 
porque parecen intuitivos; comparan los resultados entre grupos 
con una probabilidad similar de recibir el tratamiento de interés. 
Este análisis se describe con frecuencia como «análogo a un ECA» 
en el sentido de que compara los resultados entre grupos con igual 
propensión a recibir el tratamiento de interés. Esta analogía suele 
llevar a las personas a creer que los análisis de puntuación de la 
propensión tienen ventajas en el ajuste del riesgo sobre las técni-
cas estándar, como la regresión. Generalmente, esta creencia es 
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
I Principios básicos en cirugía182
infundada, porque el enfoque analítico no tiene relación con una 
cuestión de medida clave: la capacidad para medir todos los factores 
de confusión, conocidos o no, usando datos observacionales. El 
lector informado debe ser consciente de las tres circunstancias en las 
que puede ser adecuado el uso de las puntuaciones de propensión: 
1) hay muchos factores de confusión con respecto al número de 
acontecimientos (es decir, < 10 acontecimientos por covariable), 
lo que da lugar a un análisis de regresión sin potencia suficiente; 
2) no hay interés en la asociación entre los factores de ajuste y el 
resultado, y 3) la relación entre la exposición y la propensión al 
tratamiento puede calcularse de forma más precisa que la relación 
entre la exposición y el resultado.34 Por ejemplo, en un estudio de 
cohortes en el que se analizó la mortalidad y el reingreso asociados al 
cáncer hepatocelular, los pacientes se agruparon según el tratamiento 
en someterse a la resección, ablación por radiofrecuencia o ningún 
tratamiento. Debido a los múltiples factores de confusión, los autores 
utilizaron los trastornos comórbidos asociados al hígado para crear 
una puntuación de la propensión para recibir el tratamiento. Los 
tres grupos de pacientes se compararon para determinar los cocientes 
del riesgo ajustados para la mortalidad y el reingreso en función de 
cada grupo de tratamiento.35
Análisis instrumental de variables
El análisis de la variable instrumental es otro método de control del 
sesgo. El principio que subyace a este tipo de análisis es que hay 
factores de confusión no medidos que pueden sesgar los resultados de 
un estudio. La selección de una variable exógena al sujeto de estudio, 
sobre la que no tenga control y que esté fuertemente asociada a la 
exposición, pero no asociada al resultado (excepto posiblemente a 
través de la vía causal que implica la exposición) controla todos y cada 
uno de los factores de confusión asociados al resultado y la exposición 
de interés.
Como ejemplo, considere la distancia a un centro de cardiología 
como variable instrumental. En este caso, la variable instrumental está 
fuertemente asociada a la exposición en estudio (es menos probable 
que los pacientes que viven más lejos se sometan a un cateterismo 
cardíaco), pero no se asocia al resultado medido (tener un infarto 
de miocardio). Los mejores instrumentos son los que actúan como 
un sustituto para la aleatorización. Sin embargo, las variables ins-
trumentales bien seleccionadas son difíciles de encontrar en la inves-
tigación quirúrgica. Por ejemplo, la asociación entre el tratamiento 
y el resultado es confusa si las causas de la falta de cumplimiento de 
un tratamiento también son factores de riesgo independientes para 
el resultado, y el sesgo puede acentuarse realmente.36 Los lectores 
deben decidir si están de acuerdo con la elección de la variable ins-
trumental y si van a creerse los resultados. Un artículo en el que se 
evalúe la asociación entre el cateterismo cardíaco y la mortalidad 
proporciona una buena demostración de la utilización de una variable 
instrumental en comparación con otras técnicas de ajuste del riesgo 
frecuentes.37
Datos perdidos
Un problema frecuente en la investigación son los datos perdidos, 
especialmente cuando se utilizan datos observacionales. Si el estudio es 
pequeño y el investigador ignora (desecha) los sujetos con datos perdi-
dos, la potencia del estudio se ve afectada y, lo que es más importante, 
si los datos se pierden de forma sistemática (p. ej., los relacionados con 
la exposición y el resultado), excluir a los sujetos con datos perdidos 
probablemente sesgará el análisis. Los datos perdidos pueden pertenecer 
a una de estas tres categorías: perdidos completamente al azar (PCA), 
perdidos al azar (PA) y perdidos no al azar (PNA).
Los datos PCA se pierden por razones aleatorias no relacionadas 
con la exposición, las covariables ni el resultado. Un buen ejemplo 
de cómo puede producirse una PCA es cuando un ayudante de 
investigación deja caer accidentalmente un tubo de sangre de un 
sujeto del estudio. La razón de la pérdida de los datos no tiene 
nada que ver con el tratamiento que recibió el paciente, el resultado 
que pueda experimentar, ni su sexo, raza o posición social. Cuando 
los datos son PA, los datos se pierden condicionados a algún otro 
valor medido. Por ejemplo, las mujerespueden ser más reacias a 
dar información sobre su peso, por lo que podría predecirse la 
probabilidad de perder datos del peso en función del sexo. Cuando 
los datos son PNA, los datos se pierden condicionados a un valor 
no medido. Por ejemplo, un paciente puede no desear ofrecer 
información sobre sus ingresos, quizás porque considera que son 
demasiado bajos o demasiado altos. En este caso, la razón de la 
pérdida de la información sobre los ingresos es la cuantía del propio 
ingreso.
Es difícil establecer si los datos perdidos son PCA, PA o PNA, 
por lo que los investigadores deben hacer suposiciones informadas. 
Si los datos perdidos no varían a través de factores asociados a un 
resultado y los autores no son conscientes de ninguna razón sis-
temática para los datos perdidos, sería razonable suponer que son 
PCA. Si los datos perdidos son más frecuentes en ciertos grupos de 
pacientes, podría suponerse que son PA, aunque no puede excluirse 
la posibilidad de que sean PNA. Si el investigador es consciente de 
PNA, no hay ninguna buena solución para manejar los datos per-
didos. En el caso de las PCA y PA hay varios métodos para manejar 
estos datos, como el método del indicador de datos perdidos (en 
el que se codifican en una categoría aparte en lugar de darse por 
perdidos), así como varios métodos de imputación o el uso de 
modelos para estimar el valor de los datos perdidos. De estos, parece 
que la imputación múltiple introduce el menor sesgo.38 Por último, 
con los PCA podría realizarse un análisis de casos completos (es 
decir, desechar a los sujetos con datos perdidos), aunque expulsar 
a los pacientes puede reducir el tamaño del estudio lo suficiente 
como para afectar a otros análisis.
Datos correlacionados
Los datos correlacionados tienen implicaciones para la inferencia 
estadística en estudios que realizan medidas repetidas de un resultado 
en el tiempo (estudio longitudinal) y en los estudios que analizan 
sujetos que se distribuyen en grupos. En general, los métodos utiliza-
dos para manejar datos correlacionados en el contexto de las medidas 
de resultado repetidas explican la similitud de las características, el 
resultado o ambos en un sujeto y entre los sujetos. Por ejemplo, la 
agrupación se refiere a la idea de que es probable que los pacientes 
tratados por el mismo cirujano o en el mismo centro médico sean más 
similares entre sí que los pacientes tratados por un cirujano diferente. 
De forma similar, es más probable que los cirujanos que trabajan en 
un tipo particular de hospital sean más parecidos entre sí que los 
cirujanos que trabajan en un hospital diferente. En estas circuns-
tancias, los resultados de un paciente bajo los cuidados de un cirujano 
en particular y un cirujano que trabaja en un hospital en concreto 
tienen más probabilidades de ser similares (o de correlacionarse). Los 
métodos estadísticos que tienen en cuenta los datos correlacionados 
pueden incluir modelos de regresión jerárquicos, el análisis bayesiano o 
el ajuste en función del agrupamiento. Por ejemplo, los investigadores 
analizaron la relación entre el volumen de intervenciones del cirujano 
y la mortalidad operatoria para varias técnicas diferentes, después de 
ajustar por las características del paciente y el volumen del hospital.39 
Su análisis comprendía tres niveles de variables: relativas a los pacientes 
(edad, sexo, comorbilidad), los cirujanos (volumen de intervenciones) 
y los hospitales (volumen de intervenciones). Para la mayoría de las 
intervenciones, un mayor volumen del cirujano se asoció a tasas de 
mortalidad operatoria ajustadas inferiores. Los autores usaron un 
modelo estadístico (efectos binarios mixtos) para tener en cuenta la 
agrupación de los pacientes según los cirujanos y la agrupación de 
los cirujanos según los hospitales. Los cirujanos que leen los estudios 
publicados deben conocer las situaciones en las que puede haber 
datos correlacionados y buscar cómo los autores eligieron manejar 
la correlación.
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 183
©
 E
lse
vi
er
. F
ot
oc
op
ia
r s
in
 a
ut
or
iza
ci
ón
 e
s u
n 
de
lit
o.
¿CÓMO SE DEBE USAR ESTA INFORMACIÓN 
EN LA PRÁCTICA?
Para resumir la pregunta de investigación que el estudio pretende 
abordar, el lector puede encontrar útil el uso del «marco PICOT», 
un acrónimo que significa para la población de estudio, las variables 
independientes (es decir, intervención/exposición, covariables), un 
grupo de comparación si es aplicable, la variable dependiente (es decir, 
resultado [outcome], criterio de valoración) y el marco de tiempo de la 
evaluación de los resultados. Pensar en los estudios de investigación a 
través de una lente PICOT guía una evaluación sistemática de la calidad 
del estudio,40,41 y todos los puntos pertinentes necesarios para apoyar el 
marco PICOT deben estar fácilmente disponibles para guiar al lector 
a través de la valoración del estudio (tabla 8-4).17,42
Factores de confusión
Uno de los aspectos más importantes que hay que tener en cuenta 
cuando se evalúa y se realiza el estudio de los resultados usando datos 
observacionales es el de los factores de confusión. Un factor de confu-
sión es una variable, medida o no, asociada a la exposición de interés y 
asociada al resultado. Esta relación dual puede influir en el grado y la 
dirección de una asociación observada entre la exposición y el resultado, 
o incluso mitigarla completamente. Como ejemplo, puede considerarse 
un estudio hipotético dirigido a determinar si hay una asociación entre 
el estar o no asegurado y la supervivencia a largo plazo en los pacientes 
en los que se ha extirpado un cáncer de colon. Los resultados demues-
tran una supervivencia significativamente inferior entre los pacientes 
no asegurados comparados con los asegurados. Sin embargo, los autores 
no midieron el estadio del cáncer y no realizaron un ajuste en función 
de él, un determinante fuerte y bien conocido de la supervivencia a 
largo plazo. Los pacientes sin seguro pueden presentarse con un cáncer 
en un estadio superior debido a su acceso limitado a la asistencia. Si no 
se controla la mayor proporción de pacientes con un estadio superior 
del cáncer en los grupos no asegurados, probablemente los resultados 
estarán sesgados, de manera que parecerá que los no asegurados tienen 
peores resultados de los que realmente tienen. Hay disponible un 
artículo exhaustivo sobre la dirección del sesgo debido a los factores 
de confusión.43
En los ECA, si la aleatorización se realiza correctamente y el número 
de sujetos asignados al azar es grande, los factores de confusión deben 
estar equilibrados en los diferentes grupos de tratamiento.44 Los inves-
tigadores que realizan estudios observacionales pueden abordar los 
factores de confusión con métodos analíticos y en su valoración de 
las limitaciones del estudio. La regresión multivariable, la puntuación 
de la propensión y el análisis de variables instrumental son todos ellos 
métodos analíticos para abordar los factores de confusión usando 
variables medidas. Cuando existen variables que no se midieron o que 
no pueden medirse, los autores de un estudio deberían describir estas 
variables y su relación con la exposición y el resultado, y analizar la 
posible dirección y la magnitud del sesgo por los factores de confusión.
Validez externa
La validez externa (o generabilidad) se refiere a la capacidad de 
aplicar los hallazgos de la investigación a la práctica clínica. Por ejem-
plo, los ECA se realizan en un entorno muy controlado, con estrictos 
criterios de inclusión y exclusión, personal dedicado al seguimiento 
y un protocolode cumplimiento. Aunque los ECA proporcionan el 
más alto nivel de pruebas sobre la eficacia de las intervenciones que se 
comparan, el entorno en el que tienen lugar puede limitar la capacidad 
de otros profesionales de reproducir la prestación de la asistencia y sus 
resultados en un marco clínico (no de investigación).
Las cuestiones respecto a la validez externa también se asocian a los 
estudios observacionales. Por ejemplo, los datos de Medicare se limitan 
a pacientes de edad avanzada o incapacitados. Los patrones de práctica y 
TABLA 8-4 Pregunta de investigación PICOT
¿CUÁL ES…? CONSIDERACIONES EJEMPLO17 E IMPLICACIONES
El Paciente/población ¿Edad?
¿Sexo?
¿Diagnóstico?
¿Paciente ambulatorio/paciente ingresado?
¿Urgencia/programado?
Hombres ≥ 18 años de edad, se presentan con hernia inguinal 
asintomática o con síntomas mínimos
Centrarse en los pacientes con síntomas mínimos afecta a la 
validez externa del estudio y a la selección del diseño de 
investigación adecuado
La Intervención/exposición ¿Quirúrgica?
¿Farmacéutica?
¿Diagnóstica?
¿Profiláctica?
¿Procesos de tratamiento?
Espera vigilante
La «espera vigilante» para la hernia es una descripción de la 
atención quirúrgica, pero el estudio tiene que especificar otras 
intervenciones, como las pruebas de diagnóstico, el seguimiento 
que solicita los síntomas o el seguimiento pasivo que se basa en 
los pacientes que inician una queja
La Comparación ¿Otra intervención?
¿Estándar de cuidados?
¿No intervención?
¿Placebo?
Reparación abierta sin tensión de Lichtenstein
¿Cómo se manejan en el estudio los pacientes que se cruzaron 
entre los grupos?
El resultado (Outcome) Seguridad (p. ej., infección en el sitio quirúrgico)
Efectividad frente a eficacia (p. ej., recurrencia)
Resultado comunicado por el paciente (p. ej., 
puntuación del dolor)
Utilización de recursos (p. ej., duración de la 
estancia)
Coste
Primario: puntuaciones del dolor y las molestias
Secundario: complicaciones, estado funcional, satisfacción con la 
atención
Algunos de estos resultados son «subjetivos», y es importante 
saber lo que se considera una diferencia importante
El marco de Tiempo para la evaluación ¿Uno frente a varios puntos de tiempo?
¿Continuo?
¿Importa el tiempo hasta el punto final?
Al principio, 6 meses y anualmente
Si los resultados cambian con el tiempo, ¿a qué momento debería 
prestarse atención?
Adaptado de Richardson WS, Wilson MC, Nishikawa J, et al: The well-built clinical question: A key to evidence-based decisions. ACP J Club 
123:A12–13, 1995; y Rosenthal R, Schafer J, Briel M, et al: How to write a surgical clinical research protocol: Literature review and practical guide. 
Am J Surg 207:299–312, 2014.
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
I Principios básicos en cirugía184
los resultados entre los pacientes de Medicare pueden ser generalizables 
o no a los pacientes que no son de Medicare. Los lectores críticos deben 
considerar por qué los patrones asistenciales y los resultados descritos 
en los estudios de investigación podrían no ser reproducibles en otros 
entornos clínicos y poblaciones de pacientes.
Determinación de la causalidad usando datos 
observacionales
Los datos observacionales pueden revelar asociaciones entre las expo-
siciones (es decir, tratamientos en competición) y los resultados. Los 
investigadores suelen deducir una relación causal entre las exposiciones 
y los resultados basada en estas asociaciones.45 Se han propuesto varios 
criterios para deducir la causalidad en los estudios observacionales, 
que suelen denominarse criterios de Bradford Hill. Un criterio para 
deducir la causalidad es que la exposición debe tener lugar antes del 
resultado, si no, la exposición no puede llevar de un modo plausible 
al resultado. Aunque es un criterio obvio, con frecuencia se omite. A 
continuación, la asociación y la relación causal hipotética también 
deben ser biológicamente (clínicamente) plausibles. Por último, la 
magnitud de la asociación entre la exposición y el resultado debe ser 
grande, y, si hay diferentes grados de exposición, debe haber además 
magnitudes variables de asociación entre la exposición y el resultado 
(p. ej., relación dosis-respuesta).
Por ejemplo, en un estudio de cohortes en el que se evaluó la relación 
entre los valores preoperatorios del hematocrito y los acontecimientos 
adversos se observó un mayor riesgo de muerte y episodios cardíacos 
postoperatorios cuando los valores del hematocrito estaban por debajo 
de los umbrales normales. Aunque los autores reconocieron de forma 
adecuada que no se pudo establecer una relación causal a partir de su 
estudio observacional, su exposición (bajo hematocrito preoperatorio) 
precedió al resultado (episodio cardíaco postoperatorio), hubo una 
fuerte asociación «dosis-respuesta» entre el valor del hematocrito y los 
acontecimientos, y existía un mecanismo biológicamente plausible de 
alteración de la fisiología cardíaca.46,47
¿Existe conflicto de intereses?
Los cirujanos y los investigadores suelen actuar como asesores para 
las empresas farmacéuticas o los fabricantes de dispositivos. Estas 
asociaciones pueden afectar a la objetividad del investigador si una 
hipótesis del estudio aborda el efecto de los productos de esa compa-
ñía, lo que constituye un conflicto de intereses. Estas consideraciones 
adquieren más importancia en los estudios patrocinados por la indus-
tria. Cuando se lee un ECA apoyado por la empresa que produce 
un fármaco o un dispositivo dado, es crucial leer los métodos, los 
resultados y las conclusiones con un ojo crítico para asegurarse de que 
cualquier posible influencia del patrocinador no ha afectado a la validez 
del estudio. Además, es responsabilidad de todos los investigadores 
revelar todas las asociaciones (de ellos mismos o de sus familiares) que 
podrían dar lugar a un conflicto de intereses. Sin estas revelaciones, la 
objetividad y la validez de un determinado estudio deben analizarse 
aún más minuciosamente. Como parte de la Affordable Care Act, la 
Physician Payments Sunshine Act obliga a los fabricantes a revelar los 
pagos realizados a los médicos y los hospitales. Esta información está 
disponible públicamente en http://cms.gov/openpayments/.
Evolución con la evidencia
La «sobrecarga de información» asociada a las evidencias nuevas y en 
evolución plantea un desafío único para los cirujanos, que durante 
mucho tiempo se han considerado líderes en la adaptación y la mejora 
de su práctica (p. ej., conferencias semanales sobre morbilidad y mor-
talidad). Existen numerosas estrategias de gestión de los conocimientos 
para ayudar a hacer frente a la creciente cantidad de datos. Cuando es 
adecuado, los cirujanos pueden participar en equipos multidisciplina-
rios, en conferencias o en la formación centrada en la difusión de la 
evidencia actual más importante. Las sociedades profesionales (locales, 
nacionales o internacionales) son una buena fuente de la «mejor» 
evidencia, y la pertenencia a estos grupos permite a los cirujanos acceder 
a la práctica basada en la evidencia e incorporarla de forma oportuna. 
Por ejemplo, el American College of Surgeons publica una revisión de 
la bibliografía de gran prestigio llamada Selected Readings in General 
Surgery. Además, la participación en un número creciente de «portales 
web» de uso gratuito (p. ej., General Surgery-Medscape, disponible en 
http://www.medscape.com/generalsurgery/) y medios de comunicación 
médicos (p. ej., General Surgery News, disponible en http://www.
generalsurgerynews.com/) puede destacar la evidencia más reciente. Por 
último, los cirujanos forman parte cada vez más de «sistemas de aten-
ción sanitaria de aprendizaje», ya sea mediante la práctica ensistemas 
integrados de prestación de atención sanitaria (p. ej., Kaiser, Geisinger) 
o a través de colaboraciones comunitarias (p. ej., Surgical Care and 
Outcomes Assessment Program). Estos sistemas de atención sanitaria 
de aprendizaje crean la vigilancia del cambio de la práctica y dan más 
evidencias en tiempo real sobre lo que es más eficaz en el cuidado de la 
salud. A través de estos métodos, los cirujanos pueden crear la «cultura 
basada en la evidencia» necesaria para lograr los mejores resultados en 
las generaciones futuras.
CONCLUSIONES
La atención del paciente utilizando las mejores evidencias disponi-
bles es responsabilidad de todos los cirujanos. La interpretación de la 
evidencia de los informes publicados requiere comprender los términos 
y los métodos de investigación de los resultados clínicos y los servicios 
sanitarios. Las preguntas planteadas en este capítulo deben servir como 
guía para el análisis crítico de la bibliografía quirúrgica. Los lectores 
críticos de la bibliografía quirúrgica son más capaces de aceptar la 
promesa de la cirugía basada en la evidencia.
BIBLIOGRAFÍA SELECCIONADA
Austin PC: An introduction to propensity score methods for redu-
cing the effects of confounding in observational studies, Multiva-
riate Behav Res 46:399-424, 2011. 
La puntuación de la propensión es esencialmente una pun-
tuación de equilibrio que permite el diseño y el análisis de un 
estudio observacional, de forma que imite las características 
de un estudio controlado aleatorizado. Este artículo proporcio-
na una valoración práctica de diferentes métodos de análisis 
basados en la puntuación de la propensión y su interpretación.
Bridges JF, Onukwugha E, Mullins CD: Healthcare rationing by 
proxy: Cost-effectiveness analysis and the misuse of the $50,000 
threshold in the US, Pharmacoeconomics 28:175-184, 2010. 
La referencia de 50.000 dólares por año de vida ajustado a la 
calidad suele utilizarse en las evaluaciones de la rentabilidad. 
Este artículo proporciona una excelente revisión de la exacti-
tud y la pertinencia de esta medida del coste por año de vida 
ajustado a la calidad e incluye un análisis oportuno sobre la 
investigación de la rentabilidad de la atención sanitaria.
Brookhart MA, Rassen JA, Schneeweiss S: Instrumental variable 
methods in comparative safety and effectiveness research, Pharma-
coepidemiol Drug Saf 19:537-554, 2010. 
Este estudio proporciona varios ejemplos que incluyen la 
comparación y el análisis de diversas técnicas metodológicas 
de variables instrumentales de uso frecuente en la inves-
tigación de los servicios sanitarios.
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
8 Cirugía basada en la evidencia: evaluación crítica de la bibliografía quirúrgica 185
©
 E
lse
vi
er
. F
ot
oc
op
ia
r s
in
 a
ut
or
iza
ci
ón
 e
s u
n 
de
lit
o.
Fleming TR, Powers JH: Biomarkers and surrogate endpoints in 
clinical trials, Stat Med 31:2973-2984, 2012. 
La selección de los criterios de valoración adecuados es quizás 
el aspecto más importante del diseño de cualquier estudio de 
investigación, en particular de los estudios controlados aleato-
rizados. Este artículo proporciona un análisis contemporáneo 
exhaustivo de los criterios de valoración indirectos y de cómo 
estos criterios pueden influir en los resultados del estudio.
Mehio-Sibai A, Feinleib M, Sibai TA, et al: A positive or a negative 
confounding variable? A simple teaching aid for clinicians and 
students, Ann Epidemiol 15:421-423, 2005. 
Los factores de confusión pueden introducir sesgos conser-
vadores (se acepta la hipótesis nula de manera inapropiada) 
o anticonservadores (se rechaza la hipótesis nula de forma 
inapropiada). Este sencillo modelo puede ayudar al lector a 
pensar en la direccionalidad del sesgo de confusión y facilitar 
la interpretación de los efectos observados de la magnitud.
Rubin DB: The design versus the analysis of observational studies 
for causal effects: Parallels with the design of randomized trials, 
Stat Med 26:20-36, 2007. 
Aunque los estudios controlados aleatorizados se consideran 
el modelo de referencia para la estimación de los efectos 
causales, con frecuencia no son factibles debido al tiempo, 
cuestiones éticas o el coste. Los estudios observacionales 
pueden y deben ser utilizados en las situaciones apropiadas 
para deducir la causalidad, y este artículo proporciona el sis-
tema para estructurar los estudios para conseguirlo.
BIBLIOGRAFÍA
1. Drake FT, Florence MG, Johnson MG, et al: Progress in the 
diagnosis of appendicitis: A report from Washington State’s 
Surgical Care and Outcomes Assessment Program, Ann Surg 
256:586-594, 2012. 
2. Basu S, Alavi A: Staging with PET and the “Will Rogers” effect: 
Redefining prognosis and survival in patients with cancer, Eur 
J Nucl Med Mol Imaging 35:1-4, 2008. 
3. Farjah F, Flum DR, Ramsey SD, et al: Multi-modality medias-
tinal staging for lung cancer among Medicare beneficiaries, 
 J Thorac Oncol 4:355-363, 2009. 
4. Clark DA, Stinson EB, Griepp RB, et al: Cardiac transplan-
tation in man. VI. Prognosis of patients selected for cardiac 
transplantation, Ann Intern Med 75:15-21, 1971. 
5. Crowley J, Hu M: Covariance analysis of heart-transplant 
survival data, J Am Stat Assoc 72:27-36, 1977. 
6. Spiegel BM, Reid MW, Bolus R, et al: Development and 
validation of a disease-targeted quality of life instrument for 
chronic diverticular disease: The DV-QOL, Qual Life Res 
24:163-179, 2015. 
7. Bridges JF, Onukwugha E, Mullins CD: Healthcare rationing 
by proxy: Cost-effectiveness analysis and the misuse of the 
$50,000 threshold in the US, Pharmacoeconomics 28:175-184, 
2010. 
8. Brook RH, Park RE, Chassin MR, et al: Predicting the 
appropriate use of carotid endarterectomy, upper gastrointes-
tinal endoscopy, and coronary angiography, N Engl J Med 
323:1173-1177, 1990. 
9. Kahan JP, Park RE, Leape LL, et al: Variations by specialty 
in physician ratings of the appropriateness and necessity of 
indications for procedures, Med Care 34:512-523, 1996. 
10. Coronary Revascularization Writing Group, Patel MR, Deh-
mer GJ, et al: ACCF/SCAI/STS/AATS/AHA/ASNC/HFSA/
SCCT 2012 appropriate use criteria for coronary revascula-
rization focused update: A report of the American College 
of Cardiology Foundation Appropriate Use Criteria Task 
Force, Society for Cardiovascular Angiography and Interven-
tions, Society of Thoracic Surgeons, American Association 
for Thoracic Surgery, American Heart Association, American 
Society of Nuclear Cardiology, and the Society of Cardio-
vascular Computed Tomography, J Thorac Cardiovasc Surg 
143:780-803, 2012. 
11. Brodie BR, Stuckey T, Downey W, et al: Outcomes and 
complications with off-label use of drug-eluting stents: 
Results from the STENT (Strategic Transcatheter Eva-
luation of New Therapies) group, JACC Cardiovasc Interv 
1:405-414, 2008. 
12. Fleming TR, Powers JH: Biomarkers and surrogate endpoints 
in clinical trials, Stat Med 31:2973-2984, 2012. 
13. Rasmussen MS, Jorgensen LN, Wille-Jorgensen P, et al: Pro-
longed prophylaxis with dalteparin to prevent late thromboem-
bolic complications in patients undergoing major abdominal 
surgery: A multicenter randomized open-label study, J Thromb 
Haemost 4:2384-2390, 2006. 
14. Moseley JB, O’Malley K, Petersen NJ, et al: A controlled trial 
of arthroscopic surgery for osteoarthritis of the knee, N Engl 
J Med 347:81-88, 2002. 
15. Alderson P, Roberts I: Should journals publish systematic 
reviews that find no evidence to guide practice? Examples from 
injury research, BMJ 320:376-377, 2000. 
16. Farjah F, Flum DR: When not being superior may not be good 
enough, JAMA 298:924-925, 2007. 
17. Fitzgibbons RJ Jr, Giobbie-HurderA, Gibbs JO, et al: Watch-
ful waiting vs repair of inguinal hernia in minimally sympto-
matic men: A randomized clinical trial, JAMA 295:285-292, 
2006. 
18. Darouiche RO, Wall MJ Jr, Itani KM, et al: Chlorhexidine-
alcohol versus povidone-iodine for surgical-site antisepsis, 
N Engl J Med 362:18-26, 2010. 
19. Swenson BR, Hedrick TL, Metzger R, et al: Effects of 
preoperative skin preparation on postoperative wound 
infection rates: A prospective study of 3 skin preparation 
protocols, Infect Control Hosp Epidemiol 30:964-971, 
2009. 
20. Hakkarainen TW, Dellinger EP, Evans HL, et al: Comparative 
effectiveness of skin antiseptic agents in reducing surgical site 
infections: A report from the Washington State Surgical Care 
and Outcomes Assessment Program, J Am Coll Surg 218:336-
344, 2014. 
21. Turner L, Shamseer L, Altman DG, et al: Consolidated stan-
dards of reporting trials (CONSORT) and the completeness of 
reporting of randomised controlled trials (RCTs) published in 
medical journals, Cochrane Database Syst Rev 11:MR000030, 
2012. 
22. Nagendran M, Harding D, Teo W, et al: Poor adherence of 
randomised trials in surgery to CONSORT guidelines for 
non-pharmacological treatments (NPT): A cross-sectional 
study, BMJ Open 3:e003898, 2013. 
23. Moher D, Cook DJ, Eastwood S, et al: Improving the quality 
of reports of meta-analyses of randomised controlled trials: The 
QUOROM statement. Quality of Reporting of Meta-analyses, 
Lancet 354:1896-1900, 1999. 
Descargado para Anonymous User (n/a) en Universidad Nacional Autonoma de Mexico de ClinicalKey.es por Elsevier en septiembre 21, 2017.
Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright ©2017. Elsevier Inc. Todos los derechos reservados.
http://booksmedicos.org
http://booksmedicos.org
	Push Button1: 
	Push Button0:

Mais conteúdos dessa disciplina