Tamaño del efecto: la estadística que importa más que los valores p

La d de Cohen mide la magnitud del efecto; los valores p solo prueban la significación. Un probiótico que reduce la hinchazón 0,2 puntos en una escala de 10 (p = 0,04) es estadísticamente significativo pero clínicamente trivial. Informar tamaños de efecto e intervalos de confianza añade contexto esencial.

Evalúa10 min de lectura

La magnitud por encima de la significación estadística

Un ensayo con probióticos recluta a 500 pacientes con SII. El grupo con probiótico muestra una reducción de la hinchazón de 0,2 puntos en una escala de gravedad de 10 puntos; el placebo muestra una reducción de 0,1 puntos. Diferencia = 0,1 puntos (p = 0,04, estadísticamente significativo). Los investigadores publican: «El probiótico reduce significativamente la hinchazón».

Los lectores celebran. Pero espera: ¿es perceptible una diferencia de 0,1 puntos para los pacientes? Algunos pacientes perciben diferencias de 1 punto; otros ignoran cambios de 2 puntos. La diferencia mínima clínicamente importante para la hinchazón por SII podría ser de 1-2 puntos. Una diferencia de 0,1 puntos, aunque estadísticamente significativa en un ensayo con 500 personas, es clínicamente insignificante.

El tamaño del efecto cuantifica la magnitud. Para resultados continuos, la d de Cohen mide la diferencia en desviaciones estándar. Fórmula: d = (media del tratamiento − media del control) / desviación estándar agrupada. Valores de referencia: d = 0,2 (pequeño), 0,5 (medio), 0,8 (grande). Una d = 0,01 es trivial; d = 0,8 es sustancial.

En el ejemplo del probiótico, si la desviación estándar = 2 puntos, entonces d = 0,1/2 = 0,05 (minúsculo). Los tamaños muestrales grandes (500 sujetos) detectan efectos minúsculos como estadísticamente significativos. El tamaño del efecto revela la verdadera magnitud: trivial.

Para resultados binarios (éxito/fracaso), el odds ratio (OR) y el riesgo relativo (RR) sirven como tamaños de efecto. Un OR = 2 sugiere un aumento de las odds al doble; un OR = 1,05 sugiere un cambio trivial. Para datos categóricos, la V de Cramér proporciona el tamaño del efecto (0 = sin asociación, 1 = asociación perfecta).

Crucialmente, los valores p no transmiten magnitud. Un p = 0,001 (muy pequeño) podría acompañar a un efecto minúsculo (d = 0,1) en muestras grandes o a un efecto grande (d = 0,8) en muestras pequeñas. Significación estadística ≠ significación práctica.

La American Psychological Association (APA) y la declaración CONSORT (para ensayos aleatorizados) exigen informar del tamaño del efecto. A pesar de los mandatos, muchas revistas siguen publicando tamaños de efecto sin destacarlos. Los autores que informan valores p sin tamaños de efecto proporcionan información incompleta. Los lectores no pueden evaluar la significación práctica sin información sobre la magnitud.

Los intervalos de confianza incorporan tamaños de efecto. Un IC del 95 % de (0,1 a 0,3) para la d de Cohen indica el rango plausible de efectos reales. Intervalos amplios (0,1 a 2,0) sugieren incertidumbre; intervalos estrechos (0,7 a 0,9) sugieren precisión. Los IC transmiten tanto dirección como magnitud.

La investigación del microbioma rara vez prioriza los tamaños de efecto. Los estudios informan de que un probiótico cambia la proporción Firmicutes/Bacteroidetes de 3,2 a 2,8 (p < 0,05) sin informar de la d de Cohen o la magnitud del efecto bruto. Los lectores luchan por evaluar la relevancia clínica. Mejor práctica: informar de las medias basales ± DE para ambos grupos, permitiendo a los lectores calcular los tamaños de efecto de forma independiente.

La interpretación del tamaño del efecto varía según el contexto. Una d = 0,3 podría representar una mejora clínicamente significativa en depresión (reducción de síntomas) pero un beneficio trivial en supervivencia oncológica (porcentaje de mejora). La experiencia en el dominio dicta la interpretación.

Precaución interpretativa: los tamaños de efecto pequeños pueden ser importantes cuando los efectos se acumulan (un beneficio anual del 1 % se compone durante décadas) o cuando se dirigen a poblaciones con opciones limitadas. Por el contrario, los tamaños de efecto grandes significan poco si se basan en estudios pequeños sin potencia suficiente (inflados por la maldición del ganador).

¿Por qué importa el tamaño del efecto más que el valor p? Los valores p responden: «¿Hay un efecto?» (sí/no). Los tamaños de efecto responden: «¿Cuán grande es el efecto?» Esto último es clínicamente accionable. Las intervenciones con tamaños de efecto pequeños podrían no justificar los costes, daños o carga. Las que tienen efectos grandes generalmente sí.

Un marco de interpretación mejor: (1) Comprueba primero el tamaño del efecto. (2) Si el efecto es trivial (d < 0,2), detente ahí independientemente del valor p. (3) Si el efecto es significativo, examina el valor p y el intervalo de confianza. (4) Considera el contexto clínico y las preferencias del paciente. Esto invierte el pensamiento convencional de valor p primero pero produce conclusiones más sensatas.

Fuentes & referencias

La magnitud por encima de la significación estadística

Fuentes & referencias

Seguir leyendo