La aleatoriedad se descontrola en ensayos pequeños
Daniel Kahneman la llama la «ley de los pequeños números»: nuestra intuición supone erróneamente que las muestras pequeñas representan fielmente a la población. En realidad, las muestras pequeñas oscilan enormemente. Una moneda lanzada cuatro veces puede caer cara tres veces; lánzala 400 veces y te acercarás al 50 % de caras. Los estudios pequeños sufren igualmente la amplificación de efectos por variación aleatoria.
Consideremos un estudio de intervención de microbioma con solo 20 sujetos (10 intervención, 10 control). Los investigadores miden el cambio en la proporción Firmicutes/Bacteroidetes. La asignación aleatoria a veces coloca a las 10 personas más sanas en el grupo de intervención por azar. Su proporción puede mejorar un 30 % simplemente por variación aleatoria, no por el tratamiento. Un estudio de seguimiento con 200 sujetos revela el efecto real: una mejora del 5 %.
Este fenómeno —donde los estudios pequeños muestran efectos exagerados— se llama la «maldición del ganador». Los hallazgos iniciales emocionantes no se replican porque el primer estudio se benefició de la suerte aleatoria. Gelman y Weakliem demostraron que los artículos muy citados a menudo reportan efectos mayores en muestras más pequeñas, una firma estadística de la maldición del ganador.
El análisis de potencia cuantifica este problema matemáticamente. La potencia estadística es la probabilidad de detectar un efecto si realmente existe. Objetivo convencional: 80 % de potencia. Si el 80 % de potencia requiere 200 sujetos pero reclutaste 30, quizá tengas un 20 % de potencia: un 80 % de probabilidad de pasar por alto el efecto real (error de tipo II). Los estudios pequeños y sin potencia suficiente concluyen frecuentemente «sin efecto» cuando los efectos existen pero quedan enmascarados por el ruido.
Por el contrario, los estudios con potencia excesiva (tamaños muestrales enormes persiguiendo efectos triviales) producen problemas diferentes. Con 50 000 sujetos, detectas cambios de 0,1 mg/dL en cualquier biomarcador como estadísticamente significativos, a pesar de carecer de significado clínico.
La investigación del microbioma enfrenta desafíos particulares de tamaño muestral. La composición microbiana intestinal varía drásticamente entre individuos (alta variabilidad) y fluctúa con el tiempo. Para detectar cambios modestos en taxones específicos, se necesita una n grande. Los estudios dirigidos a la diversidad alfa (riqueza bacteriana) requieren más de 100 sujetos por grupo para un 80 % de potencia detectando cambios clínicamente relevantes.
Los estudios piloto sufren la inflación de muestras pequeñas. Un piloto con 15 sujetos que muestra un 40 % de mejora de síntomas suena lo suficientemente prometedor para un ensayo más grande. Sin embargo, cuando ese ensayo mayor recluta 150 sujetos, el efecto se reduce al 12 %. Los estudios piloto deben informar el cálculo de tamaño muestral para ensayos confirmatorios, nunca ser interpretados como evidencia en sí mismos.
Calcular el tamaño muestral requerido exige especificar: (1) tamaño de efecto esperado, (2) variabilidad basal, (3) potencia deseada (normalmente 80 %), (4) nivel de significación (normalmente 0,05). Programas como G*Power ayudan a los investigadores a planificar estudios adecuados.
Lo que constituye un tamaño muestral adecuado varía según el diseño. Los ensayos aleatorizados de intervenciones sobre el microbioma típicamente necesitan 50-150 por brazo para un 80 % de potencia cuando el objetivo son desenlaces de síntomas o biomarcadores. Los estudios observacionales que examinan asociaciones microbiota-enfermedad requieren muestras mayores porque los tamaños de efecto son menores y la confusión es más difícil de controlar.
Al evaluar estudios publicados, comprueba si los autores preespecificaron el tamaño muestral y realizaron un análisis de potencia. Si no se informa, el estudio puede tener potencia insuficiente. La ausencia de un tamaño muestral preespecificado debería hacer saltar las alarmas sobre posible sesgo.