La crisis de replicación: por qué muchos estudios no se sostienen

La Open Science Collaboration encontró que el 36 % de los estudios de psicología se replican; Begley y Ellis encontraron que el 11 % de los estudios preclínicos de cáncer se replican. Causas: baja potencia, flexibilidad analítica, estructuras de incentivos. Los informes registrados mejoran la replicabilidad.

Evalúa10 min de lectura Selección del Editor

El problema de credibilidad de la ciencia

El proyecto de la Open Science Collaboration de 2015 sacudió a la comunidad científica. Los investigadores seleccionaron 100 estudios de psicología de las mejores revistas e intentaron replicarlos. Solo el 36 % mostró efectos estadísticamente significativos que coincidían con los hallazgos originales. De los que se replicaron, los tamaños de efecto fueron menores que los informes originales. Un campo que se creía riguroso descubrió que era en gran medida poco fiable.

La investigación oncológica mostró fracasos aún mayores. Begley y Ellis intentaron replicar 53 estudios preclínicos (de laboratorio) de cáncer publicados en las mejores revistas. Solo 6 (11 %) produjeron resultados que coincidían con los hallazgos originales. El 89 % restante no se replicó a pesar de realizar experimentos idénticos. Algunos fracasaron en el primer intento; otros requirieron una depuración sustancial para replicarse parcialmente.

¿Por qué no se replican los estudios? Múltiples factores se suman. (1) Baja potencia estadística: muestras pequeñas significan altas tasas de falsos positivos y tamaños de efecto inflados (maldición del ganador). (2) Flexibilidad analítica: múltiples análisis, parada opcional, reporte selectivo. (3) Sesgo de publicación: los hallazgos positivos se publican fácilmente; las replicaciones fallidas languidecen sin publicar. (4) Estructura de incentivos: los científicos avanzan en su carrera con hallazgos positivos novedosos, no con confirmaciones. (5) Efectos transitorios: algunos fenómenos son situacionales, no robustos entre contextos.

La replicabilidad de la investigación del microbioma sigue siendo incierta. Pocos hallazgos del microbioma han sido formalmente replicados por grupos independientes. El campo mide datos de alta dimensionalidad (miles de taxones microbianos) con alta variabilidad interindividual. Los tamaños muestrales pequeños son comunes. Las condiciones son propicias para el fracaso de replicación.

Consideremos un estudio de microbioma hipotético: los investigadores miden la microbiota intestinal de 50 pacientes con SII antes y después del tratamiento con probióticos, encontrando una reducción significativa de la gravedad de los síntomas y un aumento de la abundancia de Faecalibacterium (ambos p < 0,05). Los tamaños de efecto son grandes (d de Cohen = 0,9). Se publica.

Un intento de replicación con 100 pacientes con SII (más grande, más potente) encuentra mejora de síntomas (d de Cohen = 0,3) pero ningún cambio significativo de Faecalibacterium. El tamaño de efecto del estudio original estaba inflado; la replicación muestra un beneficio modesto, quizá clínicamente insignificante. Este patrón —los estudios originales sobreestimando efectos— aparece consistentemente en las replicaciones.

Los informes registrados mejoran drásticamente las tasas de replicación. Los investigadores envían manuscritos describiendo preguntas de investigación, métodos y planes de análisis antes de la recogida de datos. La revisión por pares ocurre pre-hoc (antes de que existan los datos), no post-hoc. La revista se compromete a publicar los resultados independientemente de su dirección (positivos o nulos), siempre que los métodos sean sólidos. Esto elimina el incentivo para el p-hacking o el reporte selectivo.

Los estudios en formato de informe registrado muestran tasas más altas de hallazgos nulos que los manuscritos tradicionales, consistente con una potencia estadística realista. Los estudios prerregistrados se replican de forma más fiable. Los hallazgos parecen menos dramáticos pero son genuinos.

Han surgido iniciativas de replicación. El Reproducibility Project (Open Science Collaboration) coordina replicaciones a gran escala. El proyecto Many Labs prueba efectos en docenas de laboratorios simultáneamente. Estas iniciativas revelan qué hallazgos son robustos frente a idiosincrásicos.

Las iniciativas de la comunidad del microbioma van rezagadas. Pocos estudios de microbioma se replican formalmente. Consorcios como el International Human Microbiome Consortium recogen datos entre centros, abordando parcialmente la replicación mediante agrupación a gran escala. Pero la replicación sistemática de hallazgos publicados sigue siendo rara.

La cultura de publicar o morir perpetúa el fracaso de replicación. Los estudios de confirmación (replicar los hallazgos de otros) se consideran menos prestigiosos que los descubrimientos novedosos. El avance profesional requiere hallazgos positivos novedosos. Esto crea estructuras de incentivos que favorecen la novedad irreplicable frente a la ciencia robusta. Reformar los incentivos —valorar la replicación, publicar hallazgos nulos, recompensar el rigor metodológico— es esencial para mejorar la credibilidad científica.

Al leer investigación del microbioma, el escepticismo mental hacia hallazgos novedosos está justificado hasta que aparezca replicación independiente. Los tamaños de efecto importan más que los valores p. Los informes registrados tienen más credibilidad que los manuscritos tradicionales.

Fuentes & referencias

El problema de credibilidad de la ciencia

Fuentes & referencias

Seguir leyendo