Seleccionar datos a conveniencia: cómo los estudios pueden demostrar cualquier cosa

El reporte selectivo de resultados, el dragado de datos y la pesca de subgrupos permiten a los investigadores encontrar p < 0,05 para casi cualquier hipótesis. El prerregistro y los análisis preespecificados combaten este sesgo ubicuo.

Evalúa10 min de lectura

Cuando los investigadores encuentran lo que buscan

Un ensayo de intervención de microbioma mide 50 desenlaces diferentes: abundancia de taxones bacterianos, metabolitos, marcadores inflamatorios, escalas de síntomas y medidas secundarias de calidad de vida. Solo 8 desenlaces muestran mejora estadísticamente significativa (p < 0,05). Los investigadores escriben estas 8 victorias en el resumen, enterrando los 42 resultados nulos en tablas suplementarias. Los lectores concluyen que la intervención funciona; la mayoría nunca ve que el 84 % de los desenlaces fracasaron.

Este reporte selectivo de resultados es generalizado. Los estudios a menudo miden muchos más desenlaces de los prerregistrados como primarios. Los desenlaces secundarios amplían la flexibilidad analítica. Con suficiente flexibilidad, los investigadores casi siempre pueden encontrar un p < 0,05 en algún lugar. John Ioannidis lo llama el «jardín de caminos que se bifurcan». Cada elección analítica (qué confusores ajustar, qué valores atípicos excluir, qué subgrupos examinar) crea una bifurcación. Con suficientes bifurcaciones, algunas darán p < 0,05 por azar.

Los análisis de subgrupos ejemplifican este problema. Un ensayo de un fármaco para el colesterol prueba la hipótesis primaria: reducción global del colesterol. El resultado es negativo (p = 0,08). Pero los investigadores examinan 20 subgrupos: hombres vs mujeres, grupos de edad, niveles basales de colesterol, tabaquismo, etc. Un subgrupo (hombres de 45-55 años con colesterol basal 200-250) muestra p = 0,02. El resumen afirma beneficio en este subgrupo. Es la falacia del francotirador tejano: primero disparas, luego dibujas la diana alrededor de los agujeros. Con 20 subgrupos, es probable que uno muestre p < 0,05 por azar (p = 0,05 × 20 = 100 % de probabilidad de un falso positivo).

El dragado de datos se refiere a la práctica general de analizar datos repetidamente hasta que aparece p < 0,05. La informática moderna lo facilita: prueba miles de taxones del microbioma como predictores de enfermedad y aparecerán asociaciones espurias. Simmons, Nelson y Simonsohn demostraron que con solo 20 variables medidas y análisis flexibles, los investigadores pueden lograr p < 0,05 incluso para una hipótesis completamente ficticia. Con 50 variables, los falsos positivos son casi inevitables.

La racionalización post-hoc disfraza esta práctica. Un estudio encuentra asociaciones inesperadas y reescribe retroactivamente las hipótesis para ajustarlas a los hallazgos, alegando que se habían hipotetizado originalmente. Kerr lo llamó HARKing (Hypothesizing After Results are Known — hipotetizar después de conocer los resultados). Los lectores no pueden distinguir predicciones verdaderas de narrativas post-hoc sin ver el prerregistro.

El problema de las comparaciones múltiples agrava estas cuestiones. Al probar 100 hipótesis con un umbral de p = 0,05, aparecen 5 falsos positivos por azar. La corrección de Bonferroni controla esto ajustando el umbral de p a la baja (se divide alfa entre el número de comparaciones). Si se prueban 100 hipótesis, p < 0,0005 se convierte en el umbral de significación. Esto reduce los falsos positivos pero aumenta los falsos negativos (pruebas con potencia insuficiente).

El prerregistro es la solución. Antes de la recogida de datos, los investigadores presentan planes de análisis detallados en plataformas como Open Science Framework o clinicaltrials.gov. Especifican desenlaces primarios, secundarios, ajustes estadísticos planificados y análisis de subgrupos. Las desviaciones post-hoc se señalan como exploratorias. Esta distinción permite a los lectores diferenciar hallazgos que confirman hipótesis de los que las generan.

La investigación del microbioma está empezando a adoptar el prerregistro. Los estudios que examinan cómo el trasplante de microbiota fecal afecta los resultados de la enfermedad de Crohn se prerregistran cada vez más en clinicaltrials.gov y registros de ciencia abierta. Esta transparencia reduce la flexibilidad y aumenta la credibilidad.

Al leer investigación, busca el prerregistro. Si está ausente, examina cuántos desenlaces se midieron frente a los reportados. Grandes discrepancias son señales de alarma. Pregunta si el desenlace primario estaba preespecificado y si los análisis se planificaron antes del examen de los datos.

Fuentes & referencias

Cuando los investigadores encuentran lo que buscan

Fuentes & referencias

Seguir leyendo