P-hacking y HARKing: cómo se torturan las estadísticas

El p-hacking consiste en probar múltiples análisis hasta que aparece p < 0,05. El HARKing (hipotetizar después de conocer los resultados) implica etiquetar retroactivamente los hallazgos como hipotetizados. El prerregistro previene ambos; el jardín de caminos que se bifurcan cuantifica la flexibilidad.

Evalúa10 min de lectura

La flexibilidad como engaño

John Ioannidis lo denominó el «jardín de caminos que se bifurcan». Cada estudio implica elecciones analíticas: qué confusores ajustar, qué valores atípicos excluir, cómo definir subgrupos, transformaciones de resultados (¿valores crudos? ¿transformación logarítmica?), especificaciones del modelo. Con suficientes bifurcaciones, los investigadores pueden justificar casi cualquier conclusión —no mediante fraude consciente, sino a través del sesgo inconsciente al navegar la flexibilidad.

Simmons, Nelson y Simonsohn demostraron el poder del p-hacking de forma elegante. Analizaron datos inventados donde no existía ningún efecto, y lograron p < 0,05 mediante flexibilidad analítica razonable. Los investigadores, con una flexibilidad modesta (qué confusores incluir, si excluir valores atípicos, cómo definir subgrupos), produjeron hallazgos falsos positivos. Ampliar la flexibilidad garantizaba los falsos positivos.

El p-hacking abarca múltiples prácticas: parada opcional (seguir recopilando datos hasta que aparezca p < 0,05), análisis selectivo (probar múltiples hipótesis, informar solo de las significativas), cambio de desenlace (medir 10 resultados, informar de los 3 significativos), pesca de covariables (añadir diferentes confusores hasta que aparezca el efecto).

Los estudios de microbioma ofrecen terreno fértil para el p-hacking. Los investigadores miden cientos de taxones. Probar asociaciones entre cada taxón y un desenlace crea miles de comparaciones. La corrección de Bonferroni (dividir alfa entre el número de comparaciones) fijaría un umbral de significación de p < 0,00005, requiriendo efectos enormes para sobrevivir. Muchos investigadores lo ignoran, reportando taxones significativos con p < 0,05, sabiendo que el azar garantiza falsos positivos.

El HARKing (Hypothesizing After Results are Known — hipotetizar después de conocer los resultados) representa un pecado relacionado. Los investigadores analizan datos, descubren asociaciones inesperadas y luego afirman que se habían hipotetizado originalmente. Kerr describió esta práctica en 2003, mostrando lo fácil que es disfrazar la exploración post-hoc como prueba de hipótesis.

Ejemplo: un estudio de microbioma encuentra (post-hoc) que los pacientes con alta abundancia de Prevotella muestran síntomas reducidos. Los investigadores enmarcan esto en la introducción como si lo hubieran predicho, a pesar de no tener explicación mecanística previa. Los lectores no pueden distinguir predicciones verdaderas de narrativas post-hoc sin acceso al prerregistro.

Consecuencias del p-hacking y el HARKing: (1) los hallazgos falsos positivos contaminan la literatura; (2) los intentos de replicación fracasan, dañando la credibilidad; (3) se desperdician recursos de investigación persiguiendo efectos inexistentes; (4) los pacientes pueden resultar perjudicados al adoptar tratamientos ineficaces.

El prerregistro es la solución. Antes de recoger datos, los investigadores publican planes de análisis detallados: desenlaces primarios, secundarios, ajustes estadísticos planificados, análisis de subgrupos, reglas de decisión para excluir valores atípicos. Una vez comienza la recogida de datos, las desviaciones del plan se señalan como exploratorias. Esta simple transparencia revela la diferencia entre análisis confirmatorios (prueba de hipótesis) y exploratorios (generación de hipótesis).

Open Science Framework (osf.io) aloja prerregistros de forma gratuita y pública. ClinicalTrials.gov acepta registros de ensayos. Las revistas exigen cada vez más el prerregistro o informes de registro. Los estudios prerregistrados muestran tasas de falsos positivos drásticamente menores en comparación con los no registrados.

La exploración no es mala: es necesaria para el descubrimiento. Pero la exploración debe etiquetarse como tal. Los estudios confirmatorios que prerregistran hipótesis se construyen sobre hallazgos exploratorios. Este enfoque de dos etapas (explorar, luego probar) es científicamente sólido.

Al leer investigación, comprueba: ¿está prerregistrada? ¿Los análisis reportados coinciden con el prerregistro? ¿Se explican las desviaciones? Los estudios prerregistrados ofrecen mucha mayor confianza de que los hallazgos reflejan la realidad, no p-hacking. Los estudios no registrados, especialmente con muchos desenlaces medidos, justifican escepticismo.

El jardín de caminos que se bifurcan describe la flexibilidad legítima inherente a la investigación. El prerregistro no elimina la flexibilidad: la documenta, para que los lectores comprendan dónde se aplicó la exploración.

Fuentes & referencias

La flexibilidad como engaño

Fuentes & referencias

Seguir leyendo