Falsas correlaciones

La correlación perfecta, cuando se basa en la experiencia suficiente, es la causalidad en el sentido científico.

Henry E. Niles en Correlation, causation and Wright´s theory of “Path Coefficients”, Genetics, 1922, núm. 7, págs. 259-261.

Todos sabemos que correlación no implica causalidad, ¿no? Cuando nos adentramos en el apasionante mundo de la estadística, decimos que dos variables están correlacionadas (por ejemplo, variable 1= fumar; variable 2= sufrir cáncer) cuando los valores de una de ellas varían sistemáticamente con respecto a los valores de la otra. En nuestro ejemplo, existirá correlación entre las dos variables si al aumentar el número de personas fumadoras, aumenta también el número de personas afectadas por el cáncer.

Pero es muy importante tener en cuenta que, en ciencia, que exista una correlación estadística entre dos variables (o conjunto de datos), no implica por sí mismo que haya una relación de causalidad. Esto es, y volviendo a nuestro ejemplo, el hecho de que al aumentar el número de personas que fuman aumenten los casos de cáncer, no implica —a priori y por sí mismo— que fumar produzca cáncer (hoy en día se ponen unos mensajes en las cajetillas de tabaco tales como «Fumar mata» aunque no tengamos el mismo nivel de evidencia de esta relación de causalidad como el que se exige, por ejemplo, para introducir un medicamento en el mercado).

A continuación os dejo con unas tablas que ha elaborado Tyler Vigen donde correlaciona distintas variables para mostrar gráficamente el tratamiento de diferentes grupos de datos:

Sigue leyendo


“Estadísticamente significativo”. El valor p y sus controversias

n 2008 la revista Nature(1) publicaba un artículo de lectura obligada para todo aquel que divulgue ciencia. En él, Heidi Ledford llamaba la atención sobre algunos de los términos científicos más difíciles de definir, y uno de los ocho elegidos era precisamente “significativo”, un adjetivo que los estadísticos emplean para describir la validez científica, y que los investigadores, respaldados o no por la estadística, emplean habitualmente para demostrar la importancia de sus descubrimientos.

Esta significación se ha determinado con el llamado “valor p”. Es común leer una explicación de este concepto como la forma de expresar la probabilidad de que el resultado obtenido al realizar un experimento se deba al azar. Nosotros seremos más precisos: que una asociación entre dos variables es “estadísticamente significativa” quiere decir que puede descartarse que haya aparecido por azar, porque si no hubiera dicha asociación, resultados como el observado serían muy poco probables (esta probabilidad se expresa con una p. Un valor inferior a 0,05 es el límite estándar, por lo que un valor de p de 0,01 se califica como una asociación “muy significativa” entre las variables).

De acuerdo con la interpretación frecuente de este indicador, cuando se analiza por ejemplo la eficacia de un medicamento, un resultado experimental “significativo” con un valor p de 0,05 o menos significa que hay una probabilidad de un 5% o menos de que el medicamento no sea eficaz. Sin embargo, si tenemos en cuenta la definición precisa que ofrece la estadística, en realidad queremos decir que hay una probabilidad de un 5% o menos de obtener los datos observados incluso aunque el medicamento sea ineficaz. La diferencia puede parecer imperceptible; en cambio, matemáticamente, es crucial.

Andrew Lang (atribuido)

Sigue leyendo

Notas:

  1. Ledford, H. (2008), “Language: Disputed definitions”. Nature, vol. 455, núm. 7216, p. 1023-1028. []