Phi (coeficiente de correlación y asociación)

El coeficiente phi de Pearson es una medida de correlación entre dos variables dicotómicas o binarias que coincide con el coeficiente de correlación de Pearson y por tanto se calcula a través de la fórmula de este último cuando las modalidades de las variables se han codificado con los valores de 0 y 1. Puede calcularse también directamente, como medida de asociación,  a partir de la tabla de contingencia 2x2 asociada a las dos variables a través de dos fórmulas diferentes:

  • por un lado, a través del coeficiente de correlación de Matthew, que utiliza como datos las frecuencias simples y marginales de la tabla de la contingencia; codificando las frecuencias de la tabla de frecuencia de esta forma:
Tabla de contingencia


Totales

a
b
a+b

c
d
c+d
Totales
a+c
b+d
a+b+c+d

$$\phi=\cfrac{ac-bd}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}$$

  • por otro lado, tomando como dato el estadístico chi-cuadrado asociado a la tabla de contingencia:

$$\phi=\sqrt{\cfrac{\chi^2}{n}}$$

Tanto calculado a través del coeficiente de correlación de Pearson como a través del coeficiente de correlación de Matthew, el coeficiente phi toma valores en el intervalo [-1,1], interpretándose de acuerdo a un coeficiente de correlación común. Más concretamente, cuando se calcula como coeficiente de correlación de Pearson, la interpretación dependerá de la forma en que se han asignado los valores 0 y 1 a las dos modalidades de cada variable.  Cuando se calcula como coeficiente de correlación de Matthew un valor cercano a 1 indica asociación intensa entre los pares de modalidades a y d; un valor cercano a -1, una asociación intensa entre los pares de modalidades b y c; y un valor cercano a 0 indica disociación o falta de asociación entre ambas variables.

Calculado como medida de asociación estadística derivada del estadístico chi-cuadrado, el coeficiente toma valores entre 0 y 1, indicando un valor cercano a 0 una asociación nula o débil entre ambas variables; y un valor cercano a 1 una asociación intensa, sin que se pueda afirmar nada en relación a la dirección de la asociación sin análisis complementarios. 

El coeficiente phi suele utilizarse también como medida de asociación estadística para tablas no binarias, esto es, con dimensiones superiores a 2x2. Sin embargo, en estos casos phi nunca alcanza el valor de 1, como ocurre en las tablas binarias. Como solución a este inconveniente, puede calcularse el valor máximo de phi cuadrado para estas tablas de dimensión superior que es:

$$\phi^2_{max}=min(r-1,c-1)$$

donde \(r\) es el número de fila y \(c\) es el número de columnas de la tabla. A continuación, para normalizar, es decir, para limitar el coeficiente phi al intervalo  [0,1] en estas tablas, es suficiente dividir el valor de phi cuadrado entre dicho valor máximo. Cuando se aplica esta corrección, el coeficiente resultante es la V de Cramér. Cuando la tabla de contingencia de dimensión superior es cuadrada o k x k, el valor máximo del coeficiente phi cuadrado es \(min(r-1,c-1)=k-1=\sqrt{(r-1)(c-1)}\); dividiendo phi entre dicho valor máximo, resulta el coeficiente de asociación T de Tschuprow, que solo alcanzará el valor 1 cuando la tabla es cuadrada, como hemos dicho. 

Puede interesarte también



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Phi (coeficiente de correlación y asociación)" (en línea)   Enlace al artículo
Última actualización: 06/05/2025

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Prueba de Chow

La prueba de Chow o contraste de Chow es una prueba estadística destinada a contrastar la igualdad de los coeficientes de regresión en dos grupos de datos. De esta forma, se utiliza para decidir si ha existido un cambio estructural al pasar de un conjunto de datos al otro. La prueba fue originalment...

Validez de un test (psicometría)

En psicometría, la validez de un test o validez de un cuestionario es un concepto complejo, que ha sido abordado desde diferentes perspectivas a lo largo de la historia, y que puede definirse brevemente como el grado en el que la medición realizada a través de un test recoge aquello que se desea rea...

Gráfico lineal (gráfico de línea)

Un gráfico lineal o gráfico de línea es un gráfico estadístico bidimensional que une una serie de puntos que se han marcado previamente, con el objetivo de indicar una evolución en la magnitud expresada en los puntos o realizar una comparación de un conjunto de datos con otros. Puede complementarse ...

Coeficiente de curtosis de Pearson

El coeficiente de curtosis de Pearson es una medida estadística de curtosis desarrollada por Karl Pearson (1857-1936) en 1905, a la vez que el propio concepto de curtosis de una distribución estadística.  Para una distribución de datos \(x_1,x_2,...,x_n\), esta es la fórmula para su cálculo: ...