Phi (coeficiente de correlación y asociación)

El coeficiente phi de Pearson es una medida de correlación entre dos variables dicotómicas o binarias que coincide con el coeficiente de correlación de Pearson y por tanto se calcula a través de la fórmula de este último cuando las modalidades de las variables se han codificado con los valores de 0 y 1. Puede calcularse también directamente, como medida de asociación,  a partir de la tabla de contingencia 2x2 asociada a las dos variables a través de dos fórmulas diferentes:

  • por un lado, a través del coeficiente de correlación de Matthew, que utiliza como datos las frecuencias simples y marginales de la tabla de la contingencia; codificando las frecuencias de la tabla de frecuencia de esta forma:
Tabla de contingencia


Totales

a
b
a+b

c
d
c+d
Totales
a+c
b+d
a+b+c+d

$$\phi=\cfrac{ac-bd}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}$$

  • por otro lado, tomando como dato el estadístico chi-cuadrado asociado a la tabla de contingencia:

$$\phi=\sqrt{\cfrac{\chi^2}{n}}$$

Tanto calculado a través del coeficiente de correlación de Pearson como a través del coeficiente de correlación de Matthew, el coeficiente phi toma valores en el intervalo [-1,1], interpretándose de acuerdo a un coeficiente de correlación común. Más concretamente, cuando se calcula como coeficiente de correlación de Pearson, la interpretación dependerá de la forma en que se han asignado los valores 0 y 1 a las dos modalidades de cada variable.  Cuando se calcula como coeficiente de correlación de Matthew un valor cercano a 1 indica asociación intensa entre los pares de modalidades a y d; un valor cercano a -1, una asociación intensa entre los pares de modalidades b y c; y un valor cercano a 0 indica disociación o falta de asociación entre ambas variables.

Calculado como medida de asociación estadística derivada del estadístico chi-cuadrado, el coeficiente toma valores entre 0 y 1, indicando un valor cercano a 0 una asociación nula o débil entre ambas variables; y un valor cercano a 1 una asociación intensa, sin que se pueda afirmar nada en relación a la dirección de la asociación sin análisis complementarios. 

El coeficiente phi suele utilizarse también como medida de asociación estadística para tablas no binarias, esto es, con dimensiones superiores a 2x2. Sin embargo, en estos casos phi nunca alcanza el valor de 1, como ocurre en las tablas binarias. Como solución a este inconveniente, puede calcularse el valor máximo de phi cuadrado para estas tablas de dimensión superior que es:

$$\phi^2_{max}=min(r-1,c-1)$$

donde \(r\) es el número de fila y \(c\) es el número de columnas de la tabla. A continuación, para normalizar, es decir, para limitar el coeficiente phi al intervalo  [0,1] en estas tablas, es suficiente dividir el valor de phi cuadrado entre dicho valor máximo. Cuando se aplica esta corrección, el coeficiente resultante es la V de Cramér. Cuando la tabla de contingencia de dimensión superior es cuadrada o k x k, el valor máximo del coeficiente phi cuadrado es \(min(r-1,c-1)=k-1=\sqrt{(r-1)(c-1)}\); dividiendo phi entre dicho valor máximo, resulta el coeficiente de asociación T de Tschuprow, que solo alcanzará el valor 1 cuando la tabla es cuadrada, como hemos dicho. 

Puede interesarte también



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Phi (coeficiente de correlación y asociación)" (en línea)   Enlace al artículo
Última actualización: 06/05/2025

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Distribución conjunta

En estadística, una distribución conjunta es una distribución de datos o probabilidades que toma en consideración y determina las frecuencias o probabilidades para un conjunto de dos o más variables estadísticas o variables aleatorias. Un ejemplo simple de distribución conjunta viene dado por el lan...

Escala de intervalo

La escala de intervalo es una escala de medida que permite establecer la diferencia cuantitativa absoluta entre las medidas de dos obejtos o elementos. De este modo, es un escala de nivel superior a la escala nominal, que permite únicamente distinguir entre dos objetos, y a la escala ordinal, q...

Coeficiente de asimetría de Fisher

El coeficiente de asimetría de Fisher es una medida estadística de asimetría de una distribución estadística que establece hasta que punto esta es simétrica o asimétrica y en qué dirección, a la izquierda o a la derecha. Puede calcularse tanto para distribuciones de datos como para una distribución ...

Tabla de contingencia

La tabla de contingencia es una tabla de doble entrada que se utiliza para resumir datos bivariados correspondientes a dos variables cualitativas. Por ejemplo, una tabla de contingencia referida al sexo y modalidad de bachillerato realizada indicaría en celdas la frecuencia conjunta de hombre y muje...