Phi (coeficiente de correlación y asociación)

El coeficiente phi de Pearson es una medida de correlación entre dos variables dicotómicas o binarias que coincide con el coeficiente de correlación de Pearson y por tanto se calcula a través de la fórmula de este último cuando las modalidades de las variables se han codificado con los valores de 0 y 1. Puede calcularse también directamente, como medida de asociación,  a partir de la tabla de contingencia 2x2 asociada a las dos variables a través de dos fórmulas diferentes:

  • por un lado, a través del coeficiente de correlación de Matthew, que utiliza como datos las frecuencias simples y marginales de la tabla de la contingencia; codificando las frecuencias de la tabla de frecuencia de esta forma:
Tabla de contingencia


Totales

a
b
a+b

c
d
c+d
Totales
a+c
b+d
a+b+c+d

$$\phi=\cfrac{ac-bd}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}$$

  • por otro lado, tomando como dato el estadístico chi-cuadrado asociado a la tabla de contingencia:

$$\phi=\sqrt{\cfrac{\chi^2}{n}}$$

Tanto calculado a través del coeficiente de correlación de Pearson como a través del coeficiente de correlación de Matthew, el coeficiente phi toma valores en el intervalo [-1,1], interpretándose de acuerdo a un coeficiente de correlación común. Más concretamente, cuando se calcula como coeficiente de correlación de Pearson, la interpretación dependerá de la forma en que se han asignado los valores 0 y 1 a las dos modalidades de cada variable.  Cuando se calcula como coeficiente de correlación de Matthew un valor cercano a 1 indica asociación intensa entre los pares de modalidades a y d; un valor cercano a -1, una asociación intensa entre los pares de modalidades b y c; y un valor cercano a 0 indica disociación o falta de asociación entre ambas variables.

Calculado como medida de asociación estadística derivada del estadístico chi-cuadrado, el coeficiente toma valores entre 0 y 1, indicando un valor cercano a 0 una asociación nula o débil entre ambas variables; y un valor cercano a 1 una asociación intensa, sin que se pueda afirmar nada en relación a la dirección de la asociación sin análisis complementarios. 

El coeficiente phi suele utilizarse también como medida de asociación estadística para tablas no binarias, esto es, con dimensiones superiores a 2x2. Sin embargo, en estos casos phi nunca alcanza el valor de 1, como ocurre en las tablas binarias. Como solución a este inconveniente, puede calcularse el valor máximo de phi cuadrado para estas tablas de dimensión superior que es:

$$\phi^2_{max}=min(r-1,c-1)$$

donde \(r\) es el número de fila y \(c\) es el número de columnas de la tabla. A continuación, para normalizar, es decir, para limitar el coeficiente phi al intervalo  [0,1] en estas tablas, es suficiente dividir el valor de phi cuadrado entre dicho valor máximo. Cuando se aplica esta corrección, el coeficiente resultante es la V de Cramér. Cuando la tabla de contingencia de dimensión superior es cuadrada o k x k, el valor máximo del coeficiente phi cuadrado es \(min(r-1,c-1)=k-1=\sqrt{(r-1)(c-1)}\); dividiendo phi entre dicho valor máximo, resulta el coeficiente de asociación T de Tschuprow, que solo alcanzará el valor 1 cuando la tabla es cuadrada, como hemos dicho. 

Puede interesarte también



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Phi (coeficiente de correlación y asociación)" (en línea)   Enlace al artículo
Última actualización: 06/05/2025

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Corrección de Bessel

La corrección de Bessel es una corrección para la fórmula original de la varianza para un conjunto de datos, de forma que esa varianza calculada a partir de una muestra de datos sea un estimador no sesgado de la varianza poblacional \(\sigma ^ 2\). Fue desarrollada por el astrónomo y matemático al...

Cálculo de la moda estadística para datos agrupados en intervalos

En el documento adjunto, se explica el cálculo aproximado de la moda estadística para una distribución de datos agrupada en intervalos. Puede visualizar y descargar el documento aquí, en formato PDF....

Individuo (unidad estadística)

Un individuo o unidad estadística es cada uno de los elementos que forma una población estadística. A pesar que el término individuo se refiere en su acepción habitual a personas individuales, en estadística un individuo puede referirse a cualquier ser vivo, vegetal o animal. Los individuos o unidad...

Datos no agrupados

Puede interesarte también: Datos agrupados.  En estadística, los datos no agrupados son aquellos que no se han reunido en una tabla de frecuencias, en base a ciertas categorías, valores de variable o intervalos de clase, y que por tanto consisten simplemente en la lista de datos cualitativos o...